{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.2238638907544213,
  "eval_steps": 500,
  "global_step": 500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 937.0,
      "completions/mean_length": 472.75,
      "completions/mean_terminated_length": 464.0000305175781,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.00044772778150884264,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.45132964932046377,
      "kl": 0.0,
      "learning_rate": 0.0,
      "loss": -0.0029,
      "num_tokens": 65604.0,
      "reward": 0.0062500000931322575,
      "reward_std": 0.009858439676463604,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 1
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 971.0,
      "completions/mean_length": 483.859375,
      "completions/mean_terminated_length": 466.4354553222656,
      "completions/min_length": 60.0,
      "completions/min_terminated_length": 60.0,
      "epoch": 0.0008954555630176853,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.20525721133309588,
      "kl": 0.0,
      "learning_rate": 3.3333333333333335e-07,
      "loss": 0.0009,
      "num_tokens": 136255.0,
      "reward": 0.0015625000232830644,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.125,
      "step": 2
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 920.0,
      "completions/mean_length": 513.515625,
      "completions/mean_terminated_length": 488.4098205566406,
      "completions/min_length": 18.0,
      "completions/min_terminated_length": 18.0,
      "epoch": 0.001343183344526528,
      "frac_reward_zero_std": 0.6875,
      "grad_norm": 1.2418234972576705,
      "kl": 0.0002980232238769531,
      "learning_rate": 6.666666666666667e-07,
      "loss": -0.0156,
      "num_tokens": 206124.0,
      "reward": 0.0078125,
      "reward_std": 0.015625,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 3
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 944.0,
      "completions/mean_length": 500.734375,
      "completions/mean_terminated_length": 474.9999694824219,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.0017909111260353706,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.4086745396799065,
      "kl": 0.00029277801513671875,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.0255,
      "num_tokens": 280023.0,
      "reward": 0.0062500000931322575,
      "reward_std": 0.012500000186264515,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 4
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.25,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 894.0,
      "completions/mean_length": 520.40625,
      "completions/mean_terminated_length": 468.3103332519531,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.0022386389075442132,
      "frac_reward_zero_std": 0.6875,
      "grad_norm": 0.5157389968638209,
      "kl": 0.00033855438232421875,
      "learning_rate": 1.3333333333333334e-06,
      "loss": 0.0108,
      "num_tokens": 355485.0,
      "reward": 0.01093750074505806,
      "reward_std": 0.015625,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.109375,
      "rewards/format_reward/std": 0.3145764470100403,
      "step": 5
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.125,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 944.0,
      "completions/mean_length": 534.59375,
      "completions/mean_terminated_length": 474.4912414550781,
      "completions/min_length": 67.0,
      "completions/min_terminated_length": 67.0,
      "epoch": 0.002686366689053056,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.38963898619775034,
      "kl": 0.000370025634765625,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 0.0182,
      "num_tokens": 426283.0,
      "reward": 0.0062500000931322575,
      "reward_std": 0.012500000186264515,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 6
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.125,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 936.0,
      "completions/mean_length": 556.171875,
      "completions/mean_terminated_length": 498.71929931640625,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.0031340944705618985,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.36097074857776995,
      "kl": 0.0004191398620605469,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.007,
      "num_tokens": 504586.0,
      "reward": 0.004687500186264515,
      "reward_std": 0.00937500037252903,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21304203569889069,
      "step": 7
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 822.0,
      "completions/mean_length": 480.125,
      "completions/mean_terminated_length": 471.4920959472656,
      "completions/min_length": 77.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.003581822252070741,
      "frac_reward_zero_std": 0.4375,
      "grad_norm": 0.7286334018885031,
      "kl": 0.0009813308715820312,
      "learning_rate": 2.3333333333333336e-06,
      "loss": 0.0004,
      "num_tokens": 570658.0,
      "reward": 0.015625,
      "reward_std": 0.02860843949019909,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.15625,
      "rewards/format_reward/std": 0.36596253514289856,
      "step": 8
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.5,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 746.0,
      "completions/mean_length": 444.125,
      "completions/mean_terminated_length": 405.4666748046875,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.004029550033579583,
      "frac_reward_zero_std": 0.4375,
      "grad_norm": 0.7863534627054727,
      "kl": 0.0020999908447265625,
      "learning_rate": 2.666666666666667e-06,
      "loss": 0.0195,
      "num_tokens": 632922.0,
      "reward": 0.02968750149011612,
      "reward_std": 0.029091879725456238,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.296875,
      "rewards/format_reward/std": 0.4604927599430084,
      "step": 9
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 791.0,
      "completions/mean_length": 415.0,
      "completions/mean_terminated_length": 395.3548278808594,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.0044772778150884264,
      "frac_reward_zero_std": 0.0625,
      "grad_norm": 0.9929339275517307,
      "kl": 0.00428009033203125,
      "learning_rate": 3e-06,
      "loss": 0.0683,
      "num_tokens": 696154.0,
      "reward": 0.05937500298023224,
      "reward_std": 0.0483253188431263,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.59375,
      "rewards/format_reward/std": 0.49501484632492065,
      "step": 10
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 858.0,
      "completions/max_terminated_length": 858.0,
      "completions/mean_length": 384.46875,
      "completions/mean_terminated_length": 384.46875,
      "completions/min_length": 68.0,
      "completions/min_terminated_length": 68.0,
      "epoch": 0.004925005596597269,
      "frac_reward_zero_std": 0.3125,
      "grad_norm": 0.8630981516082434,
      "kl": 0.00630950927734375,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.0312,
      "num_tokens": 759500.0,
      "reward": 0.0781250074505806,
      "reward_std": 0.03582531958818436,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.78125,
      "rewards/format_reward/std": 0.4166666865348816,
      "step": 11
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 873.0,
      "completions/mean_length": 403.578125,
      "completions/mean_terminated_length": 393.7301940917969,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.005372733378106112,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.5553797669405497,
      "kl": 0.00891876220703125,
      "learning_rate": 3.6666666666666666e-06,
      "loss": 0.0204,
      "num_tokens": 824641.0,
      "reward": 0.0859375,
      "reward_std": 0.012983439490199089,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 12
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.125,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 973.0,
      "completions/mean_length": 559.4375,
      "completions/mean_terminated_length": 502.3859558105469,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.005820461159614954,
      "frac_reward_zero_std": 0.5625,
      "grad_norm": 0.6518186722020204,
      "kl": 0.024078369140625,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.0165,
      "num_tokens": 907009.0,
      "reward": 0.05781250074505806,
      "reward_std": 0.023808758705854416,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.578125,
      "rewards/format_reward/std": 0.49776285886764526,
      "step": 13
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.5,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 935.0,
      "completions/mean_length": 408.765625,
      "completions/mean_terminated_length": 367.7500305175781,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.006268188941123797,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.850658417236669,
      "kl": 0.02374267578125,
      "learning_rate": 4.333333333333334e-06,
      "loss": 0.0214,
      "num_tokens": 975946.0,
      "reward": 0.07500000298023224,
      "reward_std": 0.012500000186264515,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.75,
      "rewards/format_reward/std": 0.4364357888698578,
      "step": 14
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 833.0,
      "completions/mean_length": 388.0625,
      "completions/mean_terminated_length": 356.786865234375,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.006715916722632639,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.5068423520858445,
      "kl": 0.028350830078125,
      "learning_rate": 4.666666666666667e-06,
      "loss": 0.0135,
      "num_tokens": 1037670.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 15
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 987.0,
      "completions/mean_length": 366.796875,
      "completions/mean_terminated_length": 356.3651123046875,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.007163644504141482,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.43090179711084803,
      "kl": 0.0404052734375,
      "learning_rate": 5e-06,
      "loss": 0.001,
      "num_tokens": 1099789.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 16
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 999.0,
      "completions/max_terminated_length": 999.0,
      "completions/mean_length": 374.953125,
      "completions/mean_terminated_length": 374.953125,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.0076113722856503245,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09199296311734452,
      "kl": 0.036834716796875,
      "learning_rate": 4.999952797253148e-06,
      "loss": 0.0004,
      "num_tokens": 1158594.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 17
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 950.0,
      "completions/mean_length": 364.25,
      "completions/mean_terminated_length": 342.9677429199219,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.008059100067159167,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.34576874859718715,
      "kl": 0.0479736328125,
      "learning_rate": 4.9998111909931225e-06,
      "loss": -0.0001,
      "num_tokens": 1220354.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 18
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 809.0,
      "completions/mean_length": 304.921875,
      "completions/mean_terminated_length": 293.5079650878906,
      "completions/min_length": 52.0,
      "completions/min_terminated_length": 52.0,
      "epoch": 0.00850682784866801,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.045929292718143916,
      "kl": 0.0595703125,
      "learning_rate": 4.999575187161439e-06,
      "loss": 0.0006,
      "num_tokens": 1272589.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 19
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 597.0,
      "completions/max_terminated_length": 597.0,
      "completions/mean_length": 301.28125,
      "completions/mean_terminated_length": 301.28125,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.008954555630176853,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.041013229565286934,
      "kl": 0.046630859375,
      "learning_rate": 4.9992447956603455e-06,
      "loss": 0.0005,
      "num_tokens": 1330443.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 20
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 911.0,
      "completions/max_terminated_length": 911.0,
      "completions/mean_length": 289.28125,
      "completions/mean_terminated_length": 289.28125,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.009402283411685695,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.050275018669185705,
      "kl": 0.04498291015625,
      "learning_rate": 4.998820030352409e-06,
      "loss": 0.0004,
      "num_tokens": 1394341.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 21
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 967.0,
      "completions/max_terminated_length": 967.0,
      "completions/mean_length": 236.734375,
      "completions/mean_terminated_length": 236.734375,
      "completions/min_length": 52.0,
      "completions/min_terminated_length": 52.0,
      "epoch": 0.009850011193194537,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.44683451090205,
      "kl": 0.05401611328125,
      "learning_rate": 4.998300909059929e-06,
      "loss": -0.0092,
      "num_tokens": 1443632.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 22
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 767.0,
      "completions/max_terminated_length": 767.0,
      "completions/mean_length": 202.0,
      "completions/mean_terminated_length": 202.0,
      "completions/min_length": 53.0,
      "completions/min_terminated_length": 53.0,
      "epoch": 0.01029773897470338,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.036043395486802486,
      "kl": 0.0523681640625,
      "learning_rate": 4.997687453564198e-06,
      "loss": 0.0005,
      "num_tokens": 1491092.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 23
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 848.0,
      "completions/mean_length": 278.484375,
      "completions/mean_terminated_length": 254.4354705810547,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.010745466756212223,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.04334309473240572,
      "kl": 0.04461669921875,
      "learning_rate": 4.9969796896045775e-06,
      "loss": 0.0004,
      "num_tokens": 1546239.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 24
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 658.0,
      "completions/mean_length": 257.03125,
      "completions/mean_terminated_length": 232.29031372070312,
      "completions/min_length": 54.0,
      "completions/min_terminated_length": 54.0,
      "epoch": 0.011193194537721066,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.03127279348595947,
      "kl": 0.046142578125,
      "learning_rate": 4.996177646877426e-06,
      "loss": 0.0005,
      "num_tokens": 1603297.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 25
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1000.0,
      "completions/mean_length": 260.640625,
      "completions/mean_terminated_length": 248.52381896972656,
      "completions/min_length": 61.0,
      "completions/min_terminated_length": 61.0,
      "epoch": 0.011640922319229908,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.041922189523017045,
      "kl": 0.0438232421875,
      "learning_rate": 4.995281359034851e-06,
      "loss": 0.0004,
      "num_tokens": 1655338.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 26
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1017.0,
      "completions/max_terminated_length": 1017.0,
      "completions/mean_length": 321.609375,
      "completions/mean_terminated_length": 321.609375,
      "completions/min_length": 53.0,
      "completions/min_terminated_length": 53.0,
      "epoch": 0.01208865010073875,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.036683972059374466,
      "kl": 0.0382080078125,
      "learning_rate": 4.994290863683296e-06,
      "loss": 0.0004,
      "num_tokens": 1721213.0,
      "reward": 0.08125000447034836,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.8125,
      "rewards/format_reward/std": 0.39339789748191833,
      "step": 27
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 770.0,
      "completions/max_terminated_length": 770.0,
      "completions/mean_length": 292.0625,
      "completions/mean_terminated_length": 292.0625,
      "completions/min_length": 64.0,
      "completions/min_terminated_length": 64.0,
      "epoch": 0.012536377882247594,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.3015514051570984,
      "kl": 0.03472900390625,
      "learning_rate": 4.99320620238196e-06,
      "loss": -0.0069,
      "num_tokens": 1779745.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 28
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 650.0,
      "completions/mean_length": 288.75,
      "completions/mean_terminated_length": 252.59014892578125,
      "completions/min_length": 38.0,
      "completions/min_terminated_length": 38.0,
      "epoch": 0.012984105663756436,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.3311962568374307,
      "kl": 0.0406494140625,
      "learning_rate": 4.99202742064106e-06,
      "loss": -0.0111,
      "num_tokens": 1838697.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 29
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.5,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 858.0,
      "completions/mean_length": 325.15625,
      "completions/mean_terminated_length": 278.5666809082031,
      "completions/min_length": 62.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.013431833445265278,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.6402395949191827,
      "kl": 0.037109375,
      "learning_rate": 4.990754567919917e-06,
      "loss": 0.025,
      "num_tokens": 1896663.0,
      "reward": 0.08749999850988388,
      "reward_std": 0.012500000186264515,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 30
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.25,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1007.0,
      "completions/mean_length": 346.03125,
      "completions/mean_terminated_length": 275.89654541015625,
      "completions/min_length": 49.0,
      "completions/min_terminated_length": 49.0,
      "epoch": 0.01387956122677412,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.24916700710681186,
      "kl": 0.037445068359375,
      "learning_rate": 4.989387697624881e-06,
      "loss": -0.004,
      "num_tokens": 1960797.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 31
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 871.0,
      "completions/mean_length": 283.046875,
      "completions/mean_terminated_length": 271.2857360839844,
      "completions/min_length": 29.0,
      "completions/min_terminated_length": 29.0,
      "epoch": 0.014327289008282965,
      "frac_reward_zero_std": 0.6875,
      "grad_norm": 0.6536819012836859,
      "kl": 0.033905029296875,
      "learning_rate": 4.987926867107095e-06,
      "loss": -0.0197,
      "num_tokens": 2015852.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.015625,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 32
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 616.0,
      "completions/max_terminated_length": 616.0,
      "completions/mean_length": 267.875,
      "completions/mean_terminated_length": 267.875,
      "completions/min_length": 57.0,
      "completions/min_terminated_length": 57.0,
      "epoch": 0.014775016789791807,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.020074023716464922,
      "kl": 0.03857421875,
      "learning_rate": 4.986372137660078e-06,
      "loss": 0.0004,
      "num_tokens": 2064332.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 33
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1021.0,
      "completions/mean_length": 308.703125,
      "completions/mean_terminated_length": 285.6290283203125,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.015222744571300649,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.03536153370599935,
      "kl": 0.03460693359375,
      "learning_rate": 4.984723574517165e-06,
      "loss": 0.0003,
      "num_tokens": 2123621.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 34
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 766.0,
      "completions/max_terminated_length": 766.0,
      "completions/mean_length": 330.25,
      "completions/mean_terminated_length": 330.25,
      "completions/min_length": 73.0,
      "completions/min_terminated_length": 73.0,
      "epoch": 0.01567047235280949,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3881180805969014,
      "kl": 0.032318115234375,
      "learning_rate": 4.9829812468487655e-06,
      "loss": -0.0017,
      "num_tokens": 2185093.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 35
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.5,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1009.0,
      "completions/mean_length": 385.75,
      "completions/mean_terminated_length": 343.20001220703125,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.016118200134318333,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.018021661288058637,
      "kl": 0.029144287109375,
      "learning_rate": 4.981145227759457e-06,
      "loss": 0.0003,
      "num_tokens": 2253845.0,
      "reward": 0.08125000447034836,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.8125,
      "rewards/format_reward/std": 0.39339789748191833,
      "step": 36
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 632.0,
      "completions/max_terminated_length": 632.0,
      "completions/mean_length": 292.484375,
      "completions/mean_terminated_length": 292.484375,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.016565927915827176,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.020105688035002896,
      "kl": 0.03369140625,
      "learning_rate": 4.979215594284924e-06,
      "loss": 0.0003,
      "num_tokens": 2306424.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 37
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 704.0,
      "completions/max_terminated_length": 704.0,
      "completions/mean_length": 261.765625,
      "completions/mean_terminated_length": 261.765625,
      "completions/min_length": 56.0,
      "completions/min_terminated_length": 56.0,
      "epoch": 0.01701365569733602,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.33992204949910837,
      "kl": 0.04583740234375,
      "learning_rate": 4.977192427388722e-06,
      "loss": 0.0078,
      "num_tokens": 2360917.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 38
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 695.0,
      "completions/max_terminated_length": 695.0,
      "completions/mean_length": 248.390625,
      "completions/mean_terminated_length": 248.390625,
      "completions/min_length": 32.0,
      "completions/min_terminated_length": 32.0,
      "epoch": 0.017461383478844864,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.32553415310739026,
      "kl": 0.04052734375,
      "learning_rate": 4.9750758119588824e-06,
      "loss": 0.0048,
      "num_tokens": 2415286.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 39
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 675.0,
      "completions/mean_length": 302.703125,
      "completions/mean_terminated_length": 291.2539978027344,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.017909111260353706,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0346561817816829,
      "kl": 0.04071044921875,
      "learning_rate": 4.972865836804349e-06,
      "loss": 0.0004,
      "num_tokens": 2469215.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 40
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1011.0,
      "completions/mean_length": 305.53125,
      "completions/mean_terminated_length": 294.12701416015625,
      "completions/min_length": 61.0,
      "completions/min_terminated_length": 61.0,
      "epoch": 0.018356839041862548,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.028112019531043732,
      "kl": 0.04351806640625,
      "learning_rate": 4.970562594651254e-06,
      "loss": 0.0004,
      "num_tokens": 2525821.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 41
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 589.0,
      "completions/max_terminated_length": 589.0,
      "completions/mean_length": 238.703125,
      "completions/mean_terminated_length": 238.703125,
      "completions/min_length": 62.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.01880456682337139,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.02875891395895726,
      "kl": 0.043212890625,
      "learning_rate": 4.968166182139026e-06,
      "loss": 0.0004,
      "num_tokens": 2573402.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 42
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 996.0,
      "completions/max_terminated_length": 996.0,
      "completions/mean_length": 321.328125,
      "completions/mean_terminated_length": 321.328125,
      "completions/min_length": 74.0,
      "completions/min_terminated_length": 74.0,
      "epoch": 0.019252294604880232,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.029925409311603566,
      "kl": 0.03778076171875,
      "learning_rate": 4.9656766998163306e-06,
      "loss": 0.0004,
      "num_tokens": 2629355.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 43
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 923.0,
      "completions/max_terminated_length": 923.0,
      "completions/mean_length": 223.28125,
      "completions/mean_terminated_length": 223.28125,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.019700022386389075,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.028143564907042173,
      "kl": 0.04302978515625,
      "learning_rate": 4.963094252136865e-06,
      "loss": 0.0004,
      "num_tokens": 2680197.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 44
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 718.0,
      "completions/max_terminated_length": 718.0,
      "completions/mean_length": 247.578125,
      "completions/mean_terminated_length": 247.578125,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.020147750167897917,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.028726100455000465,
      "kl": 0.05096435546875,
      "learning_rate": 4.960418947454958e-06,
      "loss": 0.0005,
      "num_tokens": 2731130.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 45
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 811.0,
      "completions/max_terminated_length": 811.0,
      "completions/mean_length": 266.453125,
      "completions/mean_terminated_length": 266.453125,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.02059547794940676,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.02661171101929801,
      "kl": 0.04388427734375,
      "learning_rate": 4.957650898021038e-06,
      "loss": 0.0004,
      "num_tokens": 2780455.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 46
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 571.0,
      "completions/max_terminated_length": 571.0,
      "completions/mean_length": 299.484375,
      "completions/mean_terminated_length": 299.484375,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.021043205730915605,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.32968310536972273,
      "kl": 0.03448486328125,
      "learning_rate": 4.954790219976915e-06,
      "loss": 0.0017,
      "num_tokens": 2838538.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 47
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.5,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 827.0,
      "completions/mean_length": 360.78125,
      "completions/mean_terminated_length": 316.5666809082031,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.021490933512424447,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.3734262804571756,
      "kl": 0.0361328125,
      "learning_rate": 4.95183703335091e-06,
      "loss": 0.0018,
      "num_tokens": 2908340.0,
      "reward": 0.07968749850988388,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.796875,
      "rewards/format_reward/std": 0.40550529956817627,
      "step": 48
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 561.0,
      "completions/max_terminated_length": 561.0,
      "completions/mean_length": 256.046875,
      "completions/mean_terminated_length": 256.046875,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.02193866129393329,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.023421996355940024,
      "kl": 0.04193115234375,
      "learning_rate": 4.948791462052819e-06,
      "loss": 0.0004,
      "num_tokens": 2958363.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 49
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 646.0,
      "completions/mean_length": 281.4375,
      "completions/mean_terminated_length": 269.65081787109375,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.02238638907544213,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.58143395825442,
      "kl": 0.04095458984375,
      "learning_rate": 4.945653633868716e-06,
      "loss": 0.0011,
      "num_tokens": 3009095.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 50
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 604.0,
      "completions/max_terminated_length": 604.0,
      "completions/mean_length": 264.1875,
      "completions/mean_terminated_length": 264.1875,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.022834116856950974,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2787871001967104,
      "kl": 0.04290771484375,
      "learning_rate": 4.942423680455584e-06,
      "loss": 0.0036,
      "num_tokens": 3064779.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 51
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 608.0,
      "completions/mean_length": 285.8125,
      "completions/mean_terminated_length": 249.5081787109375,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.023281844638459816,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.022326661948294028,
      "kl": 0.04193115234375,
      "learning_rate": 4.939101737335802e-06,
      "loss": 0.0004,
      "num_tokens": 3118955.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 52
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 962.0,
      "completions/mean_length": 262.96875,
      "completions/mean_terminated_length": 250.88890075683594,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.023729572419968658,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.02562944331884254,
      "kl": 0.046630859375,
      "learning_rate": 4.935687943891447e-06,
      "loss": 0.0005,
      "num_tokens": 3167525.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 53
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 621.0,
      "completions/max_terminated_length": 621.0,
      "completions/mean_length": 265.71875,
      "completions/mean_terminated_length": 265.71875,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.0241773002014775,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2634673346811713,
      "kl": 0.046142578125,
      "learning_rate": 4.932182443358458e-06,
      "loss": -0.0034,
      "num_tokens": 3220083.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 54
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 606.0,
      "completions/max_terminated_length": 606.0,
      "completions/mean_length": 286.734375,
      "completions/mean_terminated_length": 286.734375,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.024625027982986346,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.3314483985345661,
      "kl": 0.04705810546875,
      "learning_rate": 4.928585382820616e-06,
      "loss": -0.002,
      "num_tokens": 3271950.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 55
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 997.0,
      "completions/mean_length": 407.359375,
      "completions/mean_terminated_length": 377.03277587890625,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.025072755764495188,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.30287856684692444,
      "kl": 0.037841796875,
      "learning_rate": 4.924896913203376e-06,
      "loss": 0.0017,
      "num_tokens": 3335069.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 56
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1008.0,
      "completions/mean_length": 397.734375,
      "completions/mean_terminated_length": 387.7936706542969,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.02552048354600403,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.434364875827018,
      "kl": 0.03204345703125,
      "learning_rate": 4.921117189267535e-06,
      "loss": 0.0136,
      "num_tokens": 3403804.0,
      "reward": 0.08437499403953552,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.84375,
      "rewards/format_reward/std": 0.36596253514289856,
      "step": 57
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 890.0,
      "completions/max_terminated_length": 890.0,
      "completions/mean_length": 380.203125,
      "completions/mean_terminated_length": 380.203125,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.025968211327512872,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01799893653627882,
      "kl": 0.037109375,
      "learning_rate": 4.917246369602742e-06,
      "loss": 0.0004,
      "num_tokens": 3470645.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 58
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 866.0,
      "completions/mean_length": 453.828125,
      "completions/mean_terminated_length": 435.43548583984375,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.026415939109021715,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012390910813404913,
      "kl": 0.031982421875,
      "learning_rate": 4.9132846166208355e-06,
      "loss": 0.0003,
      "num_tokens": 3541942.0,
      "reward": 0.08125000447034836,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.8125,
      "rewards/format_reward/std": 0.39339789748191833,
      "step": 59
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 730.0,
      "completions/max_terminated_length": 730.0,
      "completions/mean_length": 411.09375,
      "completions/mean_terminated_length": 411.09375,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.026863666890530557,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.03437295300598261,
      "kl": 0.03521728515625,
      "learning_rate": 4.9092320965490365e-06,
      "loss": 0.0004,
      "num_tokens": 3599284.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 60
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 931.0,
      "completions/mean_length": 468.84375,
      "completions/mean_terminated_length": 450.9354553222656,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.0273113946720394,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3257795198454593,
      "kl": 0.0364990234375,
      "learning_rate": 4.905088979422971e-06,
      "loss": 0.0304,
      "num_tokens": 3666774.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 61
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 813.0,
      "completions/max_terminated_length": 813.0,
      "completions/mean_length": 446.890625,
      "completions/mean_terminated_length": 446.890625,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.02775912245354824,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012566789884021832,
      "kl": 0.031768798828125,
      "learning_rate": 4.900855439079536e-06,
      "loss": 0.0003,
      "num_tokens": 3730479.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 62
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 960.0,
      "completions/max_terminated_length": 960.0,
      "completions/mean_length": 481.390625,
      "completions/mean_terminated_length": 481.390625,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.028206850235057087,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.42234768000018263,
      "kl": 0.081146240234375,
      "learning_rate": 4.8965316531496055e-06,
      "loss": -0.0063,
      "num_tokens": 3800152.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 63
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 988.0,
      "completions/mean_length": 519.671875,
      "completions/mean_terminated_length": 511.66668701171875,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.02865457801656593,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011767863397536953,
      "kl": 0.028656005859375,
      "learning_rate": 4.892117803050578e-06,
      "loss": 0.0003,
      "num_tokens": 3877159.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 64
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 990.0,
      "completions/mean_length": 502.546875,
      "completions/mean_terminated_length": 476.901611328125,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.02910230579807477,
      "frac_reward_zero_std": 0.3125,
      "grad_norm": 0.8267515773537502,
      "kl": 0.03143310546875,
      "learning_rate": 4.887614073978761e-06,
      "loss": 0.0209,
      "num_tokens": 3949598.0,
      "reward": 0.06875000149011612,
      "reward_std": 0.03582531958818436,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.6875,
      "rewards/format_reward/std": 0.467176616191864,
      "step": 65
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 987.0,
      "completions/mean_length": 522.375,
      "completions/mean_terminated_length": 506.19354248046875,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.029550033579583614,
      "frac_reward_zero_std": 0.5625,
      "grad_norm": 0.5931291243774961,
      "kl": 0.0311279296875,
      "learning_rate": 4.883020654901609e-06,
      "loss": -0.0265,
      "num_tokens": 4019798.0,
      "reward": 0.07500000298023224,
      "reward_std": 0.023325318470597267,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.75,
      "rewards/format_reward/std": 0.4364357888698578,
      "step": 66
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 852.0,
      "completions/max_terminated_length": 852.0,
      "completions/mean_length": 433.96875,
      "completions/mean_terminated_length": 433.96875,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.029997761361092456,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.6104723840044487,
      "kl": 0.034759521484375,
      "learning_rate": 4.878337738549785e-06,
      "loss": 0.0184,
      "num_tokens": 4077964.0,
      "reward": 0.08906250447034836,
      "reward_std": 0.01923343911767006,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.890625,
      "rewards/format_reward/std": 0.3145764470100403,
      "step": 67
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 933.0,
      "completions/mean_length": 526.03125,
      "completions/mean_terminated_length": 509.96771240234375,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.030445489142601298,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.3614185708541708,
      "kl": 0.029937744140625,
      "learning_rate": 4.873565521409082e-06,
      "loss": 0.0158,
      "num_tokens": 4150366.0,
      "reward": 0.08906249701976776,
      "reward_std": 0.00937500037252903,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.890625,
      "rewards/format_reward/std": 0.3145764470100403,
      "step": 68
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 979.0,
      "completions/mean_length": 531.328125,
      "completions/mean_terminated_length": 507.09832763671875,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.03089321692411014,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3539714983433086,
      "kl": 0.030120849609375,
      "learning_rate": 4.868704203712173e-06,
      "loss": 0.0035,
      "num_tokens": 4224051.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 69
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 985.0,
      "completions/mean_length": 531.140625,
      "completions/mean_terminated_length": 515.241943359375,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.03134094470561898,
      "frac_reward_zero_std": 0.5625,
      "grad_norm": 0.6452620840096849,
      "kl": 0.04241943359375,
      "learning_rate": 4.86375398943021e-06,
      "loss": 0.0039,
      "num_tokens": 4297444.0,
      "reward": 0.08281250298023224,
      "reward_std": 0.02187499962747097,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.828125,
      "rewards/format_reward/std": 0.38025420904159546,
      "step": 70
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 937.0,
      "completions/mean_length": 489.453125,
      "completions/mean_terminated_length": 472.20965576171875,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.03178867248712783,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.30837775882853263,
      "kl": 0.034088134765625,
      "learning_rate": 4.858715086264274e-06,
      "loss": 0.0215,
      "num_tokens": 4366053.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 71
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 996.0,
      "completions/mean_length": 495.890625,
      "completions/mean_terminated_length": 478.8548278808594,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.03223640026863667,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2375336912254687,
      "kl": 0.0335693359375,
      "learning_rate": 4.853587705636646e-06,
      "loss": 0.0048,
      "num_tokens": 4435898.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 72
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.5,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 929.0,
      "completions/mean_length": 554.0625,
      "completions/mean_terminated_length": 522.7333374023438,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.03268412805014551,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.30242364152688256,
      "kl": 0.03118896484375,
      "learning_rate": 4.84837206268195e-06,
      "loss": 0.0182,
      "num_tokens": 4510922.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 73
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 872.0,
      "completions/mean_length": 504.78125,
      "completions/mean_terminated_length": 479.2458801269531,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.03313185583165435,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.4132033284744454,
      "kl": 0.03704833984375,
      "learning_rate": 4.8430683762381195e-06,
      "loss": 0.0074,
      "num_tokens": 4577816.0,
      "reward": 0.08749999850988388,
      "reward_std": 0.012500000186264515,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 74
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1000.0,
      "completions/mean_length": 509.78125,
      "completions/mean_terminated_length": 484.4917907714844,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.0335795836131632,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.30752626803211464,
      "kl": 0.033447265625,
      "learning_rate": 4.837676868837213e-06,
      "loss": 0.0069,
      "num_tokens": 4649822.0,
      "reward": 0.08437500149011612,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.84375,
      "rewards/format_reward/std": 0.36596253514289856,
      "step": 75
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.5,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 991.0,
      "completions/mean_length": 506.109375,
      "completions/mean_terminated_length": 471.5833435058594,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.03402731139467204,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.2998908891457983,
      "kl": 0.033355712890625,
      "learning_rate": 4.832197766696085e-06,
      "loss": 0.0159,
      "num_tokens": 4720105.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 76
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1012.0,
      "completions/mean_length": 519.03125,
      "completions/mean_terminated_length": 511.0158996582031,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.03447503917618088,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3037069356342614,
      "kl": 0.03076171875,
      "learning_rate": 4.826631299706887e-06,
      "loss": 0.021,
      "num_tokens": 4792723.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 77
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 845.0,
      "completions/max_terminated_length": 845.0,
      "completions/mean_length": 391.71875,
      "completions/mean_terminated_length": 391.71875,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.03492276695768973,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.26967106536614993,
      "kl": 0.0404052734375,
      "learning_rate": 4.820977701427424e-06,
      "loss": 0.0012,
      "num_tokens": 4853693.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 78
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 973.0,
      "completions/mean_length": 422.265625,
      "completions/mean_terminated_length": 402.8548278808594,
      "completions/min_length": 77.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.035370494739198566,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.29625155919834695,
      "kl": 0.04156494140625,
      "learning_rate": 4.81523720907136e-06,
      "loss": 0.0177,
      "num_tokens": 4914494.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 79
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 879.0,
      "completions/mean_length": 437.609375,
      "completions/mean_terminated_length": 428.3016052246094,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.03581822252070741,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.7299234628826128,
      "kl": 0.2191162109375,
      "learning_rate": 4.809410063498254e-06,
      "loss": 0.0092,
      "num_tokens": 4981301.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 80
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 708.0,
      "completions/mean_length": 403.53125,
      "completions/mean_terminated_length": 383.51611328125,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.03626595030221625,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.3965082743775273,
      "kl": 0.042236328125,
      "learning_rate": 4.8034965092034656e-06,
      "loss": 0.0396,
      "num_tokens": 5044599.0,
      "reward": 0.08906249701976776,
      "reward_std": 0.00937500037252903,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.890625,
      "rewards/format_reward/std": 0.3145764470100403,
      "step": 81
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 804.0,
      "completions/max_terminated_length": 804.0,
      "completions/mean_length": 385.078125,
      "completions/mean_terminated_length": 385.078125,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.036713678083725096,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014814061218983267,
      "kl": 0.04205322265625,
      "learning_rate": 4.797496794307889e-06,
      "loss": 0.0004,
      "num_tokens": 5099424.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 82
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 852.0,
      "completions/max_terminated_length": 852.0,
      "completions/mean_length": 338.59375,
      "completions/mean_terminated_length": 338.59375,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.037161405865233935,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.5820135923936893,
      "kl": 0.04962158203125,
      "learning_rate": 4.791411170547545e-06,
      "loss": 0.0136,
      "num_tokens": 5155998.0,
      "reward": 0.0859375,
      "reward_std": 0.012983439490199089,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 83
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 902.0,
      "completions/mean_length": 420.421875,
      "completions/mean_terminated_length": 400.95159912109375,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.03760913364674278,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.4650854697647035,
      "kl": 0.0447998046875,
      "learning_rate": 4.785239893263017e-06,
      "loss": 0.0025,
      "num_tokens": 5225549.0,
      "reward": 0.08125000447034836,
      "reward_std": 0.009858439676463604,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.8125,
      "rewards/format_reward/std": 0.39339789748191833,
      "step": 84
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 951.0,
      "completions/mean_length": 320.8125,
      "completions/mean_terminated_length": 309.65081787109375,
      "completions/min_length": 63.0,
      "completions/min_terminated_length": 63.0,
      "epoch": 0.038056861428251626,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.5160504982609957,
      "kl": 0.05072021484375,
      "learning_rate": 4.778983221388742e-06,
      "loss": 0.0216,
      "num_tokens": 5277953.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.012500000186264515,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 85
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 651.0,
      "completions/max_terminated_length": 651.0,
      "completions/mean_length": 332.71875,
      "completions/mean_terminated_length": 332.71875,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.038504589209760465,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.4873192264880446,
      "kl": 0.0535888671875,
      "learning_rate": 4.77264141744214e-06,
      "loss": -0.0139,
      "num_tokens": 5333319.0,
      "reward": 0.09375,
      "reward_std": 0.012500000186264515,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 86
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 997.0,
      "completions/max_terminated_length": 997.0,
      "completions/mean_length": 346.046875,
      "completions/mean_terminated_length": 346.046875,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.03895231699126931,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.7825921659121715,
      "kl": 0.05120849609375,
      "learning_rate": 4.766214747512603e-06,
      "loss": 0.0462,
      "num_tokens": 5389570.0,
      "reward": 0.07968750596046448,
      "reward_std": 0.02548344060778618,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.796875,
      "rewards/format_reward/std": 0.40550529956817627,
      "step": 87
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 754.0,
      "completions/mean_length": 357.734375,
      "completions/mean_terminated_length": 347.15875244140625,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.03940004477277815,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.6202398031969918,
      "kl": 0.04962158203125,
      "learning_rate": 4.759703481250331e-06,
      "loss": -0.0134,
      "num_tokens": 5449565.0,
      "reward": 0.08281250298023224,
      "reward_std": 0.01923343911767006,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.828125,
      "rewards/format_reward/std": 0.38025420904159546,
      "step": 88
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 955.0,
      "completions/mean_length": 385.078125,
      "completions/mean_terminated_length": 364.4677429199219,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.039847772554286995,
      "frac_reward_zero_std": 0.6875,
      "grad_norm": 0.6292105278874155,
      "kl": 0.05023193359375,
      "learning_rate": 4.753107891855015e-06,
      "loss": 0.0051,
      "num_tokens": 5516182.0,
      "reward": 0.0859375,
      "reward_std": 0.015625,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 89
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 575.0,
      "completions/mean_length": 334.890625,
      "completions/mean_terminated_length": 323.952392578125,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.040295500335795834,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.561418954762163,
      "kl": 0.0567626953125,
      "learning_rate": 4.746428256064375e-06,
      "loss": 0.0401,
      "num_tokens": 5575951.0,
      "reward": 0.08281250298023224,
      "reward_std": 0.01923343911767006,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.828125,
      "rewards/format_reward/std": 0.38025420904159546,
      "step": 90
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 689.0,
      "completions/max_terminated_length": 689.0,
      "completions/mean_length": 320.265625,
      "completions/mean_terminated_length": 320.265625,
      "completions/min_length": 88.0,
      "completions/min_terminated_length": 88.0,
      "epoch": 0.04074322811730468,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.6822119487344868,
      "kl": 0.0599365234375,
      "learning_rate": 4.7396648541425534e-06,
      "loss": 0.0389,
      "num_tokens": 5630744.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.01875000074505806,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 91
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 861.0,
      "completions/max_terminated_length": 861.0,
      "completions/mean_length": 389.140625,
      "completions/mean_terminated_length": 389.140625,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.04119095589881352,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.42999295620857697,
      "kl": 0.05511474609375,
      "learning_rate": 4.732817969868348e-06,
      "loss": 0.0017,
      "num_tokens": 5695561.0,
      "reward": 0.08437500149011612,
      "reward_std": 0.012500000186264515,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.84375,
      "rewards/format_reward/std": 0.36596253514289856,
      "step": 92
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 743.0,
      "completions/max_terminated_length": 743.0,
      "completions/mean_length": 288.5,
      "completions/mean_terminated_length": 288.5,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.041638683680322364,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.340500316257353,
      "kl": 0.07073974609375,
      "learning_rate": 4.7258878905233095e-06,
      "loss": 0.0062,
      "num_tokens": 5750257.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 93
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 838.0,
      "completions/mean_length": 391.453125,
      "completions/mean_terminated_length": 371.0483703613281,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.04208641146183121,
      "frac_reward_zero_std": 0.6875,
      "grad_norm": 0.49977963113655105,
      "kl": 0.06719970703125,
      "learning_rate": 4.718874906879688e-06,
      "loss": -0.0002,
      "num_tokens": 5815050.0,
      "reward": 0.08437500149011612,
      "reward_std": 0.01610844023525715,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.84375,
      "rewards/format_reward/std": 0.36596253514289856,
      "step": 94
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 676.0,
      "completions/max_terminated_length": 676.0,
      "completions/mean_length": 356.9375,
      "completions/mean_terminated_length": 356.9375,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.04253413924334005,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.46139937977582174,
      "kl": 0.0654296875,
      "learning_rate": 4.711779313188231e-06,
      "loss": -0.0051,
      "num_tokens": 5878774.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 95
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 656.0,
      "completions/mean_length": 364.15625,
      "completions/mean_terminated_length": 342.8709716796875,
      "completions/min_length": 40.0,
      "completions/min_terminated_length": 40.0,
      "epoch": 0.042981867024848894,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.4163410007404501,
      "kl": 0.0694580078125,
      "learning_rate": 4.70460140716584e-06,
      "loss": 0.008,
      "num_tokens": 5945036.0,
      "reward": 0.08437500149011612,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.84375,
      "rewards/format_reward/std": 0.36596253514289856,
      "step": 96
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 878.0,
      "completions/max_terminated_length": 878.0,
      "completions/mean_length": 311.6875,
      "completions/mean_terminated_length": 311.6875,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.04342959480635773,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.24615615862353812,
      "kl": 0.0711669921875,
      "learning_rate": 4.697341489983076e-06,
      "loss": 0.0099,
      "num_tokens": 5999972.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 97
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 692.0,
      "completions/max_terminated_length": 692.0,
      "completions/mean_length": 342.578125,
      "completions/mean_terminated_length": 342.578125,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.04387732258786658,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.23872438113769184,
      "kl": 0.0733642578125,
      "learning_rate": 4.6899998662515215e-06,
      "loss": 0.0057,
      "num_tokens": 6056641.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 98
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 821.0,
      "completions/mean_length": 368.515625,
      "completions/mean_terminated_length": 347.3709716796875,
      "completions/min_length": 61.0,
      "completions/min_terminated_length": 61.0,
      "epoch": 0.04432505036937542,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2971163181064138,
      "kl": 0.0814208984375,
      "learning_rate": 4.682576844011007e-06,
      "loss": 0.0039,
      "num_tokens": 6117966.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 99
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 648.0,
      "completions/mean_length": 332.53125,
      "completions/mean_terminated_length": 321.5555725097656,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.04477277815088426,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.032676472468922566,
      "kl": 0.0860595703125,
      "learning_rate": 4.675072734716678e-06,
      "loss": 0.0009,
      "num_tokens": 6178660.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 100
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 701.0,
      "completions/max_terminated_length": 701.0,
      "completions/mean_length": 313.140625,
      "completions/mean_terminated_length": 313.140625,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.04522050593239311,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.02266298430850824,
      "kl": 0.082763671875,
      "learning_rate": 4.667487853225931e-06,
      "loss": 0.0008,
      "num_tokens": 6237557.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 101
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 849.0,
      "completions/max_terminated_length": 849.0,
      "completions/mean_length": 324.203125,
      "completions/mean_terminated_length": 324.203125,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.04566823371390195,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.3623032168482905,
      "kl": 0.0716552734375,
      "learning_rate": 4.659822517785203e-06,
      "loss": 0.0036,
      "num_tokens": 6293698.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 102
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 668.0,
      "completions/max_terminated_length": 668.0,
      "completions/mean_length": 296.25,
      "completions/mean_terminated_length": 296.25,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.04611596149541079,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2582868503703895,
      "kl": 0.0855712890625,
      "learning_rate": 4.6520770500166165e-06,
      "loss": 0.0018,
      "num_tokens": 6345758.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 103
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 826.0,
      "completions/max_terminated_length": 826.0,
      "completions/mean_length": 279.359375,
      "completions/mean_terminated_length": 279.359375,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.04656368927691963,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.029112003307174755,
      "kl": 0.0758056640625,
      "learning_rate": 4.644251774904487e-06,
      "loss": 0.0008,
      "num_tokens": 6402345.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 104
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 611.0,
      "completions/max_terminated_length": 611.0,
      "completions/mean_length": 276.125,
      "completions/mean_terminated_length": 276.125,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.04701141705842848,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.273537582141459,
      "kl": 0.0865478515625,
      "learning_rate": 4.636347020781684e-06,
      "loss": -0.0068,
      "num_tokens": 6453525.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 105
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 744.0,
      "completions/max_terminated_length": 744.0,
      "completions/mean_length": 329.046875,
      "completions/mean_terminated_length": 329.046875,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.047459144839937316,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.021589735556641076,
      "kl": 0.072509765625,
      "learning_rate": 4.6283631193158605e-06,
      "loss": 0.0007,
      "num_tokens": 6514632.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 106
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 746.0,
      "completions/max_terminated_length": 746.0,
      "completions/mean_length": 320.15625,
      "completions/mean_terminated_length": 320.15625,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.04790687262144616,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.027430476087281695,
      "kl": 0.0745849609375,
      "learning_rate": 4.620300405495532e-06,
      "loss": 0.0007,
      "num_tokens": 6575542.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 107
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 903.0,
      "completions/mean_length": 371.65625,
      "completions/mean_terminated_length": 339.5737609863281,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.048354600402955,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01967734323615553,
      "kl": 0.0667724609375,
      "learning_rate": 4.612159217616022e-06,
      "loss": 0.0007,
      "num_tokens": 6638092.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 108
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 967.0,
      "completions/max_terminated_length": 967.0,
      "completions/mean_length": 323.546875,
      "completions/mean_terminated_length": 323.546875,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.048802328184463846,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.02140307513966902,
      "kl": 0.0672607421875,
      "learning_rate": 4.603939897265268e-06,
      "loss": 0.0007,
      "num_tokens": 6691271.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 109
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 647.0,
      "completions/max_terminated_length": 647.0,
      "completions/mean_length": 291.1875,
      "completions/mean_terminated_length": 291.1875,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.04925005596597269,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.021745058260072052,
      "kl": 0.0665283203125,
      "learning_rate": 4.595642789309492e-06,
      "loss": 0.0007,
      "num_tokens": 6741579.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 110
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 682.0,
      "completions/max_terminated_length": 682.0,
      "completions/mean_length": 317.34375,
      "completions/mean_terminated_length": 317.34375,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.04969778374748153,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01886368430600574,
      "kl": 0.06195068359375,
      "learning_rate": 4.587268241878724e-06,
      "loss": 0.0006,
      "num_tokens": 6799965.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 111
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 706.0,
      "completions/mean_length": 345.59375,
      "completions/mean_terminated_length": 323.70965576171875,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.050145511528990376,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.15463921239471887,
      "kl": 0.06011962890625,
      "learning_rate": 4.578816606352205e-06,
      "loss": 0.0176,
      "num_tokens": 6860891.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 112
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 767.0,
      "completions/max_terminated_length": 767.0,
      "completions/mean_length": 339.453125,
      "completions/mean_terminated_length": 339.453125,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.050593239310499215,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0496489000517296,
      "kl": 0.071044921875,
      "learning_rate": 4.570288237343632e-06,
      "loss": 0.0007,
      "num_tokens": 6922032.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 113
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 758.0,
      "completions/max_terminated_length": 758.0,
      "completions/mean_length": 321.421875,
      "completions/mean_terminated_length": 321.421875,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.05104096709200806,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.026080651481139035,
      "kl": 0.05902099609375,
      "learning_rate": 4.561683492686289e-06,
      "loss": 0.0006,
      "num_tokens": 6979367.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 114
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 847.0,
      "completions/max_terminated_length": 847.0,
      "completions/mean_length": 364.71875,
      "completions/mean_terminated_length": 364.71875,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.0514886948735169,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.019048128202123815,
      "kl": 0.06060791015625,
      "learning_rate": 4.5530027334180285e-06,
      "loss": 0.0006,
      "num_tokens": 7044289.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 115
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 827.0,
      "completions/max_terminated_length": 827.0,
      "completions/mean_length": 354.859375,
      "completions/mean_terminated_length": 354.859375,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.051936422655025745,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.018989641688050927,
      "kl": 0.06103515625,
      "learning_rate": 4.544246323766122e-06,
      "loss": 0.0006,
      "num_tokens": 7103140.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 116
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 888.0,
      "completions/mean_length": 388.296875,
      "completions/mean_terminated_length": 378.20635986328125,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.052384150436534584,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.04733621066561139,
      "kl": 0.0606689453125,
      "learning_rate": 4.535414631131983e-06,
      "loss": 0.0006,
      "num_tokens": 7169235.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 117
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 933.0,
      "completions/mean_length": 354.78125,
      "completions/mean_terminated_length": 344.15875244140625,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.05283187821804343,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.31601512866839354,
      "kl": 0.0545654296875,
      "learning_rate": 4.526508026075746e-06,
      "loss": 0.0119,
      "num_tokens": 7227229.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 118
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 972.0,
      "completions/max_terminated_length": 972.0,
      "completions/mean_length": 371.109375,
      "completions/mean_terminated_length": 371.109375,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.053279605999552275,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.018147525054150588,
      "kl": 0.0513916015625,
      "learning_rate": 4.517526882300721e-06,
      "loss": 0.0005,
      "num_tokens": 7288496.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 119
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 913.0,
      "completions/mean_length": 387.078125,
      "completions/mean_terminated_length": 366.5322570800781,
      "completions/min_length": 55.0,
      "completions/min_terminated_length": 55.0,
      "epoch": 0.053727333781061114,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.20622812910392233,
      "kl": 0.05987548828125,
      "learning_rate": 4.508471576637713e-06,
      "loss": -0.0006,
      "num_tokens": 7353353.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 120
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 919.0,
      "completions/max_terminated_length": 919.0,
      "completions/mean_length": 391.734375,
      "completions/mean_terminated_length": 391.734375,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.05417506156256996,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.29591533561798483,
      "kl": 0.0489501953125,
      "learning_rate": 4.499342489029211e-06,
      "loss": 0.0032,
      "num_tokens": 7417628.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 121
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 897.0,
      "completions/max_terminated_length": 897.0,
      "completions/mean_length": 353.515625,
      "completions/mean_terminated_length": 353.515625,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.0546227893440788,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.016617972071029236,
      "kl": 0.0509033203125,
      "learning_rate": 4.490140002513449e-06,
      "loss": 0.0005,
      "num_tokens": 7481281.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 122
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 895.0,
      "completions/mean_length": 401.28125,
      "completions/mean_terminated_length": 391.3968505859375,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.055070517125587644,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.02532908949427636,
      "kl": 0.0504150390625,
      "learning_rate": 4.48086450320833e-06,
      "loss": 0.0005,
      "num_tokens": 7542755.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 123
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 908.0,
      "completions/max_terminated_length": 908.0,
      "completions/mean_length": 349.96875,
      "completions/mean_terminated_length": 349.96875,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.05551824490709648,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.015592969336027015,
      "kl": 0.0445556640625,
      "learning_rate": 4.4715163802952266e-06,
      "loss": 0.0004,
      "num_tokens": 7602649.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 124
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 958.0,
      "completions/mean_length": 392.625,
      "completions/mean_terminated_length": 382.60321044921875,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.05596597268860533,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.24948655210088308,
      "kl": 0.0450439453125,
      "learning_rate": 4.462096026002655e-06,
      "loss": 0.0128,
      "num_tokens": 7665109.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 125
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 979.0,
      "completions/max_terminated_length": 979.0,
      "completions/mean_length": 379.15625,
      "completions/mean_terminated_length": 379.15625,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.056413700470114174,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01569629474651583,
      "kl": 0.04669189453125,
      "learning_rate": 4.4526038355898144e-06,
      "loss": 0.0005,
      "num_tokens": 7728079.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 126
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 862.0,
      "completions/mean_length": 427.765625,
      "completions/mean_terminated_length": 408.5322570800781,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.05686142825162301,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.271719116353164,
      "kl": 0.0408935546875,
      "learning_rate": 4.4430402073300035e-06,
      "loss": 0.0334,
      "num_tokens": 7794328.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 127
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 965.0,
      "completions/mean_length": 427.484375,
      "completions/mean_terminated_length": 408.2419128417969,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.05730915603313186,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.22829629766024692,
      "kl": 0.0418701171875,
      "learning_rate": 4.433405542493909e-06,
      "loss": 0.0299,
      "num_tokens": 7853063.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 128
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 938.0,
      "completions/mean_length": 429.40625,
      "completions/mean_terminated_length": 419.9682922363281,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.0577568838146407,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.17222187571648626,
      "kl": 0.04412841796875,
      "learning_rate": 4.4237002453327734e-06,
      "loss": 0.0166,
      "num_tokens": 7918285.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 129
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 812.0,
      "completions/max_terminated_length": 812.0,
      "completions/mean_length": 366.296875,
      "completions/mean_terminated_length": 366.296875,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.05820461159614954,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0169645023164142,
      "kl": 0.04510498046875,
      "learning_rate": 4.4139247230614245e-06,
      "loss": 0.0005,
      "num_tokens": 7978660.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 130
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 724.0,
      "completions/max_terminated_length": 724.0,
      "completions/mean_length": 379.15625,
      "completions/mean_terminated_length": 379.15625,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.05865233937765838,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.021336439417109068,
      "kl": 0.0452880859375,
      "learning_rate": 4.404079385841201e-06,
      "loss": 0.0005,
      "num_tokens": 8043474.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 131
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 978.0,
      "completions/mean_length": 426.484375,
      "completions/mean_terminated_length": 407.20965576171875,
      "completions/min_length": 52.0,
      "completions/min_terminated_length": 52.0,
      "epoch": 0.05910006715916723,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.24040849132299505,
      "kl": 0.0389404296875,
      "learning_rate": 4.394164646762734e-06,
      "loss": 0.0004,
      "num_tokens": 8110677.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 132
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 906.0,
      "completions/mean_length": 395.234375,
      "completions/mean_terminated_length": 364.31146240234375,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.059547794940676066,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.20604785018377625,
      "kl": 0.0390625,
      "learning_rate": 4.384180921828618e-06,
      "loss": 0.0055,
      "num_tokens": 8172560.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 133
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 971.0,
      "completions/max_terminated_length": 971.0,
      "completions/mean_length": 347.125,
      "completions/mean_terminated_length": 347.125,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.05999552272218491,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013946063634793006,
      "kl": 0.0386962890625,
      "learning_rate": 4.374128629935955e-06,
      "loss": 0.0004,
      "num_tokens": 8233756.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 134
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 882.0,
      "completions/max_terminated_length": 882.0,
      "completions/mean_length": 373.265625,
      "completions/mean_terminated_length": 373.265625,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.06044325050369376,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012636475969811621,
      "kl": 0.03857421875,
      "learning_rate": 4.364008192858781e-06,
      "loss": 0.0004,
      "num_tokens": 8293357.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 135
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 891.0,
      "completions/mean_length": 403.59375,
      "completions/mean_terminated_length": 393.7460632324219,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.060890978285202596,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.02092111194492498,
      "kl": 0.03802490234375,
      "learning_rate": 4.353820035230366e-06,
      "loss": 0.0004,
      "num_tokens": 8361479.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 136
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1019.0,
      "completions/max_terminated_length": 1019.0,
      "completions/mean_length": 391.171875,
      "completions/mean_terminated_length": 391.171875,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.06133870606671144,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013025863779145518,
      "kl": 0.037841796875,
      "learning_rate": 4.3435645845254e-06,
      "loss": 0.0004,
      "num_tokens": 8422630.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 137
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 836.0,
      "completions/max_terminated_length": 836.0,
      "completions/mean_length": 355.109375,
      "completions/mean_terminated_length": 355.109375,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.06178643384822028,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.017147684930370968,
      "kl": 0.04095458984375,
      "learning_rate": 4.333242271042054e-06,
      "loss": 0.0004,
      "num_tokens": 8480541.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 138
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 956.0,
      "completions/max_terminated_length": 956.0,
      "completions/mean_length": 363.765625,
      "completions/mean_terminated_length": 363.765625,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.062234161629729126,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014958335394362381,
      "kl": 0.03948974609375,
      "learning_rate": 4.32285352788393e-06,
      "loss": 0.0004,
      "num_tokens": 8542246.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 139
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 801.0,
      "completions/max_terminated_length": 801.0,
      "completions/mean_length": 357.40625,
      "completions/mean_terminated_length": 357.40625,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.06268188941123796,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.21083762506326081,
      "kl": 0.044189453125,
      "learning_rate": 4.312398790941882e-06,
      "loss": 0.0014,
      "num_tokens": 8601012.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 140
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 832.0,
      "completions/max_terminated_length": 832.0,
      "completions/mean_length": 377.5,
      "completions/mean_terminated_length": 377.5,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.0631296171927468,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013051250617360215,
      "kl": 0.03863525390625,
      "learning_rate": 4.301878498875735e-06,
      "loss": 0.0004,
      "num_tokens": 8665088.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 141
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 955.0,
      "completions/max_terminated_length": 955.0,
      "completions/mean_length": 389.921875,
      "completions/mean_terminated_length": 389.921875,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.06357734497425566,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.31413322556690554,
      "kl": 0.07135009765625,
      "learning_rate": 4.291293093095873e-06,
      "loss": 0.0084,
      "num_tokens": 8727215.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 142
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 823.0,
      "completions/mean_length": 431.5,
      "completions/mean_terminated_length": 422.09527587890625,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.0640250727557645,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.21544968702538,
      "kl": 0.0367431640625,
      "learning_rate": 4.280643017744723e-06,
      "loss": 0.0107,
      "num_tokens": 8797251.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 845.0,
      "completions/mean_length": 384.125,
      "completions/mean_terminated_length": 363.4838562011719,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.06447280053727333,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01284564301544029,
      "kl": 0.03533935546875,
      "learning_rate": 4.269928719678117e-06,
      "loss": 0.0004,
      "num_tokens": 8861639.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 144
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1017.0,
      "completions/mean_length": 387.34375,
      "completions/mean_terminated_length": 377.2381286621094,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.06492052831878219,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011645167562887684,
      "kl": 0.03515625,
      "learning_rate": 4.2591506484465426e-06,
      "loss": 0.0004,
      "num_tokens": 8921313.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 145
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 772.0,
      "completions/mean_length": 383.734375,
      "completions/mean_terminated_length": 373.5714416503906,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.06536825610029103,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011920099335481738,
      "kl": 0.0352783203125,
      "learning_rate": 4.248309256276283e-06,
      "loss": 0.0004,
      "num_tokens": 8978200.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 146
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 791.0,
      "completions/max_terminated_length": 791.0,
      "completions/mean_length": 331.671875,
      "completions/mean_terminated_length": 331.671875,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.06581598388179986,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011846480131204226,
      "kl": 0.03729248046875,
      "learning_rate": 4.23740499805044e-06,
      "loss": 0.0004,
      "num_tokens": 9032939.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 147
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 857.0,
      "completions/max_terminated_length": 857.0,
      "completions/mean_length": 366.3125,
      "completions/mean_terminated_length": 366.3125,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.0662637116633087,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.4168463568318135,
      "kl": 0.0452880859375,
      "learning_rate": 4.22643833128985e-06,
      "loss": 0.0077,
      "num_tokens": 9092175.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 148
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1002.0,
      "completions/max_terminated_length": 1002.0,
      "completions/mean_length": 426.5625,
      "completions/mean_terminated_length": 426.5625,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.06671143944481756,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010567083296051782,
      "kl": 0.032073974609375,
      "learning_rate": 4.215409716133885e-06,
      "loss": 0.0003,
      "num_tokens": 9151903.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 149
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1017.0,
      "completions/mean_length": 444.96875,
      "completions/mean_terminated_length": 435.7778015136719,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.0671591672263264,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010550098011927684,
      "kl": 0.03302001953125,
      "learning_rate": 4.204319615321151e-06,
      "loss": 0.0003,
      "num_tokens": 9223469.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 150
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 966.0,
      "completions/mean_length": 409.4375,
      "completions/mean_terminated_length": 399.68255615234375,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.06760689500783523,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011041355372781041,
      "kl": 0.03326416015625,
      "learning_rate": 4.193168494170065e-06,
      "loss": 0.0003,
      "num_tokens": 9284617.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 151
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 876.0,
      "completions/max_terminated_length": 876.0,
      "completions/mean_length": 369.625,
      "completions/mean_terminated_length": 369.625,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.06805462278934409,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012602212488237145,
      "kl": 0.0372314453125,
      "learning_rate": 4.181956820559339e-06,
      "loss": 0.0004,
      "num_tokens": 9342185.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 152
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.5,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 851.0,
      "completions/mean_length": 425.28125,
      "completions/mean_terminated_length": 385.36669921875,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.06850235057085292,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.1947594363729844,
      "kl": 0.03662109375,
      "learning_rate": 4.170685064908342e-06,
      "loss": 0.0142,
      "num_tokens": 9411839.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 153
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 747.0,
      "completions/max_terminated_length": 747.0,
      "completions/mean_length": 381.84375,
      "completions/mean_terminated_length": 381.84375,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.06895007835236176,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012347286889127887,
      "kl": 0.03704833984375,
      "learning_rate": 4.159353700157365e-06,
      "loss": 0.0004,
      "num_tokens": 9470193.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 154
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 936.0,
      "completions/mean_length": 429.765625,
      "completions/mean_terminated_length": 410.5967712402344,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.0693978061338706,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.39522186241457785,
      "kl": 0.0386962890625,
      "learning_rate": 4.14796320174778e-06,
      "loss": 0.0308,
      "num_tokens": 9535182.0,
      "reward": 0.08281250298023224,
      "reward_std": 0.00937500037252903,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.828125,
      "rewards/format_reward/std": 0.38025420904159546,
      "step": 155
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 983.0,
      "completions/mean_length": 402.109375,
      "completions/mean_terminated_length": 392.2381286621094,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.06984553391537945,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.4680092977721822,
      "kl": 0.071044921875,
      "learning_rate": 4.136514047602087e-06,
      "loss": -0.0005,
      "num_tokens": 9592597.0,
      "reward": 0.09531249850988388,
      "reward_std": 0.00937500037252903,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.953125,
      "rewards/format_reward/std": 0.21304203569889069,
      "step": 156
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 746.0,
      "completions/mean_length": 411.859375,
      "completions/mean_terminated_length": 392.1128845214844,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.07029326169688829,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.41161120988834843,
      "kl": 0.04833984375,
      "learning_rate": 4.1250067181038635e-06,
      "loss": 0.0215,
      "num_tokens": 9655280.0,
      "reward": 0.08749999850988388,
      "reward_std": 0.012500000186264515,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 157
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 978.0,
      "completions/max_terminated_length": 978.0,
      "completions/mean_length": 411.390625,
      "completions/mean_terminated_length": 411.390625,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.07074098947839713,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.31846587256579806,
      "kl": 0.03460693359375,
      "learning_rate": 4.113441696077608e-06,
      "loss": 0.0089,
      "num_tokens": 9724273.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 158
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 635.0,
      "completions/max_terminated_length": 635.0,
      "completions/mean_length": 343.40625,
      "completions/mean_terminated_length": 343.40625,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.07118871725990597,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.25429234830175623,
      "kl": 0.04791259765625,
      "learning_rate": 4.101819466768484e-06,
      "loss": 0.0034,
      "num_tokens": 9784183.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 159
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 866.0,
      "completions/max_terminated_length": 866.0,
      "completions/mean_length": 408.53125,
      "completions/mean_terminated_length": 408.53125,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.07163644504141482,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01259450394015687,
      "kl": 0.03765869140625,
      "learning_rate": 4.0901405178219535e-06,
      "loss": 0.0004,
      "num_tokens": 9849777.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 160
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 707.0,
      "completions/mean_length": 388.234375,
      "completions/mean_terminated_length": 378.14288330078125,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.07208417282292366,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.23560644730100241,
      "kl": 0.04498291015625,
      "learning_rate": 4.078405339263326e-06,
      "loss": -0.0031,
      "num_tokens": 9915732.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 161
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1002.0,
      "completions/max_terminated_length": 1002.0,
      "completions/mean_length": 417.296875,
      "completions/mean_terminated_length": 417.296875,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.0725319006044325,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01147246188598898,
      "kl": 0.0362548828125,
      "learning_rate": 4.06661442347719e-06,
      "loss": 0.0004,
      "num_tokens": 9981495.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 869.0,
      "completions/mean_length": 398.921875,
      "completions/mean_terminated_length": 389.0000305175781,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.07297962838594135,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.30263565682681187,
      "kl": 0.03900146484375,
      "learning_rate": 4.054768265186758e-06,
      "loss": 0.0108,
      "num_tokens": 10046254.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 163
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 868.0,
      "completions/mean_length": 414.015625,
      "completions/mean_terminated_length": 394.33868408203125,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.07342735616745019,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.21711330419708613,
      "kl": 0.03717041015625,
      "learning_rate": 4.0428673614331036e-06,
      "loss": 0.0153,
      "num_tokens": 10109187.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 164
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 943.0,
      "completions/max_terminated_length": 943.0,
      "completions/mean_length": 383.171875,
      "completions/mean_terminated_length": 383.171875,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.07387508394895903,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.31363787373218666,
      "kl": 0.03564453125,
      "learning_rate": 4.030912211554316e-06,
      "loss": 0.0004,
      "num_tokens": 10171722.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 870.0,
      "completions/mean_length": 384.5625,
      "completions/mean_terminated_length": 374.4127197265625,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.07432281173046787,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.30991352872909833,
      "kl": 0.04168701171875,
      "learning_rate": 4.018903317164539e-06,
      "loss": 0.0047,
      "num_tokens": 10237430.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 166
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 989.0,
      "completions/max_terminated_length": 989.0,
      "completions/mean_length": 436.96875,
      "completions/mean_terminated_length": 436.96875,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.07477053951197672,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2152022692389536,
      "kl": 0.03875732421875,
      "learning_rate": 4.006841182132932e-06,
      "loss": 0.0081,
      "num_tokens": 10307484.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 167
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 935.0,
      "completions/mean_length": 398.390625,
      "completions/mean_terminated_length": 388.4603271484375,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.07521826729348556,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.25540317312137845,
      "kl": 0.0406494140625,
      "learning_rate": 3.9947263125625195e-06,
      "loss": 0.0004,
      "num_tokens": 10371837.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 168
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 714.0,
      "completions/max_terminated_length": 714.0,
      "completions/mean_length": 344.09375,
      "completions/mean_terminated_length": 344.09375,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.0756659950749944,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013644047094611473,
      "kl": 0.0428466796875,
      "learning_rate": 3.982559216768967e-06,
      "loss": 0.0004,
      "num_tokens": 10428871.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 169
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 783.0,
      "completions/max_terminated_length": 783.0,
      "completions/mean_length": 382.15625,
      "completions/mean_terminated_length": 382.15625,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.07611372285650325,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013477480841961455,
      "kl": 0.040283203125,
      "learning_rate": 3.970340405259245e-06,
      "loss": 0.0004,
      "num_tokens": 10491889.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 170
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 637.0,
      "completions/max_terminated_length": 637.0,
      "completions/mean_length": 355.328125,
      "completions/mean_terminated_length": 355.328125,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.07656145063801209,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.32195379195055507,
      "kl": 0.041748046875,
      "learning_rate": 3.958070390710214e-06,
      "loss": 0.0021,
      "num_tokens": 10553538.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 171
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 994.0,
      "completions/mean_length": 388.875,
      "completions/mean_terminated_length": 378.7936706542969,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.07700917841952093,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014885638293566662,
      "kl": 0.0404052734375,
      "learning_rate": 3.945749687947109e-06,
      "loss": 0.0004,
      "num_tokens": 10617838.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 172
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 948.0,
      "completions/max_terminated_length": 948.0,
      "completions/mean_length": 364.875,
      "completions/mean_terminated_length": 364.875,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.07745690620102977,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.9337607206012697,
      "kl": 0.27850341796875,
      "learning_rate": 3.933378813921942e-06,
      "loss": -0.0012,
      "num_tokens": 10677358.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 173
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 888.0,
      "completions/mean_length": 433.453125,
      "completions/mean_terminated_length": 414.4031982421875,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.07790463398253862,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0109514064617452,
      "kl": 0.03717041015625,
      "learning_rate": 3.920958287691811e-06,
      "loss": 0.0004,
      "num_tokens": 10744735.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 174
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 705.0,
      "completions/max_terminated_length": 705.0,
      "completions/mean_length": 335.578125,
      "completions/mean_terminated_length": 335.578125,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.07835236176404746,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.20187306283504877,
      "kl": 0.05511474609375,
      "learning_rate": 3.908488630397121e-06,
      "loss": -0.0071,
      "num_tokens": 10800820.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 175
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 935.0,
      "completions/mean_length": 418.125,
      "completions/mean_terminated_length": 408.5079650878906,
      "completions/min_length": 83.0,
      "completions/min_terminated_length": 83.0,
      "epoch": 0.0788000895455563,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.15218344569566433,
      "kl": 0.04229736328125,
      "learning_rate": 3.8959703652397175e-06,
      "loss": -0.0263,
      "num_tokens": 10870636.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 176
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 997.0,
      "completions/mean_length": 427.3125,
      "completions/mean_terminated_length": 397.9671936035156,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.07924781732706515,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.3071156262193584,
      "kl": 0.041015625,
      "learning_rate": 3.883404017460935e-06,
      "loss": 0.0077,
      "num_tokens": 10941564.0,
      "reward": 0.07968750596046448,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.796875,
      "rewards/format_reward/std": 0.40550529956817627,
      "step": 177
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 818.0,
      "completions/mean_length": 356.296875,
      "completions/mean_terminated_length": 345.69842529296875,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.07969554510857399,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.15725720733437898,
      "kl": 0.04351806640625,
      "learning_rate": 3.870790114319559e-06,
      "loss": 0.0077,
      "num_tokens": 11004151.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 178
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 619.0,
      "completions/max_terminated_length": 619.0,
      "completions/mean_length": 315.453125,
      "completions/mean_terminated_length": 315.453125,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.08014327289008283,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.268048412397131,
      "kl": 0.0543212890625,
      "learning_rate": 3.858129185069701e-06,
      "loss": -0.0053,
      "num_tokens": 11060780.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 179
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 939.0,
      "completions/mean_length": 451.25,
      "completions/mean_terminated_length": 423.0819396972656,
      "completions/min_length": 34.0,
      "completions/min_terminated_length": 34.0,
      "epoch": 0.08059100067159167,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.1746308387689505,
      "kl": 0.044677734375,
      "learning_rate": 3.845421760938597e-06,
      "loss": 0.006,
      "num_tokens": 11128608.0,
      "reward": 0.07968750596046448,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.796875,
      "rewards/format_reward/std": 0.40550529956817627,
      "step": 180
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 893.0,
      "completions/mean_length": 351.546875,
      "completions/mean_terminated_length": 329.8548278808594,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.08103872845310052,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.20223359571174315,
      "kl": 0.0548095703125,
      "learning_rate": 3.832668375104312e-06,
      "loss": 0.0113,
      "num_tokens": 11189559.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 181
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 752.0,
      "completions/max_terminated_length": 752.0,
      "completions/mean_length": 346.609375,
      "completions/mean_terminated_length": 346.609375,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.08148645623460936,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3795389799033732,
      "kl": 0.06256103515625,
      "learning_rate": 3.8198695626733725e-06,
      "loss": -0.015,
      "num_tokens": 11247638.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 182
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 978.0,
      "completions/mean_length": 394.515625,
      "completions/mean_terminated_length": 384.5238342285156,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.0819341840161182,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.015389913825118642,
      "kl": 0.05291748046875,
      "learning_rate": 3.8070258606583156e-06,
      "loss": 0.0005,
      "num_tokens": 11312123.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 183
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 886.0,
      "completions/max_terminated_length": 886.0,
      "completions/mean_length": 354.859375,
      "completions/mean_terminated_length": 354.859375,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.08238191179762704,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.23028017276666427,
      "kl": 0.0665283203125,
      "learning_rate": 3.7941378079551544e-06,
      "loss": -0.0032,
      "num_tokens": 11373610.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 184
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 868.0,
      "completions/mean_length": 415.125,
      "completions/mean_terminated_length": 395.4838562011719,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.08282963957913589,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3354007533178394,
      "kl": 0.06085205078125,
      "learning_rate": 3.7812059453207677e-06,
      "loss": 0.0139,
      "num_tokens": 11440130.0,
      "reward": 0.08437500149011612,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.84375,
      "rewards/format_reward/std": 0.36596253514289856,
      "step": 185
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 926.0,
      "completions/mean_length": 443.15625,
      "completions/mean_terminated_length": 424.4193420410156,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.08327736736064473,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.1845021747853117,
      "kl": 0.0513916015625,
      "learning_rate": 3.768230815350213e-06,
      "loss": -0.0149,
      "num_tokens": 11507848.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 186
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 992.0,
      "completions/max_terminated_length": 992.0,
      "completions/mean_length": 429.8125,
      "completions/mean_terminated_length": 429.8125,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.08372509514215357,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011137868552895428,
      "kl": 0.0499267578125,
      "learning_rate": 3.7552129624539557e-06,
      "loss": 0.0005,
      "num_tokens": 11572204.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 187
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 881.0,
      "completions/mean_length": 418.859375,
      "completions/mean_terminated_length": 399.33868408203125,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.08417282292366242,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3501570318986496,
      "kl": 0.04901123046875,
      "learning_rate": 3.7421529328350316e-06,
      "loss": 0.0135,
      "num_tokens": 11635359.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 188
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 741.0,
      "completions/max_terminated_length": 741.0,
      "completions/mean_length": 346.53125,
      "completions/mean_terminated_length": 346.53125,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.08462055070517126,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.3326947909893448,
      "kl": 0.05865478515625,
      "learning_rate": 3.7290512744661274e-06,
      "loss": -0.0082,
      "num_tokens": 11687913.0,
      "reward": 0.09531249850988388,
      "reward_std": 0.00937500037252903,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.953125,
      "rewards/format_reward/std": 0.21304203569889069,
      "step": 189
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 994.0,
      "completions/mean_length": 376.46875,
      "completions/mean_terminated_length": 366.19049072265625,
      "completions/min_length": 88.0,
      "completions/min_terminated_length": 88.0,
      "epoch": 0.0850682784866801,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012225256183267526,
      "kl": 0.05145263671875,
      "learning_rate": 3.715908537066589e-06,
      "loss": 0.0005,
      "num_tokens": 11747519.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 190
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 850.0,
      "completions/mean_length": 444.4375,
      "completions/mean_terminated_length": 415.9344177246094,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.08551600626818893,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.2829088622349958,
      "kl": 0.052734375,
      "learning_rate": 3.7027252720793538e-06,
      "loss": 0.0186,
      "num_tokens": 11811987.0,
      "reward": 0.08437500149011612,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.84375,
      "rewards/format_reward/std": 0.36596253514289856,
      "step": 191
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.25,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 974.0,
      "completions/mean_length": 551.828125,
      "completions/mean_terminated_length": 502.9827575683594,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.08596373404969779,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.3197882678630689,
      "kl": 0.04949951171875,
      "learning_rate": 3.689502032647817e-06,
      "loss": 0.0168,
      "num_tokens": 11888744.0,
      "reward": 0.07968750596046448,
      "reward_std": 0.010341878980398178,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.796875,
      "rewards/format_reward/std": 0.40550529956817627,
      "step": 192
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 844.0,
      "completions/max_terminated_length": 844.0,
      "completions/mean_length": 379.578125,
      "completions/mean_terminated_length": 379.578125,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.08641146183120663,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.39492829618405445,
      "kl": 0.0513916015625,
      "learning_rate": 3.6762393735926245e-06,
      "loss": 0.0031,
      "num_tokens": 11948093.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 193
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 725.0,
      "completions/max_terminated_length": 725.0,
      "completions/mean_length": 355.0,
      "completions/mean_terminated_length": 355.0,
      "completions/min_length": 68.0,
      "completions/min_terminated_length": 68.0,
      "epoch": 0.08685918961271547,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.23350782831599726,
      "kl": 0.0533447265625,
      "learning_rate": 3.6629378513883852e-06,
      "loss": -0.0127,
      "num_tokens": 12005497.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 194
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 996.0,
      "completions/max_terminated_length": 996.0,
      "completions/mean_length": 403.0625,
      "completions/mean_terminated_length": 403.0625,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.08730691739422432,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.1966840011153557,
      "kl": 0.0565185546875,
      "learning_rate": 3.6495980241403307e-06,
      "loss": 0.0045,
      "num_tokens": 12069185.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 195
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 985.0,
      "completions/max_terminated_length": 985.0,
      "completions/mean_length": 434.453125,
      "completions/mean_terminated_length": 434.453125,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.08775464517573316,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013625153388871662,
      "kl": 0.0531005859375,
      "learning_rate": 3.636220451560896e-06,
      "loss": 0.0005,
      "num_tokens": 12137918.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 196
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 747.0,
      "completions/max_terminated_length": 747.0,
      "completions/mean_length": 362.28125,
      "completions/mean_terminated_length": 362.28125,
      "completions/min_length": 82.0,
      "completions/min_terminated_length": 82.0,
      "epoch": 0.088202372957242,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.016158408633370827,
      "kl": 0.0535888671875,
      "learning_rate": 3.622805694946235e-06,
      "loss": 0.0005,
      "num_tokens": 12196348.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 197
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 869.0,
      "completions/max_terminated_length": 869.0,
      "completions/mean_length": 402.640625,
      "completions/mean_terminated_length": 402.640625,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.08865010073875083,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.345300442455859,
      "kl": 0.0601806640625,
      "learning_rate": 3.609354317152667e-06,
      "loss": -0.0138,
      "num_tokens": 12260309.0,
      "reward": 0.08906249701976776,
      "reward_std": 0.00937500037252903,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.890625,
      "rewards/format_reward/std": 0.3145764470100403,
      "step": 198
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 913.0,
      "completions/mean_length": 382.296875,
      "completions/mean_terminated_length": 372.11114501953125,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.08909782852025969,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01458117543774538,
      "kl": 0.05377197265625,
      "learning_rate": 3.595866882573063e-06,
      "loss": 0.0005,
      "num_tokens": 12315844.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 199
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 923.0,
      "completions/max_terminated_length": 923.0,
      "completions/mean_length": 414.640625,
      "completions/mean_terminated_length": 414.640625,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.08954555630176853,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01427059033690635,
      "kl": 0.04791259765625,
      "learning_rate": 3.5823439571131675e-06,
      "loss": 0.0005,
      "num_tokens": 12381077.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 200
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.375,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 966.0,
      "completions/mean_length": 462.609375,
      "completions/mean_terminated_length": 415.0339050292969,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.08999328408327736,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.3553975092109596,
      "kl": 0.05572509765625,
      "learning_rate": 3.5687861081678477e-06,
      "loss": 0.0202,
      "num_tokens": 12449520.0,
      "reward": 0.08281250298023224,
      "reward_std": 0.00937500037252903,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.828125,
      "rewards/format_reward/std": 0.38025420904159546,
      "step": 201
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1002.0,
      "completions/mean_length": 480.359375,
      "completions/mean_terminated_length": 471.7301940917969,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.09044101186478622,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.1848240181379163,
      "kl": 0.046142578125,
      "learning_rate": 3.555193904597291e-06,
      "loss": 0.0121,
      "num_tokens": 12522607.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 202
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.5,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 778.0,
      "completions/mean_length": 438.375,
      "completions/mean_terminated_length": 399.3333435058594,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.09088873964629506,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.32243342436237454,
      "kl": 0.04949951171875,
      "learning_rate": 3.541567916703138e-06,
      "loss": 0.0103,
      "num_tokens": 12590283.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 203
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 874.0,
      "completions/max_terminated_length": 874.0,
      "completions/mean_length": 387.359375,
      "completions/mean_terminated_length": 387.359375,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.0913364674278039,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.2931903199219905,
      "kl": 0.05560302734375,
      "learning_rate": 3.5279087162045517e-06,
      "loss": -0.0022,
      "num_tokens": 12646082.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 204
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 901.0,
      "completions/mean_length": 418.796875,
      "completions/mean_terminated_length": 399.274169921875,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.09178419520931273,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3416063116654649,
      "kl": 0.0531005859375,
      "learning_rate": 3.5142168762142265e-06,
      "loss": 0.0217,
      "num_tokens": 12709489.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 205
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 945.0,
      "completions/mean_length": 408.046875,
      "completions/mean_terminated_length": 398.2698669433594,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.09223192299082159,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.22013402510747168,
      "kl": 0.055419921875,
      "learning_rate": 3.500492971214347e-06,
      "loss": -0.0139,
      "num_tokens": 12775440.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 206
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 927.0,
      "completions/max_terminated_length": 927.0,
      "completions/mean_length": 437.328125,
      "completions/mean_terminated_length": 437.328125,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.09267965077233042,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011135099458756442,
      "kl": 0.04815673828125,
      "learning_rate": 3.48673757703248e-06,
      "loss": 0.0005,
      "num_tokens": 12847601.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 207
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 812.0,
      "completions/mean_length": 422.40625,
      "completions/mean_terminated_length": 403.0,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.09312737855383926,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.36507718359910385,
      "kl": 0.04638671875,
      "learning_rate": 3.472951270817418e-06,
      "loss": 0.0063,
      "num_tokens": 12914991.0,
      "reward": 0.08437500149011612,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.84375,
      "rewards/format_reward/std": 0.36596253514289856,
      "step": 208
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1021.0,
      "completions/mean_length": 442.921875,
      "completions/mean_terminated_length": 424.1773986816406,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.0935751063353481,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012995302089935134,
      "kl": 0.05169677734375,
      "learning_rate": 3.4591346310149578e-06,
      "loss": 0.0005,
      "num_tokens": 12978850.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 209
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 676.0,
      "completions/max_terminated_length": 676.0,
      "completions/mean_length": 342.6875,
      "completions/mean_terminated_length": 342.6875,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.09402283411685695,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01470691532342111,
      "kl": 0.0555419921875,
      "learning_rate": 3.445288237343632e-06,
      "loss": 0.0006,
      "num_tokens": 13036662.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 210
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 789.0,
      "completions/mean_length": 376.078125,
      "completions/mean_terminated_length": 344.2131042480469,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.09447056189836579,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.16439435349856454,
      "kl": 0.0556640625,
      "learning_rate": 3.4314126707703895e-06,
      "loss": 0.0206,
      "num_tokens": 13095611.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 211
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 961.0,
      "completions/max_terminated_length": 961.0,
      "completions/mean_length": 347.15625,
      "completions/mean_terminated_length": 347.15625,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.09491828967987463,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012537534348590718,
      "kl": 0.0550537109375,
      "learning_rate": 3.4175085134862128e-06,
      "loss": 0.0006,
      "num_tokens": 13151277.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 212
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 817.0,
      "completions/mean_length": 386.171875,
      "completions/mean_terminated_length": 376.0476379394531,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.09536601746138348,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2295540490241736,
      "kl": 0.05328369140625,
      "learning_rate": 3.4035763488816953e-06,
      "loss": 0.0078,
      "num_tokens": 13210312.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 213
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 790.0,
      "completions/mean_length": 352.421875,
      "completions/mean_terminated_length": 341.7619323730469,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.09581374524289232,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012593625132294716,
      "kl": 0.0550537109375,
      "learning_rate": 3.3896167615225594e-06,
      "loss": 0.0005,
      "num_tokens": 13266783.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 214
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 800.0,
      "completions/mean_length": 376.5,
      "completions/mean_terminated_length": 366.22222900390625,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.09626147302440116,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3009326813841378,
      "kl": 0.0521240234375,
      "learning_rate": 3.375630337125133e-06,
      "loss": 0.0268,
      "num_tokens": 13332659.0,
      "reward": 0.09375,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 215
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 879.0,
      "completions/max_terminated_length": 879.0,
      "completions/mean_length": 398.3125,
      "completions/mean_terminated_length": 398.3125,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.09670920080591,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013279887174784913,
      "kl": 0.052734375,
      "learning_rate": 3.361617662531772e-06,
      "loss": 0.0005,
      "num_tokens": 13396807.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 216
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 700.0,
      "completions/max_terminated_length": 700.0,
      "completions/mean_length": 384.875,
      "completions/mean_terminated_length": 384.875,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.09715692858741885,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012436735101417205,
      "kl": 0.051513671875,
      "learning_rate": 3.347579325686237e-06,
      "loss": 0.0005,
      "num_tokens": 13456267.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 217
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 710.0,
      "completions/max_terminated_length": 710.0,
      "completions/mean_length": 344.84375,
      "completions/mean_terminated_length": 344.84375,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.09760465636892769,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013558924148931914,
      "kl": 0.0552978515625,
      "learning_rate": 3.333515915609027e-06,
      "loss": 0.0006,
      "num_tokens": 13515909.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 218
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 902.0,
      "completions/mean_length": 383.875,
      "completions/mean_terminated_length": 363.2257995605469,
      "completions/min_length": 83.0,
      "completions/min_terminated_length": 83.0,
      "epoch": 0.09805238415043653,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.21615231960837136,
      "kl": 0.0545654296875,
      "learning_rate": 3.3194280223726616e-06,
      "loss": 0.0008,
      "num_tokens": 13577381.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 219
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 695.0,
      "completions/mean_length": 364.953125,
      "completions/mean_terminated_length": 354.4920959472656,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.09850011193194538,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.18785113867229422,
      "kl": 0.0533447265625,
      "learning_rate": 3.305316237076927e-06,
      "loss": 0.0128,
      "num_tokens": 13635850.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 220
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 771.0,
      "completions/max_terminated_length": 771.0,
      "completions/mean_length": 333.109375,
      "completions/mean_terminated_length": 333.109375,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.09894783971345422,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.015659469021978883,
      "kl": 0.05731201171875,
      "learning_rate": 3.291181151824071e-06,
      "loss": 0.0006,
      "num_tokens": 13690661.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 221
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 936.0,
      "completions/max_terminated_length": 936.0,
      "completions/mean_length": 330.421875,
      "completions/mean_terminated_length": 330.421875,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.09939556749496306,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.043199038592514706,
      "kl": 0.0662841796875,
      "learning_rate": 3.27702335969396e-06,
      "loss": 0.0007,
      "num_tokens": 13745048.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 222
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 697.0,
      "completions/max_terminated_length": 697.0,
      "completions/mean_length": 321.578125,
      "completions/mean_terminated_length": 321.578125,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.0998432952764719,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0132823531186599,
      "kl": 0.05499267578125,
      "learning_rate": 3.2628434547191985e-06,
      "loss": 0.0005,
      "num_tokens": 13799593.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 223
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 944.0,
      "completions/max_terminated_length": 944.0,
      "completions/mean_length": 380.53125,
      "completions/mean_terminated_length": 380.53125,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.10029102305798075,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.3238839256118018,
      "kl": 0.06378173828125,
      "learning_rate": 3.2486420318601973e-06,
      "loss": 0.0147,
      "num_tokens": 13866159.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 224
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 958.0,
      "completions/max_terminated_length": 958.0,
      "completions/mean_length": 354.6875,
      "completions/mean_terminated_length": 354.6875,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.10073875083948959,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014305439270544734,
      "kl": 0.05419921875,
      "learning_rate": 3.2344196869802187e-06,
      "loss": 0.0005,
      "num_tokens": 13923327.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 225
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 783.0,
      "completions/max_terminated_length": 783.0,
      "completions/mean_length": 331.9375,
      "completions/mean_terminated_length": 331.9375,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.10118647862099843,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.251025271387099,
      "kl": 0.05389404296875,
      "learning_rate": 3.2201770168203694e-06,
      "loss": 0.0048,
      "num_tokens": 13984219.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 226
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 826.0,
      "completions/mean_length": 360.0625,
      "completions/mean_terminated_length": 349.5238342285156,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.10163420640250728,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.23377020975298365,
      "kl": 0.0545654296875,
      "learning_rate": 3.205914618974563e-06,
      "loss": 0.0176,
      "num_tokens": 14043903.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 227
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1009.0,
      "completions/max_terminated_length": 1009.0,
      "completions/mean_length": 385.671875,
      "completions/mean_terminated_length": 385.671875,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.10208193418401612,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014221058757977089,
      "kl": 0.047607421875,
      "learning_rate": 3.1916330918644496e-06,
      "loss": 0.0005,
      "num_tokens": 14107530.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 228
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 638.0,
      "completions/max_terminated_length": 638.0,
      "completions/mean_length": 333.9375,
      "completions/mean_terminated_length": 333.9375,
      "completions/min_length": 70.0,
      "completions/min_terminated_length": 70.0,
      "epoch": 0.10252966196552496,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.31114112762326473,
      "kl": 0.0557861328125,
      "learning_rate": 3.177333034714303e-06,
      "loss": -0.002,
      "num_tokens": 14165126.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 229
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 752.0,
      "completions/max_terminated_length": 752.0,
      "completions/mean_length": 365.21875,
      "completions/mean_terminated_length": 365.21875,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.1029773897470338,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3147859304126421,
      "kl": 0.0631103515625,
      "learning_rate": 3.1630150475258813e-06,
      "loss": -0.0125,
      "num_tokens": 14224644.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 230
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 711.0,
      "completions/max_terminated_length": 711.0,
      "completions/mean_length": 341.796875,
      "completions/mean_terminated_length": 341.796875,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.10342511752854265,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01937123977504715,
      "kl": 0.05328369140625,
      "learning_rate": 3.148679731053252e-06,
      "loss": 0.0005,
      "num_tokens": 14281671.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 231
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1005.0,
      "completions/mean_length": 382.515625,
      "completions/mean_terminated_length": 372.3333435058594,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.10387284531005149,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.25260912950576725,
      "kl": 0.05279541015625,
      "learning_rate": 3.1343276867775805e-06,
      "loss": 0.0104,
      "num_tokens": 14346196.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 232
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 770.0,
      "completions/max_terminated_length": 770.0,
      "completions/mean_length": 340.171875,
      "completions/mean_terminated_length": 340.171875,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.10432057309156033,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013064439917816088,
      "kl": 0.04925537109375,
      "learning_rate": 3.1199595168819043e-06,
      "loss": 0.0005,
      "num_tokens": 14402391.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 233
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 761.0,
      "completions/max_terminated_length": 761.0,
      "completions/mean_length": 365.984375,
      "completions/mean_terminated_length": 365.984375,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.10476830087306917,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01462682363949612,
      "kl": 0.05255126953125,
      "learning_rate": 3.105575824225852e-06,
      "loss": 0.0005,
      "num_tokens": 14463390.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 234
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 744.0,
      "completions/max_terminated_length": 744.0,
      "completions/mean_length": 359.171875,
      "completions/mean_terminated_length": 359.171875,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.10521602865457802,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01324392694238675,
      "kl": 0.05224609375,
      "learning_rate": 3.091177212320363e-06,
      "loss": 0.0005,
      "num_tokens": 14525097.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 235
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 853.0,
      "completions/max_terminated_length": 853.0,
      "completions/mean_length": 352.140625,
      "completions/mean_terminated_length": 352.140625,
      "completions/min_length": 77.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.10566375643608686,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013386074235816416,
      "kl": 0.057373046875,
      "learning_rate": 3.0767642853023538e-06,
      "loss": 0.0006,
      "num_tokens": 14584334.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 236
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 850.0,
      "completions/max_terminated_length": 850.0,
      "completions/mean_length": 333.90625,
      "completions/mean_terminated_length": 333.90625,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.1061114842175957,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014486503266015614,
      "kl": 0.05511474609375,
      "learning_rate": 3.062337647909376e-06,
      "loss": 0.0006,
      "num_tokens": 14643984.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 237
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 890.0,
      "completions/max_terminated_length": 890.0,
      "completions/mean_length": 413.5625,
      "completions/mean_terminated_length": 413.5625,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.10655921199910455,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01166822805467373,
      "kl": 0.04901123046875,
      "learning_rate": 3.04789790545424e-06,
      "loss": 0.0005,
      "num_tokens": 14707824.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 238
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 693.0,
      "completions/mean_length": 352.359375,
      "completions/mean_terminated_length": 341.69842529296875,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.10700693978061339,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.18627737579788506,
      "kl": 0.05340576171875,
      "learning_rate": 3.033445663799621e-06,
      "loss": 0.0112,
      "num_tokens": 14769511.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 239
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 923.0,
      "completions/max_terminated_length": 923.0,
      "completions/mean_length": 378.90625,
      "completions/mean_terminated_length": 378.90625,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.10745466756212223,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012082274150732077,
      "kl": 0.04669189453125,
      "learning_rate": 3.018981529332633e-06,
      "loss": 0.0005,
      "num_tokens": 14833013.0,
      "reward": 0.08125000447034836,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.8125,
      "rewards/format_reward/std": 0.39339789748191833,
      "step": 240
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1019.0,
      "completions/max_terminated_length": 1019.0,
      "completions/mean_length": 340.125,
      "completions/mean_terminated_length": 340.125,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.10790239534363107,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011091839223177856,
      "kl": 0.0496826171875,
      "learning_rate": 3.00450610893939e-06,
      "loss": 0.0005,
      "num_tokens": 14886929.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 241
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 938.0,
      "completions/mean_length": 380.25,
      "completions/mean_terminated_length": 370.0317687988281,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.10835012312513992,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.26239838264911913,
      "kl": 0.0487060546875,
      "learning_rate": 2.9900200099795396e-06,
      "loss": 0.0105,
      "num_tokens": 14952489.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 242
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 751.0,
      "completions/mean_length": 404.6875,
      "completions/mean_terminated_length": 374.2294921875,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.10879785090664876,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011364730238006673,
      "kl": 0.0489501953125,
      "learning_rate": 2.9755238402607826e-06,
      "loss": 0.0005,
      "num_tokens": 15016413.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 243
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 638.0,
      "completions/mean_length": 348.734375,
      "completions/mean_terminated_length": 338.0158996582031,
      "completions/min_length": 63.0,
      "completions/min_terminated_length": 63.0,
      "epoch": 0.1092455786881576,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.18208970098542465,
      "kl": 0.05621337890625,
      "learning_rate": 2.961018208013367e-06,
      "loss": 0.0196,
      "num_tokens": 15076408.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 244
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 715.0,
      "completions/max_terminated_length": 715.0,
      "completions/mean_length": 325.515625,
      "completions/mean_terminated_length": 325.515625,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.10969330646966645,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01286573674686216,
      "kl": 0.0540771484375,
      "learning_rate": 2.9465037218645694e-06,
      "loss": 0.0005,
      "num_tokens": 15132741.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 245
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 786.0,
      "completions/mean_length": 377.0,
      "completions/mean_terminated_length": 366.7301940917969,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.11014103425117529,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.15675559284166007,
      "kl": 0.0477294921875,
      "learning_rate": 2.9319809908131604e-06,
      "loss": 0.023,
      "num_tokens": 15194677.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 246
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 662.0,
      "completions/mean_length": 356.234375,
      "completions/mean_terminated_length": 345.63494873046875,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.11058876203268413,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3229748701806429,
      "kl": 0.055419921875,
      "learning_rate": 2.917450624203847e-06,
      "loss": 0.0084,
      "num_tokens": 15261600.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 247
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 785.0,
      "completions/max_terminated_length": 785.0,
      "completions/mean_length": 323.140625,
      "completions/mean_terminated_length": 323.140625,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.11103648981419297,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012118269352842333,
      "kl": 0.05059814453125,
      "learning_rate": 2.9029132317017118e-06,
      "loss": 0.0005,
      "num_tokens": 15313865.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 248
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 813.0,
      "completions/mean_length": 364.65625,
      "completions/mean_terminated_length": 354.19049072265625,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.11148421759570182,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.22783273259054912,
      "kl": 0.04718017578125,
      "learning_rate": 2.888369423266629e-06,
      "loss": 0.0198,
      "num_tokens": 15372891.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 249
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 859.0,
      "completions/max_terminated_length": 859.0,
      "completions/mean_length": 349.3125,
      "completions/mean_terminated_length": 349.3125,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.11193194537721066,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2191938134125702,
      "kl": 0.07501220703125,
      "learning_rate": 2.8738198091276712e-06,
      "loss": 0.0035,
      "num_tokens": 15431567.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 250
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 746.0,
      "completions/mean_length": 368.0,
      "completions/mean_terminated_length": 357.5873107910156,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.1123796731587195,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.24588113585619303,
      "kl": 0.04766845703125,
      "learning_rate": 2.859264999757509e-06,
      "loss": 0.0071,
      "num_tokens": 15493167.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 251
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 829.0,
      "completions/max_terminated_length": 829.0,
      "completions/mean_length": 341.984375,
      "completions/mean_terminated_length": 341.984375,
      "completions/min_length": 48.0,
      "completions/min_terminated_length": 48.0,
      "epoch": 0.11282740094022835,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.25834364071383736,
      "kl": 0.0533447265625,
      "learning_rate": 2.8447056058467928e-06,
      "loss": 0.0149,
      "num_tokens": 15553294.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.003608439350500703,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 252
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 579.0,
      "completions/max_terminated_length": 579.0,
      "completions/mean_length": 305.65625,
      "completions/mean_terminated_length": 305.65625,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.11327512872173719,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2744173626284236,
      "kl": 0.0576171875,
      "learning_rate": 2.830142238278531e-06,
      "loss": -0.0081,
      "num_tokens": 15606612.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 253
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 681.0,
      "completions/max_terminated_length": 681.0,
      "completions/mean_length": 359.59375,
      "completions/mean_terminated_length": 359.59375,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.11372285650324603,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01203668024848394,
      "kl": 0.04656982421875,
      "learning_rate": 2.81557550810246e-06,
      "loss": 0.0005,
      "num_tokens": 15673678.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 254
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 808.0,
      "completions/max_terminated_length": 808.0,
      "completions/mean_length": 380.5625,
      "completions/mean_terminated_length": 380.5625,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.11417058428475486,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.266660806571931,
      "kl": 0.052978515625,
      "learning_rate": 2.8010060265094026e-06,
      "loss": 0.0198,
      "num_tokens": 15736294.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 255
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 587.0,
      "completions/max_terminated_length": 587.0,
      "completions/mean_length": 316.921875,
      "completions/mean_terminated_length": 316.921875,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.11461831206626372,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011550394153514904,
      "kl": 0.0482177734375,
      "learning_rate": 2.786434404805629e-06,
      "loss": 0.0005,
      "num_tokens": 15791965.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 256
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 819.0,
      "completions/mean_length": 386.03125,
      "completions/mean_terminated_length": 375.90478515625,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.11506603984777256,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2652951318738223,
      "kl": 0.05218505859375,
      "learning_rate": 2.771861254387199e-06,
      "loss": 0.003,
      "num_tokens": 15853111.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 257
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1008.0,
      "completions/max_terminated_length": 1008.0,
      "completions/mean_length": 364.25,
      "completions/mean_terminated_length": 364.25,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.1155137676292814,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012390326391106139,
      "kl": 0.0467529296875,
      "learning_rate": 2.7572871867143204e-06,
      "loss": 0.0005,
      "num_tokens": 15914535.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 258
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 533.0,
      "completions/mean_length": 319.65625,
      "completions/mean_terminated_length": 308.4761962890625,
      "completions/min_length": 77.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.11596149541079023,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.38901415428508124,
      "kl": 0.04998779296875,
      "learning_rate": 2.742712813285681e-06,
      "loss": 0.0233,
      "num_tokens": 15973853.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 259
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 703.0,
      "completions/mean_length": 320.96875,
      "completions/mean_terminated_length": 309.8095397949219,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.11640922319229909,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011543947977854747,
      "kl": 0.04534912109375,
      "learning_rate": 2.7281387456128017e-06,
      "loss": 0.0005,
      "num_tokens": 16031983.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 260
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 652.0,
      "completions/max_terminated_length": 652.0,
      "completions/mean_length": 325.28125,
      "completions/mean_terminated_length": 325.28125,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.11685695097380792,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.24249126699613055,
      "kl": 0.05316162109375,
      "learning_rate": 2.7135655951943716e-06,
      "loss": 0.0042,
      "num_tokens": 16086537.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 261
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 713.0,
      "completions/max_terminated_length": 713.0,
      "completions/mean_length": 300.046875,
      "completions/mean_terminated_length": 300.046875,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.11730467875531676,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013439813488672046,
      "kl": 0.05096435546875,
      "learning_rate": 2.698993973490598e-06,
      "loss": 0.0005,
      "num_tokens": 16143916.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 262
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 613.0,
      "completions/max_terminated_length": 613.0,
      "completions/mean_length": 317.296875,
      "completions/mean_terminated_length": 317.296875,
      "completions/min_length": 82.0,
      "completions/min_terminated_length": 82.0,
      "epoch": 0.11775240653682562,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01533539715680547,
      "kl": 0.0513916015625,
      "learning_rate": 2.6844244918975416e-06,
      "loss": 0.0005,
      "num_tokens": 16199187.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 263
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 887.0,
      "completions/max_terminated_length": 887.0,
      "completions/mean_length": 373.171875,
      "completions/mean_terminated_length": 373.171875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.11820013431833445,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014491057521577602,
      "kl": 0.048828125,
      "learning_rate": 2.66985776172147e-06,
      "loss": 0.0005,
      "num_tokens": 16261454.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 264
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 786.0,
      "completions/mean_length": 380.875,
      "completions/mean_terminated_length": 360.1290283203125,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.1186478620998433,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2752703492769468,
      "kl": 0.049560546875,
      "learning_rate": 2.6552943941532088e-06,
      "loss": 0.0074,
      "num_tokens": 16329314.0,
      "reward": 0.07343749701976776,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.734375,
      "rewards/format_reward/std": 0.44515693187713623,
      "step": 265
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 689.0,
      "completions/max_terminated_length": 689.0,
      "completions/mean_length": 327.515625,
      "completions/mean_terminated_length": 327.515625,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.11909558988135213,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014517900795190433,
      "kl": 0.0482177734375,
      "learning_rate": 2.6407350002424927e-06,
      "loss": 0.0005,
      "num_tokens": 16388551.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 266
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 618.0,
      "completions/max_terminated_length": 618.0,
      "completions/mean_length": 346.484375,
      "completions/mean_terminated_length": 346.484375,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.11954331766286098,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2243853030134736,
      "kl": 0.051025390625,
      "learning_rate": 2.626180190872329e-06,
      "loss": 0.0047,
      "num_tokens": 16447186.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 267
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 932.0,
      "completions/max_terminated_length": 932.0,
      "completions/mean_length": 354.0,
      "completions/mean_terminated_length": 354.0,
      "completions/min_length": 74.0,
      "completions/min_terminated_length": 74.0,
      "epoch": 0.11999104544436982,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.020407666371523338,
      "kl": 0.0501708984375,
      "learning_rate": 2.611630576733372e-06,
      "loss": 0.0005,
      "num_tokens": 16508466.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 268
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 938.0,
      "completions/max_terminated_length": 938.0,
      "completions/mean_length": 320.75,
      "completions/mean_terminated_length": 320.75,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.12043877322587866,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.1677517235828362,
      "kl": 0.0467529296875,
      "learning_rate": 2.5970867682982885e-06,
      "loss": -0.0062,
      "num_tokens": 16564222.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 269
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 940.0,
      "completions/max_terminated_length": 940.0,
      "completions/mean_length": 344.796875,
      "completions/mean_terminated_length": 344.796875,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.12088650100738751,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.18318277551829185,
      "kl": 0.04461669921875,
      "learning_rate": 2.582549375796154e-06,
      "loss": -0.0018,
      "num_tokens": 16629101.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 270
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 836.0,
      "completions/max_terminated_length": 836.0,
      "completions/mean_length": 311.546875,
      "completions/mean_terminated_length": 311.546875,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.12133422878889635,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012684026133568936,
      "kl": 0.04638671875,
      "learning_rate": 2.568019009186841e-06,
      "loss": 0.0005,
      "num_tokens": 16678520.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 271
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 957.0,
      "completions/mean_length": 421.25,
      "completions/mean_terminated_length": 401.8064270019531,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.12178195657040519,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.24173374936072017,
      "kl": 0.04901123046875,
      "learning_rate": 2.5534962781354317e-06,
      "loss": -0.0005,
      "num_tokens": 16744612.0,
      "reward": 0.07968749850988388,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.796875,
      "rewards/format_reward/std": 0.40550529956817627,
      "step": 272
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 689.0,
      "completions/max_terminated_length": 689.0,
      "completions/mean_length": 297.765625,
      "completions/mean_terminated_length": 297.765625,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.12222968435191403,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.017131988512035217,
      "kl": 0.052978515625,
      "learning_rate": 2.538981791986634e-06,
      "loss": 0.0005,
      "num_tokens": 16798445.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 273
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 692.0,
      "completions/max_terminated_length": 692.0,
      "completions/mean_length": 315.1875,
      "completions/mean_terminated_length": 315.1875,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.12267741213342288,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.015710035141781816,
      "kl": 0.04718017578125,
      "learning_rate": 2.524476159739218e-06,
      "loss": 0.0005,
      "num_tokens": 16858325.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 274
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 732.0,
      "completions/max_terminated_length": 732.0,
      "completions/mean_length": 338.53125,
      "completions/mean_terminated_length": 338.53125,
      "completions/min_length": 83.0,
      "completions/min_terminated_length": 83.0,
      "epoch": 0.12312513991493172,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013773652232171484,
      "kl": 0.0472412109375,
      "learning_rate": 2.5099799900204607e-06,
      "loss": 0.0005,
      "num_tokens": 16921255.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 275
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 943.0,
      "completions/mean_length": 398.9375,
      "completions/mean_terminated_length": 378.774169921875,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.12357286769644056,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013067481184762034,
      "kl": 0.04046630859375,
      "learning_rate": 2.4954938910606108e-06,
      "loss": 0.0004,
      "num_tokens": 16991375.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 276
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 909.0,
      "completions/max_terminated_length": 909.0,
      "completions/mean_length": 355.375,
      "completions/mean_terminated_length": 355.375,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.12402059547794941,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3320415114603828,
      "kl": 0.052001953125,
      "learning_rate": 2.481018470667368e-06,
      "loss": -0.0149,
      "num_tokens": 17055147.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 277
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 749.0,
      "completions/mean_length": 352.828125,
      "completions/mean_terminated_length": 342.17462158203125,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.12446832325945825,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2137711232092068,
      "kl": 0.04644775390625,
      "learning_rate": 2.4665543362003802e-06,
      "loss": 0.0114,
      "num_tokens": 17116428.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 278
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 887.0,
      "completions/max_terminated_length": 887.0,
      "completions/mean_length": 374.453125,
      "completions/mean_terminated_length": 374.453125,
      "completions/min_length": 77.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.12491605104096709,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011992929360278886,
      "kl": 0.0458984375,
      "learning_rate": 2.4521020945457615e-06,
      "loss": 0.0005,
      "num_tokens": 17181141.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 279
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 765.0,
      "completions/max_terminated_length": 765.0,
      "completions/mean_length": 347.921875,
      "completions/mean_terminated_length": 347.921875,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.12536377882247593,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.18346265650909735,
      "kl": 0.05218505859375,
      "learning_rate": 2.4376623520906255e-06,
      "loss": -0.0078,
      "num_tokens": 17241428.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 280
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 879.0,
      "completions/mean_length": 336.265625,
      "completions/mean_terminated_length": 325.3492126464844,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.12581150660398477,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2399658824921971,
      "kl": 0.0574951171875,
      "learning_rate": 2.4232357146976478e-06,
      "loss": 0.0119,
      "num_tokens": 17296621.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 281
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 878.0,
      "completions/max_terminated_length": 878.0,
      "completions/mean_length": 312.203125,
      "completions/mean_terminated_length": 312.203125,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.1262592343854936,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012145243856659231,
      "kl": 0.04718017578125,
      "learning_rate": 2.408822787679637e-06,
      "loss": 0.0005,
      "num_tokens": 17351866.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 282
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1005.0,
      "completions/mean_length": 365.703125,
      "completions/mean_terminated_length": 355.2539978027344,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.12670696216700247,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3641985722289619,
      "kl": 0.04473876953125,
      "learning_rate": 2.3944241757741475e-06,
      "loss": 0.017,
      "num_tokens": 17413743.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 283
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 711.0,
      "completions/max_terminated_length": 711.0,
      "completions/mean_length": 325.46875,
      "completions/mean_terminated_length": 325.46875,
      "completions/min_length": 88.0,
      "completions/min_terminated_length": 88.0,
      "epoch": 0.1271546899485113,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.243398469253726,
      "kl": 0.05450439453125,
      "learning_rate": 2.380040483118097e-06,
      "loss": 0.0042,
      "num_tokens": 17466573.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 284
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 873.0,
      "completions/max_terminated_length": 873.0,
      "completions/mean_length": 391.0625,
      "completions/mean_terminated_length": 391.0625,
      "completions/min_length": 65.0,
      "completions/min_terminated_length": 65.0,
      "epoch": 0.12760241773002015,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2960657274131704,
      "kl": 0.045654296875,
      "learning_rate": 2.365672313222419e-06,
      "loss": -0.001,
      "num_tokens": 17534289.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 285
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 856.0,
      "completions/max_terminated_length": 856.0,
      "completions/mean_length": 374.25,
      "completions/mean_terminated_length": 374.25,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.128050145511529,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012925630582699273,
      "kl": 0.04339599609375,
      "learning_rate": 2.351320268946749e-06,
      "loss": 0.0004,
      "num_tokens": 17597145.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 286
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 887.0,
      "completions/max_terminated_length": 887.0,
      "completions/mean_length": 327.875,
      "completions/mean_terminated_length": 327.875,
      "completions/min_length": 77.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.12849787329303783,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2716530006363564,
      "kl": 0.05853271484375,
      "learning_rate": 2.336984952474119e-06,
      "loss": 0.0023,
      "num_tokens": 17655113.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 287
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 924.0,
      "completions/mean_length": 420.921875,
      "completions/mean_terminated_length": 411.3492431640625,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.12894560107454667,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.29592855952696195,
      "kl": 0.05853271484375,
      "learning_rate": 2.322666965285697e-06,
      "loss": 0.0024,
      "num_tokens": 17720728.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 288
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 641.0,
      "completions/max_terminated_length": 641.0,
      "completions/mean_length": 309.09375,
      "completions/mean_terminated_length": 309.09375,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.1293933288560555,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014570749698990635,
      "kl": 0.05078125,
      "learning_rate": 2.3083669081355507e-06,
      "loss": 0.0005,
      "num_tokens": 17776706.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 289
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 666.0,
      "completions/max_terminated_length": 666.0,
      "completions/mean_length": 325.4375,
      "completions/mean_terminated_length": 325.4375,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.12984105663756437,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013516494724831137,
      "kl": 0.04888916015625,
      "learning_rate": 2.2940853810254377e-06,
      "loss": 0.0005,
      "num_tokens": 17834654.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 290
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 736.0,
      "completions/mean_length": 357.125,
      "completions/mean_terminated_length": 335.6128845214844,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.1302887844190732,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013814665809211969,
      "kl": 0.04730224609375,
      "learning_rate": 2.2798229831796313e-06,
      "loss": 0.0005,
      "num_tokens": 17898778.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 291
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 851.0,
      "completions/max_terminated_length": 851.0,
      "completions/mean_length": 324.78125,
      "completions/mean_terminated_length": 324.78125,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.13073651220058205,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014986795791443236,
      "kl": 0.04718017578125,
      "learning_rate": 2.2655803130197816e-06,
      "loss": 0.0005,
      "num_tokens": 17952268.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 292
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 695.0,
      "completions/max_terminated_length": 695.0,
      "completions/mean_length": 326.5625,
      "completions/mean_terminated_length": 326.5625,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.1311842399820909,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.336299881473036,
      "kl": 0.073486328125,
      "learning_rate": 2.2513579681398034e-06,
      "loss": 0.0002,
      "num_tokens": 18006408.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 293
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 956.0,
      "completions/max_terminated_length": 956.0,
      "completions/mean_length": 316.421875,
      "completions/mean_terminated_length": 316.421875,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.13163196776359973,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014344086043146345,
      "kl": 0.049560546875,
      "learning_rate": 2.237156545280803e-06,
      "loss": 0.0005,
      "num_tokens": 18059883.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 294
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 648.0,
      "completions/max_terminated_length": 648.0,
      "completions/mean_length": 318.53125,
      "completions/mean_terminated_length": 318.53125,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.13207969554510857,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.03847696865986134,
      "kl": 0.05322265625,
      "learning_rate": 2.2229766403060403e-06,
      "loss": 0.0005,
      "num_tokens": 18120985.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 295
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 714.0,
      "completions/max_terminated_length": 714.0,
      "completions/mean_length": 284.421875,
      "completions/mean_terminated_length": 284.421875,
      "completions/min_length": 92.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.1325274233266174,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014457184260230951,
      "kl": 0.05072021484375,
      "learning_rate": 2.2088188481759305e-06,
      "loss": 0.0005,
      "num_tokens": 18172868.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 296
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1001.0,
      "completions/max_terminated_length": 1001.0,
      "completions/mean_length": 338.140625,
      "completions/mean_terminated_length": 338.140625,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.13297515110812627,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014922078590769387,
      "kl": 0.04949951171875,
      "learning_rate": 2.194683762923073e-06,
      "loss": 0.0005,
      "num_tokens": 18231753.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 297
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 817.0,
      "completions/max_terminated_length": 817.0,
      "completions/mean_length": 336.71875,
      "completions/mean_terminated_length": 336.71875,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.1334228788896351,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2191613352723917,
      "kl": 0.0570068359375,
      "learning_rate": 2.1805719776273387e-06,
      "loss": 0.0054,
      "num_tokens": 18290591.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 298
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 769.0,
      "completions/max_terminated_length": 769.0,
      "completions/mean_length": 347.25,
      "completions/mean_terminated_length": 347.25,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.13387060667114395,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012757743061999515,
      "kl": 0.04248046875,
      "learning_rate": 2.166484084390974e-06,
      "loss": 0.0004,
      "num_tokens": 18348299.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 299
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 863.0,
      "completions/max_terminated_length": 863.0,
      "completions/mean_length": 368.21875,
      "completions/mean_terminated_length": 368.21875,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.1343183344526528,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011479898392733673,
      "kl": 0.0462646484375,
      "learning_rate": 2.1524206743137636e-06,
      "loss": 0.0005,
      "num_tokens": 18414937.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 300
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 671.0,
      "completions/max_terminated_length": 671.0,
      "completions/mean_length": 338.78125,
      "completions/mean_terminated_length": 338.78125,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.13476606223416163,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013392502193683504,
      "kl": 0.045654296875,
      "learning_rate": 2.1383823374682287e-06,
      "loss": 0.0005,
      "num_tokens": 18472351.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 301
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 786.0,
      "completions/max_terminated_length": 786.0,
      "completions/mean_length": 353.265625,
      "completions/mean_terminated_length": 353.265625,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.13521379001567047,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012207822680527737,
      "kl": 0.0447998046875,
      "learning_rate": 2.124369662874868e-06,
      "loss": 0.0004,
      "num_tokens": 18535668.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 302
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 824.0,
      "completions/max_terminated_length": 824.0,
      "completions/mean_length": 374.296875,
      "completions/mean_terminated_length": 374.296875,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.1356615177971793,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.18304442898922435,
      "kl": 0.0523681640625,
      "learning_rate": 2.110383238477441e-06,
      "loss": -0.0023,
      "num_tokens": 18595483.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 303
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 837.0,
      "completions/mean_length": 384.109375,
      "completions/mean_terminated_length": 373.952392578125,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.13610924557868817,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.22865871780121036,
      "kl": 0.04315185546875,
      "learning_rate": 2.096423651118305e-06,
      "loss": 0.0112,
      "num_tokens": 18656286.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 304
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 785.0,
      "completions/max_terminated_length": 785.0,
      "completions/mean_length": 336.25,
      "completions/mean_terminated_length": 336.25,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.136556973360197,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2254795763441184,
      "kl": 0.04864501953125,
      "learning_rate": 2.082491486513788e-06,
      "loss": 0.0017,
      "num_tokens": 18715234.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 305
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1002.0,
      "completions/mean_length": 382.984375,
      "completions/mean_terminated_length": 362.3064270019531,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.13700470114170585,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.32193860130244195,
      "kl": 0.04608154296875,
      "learning_rate": 2.0685873292296116e-06,
      "loss": -0.007,
      "num_tokens": 18774913.0,
      "reward": 0.08749999850988388,
      "reward_std": 0.007216878701001406,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 306
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 665.0,
      "completions/max_terminated_length": 665.0,
      "completions/mean_length": 320.71875,
      "completions/mean_terminated_length": 320.71875,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.1374524289232147,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010964513403072794,
      "kl": 0.04705810546875,
      "learning_rate": 2.054711762656369e-06,
      "loss": 0.0005,
      "num_tokens": 18828371.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 307
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 732.0,
      "completions/max_terminated_length": 732.0,
      "completions/mean_length": 348.984375,
      "completions/mean_terminated_length": 348.984375,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.13790015670472353,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011220798453184456,
      "kl": 0.04327392578125,
      "learning_rate": 2.040865368985044e-06,
      "loss": 0.0004,
      "num_tokens": 18890274.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 308
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 587.0,
      "completions/max_terminated_length": 587.0,
      "completions/mean_length": 308.25,
      "completions/mean_terminated_length": 308.25,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.13834788448623236,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.605921303619608,
      "kl": 0.0618896484375,
      "learning_rate": 2.027048729182583e-06,
      "loss": 0.0027,
      "num_tokens": 18944590.0,
      "reward": 0.09375,
      "reward_std": 0.012500000186264515,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 309
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 747.0,
      "completions/max_terminated_length": 747.0,
      "completions/mean_length": 366.109375,
      "completions/mean_terminated_length": 366.109375,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.1387956122677412,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.35174367000657925,
      "kl": 0.04443359375,
      "learning_rate": 2.0132624229675205e-06,
      "loss": 0.0136,
      "num_tokens": 19005153.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 310
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 919.0,
      "completions/max_terminated_length": 919.0,
      "completions/mean_length": 397.390625,
      "completions/mean_terminated_length": 397.390625,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.13924334004925007,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010832673092868294,
      "kl": 0.03997802734375,
      "learning_rate": 1.9995070287856546e-06,
      "loss": 0.0004,
      "num_tokens": 19069126.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 311
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 965.0,
      "completions/max_terminated_length": 965.0,
      "completions/mean_length": 368.90625,
      "completions/mean_terminated_length": 368.90625,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.1396910678307589,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2865567698221809,
      "kl": 0.042236328125,
      "learning_rate": 1.985783123785774e-06,
      "loss": -0.0035,
      "num_tokens": 19130156.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 312
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 805.0,
      "completions/mean_length": 377.65625,
      "completions/mean_terminated_length": 356.8064270019531,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.14013879561226775,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.13412098493316726,
      "kl": 0.0408935546875,
      "learning_rate": 1.9720912837954486e-06,
      "loss": -0.0001,
      "num_tokens": 19192670.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 313
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 815.0,
      "completions/max_terminated_length": 815.0,
      "completions/mean_length": 370.9375,
      "completions/mean_terminated_length": 370.9375,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.14058652339377659,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.02675508628534815,
      "kl": 0.04486083984375,
      "learning_rate": 1.958432083296862e-06,
      "loss": 0.0004,
      "num_tokens": 19254870.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 314
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 930.0,
      "completions/max_terminated_length": 930.0,
      "completions/mean_length": 350.75,
      "completions/mean_terminated_length": 350.75,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.14103425117528542,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011303774551753456,
      "kl": 0.04345703125,
      "learning_rate": 1.9448060954027093e-06,
      "loss": 0.0004,
      "num_tokens": 19315538.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 315
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 940.0,
      "completions/max_terminated_length": 940.0,
      "completions/mean_length": 368.890625,
      "completions/mean_terminated_length": 368.890625,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.14148197895679426,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012467290293817098,
      "kl": 0.04852294921875,
      "learning_rate": 1.931213891832153e-06,
      "loss": 0.0005,
      "num_tokens": 19383835.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 316
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 963.0,
      "completions/max_terminated_length": 963.0,
      "completions/mean_length": 361.421875,
      "completions/mean_terminated_length": 361.421875,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.1419297067383031,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012480813783739962,
      "kl": 0.04510498046875,
      "learning_rate": 1.9176560428868336e-06,
      "loss": 0.0005,
      "num_tokens": 19441402.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 317
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 811.0,
      "completions/max_terminated_length": 811.0,
      "completions/mean_length": 358.65625,
      "completions/mean_terminated_length": 358.65625,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.14237743451981194,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01937414908343973,
      "kl": 0.04559326171875,
      "learning_rate": 1.9041331174269373e-06,
      "loss": 0.0005,
      "num_tokens": 19504808.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 318
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 730.0,
      "completions/max_terminated_length": 730.0,
      "completions/mean_length": 337.25,
      "completions/mean_terminated_length": 337.25,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.1428251623013208,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011709025453202446,
      "kl": 0.04351806640625,
      "learning_rate": 1.8906456828473341e-06,
      "loss": 0.0004,
      "num_tokens": 19560032.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 319
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.5,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 973.0,
      "completions/mean_length": 420.6875,
      "completions/mean_terminated_length": 380.4666748046875,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.14327289008282965,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.19766478882371089,
      "kl": 0.04449462890625,
      "learning_rate": 1.8771943050537656e-06,
      "loss": 0.0076,
      "num_tokens": 19625800.0,
      "reward": 0.07968750596046448,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.796875,
      "rewards/format_reward/std": 0.40550529956817627,
      "step": 320
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 785.0,
      "completions/mean_length": 371.53125,
      "completions/mean_terminated_length": 361.17462158203125,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.14372061786433848,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.18623607454796703,
      "kl": 0.04278564453125,
      "learning_rate": 1.8637795484391046e-06,
      "loss": 0.0052,
      "num_tokens": 19684182.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 321
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 743.0,
      "completions/mean_length": 370.40625,
      "completions/mean_terminated_length": 349.32257080078125,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.14416834564584732,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011138566211770068,
      "kl": 0.04351806640625,
      "learning_rate": 1.8504019758596698e-06,
      "loss": 0.0004,
      "num_tokens": 19744308.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 322
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 859.0,
      "completions/max_terminated_length": 859.0,
      "completions/mean_length": 365.625,
      "completions/mean_terminated_length": 365.625,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.14461607342735616,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012275501882805967,
      "kl": 0.045166015625,
      "learning_rate": 1.8370621486116163e-06,
      "loss": 0.0005,
      "num_tokens": 19808488.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 323
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1016.0,
      "completions/mean_length": 383.296875,
      "completions/mean_terminated_length": 373.12701416015625,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.145063801208865,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012444166676227698,
      "kl": 0.04302978515625,
      "learning_rate": 1.823760626407377e-06,
      "loss": 0.0004,
      "num_tokens": 19874571.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 324
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 620.0,
      "completions/max_terminated_length": 620.0,
      "completions/mean_length": 348.328125,
      "completions/mean_terminated_length": 348.328125,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.14551152899037384,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 2.121566882068331,
      "kl": 0.095458984375,
      "learning_rate": 1.8104979673521838e-06,
      "loss": 0.001,
      "num_tokens": 19932520.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 325
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 886.0,
      "completions/mean_length": 404.6875,
      "completions/mean_terminated_length": 394.857177734375,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.1459592567718827,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011175300174020492,
      "kl": 0.041748046875,
      "learning_rate": 1.7972747279206482e-06,
      "loss": 0.0004,
      "num_tokens": 19998584.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 326
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 936.0,
      "completions/mean_length": 345.4375,
      "completions/mean_terminated_length": 334.66668701171875,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.14640698455339154,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.27136853160570584,
      "kl": 0.04443359375,
      "learning_rate": 1.7840914629334122e-06,
      "loss": 0.0191,
      "num_tokens": 20060488.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 327
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1011.0,
      "completions/max_terminated_length": 1011.0,
      "completions/mean_length": 369.703125,
      "completions/mean_terminated_length": 369.703125,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.14685471233490038,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01176536171551735,
      "kl": 0.046875,
      "learning_rate": 1.7709487255338731e-06,
      "loss": 0.0005,
      "num_tokens": 20116445.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 328
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 951.0,
      "completions/max_terminated_length": 951.0,
      "completions/mean_length": 357.0,
      "completions/mean_terminated_length": 357.0,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.14730244011640922,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013196868819519687,
      "kl": 0.04632568359375,
      "learning_rate": 1.7578470671649684e-06,
      "loss": 0.0005,
      "num_tokens": 20179193.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 329
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1017.0,
      "completions/max_terminated_length": 1017.0,
      "completions/mean_length": 365.84375,
      "completions/mean_terminated_length": 365.84375,
      "completions/min_length": 65.0,
      "completions/min_terminated_length": 65.0,
      "epoch": 0.14775016789791806,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011597490811811544,
      "kl": 0.04656982421875,
      "learning_rate": 1.744787037546045e-06,
      "loss": 0.0005,
      "num_tokens": 20244703.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 330
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 736.0,
      "completions/mean_length": 350.1875,
      "completions/mean_terminated_length": 328.45159912109375,
      "completions/min_length": 92.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.1481978956794269,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.2600098173620476,
      "kl": 0.04608154296875,
      "learning_rate": 1.731769184649788e-06,
      "loss": 0.0127,
      "num_tokens": 20303539.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 331
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 778.0,
      "completions/mean_length": 366.921875,
      "completions/mean_terminated_length": 356.4920959472656,
      "completions/min_length": 60.0,
      "completions/min_terminated_length": 60.0,
      "epoch": 0.14864562346093574,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.1956469312432158,
      "kl": 0.044921875,
      "learning_rate": 1.7187940546792325e-06,
      "loss": 0.0271,
      "num_tokens": 20364350.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 332
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 846.0,
      "completions/max_terminated_length": 846.0,
      "completions/mean_length": 328.046875,
      "completions/mean_terminated_length": 328.046875,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.1490933512424446,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2787144156832625,
      "kl": 0.05352783203125,
      "learning_rate": 1.7058621920448465e-06,
      "loss": 0.0195,
      "num_tokens": 20423041.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 333
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 595.0,
      "completions/max_terminated_length": 595.0,
      "completions/mean_length": 324.109375,
      "completions/mean_terminated_length": 324.109375,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.14954107902395344,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013036173042637137,
      "kl": 0.0465087890625,
      "learning_rate": 1.6929741393416855e-06,
      "loss": 0.0005,
      "num_tokens": 20485136.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 334
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 793.0,
      "completions/max_terminated_length": 793.0,
      "completions/mean_length": 326.890625,
      "completions/mean_terminated_length": 326.890625,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.14998880680546228,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012107841210714015,
      "kl": 0.0439453125,
      "learning_rate": 1.6801304373266286e-06,
      "loss": 0.0004,
      "num_tokens": 20540485.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 335
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 843.0,
      "completions/max_terminated_length": 843.0,
      "completions/mean_length": 358.234375,
      "completions/mean_terminated_length": 358.234375,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.15043653458697112,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01114299877878051,
      "kl": 0.04132080078125,
      "learning_rate": 1.667331624895689e-06,
      "loss": 0.0004,
      "num_tokens": 20599108.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 336
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 856.0,
      "completions/max_terminated_length": 856.0,
      "completions/mean_length": 372.828125,
      "completions/mean_terminated_length": 372.828125,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.15088426236847996,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011661149889276934,
      "kl": 0.0439453125,
      "learning_rate": 1.6545782390614037e-06,
      "loss": 0.0004,
      "num_tokens": 20660901.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 337
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 704.0,
      "completions/mean_length": 351.28125,
      "completions/mean_terminated_length": 340.6031799316406,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.1513319901499888,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.23058890884791503,
      "kl": 0.04364013671875,
      "learning_rate": 1.6418708149302992e-06,
      "loss": 0.0129,
      "num_tokens": 20724599.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 338
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 795.0,
      "completions/max_terminated_length": 795.0,
      "completions/mean_length": 291.734375,
      "completions/mean_terminated_length": 291.734375,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.15177971793149764,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012517753924485314,
      "kl": 0.0439453125,
      "learning_rate": 1.6292098856804423e-06,
      "loss": 0.0004,
      "num_tokens": 20776194.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 339
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 708.0,
      "completions/mean_length": 373.265625,
      "completions/mean_terminated_length": 362.9365234375,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.1522274457130065,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.24108004835252014,
      "kl": 0.0428466796875,
      "learning_rate": 1.6165959825390661e-06,
      "loss": 0.0067,
      "num_tokens": 20840327.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 340
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 893.0,
      "completions/mean_length": 349.5,
      "completions/mean_terminated_length": 338.7936706542969,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.15267517349451534,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.27282590476101154,
      "kl": 0.04986572265625,
      "learning_rate": 1.604029634760284e-06,
      "loss": 0.0029,
      "num_tokens": 20902251.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 341
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 676.0,
      "completions/max_terminated_length": 676.0,
      "completions/mean_length": 310.578125,
      "completions/mean_terminated_length": 310.578125,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.15312290127602418,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2212162044384183,
      "kl": 0.05340576171875,
      "learning_rate": 1.59151136960288e-06,
      "loss": 0.0015,
      "num_tokens": 20952900.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 342
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 816.0,
      "completions/max_terminated_length": 816.0,
      "completions/mean_length": 318.953125,
      "completions/mean_terminated_length": 318.953125,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.15357062905753302,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011903390334681832,
      "kl": 0.04339599609375,
      "learning_rate": 1.5790417123081903e-06,
      "loss": 0.0004,
      "num_tokens": 21009733.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 343
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 836.0,
      "completions/max_terminated_length": 836.0,
      "completions/mean_length": 347.296875,
      "completions/mean_terminated_length": 347.296875,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.15401835683904186,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011162638578563469,
      "kl": 0.0435791015625,
      "learning_rate": 1.5666211860780583e-06,
      "loss": 0.0004,
      "num_tokens": 21069592.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 344
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 555.0,
      "completions/max_terminated_length": 555.0,
      "completions/mean_length": 295.765625,
      "completions/mean_terminated_length": 295.765625,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.1544660846205507,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2106323384261992,
      "kl": 0.0445556640625,
      "learning_rate": 1.5542503120528918e-06,
      "loss": 0.0002,
      "num_tokens": 21119069.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 345
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 872.0,
      "completions/mean_length": 348.140625,
      "completions/mean_terminated_length": 337.4127197265625,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.15491381240205954,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3412984151070734,
      "kl": 0.05767822265625,
      "learning_rate": 1.5419296092897866e-06,
      "loss": 0.0063,
      "num_tokens": 21177802.0,
      "reward": 0.09531250596046448,
      "reward_std": 0.006733439397066832,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.953125,
      "rewards/format_reward/std": 0.21304203569889069,
      "step": 346
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 658.0,
      "completions/max_terminated_length": 658.0,
      "completions/mean_length": 320.421875,
      "completions/mean_terminated_length": 320.421875,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.1553615401835684,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012224549244665163,
      "kl": 0.04449462890625,
      "learning_rate": 1.529659594740755e-06,
      "loss": 0.0004,
      "num_tokens": 21234305.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 347
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1022.0,
      "completions/max_terminated_length": 1022.0,
      "completions/mean_length": 431.234375,
      "completions/mean_terminated_length": 431.234375,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.15580926796507724,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011579766193651198,
      "kl": 0.04150390625,
      "learning_rate": 1.5174407832310338e-06,
      "loss": 0.0004,
      "num_tokens": 21300736.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 348
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 934.0,
      "completions/max_terminated_length": 934.0,
      "completions/mean_length": 404.859375,
      "completions/mean_terminated_length": 404.859375,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.15625699574658608,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10677088644727006,
      "kl": 0.04541015625,
      "learning_rate": 1.5052736874374815e-06,
      "loss": 0.0005,
      "num_tokens": 21367147.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 349
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 562.0,
      "completions/max_terminated_length": 562.0,
      "completions/mean_length": 299.703125,
      "completions/mean_terminated_length": 299.703125,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.15670472352809492,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011767339522723385,
      "kl": 0.044189453125,
      "learning_rate": 1.4931588178670695e-06,
      "loss": 0.0004,
      "num_tokens": 21421084.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 350
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 743.0,
      "completions/mean_length": 363.859375,
      "completions/mean_terminated_length": 331.3934326171875,
      "completions/min_length": 87.0,
      "completions/min_terminated_length": 87.0,
      "epoch": 0.15715245130960376,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 1.9016642941905717,
      "kl": 0.29638671875,
      "learning_rate": 1.4810966828354605e-06,
      "loss": 0.0034,
      "num_tokens": 21479715.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 351
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 836.0,
      "completions/mean_length": 399.640625,
      "completions/mean_terminated_length": 389.7301940917969,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.1576001790911126,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.1771297896994585,
      "kl": 0.0404052734375,
      "learning_rate": 1.469087788445684e-06,
      "loss": 0.0121,
      "num_tokens": 21543964.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 352
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 772.0,
      "completions/max_terminated_length": 772.0,
      "completions/mean_length": 349.859375,
      "completions/mean_terminated_length": 349.859375,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.15804790687262144,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.3070882936693438,
      "kl": 0.04705810546875,
      "learning_rate": 1.4571326385668965e-06,
      "loss": 0.0064,
      "num_tokens": 21603175.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 353
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 711.0,
      "completions/mean_length": 394.03125,
      "completions/mean_terminated_length": 373.70965576171875,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.1584956346541303,
      "frac_reward_zero_std": 0.5625,
      "grad_norm": 0.7363074460518613,
      "kl": 0.047119140625,
      "learning_rate": 1.4452317348132434e-06,
      "loss": -0.0078,
      "num_tokens": 21665533.0,
      "reward": 0.0703125,
      "reward_std": 0.022841880097985268,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.703125,
      "rewards/format_reward/std": 0.4604927599430084,
      "step": 354
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 761.0,
      "completions/max_terminated_length": 761.0,
      "completions/mean_length": 330.28125,
      "completions/mean_terminated_length": 330.28125,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.15894336243563914,
      "frac_reward_zero_std": 0.3125,
      "grad_norm": 0.9278127422977464,
      "kl": 0.05181884765625,
      "learning_rate": 1.4333855765228104e-06,
      "loss": -0.1049,
      "num_tokens": 21726443.0,
      "reward": 0.0703125,
      "reward_std": 0.03534188121557236,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.703125,
      "rewards/format_reward/std": 0.4604927599430084,
      "step": 355
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 654.0,
      "completions/max_terminated_length": 654.0,
      "completions/mean_length": 339.546875,
      "completions/mean_terminated_length": 339.546875,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.15939109021714798,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.7824491695877421,
      "kl": 0.0478515625,
      "learning_rate": 1.421594660736675e-06,
      "loss": 0.0024,
      "num_tokens": 21780874.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.01875000074505806,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 356
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 872.0,
      "completions/max_terminated_length": 872.0,
      "completions/mean_length": 352.015625,
      "completions/mean_terminated_length": 352.015625,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.15983881799865682,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.44725976709391646,
      "kl": 0.04833984375,
      "learning_rate": 1.4098594821780476e-06,
      "loss": 0.0014,
      "num_tokens": 21838583.0,
      "reward": 0.08906249701976776,
      "reward_std": 0.00937500037252903,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.890625,
      "rewards/format_reward/std": 0.3145764470100403,
      "step": 357
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 691.0,
      "completions/max_terminated_length": 691.0,
      "completions/mean_length": 322.484375,
      "completions/mean_terminated_length": 322.484375,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.16028654578016566,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.167988020482637,
      "kl": 0.0423583984375,
      "learning_rate": 1.3981805332315174e-06,
      "loss": -0.0111,
      "num_tokens": 21893026.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 358
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 857.0,
      "completions/max_terminated_length": 857.0,
      "completions/mean_length": 367.046875,
      "completions/mean_terminated_length": 367.046875,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.1607342735616745,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013415627823442397,
      "kl": 0.04473876953125,
      "learning_rate": 1.3865583039223929e-06,
      "loss": 0.0004,
      "num_tokens": 21956801.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 359
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 710.0,
      "completions/max_terminated_length": 710.0,
      "completions/mean_length": 366.71875,
      "completions/mean_terminated_length": 366.71875,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.16118200134318333,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012309365022867459,
      "kl": 0.04583740234375,
      "learning_rate": 1.374993281896137e-06,
      "loss": 0.0005,
      "num_tokens": 22019567.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 360
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 640.0,
      "completions/mean_length": 353.796875,
      "completions/mean_terminated_length": 332.1773986816406,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.1616297291246922,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.26666169257744105,
      "kl": 0.04437255859375,
      "learning_rate": 1.3634859523979134e-06,
      "loss": -0.003,
      "num_tokens": 22080146.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 361
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 715.0,
      "completions/mean_length": 341.203125,
      "completions/mean_terminated_length": 330.3651123046875,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.16207745690620104,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010666848751758499,
      "kl": 0.04534912109375,
      "learning_rate": 1.3520367982522208e-06,
      "loss": 0.0005,
      "num_tokens": 22137411.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 362
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 935.0,
      "completions/max_terminated_length": 935.0,
      "completions/mean_length": 355.671875,
      "completions/mean_terminated_length": 355.671875,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.16252518468770988,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0202556994278716,
      "kl": 0.0452880859375,
      "learning_rate": 1.3406462998426358e-06,
      "loss": 0.0005,
      "num_tokens": 22201490.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 363
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 938.0,
      "completions/max_terminated_length": 938.0,
      "completions/mean_length": 345.546875,
      "completions/mean_terminated_length": 345.546875,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.16297291246921872,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014148201054908455,
      "kl": 0.0472412109375,
      "learning_rate": 1.3293149350916595e-06,
      "loss": 0.0005,
      "num_tokens": 22260417.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 364
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 817.0,
      "completions/mean_length": 407.703125,
      "completions/mean_terminated_length": 397.920654296875,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.16342064025072756,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01077458939443773,
      "kl": 0.0430908203125,
      "learning_rate": 1.3180431794406623e-06,
      "loss": 0.0004,
      "num_tokens": 22323562.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 365
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 826.0,
      "completions/max_terminated_length": 826.0,
      "completions/mean_length": 375.53125,
      "completions/mean_terminated_length": 375.53125,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.1638683680322364,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011303720193512126,
      "kl": 0.04766845703125,
      "learning_rate": 1.3068315058299358e-06,
      "loss": 0.0005,
      "num_tokens": 22385096.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 366
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 957.0,
      "completions/mean_length": 406.1875,
      "completions/mean_terminated_length": 386.258056640625,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.16431609581374523,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.34206541474939023,
      "kl": 0.045166015625,
      "learning_rate": 1.2956803846788503e-06,
      "loss": 0.0021,
      "num_tokens": 22450260.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 367
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 975.0,
      "completions/max_terminated_length": 975.0,
      "completions/mean_length": 376.40625,
      "completions/mean_terminated_length": 376.40625,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.16476382359525407,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014777599190877466,
      "kl": 0.0484619140625,
      "learning_rate": 1.284590283866116e-06,
      "loss": 0.0005,
      "num_tokens": 22513362.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 368
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 919.0,
      "completions/mean_length": 423.125,
      "completions/mean_terminated_length": 393.5737609863281,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.16521155137676294,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010510844116334336,
      "kl": 0.04498291015625,
      "learning_rate": 1.2735616687101518e-06,
      "loss": 0.0004,
      "num_tokens": 22578238.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 369
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 665.0,
      "completions/max_terminated_length": 665.0,
      "completions/mean_length": 349.5,
      "completions/mean_terminated_length": 349.5,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.16565927915827178,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011251164827607792,
      "kl": 0.0455322265625,
      "learning_rate": 1.2625950019495614e-06,
      "loss": 0.0005,
      "num_tokens": 22640146.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 370
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1004.0,
      "completions/mean_length": 380.953125,
      "completions/mean_terminated_length": 360.20965576171875,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.16610700693978062,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.015021723064528028,
      "kl": 0.0484619140625,
      "learning_rate": 1.251690743723718e-06,
      "loss": 0.0005,
      "num_tokens": 22703183.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 371
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1015.0,
      "completions/max_terminated_length": 1015.0,
      "completions/mean_length": 378.765625,
      "completions/mean_terminated_length": 378.765625,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.16655473472128945,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.02354856488634579,
      "kl": 0.046875,
      "learning_rate": 1.2408493515534581e-06,
      "loss": 0.0005,
      "num_tokens": 22763112.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 372
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 926.0,
      "completions/max_terminated_length": 926.0,
      "completions/mean_length": 408.3125,
      "completions/mean_terminated_length": 408.3125,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.1670024625027983,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014272981931199349,
      "kl": 0.05133056640625,
      "learning_rate": 1.2300712803218834e-06,
      "loss": 0.0005,
      "num_tokens": 22821352.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 373
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 928.0,
      "completions/max_terminated_length": 928.0,
      "completions/mean_length": 366.171875,
      "completions/mean_terminated_length": 366.171875,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.16745019028430713,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011093387801324212,
      "kl": 0.047607421875,
      "learning_rate": 1.2193569822552772e-06,
      "loss": 0.0005,
      "num_tokens": 22885287.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 374
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 833.0,
      "completions/max_terminated_length": 833.0,
      "completions/mean_length": 370.90625,
      "completions/mean_terminated_length": 370.90625,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.16789791806581597,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2351358388760685,
      "kl": 0.049560546875,
      "learning_rate": 1.2087069069041268e-06,
      "loss": 0.0025,
      "num_tokens": 22946425.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 375
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 724.0,
      "completions/mean_length": 354.515625,
      "completions/mean_terminated_length": 343.888916015625,
      "completions/min_length": 87.0,
      "completions/min_terminated_length": 87.0,
      "epoch": 0.16834564584732484,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012088735573049118,
      "kl": 0.05145263671875,
      "learning_rate": 1.1981215011242654e-06,
      "loss": 0.0005,
      "num_tokens": 23007174.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 376
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 918.0,
      "completions/max_terminated_length": 918.0,
      "completions/mean_length": 398.359375,
      "completions/mean_terminated_length": 398.359375,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.16879337362883368,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013134089659940163,
      "kl": 0.04876708984375,
      "learning_rate": 1.1876012090581184e-06,
      "loss": 0.0005,
      "num_tokens": 23071777.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 377
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.375,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 796.0,
      "completions/mean_length": 403.9375,
      "completions/mean_terminated_length": 351.38983154296875,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.16924110141034251,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010508015494314035,
      "kl": 0.04852294921875,
      "learning_rate": 1.177146472116071e-06,
      "loss": 0.0005,
      "num_tokens": 23137373.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 378
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 829.0,
      "completions/max_terminated_length": 829.0,
      "completions/mean_length": 366.265625,
      "completions/mean_terminated_length": 366.265625,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.16968882919185135,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01675931970386322,
      "kl": 0.04583740234375,
      "learning_rate": 1.1667577289579462e-06,
      "loss": 0.0005,
      "num_tokens": 23198614.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 379
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 850.0,
      "completions/mean_length": 410.203125,
      "completions/mean_terminated_length": 400.4603271484375,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.1701365569733602,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.22930425926694345,
      "kl": 0.052734375,
      "learning_rate": 1.1564354154746007e-06,
      "loss": 0.0152,
      "num_tokens": 23260831.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 380
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 741.0,
      "completions/mean_length": 413.5625,
      "completions/mean_terminated_length": 383.54095458984375,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.17058428475486903,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.19662091499393874,
      "kl": 0.03887939453125,
      "learning_rate": 1.146179964769635e-06,
      "loss": 0.0182,
      "num_tokens": 23326639.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 381
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 830.0,
      "completions/mean_length": 373.09375,
      "completions/mean_terminated_length": 362.7619323730469,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.17103201253637787,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011548812150662413,
      "kl": 0.0445556640625,
      "learning_rate": 1.1359918071412195e-06,
      "loss": 0.0004,
      "num_tokens": 23386225.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 382
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 881.0,
      "completions/max_terminated_length": 881.0,
      "completions/mean_length": 405.84375,
      "completions/mean_terminated_length": 405.84375,
      "completions/min_length": 74.0,
      "completions/min_terminated_length": 74.0,
      "epoch": 0.17147974031788674,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3233092133852868,
      "kl": 0.0576171875,
      "learning_rate": 1.1258713700640456e-06,
      "loss": 0.0202,
      "num_tokens": 23448755.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 383
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 974.0,
      "completions/max_terminated_length": 974.0,
      "completions/mean_length": 385.609375,
      "completions/mean_terminated_length": 385.609375,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.17192746809939558,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.02063761358200068,
      "kl": 0.04632568359375,
      "learning_rate": 1.115819078171383e-06,
      "loss": 0.0005,
      "num_tokens": 23512318.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 384
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 819.0,
      "completions/mean_length": 334.171875,
      "completions/mean_terminated_length": 323.22222900390625,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.1723751958809044,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.20324036520535219,
      "kl": 0.042724609375,
      "learning_rate": 1.1058353532372667e-06,
      "loss": 0.0146,
      "num_tokens": 23566257.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 385
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 961.0,
      "completions/max_terminated_length": 961.0,
      "completions/mean_length": 392.46875,
      "completions/mean_terminated_length": 392.46875,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.17282292366241325,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010225927439124014,
      "kl": 0.04376220703125,
      "learning_rate": 1.0959206141587998e-06,
      "loss": 0.0004,
      "num_tokens": 23628851.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 386
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1011.0,
      "completions/mean_length": 386.671875,
      "completions/mean_terminated_length": 376.5555725097656,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.1732706514439221,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.6531282882487613,
      "kl": 0.20526123046875,
      "learning_rate": 1.0860752769385766e-06,
      "loss": 0.0078,
      "num_tokens": 23689494.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 387
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 928.0,
      "completions/mean_length": 404.09375,
      "completions/mean_terminated_length": 373.6065368652344,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.17371837922543093,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2790770468431665,
      "kl": 0.05859375,
      "learning_rate": 1.0762997546672279e-06,
      "loss": 0.0013,
      "num_tokens": 23752836.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 388
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 786.0,
      "completions/mean_length": 356.40625,
      "completions/mean_terminated_length": 345.8095397949219,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.17416610700693977,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.19897003071788413,
      "kl": 0.0570068359375,
      "learning_rate": 1.0665944575060914e-06,
      "loss": -0.0089,
      "num_tokens": 23808650.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 389
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 972.0,
      "completions/max_terminated_length": 972.0,
      "completions/mean_length": 376.609375,
      "completions/mean_terminated_length": 376.609375,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.17461383478844864,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01084982090810172,
      "kl": 0.04144287109375,
      "learning_rate": 1.056959792669997e-06,
      "loss": 0.0004,
      "num_tokens": 23869289.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 390
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 899.0,
      "completions/mean_length": 447.046875,
      "completions/mean_terminated_length": 428.43548583984375,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.17506156256995747,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010684575520228267,
      "kl": 0.04290771484375,
      "learning_rate": 1.0473961644101856e-06,
      "loss": 0.0004,
      "num_tokens": 23936248.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 391
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 890.0,
      "completions/max_terminated_length": 890.0,
      "completions/mean_length": 381.671875,
      "completions/mean_terminated_length": 381.671875,
      "completions/min_length": 71.0,
      "completions/min_terminated_length": 71.0,
      "epoch": 0.1755092903514663,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.019101885783717232,
      "kl": 0.0504150390625,
      "learning_rate": 1.037903973997345e-06,
      "loss": 0.0005,
      "num_tokens": 23996159.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 392
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 904.0,
      "completions/mean_length": 416.625,
      "completions/mean_terminated_length": 386.75408935546875,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.17595701813297515,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.015513013707562421,
      "kl": 0.04803466796875,
      "learning_rate": 1.0284836197047737e-06,
      "loss": 0.0005,
      "num_tokens": 24063919.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 393
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 732.0,
      "completions/mean_length": 354.3125,
      "completions/mean_terminated_length": 343.68255615234375,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.176404745914484,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3313983528029109,
      "kl": 0.0526123046875,
      "learning_rate": 1.0191354967916712e-06,
      "loss": 0.0116,
      "num_tokens": 24122935.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 394
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 655.0,
      "completions/mean_length": 411.875,
      "completions/mean_terminated_length": 392.1290283203125,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.17685247369599283,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.4336274892142405,
      "kl": 0.0543212890625,
      "learning_rate": 1.0098599974865515e-06,
      "loss": 0.0343,
      "num_tokens": 24185647.0,
      "reward": 0.09375,
      "reward_std": 0.012500000186264515,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 395
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 918.0,
      "completions/mean_length": 422.734375,
      "completions/mean_terminated_length": 413.19049072265625,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.17730020147750167,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011488139144283916,
      "kl": 0.04302978515625,
      "learning_rate": 1.0006575109707898e-06,
      "loss": 0.0004,
      "num_tokens": 24251142.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 396
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 915.0,
      "completions/mean_length": 448.890625,
      "completions/mean_terminated_length": 430.33868408203125,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.17774792925901053,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.23282869941574355,
      "kl": 0.0438232421875,
      "learning_rate": 9.915284233622877e-07,
      "loss": 0.0201,
      "num_tokens": 24321355.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 397
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 760.0,
      "completions/mean_length": 340.59375,
      "completions/mean_terminated_length": 329.7460632324219,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.17819565704051937,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.22957090405635125,
      "kl": 0.04718017578125,
      "learning_rate": 9.824731176992796e-07,
      "loss": 0.0219,
      "num_tokens": 24375329.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 398
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 782.0,
      "completions/mean_length": 366.4375,
      "completions/mean_terminated_length": 356.0000305175781,
      "completions/min_length": 70.0,
      "completions/min_terminated_length": 70.0,
      "epoch": 0.1786433848220282,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011634190211840442,
      "kl": 0.04315185546875,
      "learning_rate": 9.734919739242543e-07,
      "loss": 0.0004,
      "num_tokens": 24430289.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 399
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 811.0,
      "completions/max_terminated_length": 811.0,
      "completions/mean_length": 347.484375,
      "completions/mean_terminated_length": 347.484375,
      "completions/min_length": 15.0,
      "completions/min_terminated_length": 15.0,
      "epoch": 0.17909111260353705,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.49182831618237555,
      "kl": 0.0555419921875,
      "learning_rate": 9.645853688680177e-07,
      "loss": 0.001,
      "num_tokens": 24496088.0,
      "reward": 0.09531249850988388,
      "reward_std": 0.00937500037252903,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.953125,
      "rewards/format_reward/std": 0.21304203569889069,
      "step": 400
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 890.0,
      "completions/max_terminated_length": 890.0,
      "completions/mean_length": 364.78125,
      "completions/mean_terminated_length": 364.78125,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.1795388403850459,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.221353195515073,
      "kl": 0.05108642578125,
      "learning_rate": 9.557536762338786e-07,
      "loss": 0.0126,
      "num_tokens": 24551726.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 401
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 739.0,
      "completions/mean_length": 396.703125,
      "completions/mean_terminated_length": 376.4677429199219,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.17998656816655473,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.4176913216640544,
      "kl": 0.06964111328125,
      "learning_rate": 9.46997266581973e-07,
      "loss": 0.0267,
      "num_tokens": 24618287.0,
      "reward": 0.09531250596046448,
      "reward_std": 0.00937500037252903,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.953125,
      "rewards/format_reward/std": 0.21304203569889069,
      "step": 402
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 984.0,
      "completions/max_terminated_length": 984.0,
      "completions/mean_length": 323.875,
      "completions/mean_terminated_length": 323.875,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.18043429594806357,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.4198037949066495,
      "kl": 0.0648193359375,
      "learning_rate": 9.383165073137115e-07,
      "loss": 0.0052,
      "num_tokens": 24672131.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 403
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 762.0,
      "completions/mean_length": 409.625,
      "completions/mean_terminated_length": 399.873046875,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.18088202372957243,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.28473203943614633,
      "kl": 0.04461669921875,
      "learning_rate": 9.297117626563687e-07,
      "loss": 0.0146,
      "num_tokens": 24740615.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 404
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 725.0,
      "completions/max_terminated_length": 725.0,
      "completions/mean_length": 375.0,
      "completions/mean_terminated_length": 375.0,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.18132975151108127,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.29589289584198547,
      "kl": 0.05108642578125,
      "learning_rate": 9.211833936477957e-07,
      "loss": -0.0064,
      "num_tokens": 24802083.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 405
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 899.0,
      "completions/mean_length": 384.234375,
      "completions/mean_terminated_length": 374.0793762207031,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.1817774792925901,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.27489415122311445,
      "kl": 0.04010009765625,
      "learning_rate": 9.127317581212753e-07,
      "loss": 0.0039,
      "num_tokens": 24859214.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 406
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 708.0,
      "completions/mean_length": 402.1875,
      "completions/mean_terminated_length": 371.6065368652344,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.18222520707409895,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.225389218394181,
      "kl": 0.05072021484375,
      "learning_rate": 9.043572106905084e-07,
      "loss": -0.0006,
      "num_tokens": 24925414.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 407
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 849.0,
      "completions/max_terminated_length": 849.0,
      "completions/mean_length": 374.40625,
      "completions/mean_terminated_length": 374.40625,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.1826729348556078,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010715446158266853,
      "kl": 0.045166015625,
      "learning_rate": 8.960601027347321e-07,
      "loss": 0.0005,
      "num_tokens": 24987284.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 408
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 860.0,
      "completions/max_terminated_length": 860.0,
      "completions/mean_length": 427.796875,
      "completions/mean_terminated_length": 427.796875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.18312066263711663,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.19353011717745783,
      "kl": 0.0504150390625,
      "learning_rate": 8.878407823839788e-07,
      "loss": -0.0223,
      "num_tokens": 25059131.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 409
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 893.0,
      "completions/mean_length": 421.296875,
      "completions/mean_terminated_length": 411.7301940917969,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.18356839041862547,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2122867674750713,
      "kl": 0.0452880859375,
      "learning_rate": 8.796995945044689e-07,
      "loss": -0.001,
      "num_tokens": 25124866.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 410
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1004.0,
      "completions/max_terminated_length": 1004.0,
      "completions/mean_length": 390.28125,
      "completions/mean_terminated_length": 390.28125,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.18401611820013433,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013002102358895548,
      "kl": 0.04876708984375,
      "learning_rate": 8.716368806841405e-07,
      "loss": 0.0005,
      "num_tokens": 25188980.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 411
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 917.0,
      "completions/mean_length": 429.859375,
      "completions/mean_terminated_length": 410.69354248046875,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.18446384598164317,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.33775327272002287,
      "kl": 0.0567626953125,
      "learning_rate": 8.636529792183171e-07,
      "loss": 0.0105,
      "num_tokens": 25252999.0,
      "reward": 0.08281250298023224,
      "reward_std": 0.006733439397066832,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.828125,
      "rewards/format_reward/std": 0.38025420904159546,
      "step": 412
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 929.0,
      "completions/mean_length": 414.421875,
      "completions/mean_terminated_length": 384.4425964355469,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.184911573763152,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.028131669834282776,
      "kl": 0.04742431640625,
      "learning_rate": 8.557482250955144e-07,
      "loss": 0.0005,
      "num_tokens": 25316322.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 413
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 814.0,
      "completions/mean_length": 387.578125,
      "completions/mean_terminated_length": 377.4762268066406,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.18535930154466085,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2592986854309926,
      "kl": 0.0460205078125,
      "learning_rate": 8.479229499833844e-07,
      "loss": 0.0061,
      "num_tokens": 25376635.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 414
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 966.0,
      "completions/mean_length": 358.265625,
      "completions/mean_terminated_length": 347.69842529296875,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.1858070293261697,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.27099986825661126,
      "kl": 0.05157470703125,
      "learning_rate": 8.401774822147976e-07,
      "loss": -0.0034,
      "num_tokens": 25434052.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 415
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 981.0,
      "completions/mean_length": 438.609375,
      "completions/mean_terminated_length": 429.3174743652344,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.18625475710767853,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2616373837411199,
      "kl": 0.0435791015625,
      "learning_rate": 8.325121467740695e-07,
      "loss": 0.0051,
      "num_tokens": 25502891.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 416
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 917.0,
      "completions/mean_length": 475.09375,
      "completions/mean_terminated_length": 448.09832763671875,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.18670248488918736,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.33711353818665823,
      "kl": 0.04443359375,
      "learning_rate": 8.249272652833226e-07,
      "loss": 0.0169,
      "num_tokens": 25572861.0,
      "reward": 0.078125,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.78125,
      "rewards/format_reward/std": 0.4166666865348816,
      "step": 417
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 767.0,
      "completions/max_terminated_length": 767.0,
      "completions/mean_length": 306.59375,
      "completions/mean_terminated_length": 306.59375,
      "completions/min_length": 49.0,
      "completions/min_terminated_length": 49.0,
      "epoch": 0.1871502126706962,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.2943654705866953,
      "kl": 0.05072021484375,
      "learning_rate": 8.174231559889931e-07,
      "loss": 0.0102,
      "num_tokens": 25625975.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 418
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 872.0,
      "completions/max_terminated_length": 872.0,
      "completions/mean_length": 419.359375,
      "completions/mean_terminated_length": 419.359375,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.18759794045220507,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.19564051269612684,
      "kl": 0.04449462890625,
      "learning_rate": 8.100001337484787e-07,
      "loss": 0.0023,
      "num_tokens": 25694606.0,
      "reward": 0.07343750447034836,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.734375,
      "rewards/format_reward/std": 0.44515693187713623,
      "step": 419
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 725.0,
      "completions/mean_length": 376.984375,
      "completions/mean_terminated_length": 366.71429443359375,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.1880456682337139,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.37456099320585734,
      "kl": 0.04443359375,
      "learning_rate": 8.026585100169251e-07,
      "loss": 0.0192,
      "num_tokens": 25755825.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 420
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 963.0,
      "completions/mean_length": 452.3125,
      "completions/mean_terminated_length": 424.1966857910156,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.18849339601522275,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3384828604917026,
      "kl": 0.04095458984375,
      "learning_rate": 7.953985928341601e-07,
      "loss": 0.0206,
      "num_tokens": 25827069.0,
      "reward": 0.078125,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.78125,
      "rewards/format_reward/std": 0.4166666865348816,
      "step": 421
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1014.0,
      "completions/mean_length": 421.25,
      "completions/mean_terminated_length": 411.68255615234375,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.18894112379673159,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2610825475811053,
      "kl": 0.04815673828125,
      "learning_rate": 7.882206868117693e-07,
      "loss": 0.0159,
      "num_tokens": 25890893.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 422
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 895.0,
      "completions/mean_length": 374.46875,
      "completions/mean_terminated_length": 364.15875244140625,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.18938885157824042,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.15170972339536318,
      "kl": 0.04583740234375,
      "learning_rate": 7.81125093120313e-07,
      "loss": -0.0077,
      "num_tokens": 25955387.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 423
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 851.0,
      "completions/max_terminated_length": 851.0,
      "completions/mean_length": 397.484375,
      "completions/mean_terminated_length": 397.484375,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.18983657935974926,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011445895969517452,
      "kl": 0.04620361328125,
      "learning_rate": 7.741121094766916e-07,
      "loss": 0.0005,
      "num_tokens": 26017954.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 424
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 976.0,
      "completions/max_terminated_length": 976.0,
      "completions/mean_length": 390.9375,
      "completions/mean_terminated_length": 390.9375,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.1902843071412581,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.8419346725940372,
      "kl": 0.18426513671875,
      "learning_rate": 7.671820301316532e-07,
      "loss": 0.0018,
      "num_tokens": 26080858.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 425
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 955.0,
      "completions/max_terminated_length": 955.0,
      "completions/mean_length": 381.84375,
      "completions/mean_terminated_length": 381.84375,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.19073203492276697,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.31365056542049397,
      "kl": 0.05133056640625,
      "learning_rate": 7.603351458574474e-07,
      "loss": -0.0005,
      "num_tokens": 26147392.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 426
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 864.0,
      "completions/max_terminated_length": 864.0,
      "completions/mean_length": 344.75,
      "completions/mean_terminated_length": 344.75,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.1911797627042758,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.24893013902560057,
      "kl": 0.0521240234375,
      "learning_rate": 7.535717439356255e-07,
      "loss": 0.0044,
      "num_tokens": 26210112.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 427
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1002.0,
      "completions/max_terminated_length": 1002.0,
      "completions/mean_length": 373.8125,
      "completions/mean_terminated_length": 373.8125,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.19162749048578465,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2530359940958553,
      "kl": 0.04345703125,
      "learning_rate": 7.46892108144986e-07,
      "loss": 0.0042,
      "num_tokens": 26273060.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 428
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1010.0,
      "completions/max_terminated_length": 1010.0,
      "completions/mean_length": 338.78125,
      "completions/mean_terminated_length": 338.78125,
      "completions/min_length": 15.0,
      "completions/min_terminated_length": 15.0,
      "epoch": 0.19207521826729348,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.28712005649781924,
      "kl": 0.05755615234375,
      "learning_rate": 7.402965187496697e-07,
      "loss": 0.0105,
      "num_tokens": 26329386.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 429
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 773.0,
      "completions/max_terminated_length": 773.0,
      "completions/mean_length": 329.796875,
      "completions/mean_terminated_length": 329.796875,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.19252294604880232,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.013311905075708076,
      "kl": 0.04559326171875,
      "learning_rate": 7.337852524873974e-07,
      "loss": 0.0005,
      "num_tokens": 26384625.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 430
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 914.0,
      "completions/max_terminated_length": 914.0,
      "completions/mean_length": 368.046875,
      "completions/mean_terminated_length": 368.046875,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.19297067383031116,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2903602698821946,
      "kl": 0.056396484375,
      "learning_rate": 7.273585825578608e-07,
      "loss": 0.0033,
      "num_tokens": 26440288.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 431
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 981.0,
      "completions/max_terminated_length": 981.0,
      "completions/mean_length": 380.59375,
      "completions/mean_terminated_length": 380.59375,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.19341840161182,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01178591359532929,
      "kl": 0.0489501953125,
      "learning_rate": 7.21016778611259e-07,
      "loss": 0.0005,
      "num_tokens": 26502166.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 432
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 883.0,
      "completions/mean_length": 356.21875,
      "completions/mean_terminated_length": 345.61907958984375,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.19386612939332887,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.4520670581196475,
      "kl": 0.04522705078125,
      "learning_rate": 7.147601067369835e-07,
      "loss": -0.0047,
      "num_tokens": 26566200.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.012500000186264515,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 433
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 860.0,
      "completions/max_terminated_length": 860.0,
      "completions/mean_length": 373.9375,
      "completions/mean_terminated_length": 373.9375,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.1943138571748377,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3487222830935257,
      "kl": 0.05096435546875,
      "learning_rate": 7.085888294524561e-07,
      "loss": 0.0039,
      "num_tokens": 26623564.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 434
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 955.0,
      "completions/max_terminated_length": 955.0,
      "completions/mean_length": 371.421875,
      "completions/mean_terminated_length": 371.421875,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.19476158495634655,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011040597650785378,
      "kl": 0.04144287109375,
      "learning_rate": 7.025032056921117e-07,
      "loss": 0.0004,
      "num_tokens": 26681603.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 435
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 928.0,
      "completions/max_terminated_length": 928.0,
      "completions/mean_length": 321.484375,
      "completions/mean_terminated_length": 321.484375,
      "completions/min_length": 56.0,
      "completions/min_terminated_length": 56.0,
      "epoch": 0.19520931273785538,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3440524762215749,
      "kl": 0.05108642578125,
      "learning_rate": 6.965034907965349e-07,
      "loss": 0.004,
      "num_tokens": 26739874.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 436
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1015.0,
      "completions/mean_length": 433.953125,
      "completions/mean_terminated_length": 424.58734130859375,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.19565704051936422,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.16230370755095055,
      "kl": 0.0443115234375,
      "learning_rate": 6.905899365017462e-07,
      "loss": -0.0027,
      "num_tokens": 26809547.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 437
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 989.0,
      "completions/max_terminated_length": 989.0,
      "completions/mean_length": 327.75,
      "completions/mean_terminated_length": 327.75,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.19610476830087306,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.20763966834092087,
      "kl": 0.0484619140625,
      "learning_rate": 6.847627909286409e-07,
      "loss": -0.0016,
      "num_tokens": 26870555.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 438
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 918.0,
      "completions/max_terminated_length": 918.0,
      "completions/mean_length": 376.078125,
      "completions/mean_terminated_length": 376.078125,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.1965524960823819,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011189977516531984,
      "kl": 0.0433349609375,
      "learning_rate": 6.790222985725761e-07,
      "loss": 0.0004,
      "num_tokens": 26936268.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 439
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 739.0,
      "completions/mean_length": 349.765625,
      "completions/mean_terminated_length": 328.01611328125,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.19700022386389077,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.23570958976623177,
      "kl": 0.044677734375,
      "learning_rate": 6.733687002931141e-07,
      "loss": 0.007,
      "num_tokens": 26999697.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 440
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 869.0,
      "completions/max_terminated_length": 869.0,
      "completions/mean_length": 315.984375,
      "completions/mean_terminated_length": 315.984375,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.1974479516453996,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012844135207992166,
      "kl": 0.04559326171875,
      "learning_rate": 6.678022333039158e-07,
      "loss": 0.0005,
      "num_tokens": 27053840.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 441
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 836.0,
      "completions/max_terminated_length": 836.0,
      "completions/mean_length": 323.453125,
      "completions/mean_terminated_length": 323.453125,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.19789567942690844,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.3731688741970044,
      "kl": 0.0440673828125,
      "learning_rate": 6.623231311627876e-07,
      "loss": -0.007,
      "num_tokens": 27108889.0,
      "reward": 0.08906249701976776,
      "reward_std": 0.00937500037252903,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.890625,
      "rewards/format_reward/std": 0.3145764470100403,
      "step": 442
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 665.0,
      "completions/max_terminated_length": 665.0,
      "completions/mean_length": 320.765625,
      "completions/mean_terminated_length": 320.765625,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.19834340720841728,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012828709433863302,
      "kl": 0.04461669921875,
      "learning_rate": 6.569316237618811e-07,
      "loss": 0.0004,
      "num_tokens": 27169906.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 443
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 814.0,
      "completions/max_terminated_length": 814.0,
      "completions/mean_length": 334.5625,
      "completions/mean_terminated_length": 334.5625,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.19879113498992612,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3169605108273557,
      "kl": 0.04730224609375,
      "learning_rate": 6.516279373180499e-07,
      "loss": 0.0106,
      "num_tokens": 27221746.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 444
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 795.0,
      "completions/mean_length": 370.03125,
      "completions/mean_terminated_length": 359.65081787109375,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.19923886277143496,
      "frac_reward_zero_std": 0.6875,
      "grad_norm": 0.5960181260497001,
      "kl": 0.05810546875,
      "learning_rate": 6.464122943633543e-07,
      "loss": 0.0419,
      "num_tokens": 27279452.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.01610844023525715,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 445
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 691.0,
      "completions/max_terminated_length": 691.0,
      "completions/mean_length": 324.90625,
      "completions/mean_terminated_length": 324.90625,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.1996865905529438,
      "frac_reward_zero_std": 0.8125,
      "grad_norm": 0.4436594429458512,
      "kl": 0.0599365234375,
      "learning_rate": 6.412849137357271e-07,
      "loss": 0.0138,
      "num_tokens": 27340214.0,
      "reward": 0.09531249850988388,
      "reward_std": 0.00937500037252903,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.953125,
      "rewards/format_reward/std": 0.21304203569889069,
      "step": 446
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 944.0,
      "completions/mean_length": 430.796875,
      "completions/mean_terminated_length": 411.6612854003906,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.20013431833445267,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.31082040780652603,
      "kl": 0.037353515625,
      "learning_rate": 6.3624601056979e-07,
      "loss": 0.0193,
      "num_tokens": 27404933.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 447
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 912.0,
      "completions/max_terminated_length": 912.0,
      "completions/mean_length": 341.90625,
      "completions/mean_terminated_length": 341.90625,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.2005820461159615,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.293790653567543,
      "kl": 0.04229736328125,
      "learning_rate": 6.312957962878278e-07,
      "loss": -0.0048,
      "num_tokens": 27461227.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 448
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 763.0,
      "completions/max_terminated_length": 763.0,
      "completions/mean_length": 312.265625,
      "completions/mean_terminated_length": 312.265625,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.20102977389747034,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012124116276013857,
      "kl": 0.0443115234375,
      "learning_rate": 6.264344785909181e-07,
      "loss": 0.0004,
      "num_tokens": 27519304.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 449
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 787.0,
      "completions/mean_length": 397.34375,
      "completions/mean_terminated_length": 366.5245666503906,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.20147750167897918,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.2847860568959408,
      "kl": 0.05389404296875,
      "learning_rate": 6.216622614502149e-07,
      "loss": -0.0084,
      "num_tokens": 27586794.0,
      "reward": 0.08437500149011612,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.84375,
      "rewards/format_reward/std": 0.36596253514289856,
      "step": 450
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 853.0,
      "completions/max_terminated_length": 853.0,
      "completions/mean_length": 345.21875,
      "completions/mean_terminated_length": 345.21875,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.20192522946048802,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.30898171708805733,
      "kl": 0.064453125,
      "learning_rate": 6.169793450983916e-07,
      "loss": 0.0,
      "num_tokens": 27638900.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 451
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 808.0,
      "completions/max_terminated_length": 808.0,
      "completions/mean_length": 351.046875,
      "completions/mean_terminated_length": 351.046875,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.20237295724199686,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.30873750064507555,
      "kl": 0.04376220703125,
      "learning_rate": 6.123859260212393e-07,
      "loss": 0.0017,
      "num_tokens": 27697735.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 452
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 912.0,
      "completions/max_terminated_length": 912.0,
      "completions/mean_length": 396.5625,
      "completions/mean_terminated_length": 396.5625,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.2028206850235057,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.23825384060392504,
      "kl": 0.0438232421875,
      "learning_rate": 6.07882196949423e-07,
      "loss": -0.0029,
      "num_tokens": 27762219.0,
      "reward": 0.08437500149011612,
      "reward_std": 0.003608439350500703,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.84375,
      "rewards/format_reward/std": 0.36596253514289856,
      "step": 453
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 875.0,
      "completions/max_terminated_length": 875.0,
      "completions/mean_length": 332.453125,
      "completions/mean_terminated_length": 332.453125,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.20326841280501456,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.3058350630877654,
      "kl": 0.04949951171875,
      "learning_rate": 6.034683468503948e-07,
      "loss": 0.0066,
      "num_tokens": 27823372.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 454
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 912.0,
      "completions/max_terminated_length": 912.0,
      "completions/mean_length": 363.484375,
      "completions/mean_terminated_length": 363.484375,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.2037161405865234,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.016504268039005458,
      "kl": 0.044921875,
      "learning_rate": 5.991445609204641e-07,
      "loss": 0.0004,
      "num_tokens": 27885615.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 455
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 885.0,
      "completions/max_terminated_length": 885.0,
      "completions/mean_length": 341.765625,
      "completions/mean_terminated_length": 341.765625,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.20416386836803224,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2139729759825052,
      "kl": 0.055908203125,
      "learning_rate": 5.949110205770292e-07,
      "loss": -0.0089,
      "num_tokens": 27941920.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.003608439350500703,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 456
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 986.0,
      "completions/mean_length": 341.140625,
      "completions/mean_terminated_length": 330.3016052246094,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.20461159614954108,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.014489115251282532,
      "kl": 0.051025390625,
      "learning_rate": 5.90767903450964e-07,
      "loss": 0.0005,
      "num_tokens": 28000885.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 457
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 976.0,
      "completions/max_terminated_length": 976.0,
      "completions/mean_length": 322.109375,
      "completions/mean_terminated_length": 322.109375,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.20505932393104992,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.22180804923971778,
      "kl": 0.06561279296875,
      "learning_rate": 5.867153833791652e-07,
      "loss": -0.0015,
      "num_tokens": 28057456.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 458
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 832.0,
      "completions/max_terminated_length": 832.0,
      "completions/mean_length": 340.875,
      "completions/mean_terminated_length": 340.875,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.20550705171255876,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3351740926014624,
      "kl": 0.04949951171875,
      "learning_rate": 5.827536303972587e-07,
      "loss": -0.0089,
      "num_tokens": 28121604.0,
      "reward": 0.08437500149011612,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.84375,
      "rewards/format_reward/std": 0.36596253514289856,
      "step": 459
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 716.0,
      "completions/max_terminated_length": 716.0,
      "completions/mean_length": 309.96875,
      "completions/mean_terminated_length": 309.96875,
      "completions/min_length": 79.0,
      "completions/min_terminated_length": 79.0,
      "epoch": 0.2059547794940676,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2890836738319645,
      "kl": 0.04425048828125,
      "learning_rate": 5.78882810732465e-07,
      "loss": -0.0058,
      "num_tokens": 28175014.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 460
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 835.0,
      "completions/max_terminated_length": 835.0,
      "completions/mean_length": 336.953125,
      "completions/mean_terminated_length": 336.953125,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.20640250727557646,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.28929529842540075,
      "kl": 0.05267333984375,
      "learning_rate": 5.75103086796625e-07,
      "loss": 0.0019,
      "num_tokens": 28229867.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 461
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 860.0,
      "completions/max_terminated_length": 860.0,
      "completions/mean_length": 334.390625,
      "completions/mean_terminated_length": 334.390625,
      "completions/min_length": 62.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.2068502350570853,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01203483442822535,
      "kl": 0.0439453125,
      "learning_rate": 5.714146171793846e-07,
      "loss": 0.0004,
      "num_tokens": 28284292.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 462
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 707.0,
      "completions/mean_length": 304.515625,
      "completions/mean_terminated_length": 293.0952453613281,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.20729796283859414,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01215150656004192,
      "kl": 0.04742431640625,
      "learning_rate": 5.678175566415422e-07,
      "loss": 0.0005,
      "num_tokens": 28338881.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 463
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 999.0,
      "completions/max_terminated_length": 999.0,
      "completions/mean_length": 359.75,
      "completions/mean_terminated_length": 359.75,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.20774569062010298,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.21317138684262676,
      "kl": 0.04962158203125,
      "learning_rate": 5.643120561085528e-07,
      "loss": -0.0026,
      "num_tokens": 28398801.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 464
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 746.0,
      "completions/max_terminated_length": 746.0,
      "completions/mean_length": 297.859375,
      "completions/mean_terminated_length": 297.859375,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.20819341840161182,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.4754090900622332,
      "kl": 0.07769775390625,
      "learning_rate": 5.608982626641991e-07,
      "loss": -0.0156,
      "num_tokens": 28454076.0,
      "reward": 0.09375,
      "reward_std": 0.012500000186264515,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 465
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 691.0,
      "completions/max_terminated_length": 691.0,
      "completions/mean_length": 357.578125,
      "completions/mean_terminated_length": 357.578125,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.20864114618312066,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2787804764177232,
      "kl": 0.04742431640625,
      "learning_rate": 5.575763195444166e-07,
      "loss": -0.0093,
      "num_tokens": 28519357.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 466
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 767.0,
      "completions/max_terminated_length": 767.0,
      "completions/mean_length": 328.921875,
      "completions/mean_terminated_length": 328.921875,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.2090888739646295,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3476752729977541,
      "kl": 0.05035400390625,
      "learning_rate": 5.543463661312847e-07,
      "loss": -0.0118,
      "num_tokens": 28573816.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 467
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 862.0,
      "completions/mean_length": 394.125,
      "completions/mean_terminated_length": 363.14752197265625,
      "completions/min_length": 88.0,
      "completions/min_terminated_length": 88.0,
      "epoch": 0.20953660174613833,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.05806415850847201,
      "kl": 0.05462646484375,
      "learning_rate": 5.512085379471808e-07,
      "loss": 0.0005,
      "num_tokens": 28641976.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 468
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 708.0,
      "completions/max_terminated_length": 708.0,
      "completions/mean_length": 319.28125,
      "completions/mean_terminated_length": 319.28125,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.2099843295276472,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.25299163268288,
      "kl": 0.04376220703125,
      "learning_rate": 5.481629666490903e-07,
      "loss": -0.0027,
      "num_tokens": 28700482.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 469
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 871.0,
      "completions/mean_length": 394.015625,
      "completions/mean_terminated_length": 363.03277587890625,
      "completions/min_length": 55.0,
      "completions/min_terminated_length": 55.0,
      "epoch": 0.21043205730915604,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011556297733254343,
      "kl": 0.04571533203125,
      "learning_rate": 5.452097800230853e-07,
      "loss": 0.0005,
      "num_tokens": 28766959.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 470
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 856.0,
      "completions/max_terminated_length": 856.0,
      "completions/mean_length": 375.1875,
      "completions/mean_terminated_length": 375.1875,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.21087978509066488,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.21381949004219408,
      "kl": 0.0443115234375,
      "learning_rate": 5.423491019789623e-07,
      "loss": 0.0095,
      "num_tokens": 28825975.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 471
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1013.0,
      "completions/max_terminated_length": 1013.0,
      "completions/mean_length": 355.171875,
      "completions/mean_terminated_length": 355.171875,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.21132751287217372,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011526319016219025,
      "kl": 0.0498046875,
      "learning_rate": 5.395810525450425e-07,
      "loss": 0.0005,
      "num_tokens": 28880722.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 472
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 711.0,
      "completions/mean_length": 365.234375,
      "completions/mean_terminated_length": 354.7778015136719,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.21177524065368256,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.21457840136812045,
      "kl": 0.04296875,
      "learning_rate": 5.369057478631359e-07,
      "loss": 0.0101,
      "num_tokens": 28940633.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 473
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.75,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 935.0,
      "completions/mean_length": 355.875,
      "completions/mean_terminated_length": 334.32257080078125,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.2122229684351914,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.020139337200923053,
      "kl": 0.0445556640625,
      "learning_rate": 5.343233001836694e-07,
      "loss": 0.0004,
      "num_tokens": 28997585.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 474
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 845.0,
      "completions/mean_length": 353.03125,
      "completions/mean_terminated_length": 342.3809814453125,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.21267069621670023,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.3811994964538744,
      "kl": 0.04736328125,
      "learning_rate": 5.318338178609754e-07,
      "loss": -0.0044,
      "num_tokens": 29057059.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 475
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 1019.0,
      "completions/max_terminated_length": 1019.0,
      "completions/mean_length": 361.171875,
      "completions/mean_terminated_length": 361.171875,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.2131184239982091,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3591351108350128,
      "kl": 0.06207275390625,
      "learning_rate": 5.294374053487459e-07,
      "loss": 0.0099,
      "num_tokens": 29114574.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 751.0,
      "completions/max_terminated_length": 751.0,
      "completions/mean_length": 347.25,
      "completions/mean_terminated_length": 347.25,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.21356615177971794,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.01616607270978176,
      "kl": 0.0457763671875,
      "learning_rate": 5.271341631956511e-07,
      "loss": 0.0005,
      "num_tokens": 29173442.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 477
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 978.0,
      "completions/mean_length": 390.015625,
      "completions/mean_terminated_length": 379.952392578125,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.21401387956122678,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.3498112356654949,
      "kl": 0.056884765625,
      "learning_rate": 5.249241880411181e-07,
      "loss": 0.0087,
      "num_tokens": 29236719.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 478
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 905.0,
      "completions/mean_length": 351.28125,
      "completions/mean_terminated_length": 340.6031799316406,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.21446160734273562,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010283726545875109,
      "kl": 0.04168701171875,
      "learning_rate": 5.228075726112785e-07,
      "loss": 0.0004,
      "num_tokens": 29291869.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 479
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 969.0,
      "completions/mean_length": 373.078125,
      "completions/mean_terminated_length": 362.7460632324219,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.21490933512424445,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3996397740523817,
      "kl": 0.0484619140625,
      "learning_rate": 5.207844057150768e-07,
      "loss": 0.0184,
      "num_tokens": 29354750.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 480
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 918.0,
      "completions/max_terminated_length": 918.0,
      "completions/mean_length": 418.546875,
      "completions/mean_terminated_length": 418.546875,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.2153570629057533,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011655869637147894,
      "kl": 0.042724609375,
      "learning_rate": 5.188547722405437e-07,
      "loss": 0.0004,
      "num_tokens": 29420969.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 481
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 923.0,
      "completions/max_terminated_length": 923.0,
      "completions/mean_length": 344.65625,
      "completions/mean_terminated_length": 344.65625,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.21580479068726213,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.3897420731711497,
      "kl": 0.04913330078125,
      "learning_rate": 5.170187531512351e-07,
      "loss": 0.0084,
      "num_tokens": 29480615.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 482
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 817.0,
      "completions/max_terminated_length": 817.0,
      "completions/mean_length": 342.546875,
      "completions/mean_terminated_length": 342.546875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.216252518468771,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012071721410954545,
      "kl": 0.0423583984375,
      "learning_rate": 5.152764254828348e-07,
      "loss": 0.0004,
      "num_tokens": 29537466.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 483
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 908.0,
      "completions/mean_length": 340.78125,
      "completions/mean_terminated_length": 329.9365234375,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.21670024625027984,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.36628102841313226,
      "kl": 0.0465087890625,
      "learning_rate": 5.136278623399225e-07,
      "loss": -0.0068,
      "num_tokens": 29600468.0,
      "reward": 0.09062500298023224,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.90625,
      "rewards/format_reward/std": 0.29378482699394226,
      "step": 484
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 839.0,
      "completions/max_terminated_length": 839.0,
      "completions/mean_length": 321.203125,
      "completions/mean_terminated_length": 321.203125,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.21714797403178868,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.012213049223765697,
      "kl": 0.0513916015625,
      "learning_rate": 5.120731328929058e-07,
      "loss": 0.0005,
      "num_tokens": 29657017.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 485
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 845.0,
      "completions/mean_length": 355.703125,
      "completions/mean_terminated_length": 345.0952453613281,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.21759570181329752,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.21630586650931657,
      "kl": 0.05010986328125,
      "learning_rate": 5.106123023751187e-07,
      "loss": -0.0079,
      "num_tokens": 29719438.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.003608439350500703,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 486
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.625,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 927.0,
      "completions/mean_length": 372.953125,
      "completions/mean_terminated_length": 340.9344177246094,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.21804342959480635,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011634970589115922,
      "kl": 0.042724609375,
      "learning_rate": 5.092454320800833e-07,
      "loss": 0.0004,
      "num_tokens": 29778347.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 487
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 894.0,
      "completions/max_terminated_length": 894.0,
      "completions/mean_length": 402.078125,
      "completions/mean_terminated_length": 402.078125,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.2184911573763152,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2955004514064091,
      "kl": 0.04681396484375,
      "learning_rate": 5.079725793589405e-07,
      "loss": 0.0061,
      "num_tokens": 29852892.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 488
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 787.0,
      "completions/mean_length": 425.078125,
      "completions/mean_terminated_length": 415.5714416503906,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.21893888515782403,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011710331182126025,
      "kl": 0.04290771484375,
      "learning_rate": 5.067937976180407e-07,
      "loss": 0.0004,
      "num_tokens": 29924065.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 489
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 824.0,
      "completions/mean_length": 406.640625,
      "completions/mean_terminated_length": 396.8412780761719,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.2193866129393329,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.2881063190270388,
      "kl": 0.0438232421875,
      "learning_rate": 5.057091363167046e-07,
      "loss": -0.0128,
      "num_tokens": 29990778.0,
      "reward": 0.09687499701976776,
      "reward_std": 0.0062500000931322575,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.96875,
      "rewards/format_reward/std": 0.17536810040473938,
      "step": 490
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 899.0,
      "completions/mean_length": 367.375,
      "completions/mean_terminated_length": 356.952392578125,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.21983434072084174,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010823726554342487,
      "kl": 0.04107666015625,
      "learning_rate": 5.047186409651489e-07,
      "loss": 0.0004,
      "num_tokens": 30051302.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 491
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 821.0,
      "completions/mean_length": 359.953125,
      "completions/mean_terminated_length": 349.4127197265625,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.22028206850235058,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011251000816176642,
      "kl": 0.046630859375,
      "learning_rate": 5.038223531225742e-07,
      "loss": 0.0005,
      "num_tokens": 30109479.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 492
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 937.0,
      "completions/max_terminated_length": 937.0,
      "completions/mean_length": 380.265625,
      "completions/mean_terminated_length": 380.265625,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.22072979628385941,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010122298426657324,
      "kl": 0.03973388671875,
      "learning_rate": 5.030203103954232e-07,
      "loss": 0.0004,
      "num_tokens": 30164600.0,
      "reward": 0.09375,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.9375,
      "rewards/format_reward/std": 0.24397502839565277,
      "step": 493
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 957.0,
      "completions/mean_length": 436.90625,
      "completions/mean_terminated_length": 427.58734130859375,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.22117752406536825,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.3004659694365779,
      "kl": 0.044677734375,
      "learning_rate": 5.023125464358026e-07,
      "loss": 0.0053,
      "num_tokens": 30233970.0,
      "reward": 0.0859375,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.859375,
      "rewards/format_reward/std": 0.3503824472427368,
      "step": 494
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 893.0,
      "completions/max_terminated_length": 893.0,
      "completions/mean_length": 360.390625,
      "completions/mean_terminated_length": 360.390625,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.2216252518468771,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010183219724066196,
      "kl": 0.04034423828125,
      "learning_rate": 5.016990909400709e-07,
      "loss": 0.0004,
      "num_tokens": 30298471.0,
      "reward": 0.08750000596046448,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.875,
      "rewards/format_reward/std": 0.3333333432674408,
      "step": 495
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 932.0,
      "completions/mean_length": 381.75,
      "completions/mean_terminated_length": 371.5555725097656,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.22207297962838593,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2301491840925685,
      "kl": 0.04193115234375,
      "learning_rate": 5.011799696475915e-07,
      "loss": 0.0171,
      "num_tokens": 30357651.0,
      "reward": 0.09843750298023224,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.984375,
      "rewards/format_reward/std": 0.125,
      "step": 496
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 594.0,
      "completions/max_terminated_length": 594.0,
      "completions/mean_length": 331.609375,
      "completions/mean_terminated_length": 331.609375,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.2225207074098948,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.2552006259358936,
      "kl": 0.0614013671875,
      "learning_rate": 5.007552043396547e-07,
      "loss": 0.0007,
      "num_tokens": 30414718.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 497
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -7.0,
      "completions/max_length": 990.0,
      "completions/max_terminated_length": 990.0,
      "completions/mean_length": 348.15625,
      "completions/mean_terminated_length": 348.15625,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.22296843519140364,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.011177308922714051,
      "kl": 0.045654296875,
      "learning_rate": 5.004248128385618e-07,
      "loss": 0.0005,
      "num_tokens": 30471304.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 1.0,
      "rewards/format_reward/std": 0.0,
      "step": 498
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1020.0,
      "completions/mean_length": 365.46875,
      "completions/mean_terminated_length": 355.0158996582031,
      "completions/min_length": 92.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.22341616297291247,
      "frac_reward_zero_std": 0.9375,
      "grad_norm": 0.3291671170963366,
      "kl": 0.0643310546875,
      "learning_rate": 5.001888090068784e-07,
      "loss": 0.013,
      "num_tokens": 30529722.0,
      "reward": 0.09218750149011612,
      "reward_std": 0.0031250000465661287,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.921875,
      "rewards/format_reward/std": 0.27048972249031067,
      "step": 499
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": -6.875,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 849.0,
      "completions/mean_length": 423.71875,
      "completions/mean_terminated_length": 414.19049072265625,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.2238638907544213,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.010278438980606722,
      "kl": 0.04022216796875,
      "learning_rate": 5.000472027468528e-07,
      "loss": 0.0004,
      "num_tokens": 30595852.0,
      "reward": 0.08125000447034836,
      "reward_std": 0.0,
      "rewards/code_reward/mean": 0.0,
      "rewards/code_reward/std": 0.0,
      "rewards/format_reward/mean": 0.8125,
      "rewards/format_reward/std": 0.39339789748191833,
      "step": 500
    },
    {
      "epoch": 0.2238638907544213,
      "step": 500,
      "total_flos": 0.0,
      "train_loss": 0.003590845608123345,
      "train_runtime": 14235.1126,
      "train_samples_per_second": 2.248,
      "train_steps_per_second": 0.035
    }
  ],
  "logging_steps": 1,
  "max_steps": 500,
  "num_input_tokens_seen": 30595852,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}