{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9999146539216524,
  "eval_steps": 500,
  "global_step": 2929,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.626953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1722.69921875,
      "completions/mean_terminated_length": 1175.989501953125,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "epoch": 0.0003413843133907997,
      "grad_norm": 0.10038339346647263,
      "kl": 0.0006093978881835938,
      "learning_rate": 0.0,
      "loss": 0.0739,
      "num_tokens": 960630.0,
      "reward": 0.4541015625,
      "reward_std": 0.20013213157653809,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3955078125,
      "rewards/tag_count_reward/std": 0.19985154271125793,
      "step": 1
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.654296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1727.654296875,
      "completions/mean_terminated_length": 1121.350341796875,
      "completions/min_length": 92.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.0006827686267815994,
      "grad_norm": 0.1154610738158226,
      "kl": 0.000568389892578125,
      "learning_rate": 3.4129692832764506e-09,
      "loss": 0.07,
      "num_tokens": 1918421.0,
      "reward": 0.40283203125,
      "reward_std": 0.16966792941093445,
      "rewards/accuracy_reward/mean": 0.04296875,
      "rewards/accuracy_reward/std": 0.2029850035905838,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.35986328125,
      "rewards/tag_count_reward/std": 0.15087929368019104,
      "step": 2
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.560546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1669.453125,
      "completions/mean_terminated_length": 1186.5955810546875,
      "completions/min_length": 88.0,
      "completions/min_terminated_length": 88.0,
      "epoch": 0.001024152940172399,
      "grad_norm": 0.08359593898057938,
      "kl": 0.0005421638488769531,
      "learning_rate": 6.825938566552901e-09,
      "loss": 0.0669,
      "num_tokens": 2855053.0,
      "reward": 0.47509765625,
      "reward_std": 0.2010759711265564,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.39111328125,
      "rewards/tag_count_reward/std": 0.16621176898479462,
      "step": 3
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.65234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 1751.20703125,
      "completions/mean_terminated_length": 1194.3033447265625,
      "completions/min_length": 409.0,
      "completions/min_terminated_length": 409.0,
      "epoch": 0.0013655372535631989,
      "grad_norm": 0.09588006138801575,
      "kl": 0.0006213188171386719,
      "learning_rate": 1.023890784982935e-08,
      "loss": 0.0753,
      "num_tokens": 3832071.0,
      "reward": 0.39599609375,
      "reward_std": 0.14499154686927795,
      "rewards/accuracy_reward/mean": 0.029296875,
      "rewards/accuracy_reward/std": 0.16880230605602264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.36669921875,
      "rewards/tag_count_reward/std": 0.1653124988079071,
      "step": 4
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.541015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1612.12109375,
      "completions/mean_terminated_length": 1098.34033203125,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.0017069215669539984,
      "grad_norm": 0.1058402881026268,
      "kl": 0.0005502700805664062,
      "learning_rate": 1.3651877133105802e-08,
      "loss": 0.0732,
      "num_tokens": 4738981.0,
      "reward": 0.52099609375,
      "reward_std": 0.24503561854362488,
      "rewards/accuracy_reward/mean": 0.12096773833036423,
      "rewards/accuracy_reward/std": 0.32641899585723877,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.40380859375,
      "rewards/tag_count_reward/std": 0.170328751206398,
      "step": 5
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.55859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1597.671875,
      "completions/mean_terminated_length": 1027.78759765625,
      "completions/min_length": 26.0,
      "completions/min_terminated_length": 26.0,
      "epoch": 0.002048305880344798,
      "grad_norm": 0.11257678270339966,
      "kl": 0.0005893707275390625,
      "learning_rate": 1.706484641638225e-08,
      "loss": 0.112,
      "num_tokens": 5644269.0,
      "reward": 0.462890625,
      "reward_std": 0.20636704564094543,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.388671875,
      "rewards/tag_count_reward/std": 0.17220963537693024,
      "step": 6
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.65234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 1745.85546875,
      "completions/mean_terminated_length": 1178.91015625,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.0023896901937355977,
      "grad_norm": 0.09491042047739029,
      "kl": 0.0005645751953125,
      "learning_rate": 2.04778156996587e-08,
      "loss": 0.0996,
      "num_tokens": 6610531.0,
      "reward": 0.3984375,
      "reward_std": 0.1375826597213745,
      "rewards/accuracy_reward/mean": 0.032258063554763794,
      "rewards/accuracy_reward/std": 0.17686307430267334,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3671875,
      "rewards/tag_count_reward/std": 0.15542221069335938,
      "step": 7
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.564453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1722.056640625,
      "completions/mean_terminated_length": 1299.645751953125,
      "completions/min_length": 431.0,
      "completions/min_terminated_length": 431.0,
      "epoch": 0.0027310745071263977,
      "grad_norm": 0.0939500480890274,
      "kl": 0.0005664825439453125,
      "learning_rate": 2.3890784982935154e-08,
      "loss": 0.1146,
      "num_tokens": 7568928.0,
      "reward": 0.51806640625,
      "reward_std": 0.2929551601409912,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.39892578125,
      "rewards/tag_count_reward/std": 0.1703680157661438,
      "step": 8
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.5546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1643.587890625,
      "completions/mean_terminated_length": 1139.8465576171875,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.0030724588205171973,
      "grad_norm": 0.11887728422880173,
      "kl": 0.000579833984375,
      "learning_rate": 2.7303754266211605e-08,
      "loss": 0.1153,
      "num_tokens": 8484237.0,
      "reward": 0.4580078125,
      "reward_std": 0.21570083498954773,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3994140625,
      "rewards/tag_count_reward/std": 0.18209920823574066,
      "step": 9
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.62890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1729.3046875,
      "completions/mean_terminated_length": 1189.2000732421875,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.003413843133907997,
      "grad_norm": 0.09136687219142914,
      "kl": 0.0005388259887695312,
      "learning_rate": 3.071672354948805e-08,
      "loss": 0.0744,
      "num_tokens": 9441577.0,
      "reward": 0.40087890625,
      "reward_std": 0.168868750333786,
      "rewards/accuracy_reward/mean": 0.033203125,
      "rewards/accuracy_reward/std": 0.17934183776378632,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.36767578125,
      "rewards/tag_count_reward/std": 0.15701180696487427,
      "step": 10
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.62890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1738.44921875,
      "completions/mean_terminated_length": 1213.8421630859375,
      "completions/min_length": 276.0,
      "completions/min_terminated_length": 276.0,
      "epoch": 0.003755227447298797,
      "grad_norm": 0.09358195215463638,
      "kl": 0.0005154609680175781,
      "learning_rate": 3.41296928327645e-08,
      "loss": 0.0806,
      "num_tokens": 10407247.0,
      "reward": 0.42236328125,
      "reward_std": 0.21011707186698914,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.36181640625,
      "rewards/tag_count_reward/std": 0.14695879817008972,
      "step": 11
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.568359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 1708.470703125,
      "completions/mean_terminated_length": 1261.398193359375,
      "completions/min_length": 315.0,
      "completions/min_terminated_length": 315.0,
      "epoch": 0.004096611760689596,
      "grad_norm": 0.08788277208805084,
      "kl": 0.00052642822265625,
      "learning_rate": 3.754266211604096e-08,
      "loss": 0.0779,
      "num_tokens": 11353360.0,
      "reward": 0.46337890625,
      "reward_std": 0.21695996820926666,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38330078125,
      "rewards/tag_count_reward/std": 0.15928363800048828,
      "step": 12
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1668.15625,
      "completions/mean_terminated_length": 1035.0833740234375,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.004437996074080396,
      "grad_norm": 0.10812373459339142,
      "kl": 0.0005941390991210938,
      "learning_rate": 4.09556313993174e-08,
      "loss": 0.0842,
      "num_tokens": 12283264.0,
      "reward": 0.46923828125,
      "reward_std": 0.23663829267024994,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.36962890625,
      "rewards/tag_count_reward/std": 0.17266887426376343,
      "step": 13
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.572265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1729.04296875,
      "completions/mean_terminated_length": 1302.3104248046875,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.0047793803874711955,
      "grad_norm": 0.09474898874759674,
      "kl": 0.0005512237548828125,
      "learning_rate": 4.436860068259386e-08,
      "loss": 0.1013,
      "num_tokens": 13245798.0,
      "reward": 0.45068359375,
      "reward_std": 0.19786083698272705,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38623046875,
      "rewards/tag_count_reward/std": 0.1636510044336319,
      "step": 14
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.521484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1600.45703125,
      "completions/mean_terminated_length": 1112.7264404296875,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.005120764700861995,
      "grad_norm": 0.10015860199928284,
      "kl": 0.0005078315734863281,
      "learning_rate": 4.778156996587031e-08,
      "loss": 0.1058,
      "num_tokens": 14142384.0,
      "reward": 0.4990234375,
      "reward_std": 0.2508639097213745,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4052734375,
      "rewards/tag_count_reward/std": 0.1743355393409729,
      "step": 15
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.59765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1674.45703125,
      "completions/mean_terminated_length": 1119.58251953125,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.0054621490142527955,
      "grad_norm": 0.10255003720521927,
      "kl": 0.0005817413330078125,
      "learning_rate": 5.119453924914675e-08,
      "loss": 0.1018,
      "num_tokens": 15074874.0,
      "reward": 0.509765625,
      "reward_std": 0.23126041889190674,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.380859375,
      "rewards/tag_count_reward/std": 0.1740640103816986,
      "step": 16
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.583984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1658.314453125,
      "completions/mean_terminated_length": 1111.2911376953125,
      "completions/min_length": 360.0,
      "completions/min_terminated_length": 360.0,
      "epoch": 0.005803533327643595,
      "grad_norm": 0.10060305893421173,
      "kl": 0.0005750656127929688,
      "learning_rate": 5.460750853242321e-08,
      "loss": 0.0727,
      "num_tokens": 15999659.0,
      "reward": 0.46630859375,
      "reward_std": 0.2180027961730957,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38818359375,
      "rewards/tag_count_reward/std": 0.17010420560836792,
      "step": 17
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.638671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1756.791015625,
      "completions/mean_terminated_length": 1242.0594482421875,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.006144917641034395,
      "grad_norm": 0.09018860757350922,
      "kl": 0.0005846023559570312,
      "learning_rate": 5.802047781569966e-08,
      "loss": 0.0718,
      "num_tokens": 16982096.0,
      "reward": 0.43701171875,
      "reward_std": 0.20313873887062073,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.36669921875,
      "rewards/tag_count_reward/std": 0.16969364881515503,
      "step": 18
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1758.98046875,
      "completions/mean_terminated_length": 1243.771728515625,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.006486301954425194,
      "grad_norm": 0.08947055041790009,
      "kl": 0.0005474090576171875,
      "learning_rate": 6.14334470989761e-08,
      "loss": 0.0693,
      "num_tokens": 17960038.0,
      "reward": 0.44189453125,
      "reward_std": 0.1830744743347168,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.37353515625,
      "rewards/tag_count_reward/std": 0.17345291376113892,
      "step": 19
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.611328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1711.236328125,
      "completions/mean_terminated_length": 1181.552734375,
      "completions/min_length": 423.0,
      "completions/min_terminated_length": 423.0,
      "epoch": 0.006827686267815994,
      "grad_norm": 0.11081380397081375,
      "kl": 0.0005693435668945312,
      "learning_rate": 6.484641638225255e-08,
      "loss": 0.1089,
      "num_tokens": 18913407.0,
      "reward": 0.46630859375,
      "reward_std": 0.196451336145401,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.37841796875,
      "rewards/tag_count_reward/std": 0.16841623187065125,
      "step": 20
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1677.201171875,
      "completions/mean_terminated_length": 1169.0694580078125,
      "completions/min_length": 336.0,
      "completions/min_terminated_length": 336.0,
      "epoch": 0.007169070581206793,
      "grad_norm": 0.09660843759775162,
      "kl": 0.0005202293395996094,
      "learning_rate": 6.8259385665529e-08,
      "loss": 0.0893,
      "num_tokens": 19845494.0,
      "reward": 0.52490234375,
      "reward_std": 0.26504456996917725,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38818359375,
      "rewards/tag_count_reward/std": 0.1664702594280243,
      "step": 21
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.58984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1712.4140625,
      "completions/mean_terminated_length": 1229.8095703125,
      "completions/min_length": 469.0,
      "completions/min_terminated_length": 469.0,
      "epoch": 0.007510454894597594,
      "grad_norm": 0.08789636939764023,
      "kl": 0.0005578994750976562,
      "learning_rate": 7.167235494880546e-08,
      "loss": 0.0668,
      "num_tokens": 20805162.0,
      "reward": 0.49267578125,
      "reward_std": 0.23429395258426666,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.37353515625,
      "rewards/tag_count_reward/std": 0.16253195703029633,
      "step": 22
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.638671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1752.947265625,
      "completions/mean_terminated_length": 1231.421630859375,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "epoch": 0.007851839207988393,
      "grad_norm": 0.09756770730018616,
      "kl": 0.0005750656127929688,
      "learning_rate": 7.508532423208192e-08,
      "loss": 0.1014,
      "num_tokens": 21774335.0,
      "reward": 0.4443359375,
      "reward_std": 0.23254692554473877,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3779296875,
      "rewards/tag_count_reward/std": 0.17830252647399902,
      "step": 23
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.5625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1629.5703125,
      "completions/mean_terminated_length": 1091.58935546875,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.008193223521379193,
      "grad_norm": 0.09879060089588165,
      "kl": 0.0005731582641601562,
      "learning_rate": 7.849829351535836e-08,
      "loss": 0.0681,
      "num_tokens": 22688291.0,
      "reward": 0.43310546875,
      "reward_std": 0.14599718153476715,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38232421875,
      "rewards/tag_count_reward/std": 0.15701180696487427,
      "step": 24
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1763.1328125,
      "completions/mean_terminated_length": 1288.354248046875,
      "completions/min_length": 447.0,
      "completions/min_terminated_length": 447.0,
      "epoch": 0.008534607834769992,
      "grad_norm": 0.08964110165834427,
      "kl": 0.0005235671997070312,
      "learning_rate": 8.19112627986348e-08,
      "loss": 0.0905,
      "num_tokens": 23668119.0,
      "reward": 0.41455078125,
      "reward_std": 0.18736442923545837,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.37353515625,
      "rewards/tag_count_reward/std": 0.16101987659931183,
      "step": 25
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.5078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1573.40234375,
      "completions/mean_terminated_length": 1083.7381591796875,
      "completions/min_length": 48.0,
      "completions/min_terminated_length": 48.0,
      "epoch": 0.008875992148160792,
      "grad_norm": 0.1042899489402771,
      "kl": 0.0005631446838378906,
      "learning_rate": 8.532423208191126e-08,
      "loss": 0.0745,
      "num_tokens": 24552245.0,
      "reward": 0.54150390625,
      "reward_std": 0.2826315462589264,
      "rewards/accuracy_reward/mean": 0.13306452333927155,
      "rewards/accuracy_reward/std": 0.3399873375892639,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.41259765625,
      "rewards/tag_count_reward/std": 0.17570793628692627,
      "step": 26
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.52734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1535.490234375,
      "completions/mean_terminated_length": 963.6817626953125,
      "completions/min_length": 4.0,
      "completions/min_terminated_length": 4.0,
      "epoch": 0.009217376461551591,
      "grad_norm": 0.11625460535287857,
      "kl": 0.0005464553833007812,
      "learning_rate": 8.873720136518772e-08,
      "loss": 0.1045,
      "num_tokens": 25407696.0,
      "reward": 0.4208984375,
      "reward_std": 0.16960611939430237,
      "rewards/accuracy_reward/mean": 0.0234375,
      "rewards/accuracy_reward/std": 0.15143637359142303,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3974609375,
      "rewards/tag_count_reward/std": 0.1727055311203003,
      "step": 27
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.630859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1699.21875,
      "completions/mean_terminated_length": 1103.1534423828125,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "epoch": 0.009558760774942391,
      "grad_norm": 0.09857682883739471,
      "kl": 0.0006265640258789062,
      "learning_rate": 9.215017064846416e-08,
      "loss": 0.0872,
      "num_tokens": 26366784.0,
      "reward": 0.41064453125,
      "reward_std": 0.1888647824525833,
      "rewards/accuracy_reward/mean": 0.04032257944345474,
      "rewards/accuracy_reward/std": 0.19691328704357147,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.37158203125,
      "rewards/tag_count_reward/std": 0.1776064932346344,
      "step": 28
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.65234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1750.69140625,
      "completions/mean_terminated_length": 1192.8201904296875,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.00990014508833319,
      "grad_norm": 0.09634055942296982,
      "kl": 0.0005664825439453125,
      "learning_rate": 9.556313993174062e-08,
      "loss": 0.0732,
      "num_tokens": 27338402.0,
      "reward": 0.41015625,
      "reward_std": 0.1702592521905899,
      "rewards/accuracy_reward/mean": 0.052419353276491165,
      "rewards/accuracy_reward/std": 0.22309617698192596,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.359375,
      "rewards/tag_count_reward/std": 0.15244260430335999,
      "step": 29
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.615234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1993.0,
      "completions/mean_length": 1678.625,
      "completions/mean_terminated_length": 1088.0,
      "completions/min_length": 303.0,
      "completions/min_terminated_length": 303.0,
      "epoch": 0.01024152940172399,
      "grad_norm": 0.09100901335477829,
      "kl": 0.000553131103515625,
      "learning_rate": 9.897610921501706e-08,
      "loss": 0.0927,
      "num_tokens": 28277826.0,
      "reward": 0.46923828125,
      "reward_std": 0.15819703042507172,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.36767578125,
      "rewards/tag_count_reward/std": 0.1623731404542923,
      "step": 30
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.5390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1662.60546875,
      "completions/mean_terminated_length": 1211.889892578125,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.01058291371511479,
      "grad_norm": 0.10911896824836731,
      "kl": 0.0005741119384765625,
      "learning_rate": 1.023890784982935e-07,
      "loss": 0.0859,
      "num_tokens": 29207864.0,
      "reward": 0.47998046875,
      "reward_std": 0.21130922436714172,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.39208984375,
      "rewards/tag_count_reward/std": 0.16975557804107666,
      "step": 31
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.55859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1712.2265625,
      "completions/mean_terminated_length": 1287.3096923828125,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.010924298028505591,
      "grad_norm": 0.09444137662649155,
      "kl": 0.0005474090576171875,
      "learning_rate": 1.0580204778156996e-07,
      "loss": 0.089,
      "num_tokens": 30161948.0,
      "reward": 0.45654296875,
      "reward_std": 0.22040751576423645,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38623046875,
      "rewards/tag_count_reward/std": 0.15202754735946655,
      "step": 32
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1680.62109375,
      "completions/mean_terminated_length": 1025.728271484375,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.01126568234189639,
      "grad_norm": 0.10579922050237656,
      "kl": 0.00057220458984375,
      "learning_rate": 1.0921501706484642e-07,
      "loss": 0.0772,
      "num_tokens": 31107162.0,
      "reward": 0.40966796875,
      "reward_std": 0.16281485557556152,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.36865234375,
      "rewards/tag_count_reward/std": 0.15548905730247498,
      "step": 33
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.572265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1684.06640625,
      "completions/mean_terminated_length": 1197.1597900390625,
      "completions/min_length": 311.0,
      "completions/min_terminated_length": 311.0,
      "epoch": 0.01160706665528719,
      "grad_norm": 0.10974515974521637,
      "kl": 0.0005903244018554688,
      "learning_rate": 1.1262798634812286e-07,
      "loss": 0.1093,
      "num_tokens": 32042684.0,
      "reward": 0.46484375,
      "reward_std": 0.20326673984527588,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.388671875,
      "rewards/tag_count_reward/std": 0.1619614213705063,
      "step": 34
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1618.482421875,
      "completions/mean_terminated_length": 1100.09912109375,
      "completions/min_length": 358.0,
      "completions/min_terminated_length": 358.0,
      "epoch": 0.01194845096867799,
      "grad_norm": 0.09662748873233795,
      "kl": 0.0005207061767578125,
      "learning_rate": 1.1604095563139932e-07,
      "loss": 0.0735,
      "num_tokens": 32953363.0,
      "reward": 0.5390625,
      "reward_std": 0.23657390475273132,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.390625,
      "rewards/tag_count_reward/std": 0.16403664648532867,
      "step": 35
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.619140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1717.830078125,
      "completions/mean_terminated_length": 1181.09228515625,
      "completions/min_length": 354.0,
      "completions/min_terminated_length": 354.0,
      "epoch": 0.01228983528206879,
      "grad_norm": 0.10695859789848328,
      "kl": 0.0006036758422851562,
      "learning_rate": 1.1945392491467578e-07,
      "loss": 0.1211,
      "num_tokens": 33916588.0,
      "reward": 0.431640625,
      "reward_std": 0.20863476395606995,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.376953125,
      "rewards/tag_count_reward/std": 0.17968250811100006,
      "step": 36
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.62109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1744.015625,
      "completions/mean_terminated_length": 1245.73193359375,
      "completions/min_length": 320.0,
      "completions/min_terminated_length": 320.0,
      "epoch": 0.012631219595459589,
      "grad_norm": 0.0918794795870781,
      "kl": 0.0005393028259277344,
      "learning_rate": 1.228668941979522e-07,
      "loss": 0.0843,
      "num_tokens": 34884468.0,
      "reward": 0.44189453125,
      "reward_std": 0.2063564956188202,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.37353515625,
      "rewards/tag_count_reward/std": 0.16403010487556458,
      "step": 37
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.595703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1704.533203125,
      "completions/mean_terminated_length": 1198.4588623046875,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.012972603908850388,
      "grad_norm": 0.10510947555303574,
      "kl": 0.0005712509155273438,
      "learning_rate": 1.2627986348122866e-07,
      "loss": 0.0715,
      "num_tokens": 35837909.0,
      "reward": 0.40380859375,
      "reward_std": 0.15139544010162354,
      "rewards/accuracy_reward/mean": 0.021484375,
      "rewards/accuracy_reward/std": 0.14513419568538666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38232421875,
      "rewards/tag_count_reward/std": 0.16387273371219635,
      "step": 38
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.619140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1736.8515625,
      "completions/mean_terminated_length": 1231.035888671875,
      "completions/min_length": 306.0,
      "completions/min_terminated_length": 306.0,
      "epoch": 0.013313988222241188,
      "grad_norm": 0.09516466408967972,
      "kl": 0.0005741119384765625,
      "learning_rate": 1.296928327645051e-07,
      "loss": 0.0776,
      "num_tokens": 36805081.0,
      "reward": 0.45263671875,
      "reward_std": 0.21325279772281647,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.37646484375,
      "rewards/tag_count_reward/std": 0.17832061648368835,
      "step": 39
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.69921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1816.265625,
      "completions/mean_terminated_length": 1277.5584716796875,
      "completions/min_length": 314.0,
      "completions/min_terminated_length": 314.0,
      "epoch": 0.013655372535631987,
      "grad_norm": 0.08078555017709732,
      "kl": 0.0005369186401367188,
      "learning_rate": 1.3310580204778158e-07,
      "loss": 0.0623,
      "num_tokens": 37815601.0,
      "reward": 0.40087890625,
      "reward_std": 0.15098059177398682,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.34033203125,
      "rewards/tag_count_reward/std": 0.1318589299917221,
      "step": 40
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.5859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1700.818359375,
      "completions/mean_terminated_length": 1209.5235595703125,
      "completions/min_length": 28.0,
      "completions/min_terminated_length": 28.0,
      "epoch": 0.013996756849022787,
      "grad_norm": 0.10072726011276245,
      "kl": 0.0005693435668945312,
      "learning_rate": 1.36518771331058e-07,
      "loss": 0.1016,
      "num_tokens": 38757284.0,
      "reward": 0.44970703125,
      "reward_std": 0.22127588093280792,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38330078125,
      "rewards/tag_count_reward/std": 0.17041288316249847,
      "step": 41
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.6796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 1764.595703125,
      "completions/mean_terminated_length": 1163.2255859375,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.014338141162413586,
      "grad_norm": 0.09533902257680893,
      "kl": 0.000606536865234375,
      "learning_rate": 1.3993174061433446e-07,
      "loss": 0.076,
      "num_tokens": 39746117.0,
      "reward": 0.41259765625,
      "reward_std": 0.17641165852546692,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.35595703125,
      "rewards/tag_count_reward/std": 0.16065748035907745,
      "step": 42
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.64453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1757.072265625,
      "completions/mean_terminated_length": 1229.56591796875,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "epoch": 0.014679525475804386,
      "grad_norm": 0.09078851342201233,
      "kl": 0.0004987716674804688,
      "learning_rate": 1.4334470989761092e-07,
      "loss": 0.0848,
      "num_tokens": 40719338.0,
      "reward": 0.4482421875,
      "reward_std": 0.1925346851348877,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3701171875,
      "rewards/tag_count_reward/std": 0.17268340289592743,
      "step": 43
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.568359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1692.580078125,
      "completions/mean_terminated_length": 1224.583740234375,
      "completions/min_length": 4.0,
      "completions/min_terminated_length": 4.0,
      "epoch": 0.015020909789195187,
      "grad_norm": 0.10198905318975449,
      "kl": 0.0005292892456054688,
      "learning_rate": 1.4675767918088735e-07,
      "loss": 0.0863,
      "num_tokens": 41656147.0,
      "reward": 0.48876953125,
      "reward_std": 0.23672613501548767,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38720703125,
      "rewards/tag_count_reward/std": 0.14951784908771515,
      "step": 44
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.57421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1717.435546875,
      "completions/mean_terminated_length": 1271.62841796875,
      "completions/min_length": 302.0,
      "completions/min_terminated_length": 302.0,
      "epoch": 0.015362294102585987,
      "grad_norm": 0.08921471983194351,
      "kl": 0.0005221366882324219,
      "learning_rate": 1.5017064846416383e-07,
      "loss": 0.0709,
      "num_tokens": 42617234.0,
      "reward": 0.4248046875,
      "reward_std": 0.14722687005996704,
      "rewards/accuracy_reward/mean": 0.0390625,
      "rewards/accuracy_reward/std": 0.1939331740140915,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3857421875,
      "rewards/tag_count_reward/std": 0.1731255054473877,
      "step": 45
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.66015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1792.638671875,
      "completions/mean_terminated_length": 1296.5919189453125,
      "completions/min_length": 391.0,
      "completions/min_terminated_length": 391.0,
      "epoch": 0.015703678415976786,
      "grad_norm": 0.08767879009246826,
      "kl": 0.0005807876586914062,
      "learning_rate": 1.5358361774744026e-07,
      "loss": 0.0817,
      "num_tokens": 43609513.0,
      "reward": 0.4345703125,
      "reward_std": 0.16691412031650543,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3583984375,
      "rewards/tag_count_reward/std": 0.15472902357578278,
      "step": 46
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.595703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1705.353515625,
      "completions/mean_terminated_length": 1200.4879150390625,
      "completions/min_length": 268.0,
      "completions/min_terminated_length": 268.0,
      "epoch": 0.016045062729367586,
      "grad_norm": 0.09582287073135376,
      "kl": 0.000545501708984375,
      "learning_rate": 1.5699658703071672e-07,
      "loss": 0.065,
      "num_tokens": 44558494.0,
      "reward": 0.4609375,
      "reward_std": 0.1579788625240326,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3984375,
      "rewards/tag_count_reward/std": 0.18817149102687836,
      "step": 47
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.65625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1772.978515625,
      "completions/mean_terminated_length": 1247.9375,
      "completions/min_length": 430.0,
      "completions/min_terminated_length": 430.0,
      "epoch": 0.016386447042758386,
      "grad_norm": 0.09797421842813492,
      "kl": 0.0005407333374023438,
      "learning_rate": 1.6040955631399318e-07,
      "loss": 0.1087,
      "num_tokens": 45546963.0,
      "reward": 0.40185546875,
      "reward_std": 0.16916505992412567,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.35693359375,
      "rewards/tag_count_reward/std": 0.1456000804901123,
      "step": 48
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.62890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1719.7109375,
      "completions/mean_terminated_length": 1163.347412109375,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.016727831356149185,
      "grad_norm": 0.10793397575616837,
      "kl": 0.0005192756652832031,
      "learning_rate": 1.638225255972696e-07,
      "loss": 0.0715,
      "num_tokens": 46500847.0,
      "reward": 0.4375,
      "reward_std": 0.1823108047246933,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.369140625,
      "rewards/tag_count_reward/std": 0.1593923270702362,
      "step": 49
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.552734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1670.041015625,
      "completions/mean_terminated_length": 1202.956298828125,
      "completions/min_length": 41.0,
      "completions/min_terminated_length": 41.0,
      "epoch": 0.017069215669539985,
      "grad_norm": 0.09364376217126846,
      "kl": 0.0005340576171875,
      "learning_rate": 1.6723549488054606e-07,
      "loss": 0.0824,
      "num_tokens": 47423972.0,
      "reward": 0.490234375,
      "reward_std": 0.19551226496696472,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.380859375,
      "rewards/tag_count_reward/std": 0.15152467787265778,
      "step": 50
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.576171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1711.96484375,
      "completions/mean_terminated_length": 1255.142822265625,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "epoch": 0.017410599982930784,
      "grad_norm": 0.09366326779127121,
      "kl": 0.00054931640625,
      "learning_rate": 1.7064846416382252e-07,
      "loss": 0.0825,
      "num_tokens": 48379730.0,
      "reward": 0.51318359375,
      "reward_std": 0.24613450467586517,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38623046875,
      "rewards/tag_count_reward/std": 0.17238640785217285,
      "step": 51
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.61328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1696.419921875,
      "completions/mean_terminated_length": 1138.8636474609375,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.017751984296321584,
      "grad_norm": 0.11035492271184921,
      "kl": 0.0005512237548828125,
      "learning_rate": 1.7406143344709898e-07,
      "loss": 0.0892,
      "num_tokens": 49326617.0,
      "reward": 0.419921875,
      "reward_std": 0.18128812313079834,
      "rewards/accuracy_reward/mean": 0.037109375,
      "rewards/accuracy_reward/std": 0.18921469151973724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3828125,
      "rewards/tag_count_reward/std": 0.17186526954174042,
      "step": 52
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.619140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1714.14453125,
      "completions/mean_terminated_length": 1171.4154052734375,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.018093368609712383,
      "grad_norm": 0.10192305594682693,
      "kl": 0.0005540847778320312,
      "learning_rate": 1.7747440273037543e-07,
      "loss": 0.0876,
      "num_tokens": 50278419.0,
      "reward": 0.45654296875,
      "reward_std": 0.2064102292060852,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.37255859375,
      "rewards/tag_count_reward/std": 0.15242300927639008,
      "step": 53
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.541015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1619.599609375,
      "completions/mean_terminated_length": 1114.634033203125,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.018434752923103183,
      "grad_norm": 0.11204086244106293,
      "kl": 0.0006103515625,
      "learning_rate": 1.8088737201365186e-07,
      "loss": 0.0994,
      "num_tokens": 51190662.0,
      "reward": 0.4794921875,
      "reward_std": 0.23044265806674957,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4072265625,
      "rewards/tag_count_reward/std": 0.1951880007982254,
      "step": 54
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.57421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1720.3984375,
      "completions/mean_terminated_length": 1278.587158203125,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.018776137236493982,
      "grad_norm": 0.09342999011278152,
      "kl": 0.0005502700805664062,
      "learning_rate": 1.8430034129692832e-07,
      "loss": 0.1088,
      "num_tokens": 52144370.0,
      "reward": 0.45654296875,
      "reward_std": 0.20446324348449707,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.39208984375,
      "rewards/tag_count_reward/std": 0.16903352737426758,
      "step": 55
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.404296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1505.333984375,
      "completions/mean_terminated_length": 1137.0328369140625,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.019117521549884782,
      "grad_norm": 0.11249049752950668,
      "kl": 0.0005698204040527344,
      "learning_rate": 1.8771331058020475e-07,
      "loss": 0.1152,
      "num_tokens": 52992301.0,
      "reward": 0.54345703125,
      "reward_std": 0.25522473454475403,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.43798828125,
      "rewards/tag_count_reward/std": 0.18946638703346252,
      "step": 56
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.65625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1778.322265625,
      "completions/mean_terminated_length": 1263.4830322265625,
      "completions/min_length": 360.0,
      "completions/min_terminated_length": 360.0,
      "epoch": 0.01945890586327558,
      "grad_norm": 0.09423235803842545,
      "kl": 0.000568389892578125,
      "learning_rate": 1.9112627986348124e-07,
      "loss": 0.089,
      "num_tokens": 53980722.0,
      "reward": 0.40185546875,
      "reward_std": 0.16317158937454224,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.36083984375,
      "rewards/tag_count_reward/std": 0.1525859236717224,
      "step": 57
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.67578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1807.017578125,
      "completions/mean_terminated_length": 1304.7288818359375,
      "completions/min_length": 429.0,
      "completions/min_terminated_length": 429.0,
      "epoch": 0.01980029017666638,
      "grad_norm": 0.09344030171632767,
      "kl": 0.00055694580078125,
      "learning_rate": 1.9453924914675767e-07,
      "loss": 0.0798,
      "num_tokens": 54998251.0,
      "reward": 0.431640625,
      "reward_std": 0.20107224583625793,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.35546875,
      "rewards/tag_count_reward/std": 0.15752294659614563,
      "step": 58
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1739.4375,
      "completions/mean_terminated_length": 1189.391357421875,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "epoch": 0.02014167449005718,
      "grad_norm": 0.0854397565126419,
      "kl": 0.0005483627319335938,
      "learning_rate": 1.9795221843003412e-07,
      "loss": 0.0912,
      "num_tokens": 55957275.0,
      "reward": 0.45361328125,
      "reward_std": 0.18842391669750214,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.36181640625,
      "rewards/tag_count_reward/std": 0.16275520622730255,
      "step": 59
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.564453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1649.150390625,
      "completions/mean_terminated_length": 1132.255615234375,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.02048305880344798,
      "grad_norm": 0.09843935072422028,
      "kl": 0.0005526542663574219,
      "learning_rate": 2.0136518771331058e-07,
      "loss": 0.0842,
      "num_tokens": 56885064.0,
      "reward": 0.4384765625,
      "reward_std": 0.19701939821243286,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3916015625,
      "rewards/tag_count_reward/std": 0.1747734695672989,
      "step": 60
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.576171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1742.107421875,
      "completions/mean_terminated_length": 1326.2626953125,
      "completions/min_length": 437.0,
      "completions/min_terminated_length": 437.0,
      "epoch": 0.02082444311683878,
      "grad_norm": 0.0872185230255127,
      "kl": 0.0005540847778320312,
      "learning_rate": 2.04778156996587e-07,
      "loss": 0.0743,
      "num_tokens": 57851151.0,
      "reward": 0.48388671875,
      "reward_std": 0.22081714868545532,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38232421875,
      "rewards/tag_count_reward/std": 0.15856212377548218,
      "step": 61
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.447265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1565.787109375,
      "completions/mean_terminated_length": 1175.5865478515625,
      "completions/min_length": 250.0,
      "completions/min_terminated_length": 250.0,
      "epoch": 0.02116582743022958,
      "grad_norm": 0.10896014422178268,
      "kl": 0.0005750656127929688,
      "learning_rate": 2.0819112627986347e-07,
      "loss": 0.1048,
      "num_tokens": 58726770.0,
      "reward": 0.5595703125,
      "reward_std": 0.2406485378742218,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4150390625,
      "rewards/tag_count_reward/std": 0.16657714545726776,
      "step": 62
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.49609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1565.802734375,
      "completions/mean_terminated_length": 1091.0814208984375,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.021507211743620382,
      "grad_norm": 0.12250429391860962,
      "kl": 0.0005865097045898438,
      "learning_rate": 2.1160409556313992e-07,
      "loss": 0.1173,
      "num_tokens": 59611517.0,
      "reward": 0.4775390625,
      "reward_std": 0.20324724912643433,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4130859375,
      "rewards/tag_count_reward/std": 0.17490464448928833,
      "step": 63
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.517578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1588.896484375,
      "completions/mean_terminated_length": 1096.3360595703125,
      "completions/min_length": 288.0,
      "completions/min_terminated_length": 288.0,
      "epoch": 0.021848596057011182,
      "grad_norm": 0.1131078451871872,
      "kl": 0.0005655288696289062,
      "learning_rate": 2.1501706484641638e-07,
      "loss": 0.085,
      "num_tokens": 60503960.0,
      "reward": 0.53271484375,
      "reward_std": 0.24876108765602112,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.41357421875,
      "rewards/tag_count_reward/std": 0.18762163817882538,
      "step": 64
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1626.666015625,
      "completions/mean_terminated_length": 1118.159423828125,
      "completions/min_length": 51.0,
      "completions/min_terminated_length": 51.0,
      "epoch": 0.02218998037040198,
      "grad_norm": 0.1046229749917984,
      "kl": 0.0005731582641601562,
      "learning_rate": 2.1843003412969284e-07,
      "loss": 0.0843,
      "num_tokens": 61416941.0,
      "reward": 0.494140625,
      "reward_std": 0.2173539400100708,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.396484375,
      "rewards/tag_count_reward/std": 0.17282997071743011,
      "step": 65
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.548828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1634.9140625,
      "completions/mean_terminated_length": 1132.41552734375,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.02253136468379278,
      "grad_norm": 0.10851604491472244,
      "kl": 0.0005245208740234375,
      "learning_rate": 2.2184300341296927e-07,
      "loss": 0.0819,
      "num_tokens": 62331377.0,
      "reward": 0.46044921875,
      "reward_std": 0.19750535488128662,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.39599609375,
      "rewards/tag_count_reward/std": 0.17003679275512695,
      "step": 66
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.654296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1768.828125,
      "completions/mean_terminated_length": 1240.4520263671875,
      "completions/min_length": 366.0,
      "completions/min_terminated_length": 366.0,
      "epoch": 0.02287274899718358,
      "grad_norm": 0.09718859195709229,
      "kl": 0.0005950927734375,
      "learning_rate": 2.2525597269624572e-07,
      "loss": 0.0878,
      "num_tokens": 63305497.0,
      "reward": 0.4404296875,
      "reward_std": 0.2352093756198883,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3681640625,
      "rewards/tag_count_reward/std": 0.16088110208511353,
      "step": 67
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.638671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1706.013671875,
      "completions/mean_terminated_length": 1101.52978515625,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.02321413331057438,
      "grad_norm": 0.09850999712944031,
      "kl": 0.0006017684936523438,
      "learning_rate": 2.2866894197952215e-07,
      "loss": 0.0884,
      "num_tokens": 64256272.0,
      "reward": 0.44970703125,
      "reward_std": 0.21088473498821259,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.36376953125,
      "rewards/tag_count_reward/std": 0.1621493548154831,
      "step": 68
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.6875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1809.505859375,
      "completions/mean_terminated_length": 1284.8187255859375,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "epoch": 0.02355551762396518,
      "grad_norm": 0.09798890352249146,
      "kl": 0.0005674362182617188,
      "learning_rate": 2.3208191126279864e-07,
      "loss": 0.0903,
      "num_tokens": 65267155.0,
      "reward": 0.36962890625,
      "reward_std": 0.1394367218017578,
      "rewards/accuracy_reward/mean": 0.016129031777381897,
      "rewards/accuracy_reward/std": 0.12609896063804626,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.35400390625,
      "rewards/tag_count_reward/std": 0.1443610042333603,
      "step": 69
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.5625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1678.69921875,
      "completions/mean_terminated_length": 1203.884033203125,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.02389690193735598,
      "grad_norm": 0.09649016708135605,
      "kl": 0.0005521774291992188,
      "learning_rate": 2.354948805460751e-07,
      "loss": 0.1031,
      "num_tokens": 66205289.0,
      "reward": 0.48681640625,
      "reward_std": 0.23590239882469177,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.39501953125,
      "rewards/tag_count_reward/std": 0.17441430687904358,
      "step": 70
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.60546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1728.423828125,
      "completions/mean_terminated_length": 1237.985107421875,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.02423828625074678,
      "grad_norm": 0.09022075682878494,
      "kl": 0.0005817413330078125,
      "learning_rate": 2.3890784982935155e-07,
      "loss": 0.0772,
      "num_tokens": 67166370.0,
      "reward": 0.43994140625,
      "reward_std": 0.16247710585594177,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38134765625,
      "rewards/tag_count_reward/std": 0.17263565957546234,
      "step": 71
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.59765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1685.384765625,
      "completions/mean_terminated_length": 1146.74267578125,
      "completions/min_length": 375.0,
      "completions/min_terminated_length": 375.0,
      "epoch": 0.02457967056413758,
      "grad_norm": 0.09682461619377136,
      "kl": 0.0006361007690429688,
      "learning_rate": 2.42320819112628e-07,
      "loss": 0.0901,
      "num_tokens": 68115415.0,
      "reward": 0.43603515625,
      "reward_std": 0.19190119206905365,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38330078125,
      "rewards/tag_count_reward/std": 0.16678567230701447,
      "step": 72
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.5234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1604.630859375,
      "completions/mean_terminated_length": 1117.651611328125,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.024921054877528378,
      "grad_norm": 0.10817335546016693,
      "kl": 0.0006189346313476562,
      "learning_rate": 2.457337883959044e-07,
      "loss": 0.0844,
      "num_tokens": 69023338.0,
      "reward": 0.45166015625,
      "reward_std": 0.17577175796031952,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.39501953125,
      "rewards/tag_count_reward/std": 0.1494922935962677,
      "step": 73
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.537109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1612.94921875,
      "completions/mean_terminated_length": 1108.1434326171875,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.025262439190919177,
      "grad_norm": 0.10391208529472351,
      "kl": 0.00058746337890625,
      "learning_rate": 2.4914675767918084e-07,
      "loss": 0.0917,
      "num_tokens": 69923040.0,
      "reward": 0.51416015625,
      "reward_std": 0.2049870491027832,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.39697265625,
      "rewards/tag_count_reward/std": 0.16846729815006256,
      "step": 74
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.61328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1733.513671875,
      "completions/mean_terminated_length": 1234.7828369140625,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.025603823504309977,
      "grad_norm": 0.09485740214586258,
      "kl": 0.000629425048828125,
      "learning_rate": 2.525597269624573e-07,
      "loss": 0.0839,
      "num_tokens": 70890599.0,
      "reward": 0.44921875,
      "reward_std": 0.22727754712104797,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.37890625,
      "rewards/tag_count_reward/std": 0.18302303552627563,
      "step": 75
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.55859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1676.318359375,
      "completions/mean_terminated_length": 1205.960205078125,
      "completions/min_length": 342.0,
      "completions/min_terminated_length": 342.0,
      "epoch": 0.025945207817700777,
      "grad_norm": 0.09795970469713211,
      "kl": 0.0005970001220703125,
      "learning_rate": 2.5597269624573375e-07,
      "loss": 0.0597,
      "num_tokens": 71818554.0,
      "reward": 0.50341796875,
      "reward_std": 0.24869966506958008,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.39990234375,
      "rewards/tag_count_reward/std": 0.18135979771614075,
      "step": 76
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.666015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1765.73828125,
      "completions/mean_terminated_length": 1202.865478515625,
      "completions/min_length": 359.0,
      "completions/min_terminated_length": 359.0,
      "epoch": 0.026286592131091576,
      "grad_norm": 0.08727016299962997,
      "kl": 0.0006475448608398438,
      "learning_rate": 2.593856655290102e-07,
      "loss": 0.0747,
      "num_tokens": 72800116.0,
      "reward": 0.40673828125,
      "reward_std": 0.1413293480873108,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.35791015625,
      "rewards/tag_count_reward/std": 0.1562492400407791,
      "step": 77
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1620.638671875,
      "completions/mean_terminated_length": 1165.70556640625,
      "completions/min_length": 319.0,
      "completions/min_terminated_length": 319.0,
      "epoch": 0.026627976444482376,
      "grad_norm": 0.09837228059768677,
      "kl": 0.000667572021484375,
      "learning_rate": 2.627986348122867e-07,
      "loss": 0.0904,
      "num_tokens": 73711195.0,
      "reward": 0.50830078125,
      "reward_std": 0.2117748260498047,
      "rewards/accuracy_reward/mean": 0.1088709682226181,
      "rewards/accuracy_reward/std": 0.31179171800613403,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.40283203125,
      "rewards/tag_count_reward/std": 0.17192016541957855,
      "step": 78
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.666015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1789.73828125,
      "completions/mean_terminated_length": 1274.72509765625,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.026969360757873175,
      "grad_norm": 0.09820061922073364,
      "kl": 0.0006532669067382812,
      "learning_rate": 2.6621160409556315e-07,
      "loss": 0.091,
      "num_tokens": 74708165.0,
      "reward": 0.39404296875,
      "reward_std": 0.1636386513710022,
      "rewards/accuracy_reward/mean": 0.029296875,
      "rewards/accuracy_reward/std": 0.16880230605602264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.36474609375,
      "rewards/tag_count_reward/std": 0.16813799738883972,
      "step": 79
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1564.798828125,
      "completions/mean_terminated_length": 1050.42333984375,
      "completions/min_length": 331.0,
      "completions/min_terminated_length": 331.0,
      "epoch": 0.027310745071263975,
      "grad_norm": 0.11139057576656342,
      "kl": 0.000659942626953125,
      "learning_rate": 2.696245733788396e-07,
      "loss": 0.079,
      "num_tokens": 75593678.0,
      "reward": 0.4638671875,
      "reward_std": 0.22049108147621155,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4091796875,
      "rewards/tag_count_reward/std": 0.1865164041519165,
      "step": 80
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.435546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1497.166015625,
      "completions/mean_terminated_length": 1072.1280517578125,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.027652129384654774,
      "grad_norm": 0.10583925992250443,
      "kl": 0.0006046295166015625,
      "learning_rate": 2.73037542662116e-07,
      "loss": 0.0877,
      "num_tokens": 76432067.0,
      "reward": 0.56884765625,
      "reward_std": 0.23239648342132568,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.43017578125,
      "rewards/tag_count_reward/std": 0.1780041754245758,
      "step": 81
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.654296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1764.62890625,
      "completions/mean_terminated_length": 1228.3050537109375,
      "completions/min_length": 376.0,
      "completions/min_terminated_length": 376.0,
      "epoch": 0.027993513698045574,
      "grad_norm": 0.09084117412567139,
      "kl": 0.0006618499755859375,
      "learning_rate": 2.764505119453925e-07,
      "loss": 0.098,
      "num_tokens": 77414965.0,
      "reward": 0.4375,
      "reward_std": 0.2354152500629425,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.361328125,
      "rewards/tag_count_reward/std": 0.15736515820026398,
      "step": 82
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.572265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2001.0,
      "completions/mean_length": 1673.951171875,
      "completions/mean_terminated_length": 1173.5113525390625,
      "completions/min_length": 12.0,
      "completions/min_terminated_length": 12.0,
      "epoch": 0.028334898011436373,
      "grad_norm": 0.10642743855714798,
      "kl": 0.00067901611328125,
      "learning_rate": 2.798634812286689e-07,
      "loss": 0.1359,
      "num_tokens": 78346172.0,
      "reward": 0.4423828125,
      "reward_std": 0.2006877064704895,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3857421875,
      "rewards/tag_count_reward/std": 0.16955633461475372,
      "step": 83
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.552734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1660.591796875,
      "completions/mean_terminated_length": 1181.8297119140625,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "epoch": 0.028676282324827173,
      "grad_norm": 0.10082748532295227,
      "kl": 0.000713348388671875,
      "learning_rate": 2.8327645051194536e-07,
      "loss": 0.0626,
      "num_tokens": 79271035.0,
      "reward": 0.44580078125,
      "reward_std": 0.16366678476333618,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.39306640625,
      "rewards/tag_count_reward/std": 0.17037363350391388,
      "step": 84
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.662109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1757.416015625,
      "completions/mean_terminated_length": 1188.0057373046875,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.029017666638217973,
      "grad_norm": 0.09040378034114838,
      "kl": 0.0007390975952148438,
      "learning_rate": 2.8668941979522184e-07,
      "loss": 0.0905,
      "num_tokens": 80246672.0,
      "reward": 0.431640625,
      "reward_std": 0.20461226999759674,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3671875,
      "rewards/tag_count_reward/std": 0.16083654761314392,
      "step": 85
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.607421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1716.48828125,
      "completions/mean_terminated_length": 1203.55224609375,
      "completions/min_length": 332.0,
      "completions/min_terminated_length": 332.0,
      "epoch": 0.029359050951608772,
      "grad_norm": 0.09619715064764023,
      "kl": 0.0007219314575195312,
      "learning_rate": 2.9010238907849827e-07,
      "loss": 0.0785,
      "num_tokens": 81210746.0,
      "reward": 0.4541015625,
      "reward_std": 0.17044886946678162,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3701171875,
      "rewards/tag_count_reward/std": 0.15632642805576324,
      "step": 86
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.52734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1533.15234375,
      "completions/mean_terminated_length": 958.7354736328125,
      "completions/min_length": 4.0,
      "completions/min_terminated_length": 4.0,
      "epoch": 0.02970043526499957,
      "grad_norm": 0.11499039828777313,
      "kl": 0.0007534027099609375,
      "learning_rate": 2.935153583617747e-07,
      "loss": 0.1324,
      "num_tokens": 82074488.0,
      "reward": 0.43310546875,
      "reward_std": 0.1939796805381775,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.37841796875,
      "rewards/tag_count_reward/std": 0.16841623187065125,
      "step": 87
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.53515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1669.015625,
      "completions/mean_terminated_length": 1232.7059326171875,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.030041819578390375,
      "grad_norm": 0.10196422040462494,
      "kl": 0.0007295608520507812,
      "learning_rate": 2.969283276450512e-07,
      "loss": 0.0908,
      "num_tokens": 83016128.0,
      "reward": 0.466796875,
      "reward_std": 0.2298911064863205,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.392578125,
      "rewards/tag_count_reward/std": 0.16006234288215637,
      "step": 88
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.48828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1618.51171875,
      "completions/mean_terminated_length": 1208.6947021484375,
      "completions/min_length": 384.0,
      "completions/min_terminated_length": 384.0,
      "epoch": 0.030383203891781174,
      "grad_norm": 0.11078286170959473,
      "kl": 0.0007228851318359375,
      "learning_rate": 3.0034129692832767e-07,
      "loss": 0.1089,
      "num_tokens": 83918454.0,
      "reward": 0.47412109375,
      "reward_std": 0.2257877141237259,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.41357421875,
      "rewards/tag_count_reward/std": 0.17757421731948853,
      "step": 89
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.583984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1640.728515625,
      "completions/mean_terminated_length": 1069.018798828125,
      "completions/min_length": 42.0,
      "completions/min_terminated_length": 42.0,
      "epoch": 0.030724588205171974,
      "grad_norm": 0.10113243758678436,
      "kl": 0.0007505416870117188,
      "learning_rate": 3.037542662116041e-07,
      "loss": 0.0958,
      "num_tokens": 84833563.0,
      "reward": 0.48681640625,
      "reward_std": 0.2212250530719757,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.39111328125,
      "rewards/tag_count_reward/std": 0.18100644648075104,
      "step": 90
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.470703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1579.775390625,
      "completions/mean_terminated_length": 1163.3837890625,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.031065972518562773,
      "grad_norm": 0.11080970615148544,
      "kl": 0.0007219314575195312,
      "learning_rate": 3.0716723549488053e-07,
      "loss": 0.1205,
      "num_tokens": 85717704.0,
      "reward": 0.5,
      "reward_std": 0.2212325781583786,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.40625,
      "rewards/tag_count_reward/std": 0.1617843359708786,
      "step": 91
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.673828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1804.71875,
      "completions/mean_terminated_length": 1302.1318359375,
      "completions/min_length": 44.0,
      "completions/min_terminated_length": 44.0,
      "epoch": 0.03140735683195357,
      "grad_norm": 0.0941099226474762,
      "kl": 0.0007429122924804688,
      "learning_rate": 3.10580204778157e-07,
      "loss": 0.1231,
      "num_tokens": 86726344.0,
      "reward": 0.396484375,
      "reward_std": 0.18601566553115845,
      "rewards/accuracy_reward/mean": 0.04374999925494194,
      "rewards/accuracy_reward/std": 0.20475177466869354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.35546875,
      "rewards/tag_count_reward/std": 0.1462491750717163,
      "step": 92
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.408203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1465.46875,
      "completions/mean_terminated_length": 1063.65673828125,
      "completions/min_length": 58.0,
      "completions/min_terminated_length": 58.0,
      "epoch": 0.03174874114534437,
      "grad_norm": 0.12296649813652039,
      "kl": 0.0007867813110351562,
      "learning_rate": 3.1399317406143344e-07,
      "loss": 0.0957,
      "num_tokens": 87545800.0,
      "reward": 0.56103515625,
      "reward_std": 0.2506997883319855,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.44970703125,
      "rewards/tag_count_reward/std": 0.19036197662353516,
      "step": 93
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.560546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1676.126953125,
      "completions/mean_terminated_length": 1201.7822265625,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.03209012545873517,
      "grad_norm": 0.10059032589197159,
      "kl": 0.0007867813110351562,
      "learning_rate": 3.1740614334470987e-07,
      "loss": 0.104,
      "num_tokens": 88481641.0,
      "reward": 0.4453125,
      "reward_std": 0.20004956424236298,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.400390625,
      "rewards/tag_count_reward/std": 0.19305415451526642,
      "step": 94
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.580078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1689.634765625,
      "completions/mean_terminated_length": 1194.5906982421875,
      "completions/min_length": 4.0,
      "completions/min_terminated_length": 4.0,
      "epoch": 0.03243150977212597,
      "grad_norm": 0.10083835572004318,
      "kl": 0.0007677078247070312,
      "learning_rate": 3.2081911262798635e-07,
      "loss": 0.0985,
      "num_tokens": 89428478.0,
      "reward": 0.45068359375,
      "reward_std": 0.22992177307605743,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38232421875,
      "rewards/tag_count_reward/std": 0.1623731404542923,
      "step": 95
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.556640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1665.900390625,
      "completions/mean_terminated_length": 1186.1717529296875,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.03277289408551677,
      "grad_norm": 0.11242767423391342,
      "kl": 0.000881195068359375,
      "learning_rate": 3.242320819112628e-07,
      "loss": 0.1267,
      "num_tokens": 90351259.0,
      "reward": 0.47412109375,
      "reward_std": 0.21313250064849854,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.39599609375,
      "rewards/tag_count_reward/std": 0.1763918250799179,
      "step": 96
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.48828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1587.48828125,
      "completions/mean_terminated_length": 1148.0687255859375,
      "completions/min_length": 77.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.03311427839890757,
      "grad_norm": 0.1085725799202919,
      "kl": 0.0008459091186523438,
      "learning_rate": 3.276450511945392e-07,
      "loss": 0.1388,
      "num_tokens": 91240101.0,
      "reward": 0.49072265625,
      "reward_std": 0.20506152510643005,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.41455078125,
      "rewards/tag_count_reward/std": 0.1787327527999878,
      "step": 97
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.650390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1738.52734375,
      "completions/mean_terminated_length": 1162.804443359375,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.03345566271229837,
      "grad_norm": 0.09691955894231796,
      "kl": 0.000881195068359375,
      "learning_rate": 3.3105802047781565e-07,
      "loss": 0.0769,
      "num_tokens": 92211123.0,
      "reward": 0.41650390625,
      "reward_std": 0.17518079280853271,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.36376953125,
      "rewards/tag_count_reward/std": 0.1636510044336319,
      "step": 98
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.53125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1590.169921875,
      "completions/mean_terminated_length": 1071.2958984375,
      "completions/min_length": 40.0,
      "completions/min_terminated_length": 40.0,
      "epoch": 0.03379704702568917,
      "grad_norm": 0.12030370533466339,
      "kl": 0.000919342041015625,
      "learning_rate": 3.3447098976109213e-07,
      "loss": 0.1244,
      "num_tokens": 93102170.0,
      "reward": 0.45556640625,
      "reward_std": 0.21795539557933807,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.41455078125,
      "rewards/tag_count_reward/std": 0.19758372008800507,
      "step": 99
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.56640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1635.990234375,
      "completions/mean_terminated_length": 1097.779296875,
      "completions/min_length": 293.0,
      "completions/min_terminated_length": 293.0,
      "epoch": 0.03413843133907997,
      "grad_norm": 0.10042981058359146,
      "kl": 0.0008440017700195312,
      "learning_rate": 3.3788395904436856e-07,
      "loss": 0.1006,
      "num_tokens": 94016933.0,
      "reward": 0.4833984375,
      "reward_std": 0.21628820896148682,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4130859375,
      "rewards/tag_count_reward/std": 0.2075263112783432,
      "step": 100
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.59765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1745.943359375,
      "completions/mean_terminated_length": 1297.25732421875,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.03447981565247077,
      "grad_norm": 0.10225279629230499,
      "kl": 0.00095367431640625,
      "learning_rate": 3.4129692832764504e-07,
      "loss": 0.1114,
      "num_tokens": 94982120.0,
      "reward": 0.4267578125,
      "reward_std": 0.20443692803382874,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.3857421875,
      "rewards/tag_count_reward/std": 0.16368384659290314,
      "step": 101
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.59375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1687.296875,
      "completions/mean_terminated_length": 1160.115478515625,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.03482119996586157,
      "grad_norm": 0.0951334610581398,
      "kl": 0.000873565673828125,
      "learning_rate": 3.447098976109215e-07,
      "loss": 0.1125,
      "num_tokens": 95923200.0,
      "reward": 0.419921875,
      "reward_std": 0.17092673480510712,
      "rewards/accuracy_reward/mean": 0.03515625,
      "rewards/accuracy_reward/std": 0.1843547374010086,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.384765625,
      "rewards/tag_count_reward/std": 0.17805851995944977,
      "step": 102
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.49609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1586.826171875,
      "completions/mean_terminated_length": 1132.8023681640625,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.03516258427925237,
      "grad_norm": 0.11360824108123779,
      "kl": 0.0009851455688476562,
      "learning_rate": 3.4812286689419796e-07,
      "loss": 0.1229,
      "num_tokens": 96813511.0,
      "reward": 0.46533203125,
      "reward_std": 0.1948869526386261,
      "rewards/accuracy_reward/mean": 0.04838709533214569,
      "rewards/accuracy_reward/std": 0.21479946374893188,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.41845703125,
      "rewards/tag_count_reward/std": 0.1904422789812088,
      "step": 103
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.4375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1569.619140625,
      "completions/mean_terminated_length": 1197.545166015625,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.03550396859264317,
      "grad_norm": 0.10358218848705292,
      "kl": 0.000934600830078125,
      "learning_rate": 3.515358361774744e-07,
      "loss": 0.1045,
      "num_tokens": 97698596.0,
      "reward": 0.57763671875,
      "reward_std": 0.2946711480617523,
      "rewards/accuracy_reward/mean": 0.15322580933570862,
      "rewards/accuracy_reward/std": 0.36056873202323914,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.42919921875,
      "rewards/tag_count_reward/std": 0.180350661277771,
      "step": 104
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.595703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 1664.892578125,
      "completions/mean_terminated_length": 1100.41064453125,
      "completions/min_length": 65.0,
      "completions/min_terminated_length": 65.0,
      "epoch": 0.03584535290603397,
      "grad_norm": 0.1326277107000351,
      "kl": 0.001064300537109375,
      "learning_rate": 3.5494880546075087e-07,
      "loss": 0.1248,
      "num_tokens": 98627405.0,
      "reward": 0.44482421875,
      "reward_std": 0.1768166720867157,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.38818359375,
      "rewards/tag_count_reward/std": 0.18325716257095337,
      "step": 105
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.48046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 1556.064453125,
      "completions/mean_terminated_length": 1101.1165771484375,
      "completions/min_length": 40.0,
      "completions/min_terminated_length": 40.0,
      "epoch": 0.03618673721942477,
      "grad_norm": 0.11217821389436722,
      "kl": 0.001010894775390625,
      "learning_rate": 3.583617747440273e-07,
      "loss": 0.1126,
      "num_tokens": 99507630.0,
      "reward": 0.55712890625,
      "reward_std": 0.26952022314071655,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.43017578125,
      "rewards/tag_count_reward/std": 0.19754503667354584,
      "step": 106
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.41015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1474.470703125,
      "completions/mean_terminated_length": 1075.658935546875,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.036528121532815566,
      "grad_norm": 0.11413634568452835,
      "kl": 0.0010786056518554688,
      "learning_rate": 3.6177474402730373e-07,
      "loss": 0.0909,
      "num_tokens": 100339775.0,
      "reward": 0.517578125,
      "reward_std": 0.20219513773918152,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.447265625,
      "rewards/tag_count_reward/std": 0.1919422447681427,
      "step": 107
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.57421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1703.119140625,
      "completions/mean_terminated_length": 1238.0045166015625,
      "completions/min_length": 309.0,
      "completions/min_terminated_length": 309.0,
      "epoch": 0.036869505846206366,
      "grad_norm": 0.09202966839075089,
      "kl": 0.0010786056518554688,
      "learning_rate": 3.6518771331058016e-07,
      "loss": 0.0904,
      "num_tokens": 101293772.0,
      "reward": 0.44873046875,
      "reward_std": 0.19328656792640686,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.39794921875,
      "rewards/tag_count_reward/std": 0.1809430867433548,
      "step": 108
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.4453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1530.89453125,
      "completions/mean_terminated_length": 1115.7535400390625,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.037210890159597165,
      "grad_norm": 0.11212392151355743,
      "kl": 0.0012645721435546875,
      "learning_rate": 3.6860068259385664e-07,
      "loss": 0.1122,
      "num_tokens": 102149206.0,
      "reward": 0.52880859375,
      "reward_std": 0.2463226020336151,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.42919921875,
      "rewards/tag_count_reward/std": 0.180350661277771,
      "step": 109
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.42578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1545.33984375,
      "completions/mean_terminated_length": 1172.6190185546875,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.037552274472987965,
      "grad_norm": 0.11292169243097305,
      "kl": 0.0011749267578125,
      "learning_rate": 3.7201365187713307e-07,
      "loss": 0.1128,
      "num_tokens": 103015492.0,
      "reward": 0.55322265625,
      "reward_std": 0.260453462600708,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.44580078125,
      "rewards/tag_count_reward/std": 0.19248844683170319,
      "step": 110
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.509765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1628.490234375,
      "completions/mean_terminated_length": 1192.2669677734375,
      "completions/min_length": 261.0,
      "completions/min_terminated_length": 261.0,
      "epoch": 0.037893658786378764,
      "grad_norm": 0.10947854816913605,
      "kl": 0.0013942718505859375,
      "learning_rate": 3.754266211604095e-07,
      "loss": 0.1225,
      "num_tokens": 103926159.0,
      "reward": 0.47900390625,
      "reward_std": 0.2573707401752472,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.42041015625,
      "rewards/tag_count_reward/std": 0.19879388809204102,
      "step": 111
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.408203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1493.845703125,
      "completions/mean_terminated_length": 1111.6072998046875,
      "completions/min_length": 22.0,
      "completions/min_terminated_length": 22.0,
      "epoch": 0.038235043099769564,
      "grad_norm": 0.11999060213565826,
      "kl": 0.0016345977783203125,
      "learning_rate": 3.78839590443686e-07,
      "loss": 0.1302,
      "num_tokens": 104765936.0,
      "reward": 0.5302734375,
      "reward_std": 0.25676479935646057,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4482421875,
      "rewards/tag_count_reward/std": 0.192208394408226,
      "step": 112
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.44921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1497.994140625,
      "completions/mean_terminated_length": 1049.40771484375,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.038576427413160363,
      "grad_norm": 0.12736926972866058,
      "kl": 0.0014085769653320312,
      "learning_rate": 3.8225255972696247e-07,
      "loss": 0.1189,
      "num_tokens": 105607133.0,
      "reward": 0.54296875,
      "reward_std": 0.21889027953147888,
      "rewards/accuracy_reward/mean": 0.09072580933570862,
      "rewards/accuracy_reward/std": 0.2875087857246399,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.455078125,
      "rewards/tag_count_reward/std": 0.20968151092529297,
      "step": 113
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.34765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1416.224609375,
      "completions/mean_terminated_length": 1079.530029296875,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.03891781172655116,
      "grad_norm": 0.1168883740901947,
      "kl": 0.0016460418701171875,
      "learning_rate": 3.856655290102389e-07,
      "loss": 0.142,
      "num_tokens": 106411120.0,
      "reward": 0.576171875,
      "reward_std": 0.24163921177387238,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.482421875,
      "rewards/tag_count_reward/std": 0.208511620759964,
      "step": 114
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.501953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1637.53515625,
      "completions/mean_terminated_length": 1223.85107421875,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.03925919603994196,
      "grad_norm": 0.0987587496638298,
      "kl": 0.00171661376953125,
      "learning_rate": 3.8907849829351533e-07,
      "loss": 0.108,
      "num_tokens": 107317762.0,
      "reward": 0.56591796875,
      "reward_std": 0.28088486194610596,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.43701171875,
      "rewards/tag_count_reward/std": 0.20526880025863647,
      "step": 115
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.462890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1551.1953125,
      "completions/mean_terminated_length": 1123.0400390625,
      "completions/min_length": 63.0,
      "completions/min_terminated_length": 63.0,
      "epoch": 0.03960058035333276,
      "grad_norm": 0.10738595575094223,
      "kl": 0.0013828277587890625,
      "learning_rate": 3.924914675767918e-07,
      "loss": 0.114,
      "num_tokens": 108182166.0,
      "reward": 0.486328125,
      "reward_std": 0.2166741043329239,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4453125,
      "rewards/tag_count_reward/std": 0.21657694876194,
      "step": 116
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.3359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1364.5,
      "completions/mean_terminated_length": 1018.7294311523438,
      "completions/min_length": 22.0,
      "completions/min_terminated_length": 22.0,
      "epoch": 0.03994196466672356,
      "grad_norm": 0.1349182277917862,
      "kl": 0.001888275146484375,
      "learning_rate": 3.9590443686006824e-07,
      "loss": 0.1143,
      "num_tokens": 108954054.0,
      "reward": 0.57958984375,
      "reward_std": 0.28033432364463806,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.49560546875,
      "rewards/tag_count_reward/std": 0.2180800884962082,
      "step": 117
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.396484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1479.646484375,
      "completions/mean_terminated_length": 1106.26220703125,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.04028334898011436,
      "grad_norm": 0.11222651600837708,
      "kl": 0.002185821533203125,
      "learning_rate": 3.993174061433447e-07,
      "loss": 0.1221,
      "num_tokens": 109791089.0,
      "reward": 0.56103515625,
      "reward_std": 0.27152127027511597,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.46337890625,
      "rewards/tag_count_reward/std": 0.2133089154958725,
      "step": 118
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.556640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1674.65625,
      "completions/mean_terminated_length": 1205.920654296875,
      "completions/min_length": 362.0,
      "completions/min_terminated_length": 362.0,
      "epoch": 0.04062473329350516,
      "grad_norm": 0.10628098249435425,
      "kl": 0.0018215179443359375,
      "learning_rate": 4.0273037542662116e-07,
      "loss": 0.1282,
      "num_tokens": 110734049.0,
      "reward": 0.5224609375,
      "reward_std": 0.24728238582611084,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4150390625,
      "rewards/tag_count_reward/std": 0.20177392661571503,
      "step": 119
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.419921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2016.0,
      "completions/mean_length": 1512.263671875,
      "completions/mean_terminated_length": 1124.4410400390625,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.04096611760689596,
      "grad_norm": 0.10846513509750366,
      "kl": 0.00201416015625,
      "learning_rate": 4.061433447098976e-07,
      "loss": 0.1341,
      "num_tokens": 111579048.0,
      "reward": 0.580078125,
      "reward_std": 0.291300892829895,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4609375,
      "rewards/tag_count_reward/std": 0.21373461186885834,
      "step": 120
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.486328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1572.888671875,
      "completions/mean_terminated_length": 1123.0684814453125,
      "completions/min_length": 315.0,
      "completions/min_terminated_length": 315.0,
      "epoch": 0.04130750192028676,
      "grad_norm": 0.10465190559625626,
      "kl": 0.0020465850830078125,
      "learning_rate": 4.09556313993174e-07,
      "loss": 0.1174,
      "num_tokens": 112461215.0,
      "reward": 0.5166015625,
      "reward_std": 0.24055497348308563,
      "rewards/accuracy_reward/mean": 0.08064515888690948,
      "rewards/accuracy_reward/std": 0.2725643217563629,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4384765625,
      "rewards/tag_count_reward/std": 0.21643351018428802,
      "step": 121
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.5078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1602.263671875,
      "completions/mean_terminated_length": 1142.3770751953125,
      "completions/min_length": 25.0,
      "completions/min_terminated_length": 25.0,
      "epoch": 0.04164888623367756,
      "grad_norm": 0.11351174116134644,
      "kl": 0.0019683837890625,
      "learning_rate": 4.1296928327645045e-07,
      "loss": 0.1353,
      "num_tokens": 113355206.0,
      "reward": 0.5439453125,
      "reward_std": 0.25091999769210815,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4345703125,
      "rewards/tag_count_reward/std": 0.2095242291688919,
      "step": 122
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.4296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 1469.9765625,
      "completions/mean_terminated_length": 1034.4794921875,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.04199027054706836,
      "grad_norm": 0.11196348071098328,
      "kl": 0.002208709716796875,
      "learning_rate": 4.1638225255972693e-07,
      "loss": 0.1005,
      "num_tokens": 114185690.0,
      "reward": 0.59912109375,
      "reward_std": 0.2856624722480774,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.47802734375,
      "rewards/tag_count_reward/std": 0.23173095285892487,
      "step": 123
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.357421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1376.5625,
      "completions/mean_terminated_length": 1003.088134765625,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.04233165486045916,
      "grad_norm": 0.1199040487408638,
      "kl": 0.0027313232421875,
      "learning_rate": 4.1979522184300336e-07,
      "loss": 0.1037,
      "num_tokens": 114963258.0,
      "reward": 0.63427734375,
      "reward_std": 0.2894349694252014,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.49560546875,
      "rewards/tag_count_reward/std": 0.234823539853096,
      "step": 124
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.400390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1441.24609375,
      "completions/mean_terminated_length": 1036.0845947265625,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.04267303917384996,
      "grad_norm": 0.13748203217983246,
      "kl": 0.003017425537109375,
      "learning_rate": 4.2320819112627985e-07,
      "loss": 0.1128,
      "num_tokens": 115787976.0,
      "reward": 0.53466796875,
      "reward_std": 0.2665495276451111,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.46630859375,
      "rewards/tag_count_reward/std": 0.21663375198841095,
      "step": 125
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.474609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1526.8828125,
      "completions/mean_terminated_length": 1056.1337890625,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.043014423487240765,
      "grad_norm": 0.1286364197731018,
      "kl": 0.0027313232421875,
      "learning_rate": 4.2662116040955633e-07,
      "loss": 0.13,
      "num_tokens": 116650316.0,
      "reward": 0.5517578125,
      "reward_std": 0.2630772590637207,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4638671875,
      "rewards/tag_count_reward/std": 0.24212263524532318,
      "step": 126
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.314453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1331.77734375,
      "completions/mean_terminated_length": 1003.2535400390625,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.043355807800631564,
      "grad_norm": 0.12783904373645782,
      "kl": 0.00225067138671875,
      "learning_rate": 4.3003412969283276e-07,
      "loss": 0.1329,
      "num_tokens": 117402858.0,
      "reward": 0.59228515625,
      "reward_std": 0.2673385739326477,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.52978515625,
      "rewards/tag_count_reward/std": 0.25017908215522766,
      "step": 127
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.41015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1465.98046875,
      "completions/mean_terminated_length": 1061.264892578125,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.043697192114022364,
      "grad_norm": 0.12041183561086655,
      "kl": 0.0027179718017578125,
      "learning_rate": 4.334470989761092e-07,
      "loss": 0.1546,
      "num_tokens": 118234640.0,
      "reward": 0.5439453125,
      "reward_std": 0.253177285194397,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4619140625,
      "rewards/tag_count_reward/std": 0.21899667382240295,
      "step": 128
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.4140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1468.15234375,
      "completions/mean_terminated_length": 1058.393310546875,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.04403857642741316,
      "grad_norm": 0.11871069669723511,
      "kl": 0.002471923828125,
      "learning_rate": 4.3686006825938567e-07,
      "loss": 0.1482,
      "num_tokens": 119067102.0,
      "reward": 0.60205078125,
      "reward_std": 0.2857625484466553,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.47509765625,
      "rewards/tag_count_reward/std": 0.22554562985897064,
      "step": 129
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.353515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1398.197265625,
      "completions/mean_terminated_length": 1042.8670654296875,
      "completions/min_length": 4.0,
      "completions/min_terminated_length": 4.0,
      "epoch": 0.04437996074080396,
      "grad_norm": 0.12083795666694641,
      "kl": 0.002685546875,
      "learning_rate": 4.402730375426621e-07,
      "loss": 0.109,
      "num_tokens": 119862803.0,
      "reward": 0.64306640625,
      "reward_std": 0.3147738575935364,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.50634765625,
      "rewards/tag_count_reward/std": 0.2368534356355667,
      "step": 130
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.49609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1609.705078125,
      "completions/mean_terminated_length": 1178.2054443359375,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.04472134505419476,
      "grad_norm": 0.10432874411344528,
      "kl": 0.00284576416015625,
      "learning_rate": 4.4368600682593853e-07,
      "loss": 0.1089,
      "num_tokens": 120766316.0,
      "reward": 0.55419921875,
      "reward_std": 0.3031613230705261,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.46435546875,
      "rewards/tag_count_reward/std": 0.2459535002708435,
      "step": 131
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.54296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1637.5078125,
      "completions/mean_terminated_length": 1149.8291015625,
      "completions/min_length": 324.0,
      "completions/min_terminated_length": 324.0,
      "epoch": 0.04506272936758556,
      "grad_norm": 0.10717989504337311,
      "kl": 0.00232696533203125,
      "learning_rate": 4.4709897610921496e-07,
      "loss": 0.1285,
      "num_tokens": 121692368.0,
      "reward": 0.5263671875,
      "reward_std": 0.2632749676704407,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4482421875,
      "rewards/tag_count_reward/std": 0.23409658670425415,
      "step": 132
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.431640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1526.857421875,
      "completions/mean_terminated_length": 1131.0755615234375,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.04540411368097636,
      "grad_norm": 0.12041887640953064,
      "kl": 0.002719879150390625,
      "learning_rate": 4.5051194539249145e-07,
      "loss": 0.1176,
      "num_tokens": 122548535.0,
      "reward": 0.53564453125,
      "reward_std": 0.26876211166381836,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.47705078125,
      "rewards/tag_count_reward/std": 0.2273726761341095,
      "step": 133
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.357421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1395.3515625,
      "completions/mean_terminated_length": 1032.3282470703125,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.04574549799436716,
      "grad_norm": 0.11840149015188217,
      "kl": 0.0031280517578125,
      "learning_rate": 4.539249146757679e-07,
      "loss": 0.1338,
      "num_tokens": 123336955.0,
      "reward": 0.630859375,
      "reward_std": 0.2869810461997986,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.53515625,
      "rewards/tag_count_reward/std": 0.2653955817222595,
      "step": 134
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.431640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1452.38671875,
      "completions/mean_terminated_length": 1000.048095703125,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.04608688230775796,
      "grad_norm": 0.12020183354616165,
      "kl": 0.003162384033203125,
      "learning_rate": 4.573378839590443e-07,
      "loss": 0.1277,
      "num_tokens": 124155777.0,
      "reward": 0.6162109375,
      "reward_std": 0.3152843117713928,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4853515625,
      "rewards/tag_count_reward/std": 0.24235931038856506,
      "step": 135
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.404296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1493.4375,
      "completions/mean_terminated_length": 1117.062255859375,
      "completions/min_length": 5.0,
      "completions/min_terminated_length": 5.0,
      "epoch": 0.04642826662114876,
      "grad_norm": 0.11123418807983398,
      "kl": 0.003223419189453125,
      "learning_rate": 4.6075085324232084e-07,
      "loss": 0.1297,
      "num_tokens": 124999025.0,
      "reward": 0.5966796875,
      "reward_std": 0.2818424701690674,
      "rewards/accuracy_reward/mean": 0.12298387289047241,
      "rewards/accuracy_reward/std": 0.32875028252601624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4775390625,
      "rewards/tag_count_reward/std": 0.22982890903949738,
      "step": 136
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.486328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1566.46875,
      "completions/mean_terminated_length": 1110.5703125,
      "completions/min_length": 13.0,
      "completions/min_terminated_length": 13.0,
      "epoch": 0.04676965093453956,
      "grad_norm": 0.10627542436122894,
      "kl": 0.00283050537109375,
      "learning_rate": 4.641638225255973e-07,
      "loss": 0.142,
      "num_tokens": 125887377.0,
      "reward": 0.544921875,
      "reward_std": 0.2709546983242035,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.474609375,
      "rewards/tag_count_reward/std": 0.25042009353637695,
      "step": 137
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.38671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1407.01953125,
      "completions/mean_terminated_length": 1002.8344116210938,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.04711103524793036,
      "grad_norm": 0.12202514708042145,
      "kl": 0.00362396240234375,
      "learning_rate": 4.675767918088737e-07,
      "loss": 0.1502,
      "num_tokens": 126679131.0,
      "reward": 0.57666015625,
      "reward_std": 0.2793852388858795,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.49072265625,
      "rewards/tag_count_reward/std": 0.24237261712551117,
      "step": 138
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.4921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1547.798828125,
      "completions/mean_terminated_length": 1062.9884033203125,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.04745241956132116,
      "grad_norm": 0.10932815074920654,
      "kl": 0.003513336181640625,
      "learning_rate": 4.709897610921502e-07,
      "loss": 0.1659,
      "num_tokens": 127553028.0,
      "reward": 0.5849609375,
      "reward_std": 0.2855178117752075,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.5029296875,
      "rewards/tag_count_reward/std": 0.2677024304866791,
      "step": 139
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.447265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1503.876953125,
      "completions/mean_terminated_length": 1063.5794677734375,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.04779380387471196,
      "grad_norm": 0.11491069197654724,
      "kl": 0.003360748291015625,
      "learning_rate": 4.744027303754266e-07,
      "loss": 0.1303,
      "num_tokens": 128394437.0,
      "reward": 0.5673828125,
      "reward_std": 0.2512876093387604,
      "rewards/accuracy_reward/mean": 0.08669354766607285,
      "rewards/accuracy_reward/std": 0.281669557094574,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.4833984375,
      "rewards/tag_count_reward/std": 0.23815946280956268,
      "step": 140
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.37109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1356.484375,
      "completions/mean_terminated_length": 948.4472045898438,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.04813518818810276,
      "grad_norm": 0.1220201849937439,
      "kl": 0.003894805908203125,
      "learning_rate": 4.778156996587031e-07,
      "loss": 0.1608,
      "num_tokens": 129166461.0,
      "reward": 0.68994140625,
      "reward_std": 0.33712685108184814,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.52783203125,
      "rewards/tag_count_reward/std": 0.26233145594596863,
      "step": 141
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.41015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1453.32421875,
      "completions/mean_terminated_length": 1039.8079833984375,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.04847657250149356,
      "grad_norm": 0.11203473806381226,
      "kl": 0.003520965576171875,
      "learning_rate": 4.812286689419795e-07,
      "loss": 0.1208,
      "num_tokens": 129993843.0,
      "reward": 0.580078125,
      "reward_std": 0.2685844600200653,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.501953125,
      "rewards/tag_count_reward/std": 0.2497476041316986,
      "step": 142
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.384765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1444.095703125,
      "completions/mean_terminated_length": 1066.4158935546875,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.04881795681488436,
      "grad_norm": 0.10747040063142776,
      "kl": 0.00374603271484375,
      "learning_rate": 4.84641638225256e-07,
      "loss": 0.1554,
      "num_tokens": 130806420.0,
      "reward": 0.6005859375,
      "reward_std": 0.28536751866340637,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.5048828125,
      "rewards/tag_count_reward/std": 0.24575771391391754,
      "step": 143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.34375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1384.15625,
      "completions/mean_terminated_length": 1036.4285888671875,
      "completions/min_length": 47.0,
      "completions/min_terminated_length": 47.0,
      "epoch": 0.04915934112827516,
      "grad_norm": 0.13118286430835724,
      "kl": 0.0048675537109375,
      "learning_rate": 4.880546075085323e-07,
      "loss": 0.1429,
      "num_tokens": 131594644.0,
      "reward": 0.63671875,
      "reward_std": 0.29929935932159424,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.52734375,
      "rewards/tag_count_reward/std": 0.24874316155910492,
      "step": 144
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.251953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 1159.37109375,
      "completions/mean_terminated_length": 860.06787109375,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.049500725441665956,
      "grad_norm": 0.15537595748901367,
      "kl": 0.005615234375,
      "learning_rate": 4.914675767918088e-07,
      "loss": 0.1561,
      "num_tokens": 132258546.0,
      "reward": 0.7529296875,
      "reward_std": 0.3398086130619049,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.6083984375,
      "rewards/tag_count_reward/std": 0.26397860050201416,
      "step": 145
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.3984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1415.310546875,
      "completions/mean_terminated_length": 996.2564697265625,
      "completions/min_length": 44.0,
      "completions/min_terminated_length": 44.0,
      "epoch": 0.049842109755056756,
      "grad_norm": 0.12384098023176193,
      "kl": 0.004154205322265625,
      "learning_rate": 4.948805460750853e-07,
      "loss": 0.1764,
      "num_tokens": 133057361.0,
      "reward": 0.60693359375,
      "reward_std": 0.3001461923122406,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.51708984375,
      "rewards/tag_count_reward/std": 0.2627863883972168,
      "step": 146
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1329.32421875,
      "completions/mean_terminated_length": 1025.88330078125,
      "completions/min_length": 26.0,
      "completions/min_terminated_length": 26.0,
      "epoch": 0.050183494068447555,
      "grad_norm": 0.13346366584300995,
      "kl": 0.00533294677734375,
      "learning_rate": 4.982935153583617e-07,
      "loss": 0.175,
      "num_tokens": 133817095.0,
      "reward": 0.67529296875,
      "reward_std": 0.30715054273605347,
      "rewards/accuracy_reward/mean": 0.11088709533214569,
      "rewards/accuracy_reward/std": 0.3143092691898346,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.56787109375,
      "rewards/tag_count_reward/std": 0.2643308639526367,
      "step": 147
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.412109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1452.392578125,
      "completions/mean_terminated_length": 1034.873779296875,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.050524878381838355,
      "grad_norm": 0.11251989006996155,
      "kl": 0.0041656494140625,
      "learning_rate": 5.017064846416383e-07,
      "loss": 0.1391,
      "num_tokens": 134639472.0,
      "reward": 0.64111328125,
      "reward_std": 0.31187868118286133,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.52978515625,
      "rewards/tag_count_reward/std": 0.2744261920452118,
      "step": 148
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.396484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1482.369140625,
      "completions/mean_terminated_length": 1110.7735595703125,
      "completions/min_length": 14.0,
      "completions/min_terminated_length": 14.0,
      "epoch": 0.050866262695229154,
      "grad_norm": 0.12822338938713074,
      "kl": 0.00409698486328125,
      "learning_rate": 5.051194539249146e-07,
      "loss": 0.1455,
      "num_tokens": 135476525.0,
      "reward": 0.62353515625,
      "reward_std": 0.3073246479034424,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.51806640625,
      "rewards/tag_count_reward/std": 0.24737520515918732,
      "step": 149
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.3515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1319.892578125,
      "completions/mean_terminated_length": 925.135498046875,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.051207647008619954,
      "grad_norm": 0.13123086094856262,
      "kl": 0.005870819091796875,
      "learning_rate": 5.085324232081911e-07,
      "loss": 0.1679,
      "num_tokens": 136227510.0,
      "reward": 0.63525390625,
      "reward_std": 0.2943967878818512,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.54150390625,
      "rewards/tag_count_reward/std": 0.27199897170066833,
      "step": 150
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.314453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1344.75,
      "completions/mean_terminated_length": 1022.1766357421875,
      "completions/min_length": 14.0,
      "completions/min_terminated_length": 14.0,
      "epoch": 0.051549031322010753,
      "grad_norm": 0.13723763823509216,
      "kl": 0.00555419921875,
      "learning_rate": 5.119453924914675e-07,
      "loss": 0.1562,
      "num_tokens": 136996790.0,
      "reward": 0.650390625,
      "reward_std": 0.2970719337463379,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.5859375,
      "rewards/tag_count_reward/std": 0.2835811972618103,
      "step": 151
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.357421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1424.36328125,
      "completions/mean_terminated_length": 1077.4771728515625,
      "completions/min_length": 12.0,
      "completions/min_terminated_length": 12.0,
      "epoch": 0.05189041563540155,
      "grad_norm": 0.1149178147315979,
      "kl": 0.0048980712890625,
      "learning_rate": 5.15358361774744e-07,
      "loss": 0.1576,
      "num_tokens": 137810400.0,
      "reward": 0.68115234375,
      "reward_std": 0.32927078008651733,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.57568359375,
      "rewards/tag_count_reward/std": 0.270010381937027,
      "step": 152
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.380859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1432.234375,
      "completions/mean_terminated_length": 1053.451171875,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.05223179994879235,
      "grad_norm": 0.11075170338153839,
      "kl": 0.00516510009765625,
      "learning_rate": 5.187713310580204e-07,
      "loss": 0.1756,
      "num_tokens": 138618264.0,
      "reward": 0.63720703125,
      "reward_std": 0.3462282419204712,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.55126953125,
      "rewards/tag_count_reward/std": 0.2774699628353119,
      "step": 153
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.33984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1356.251953125,
      "completions/mean_terminated_length": 1000.1449584960938,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.05257318426218315,
      "grad_norm": 0.1275874823331833,
      "kl": 0.006683349609375,
      "learning_rate": 5.221843003412969e-07,
      "loss": 0.1505,
      "num_tokens": 139386825.0,
      "reward": 0.70361328125,
      "reward_std": 0.3365657329559326,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.58642578125,
      "rewards/tag_count_reward/std": 0.28707703948020935,
      "step": 154
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.28515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1266.794921875,
      "completions/mean_terminated_length": 955.1666259765625,
      "completions/min_length": 11.0,
      "completions/min_terminated_length": 11.0,
      "epoch": 0.05291456857557395,
      "grad_norm": 0.1265733540058136,
      "kl": 0.0062408447265625,
      "learning_rate": 5.255972696245734e-07,
      "loss": 0.1762,
      "num_tokens": 140102752.0,
      "reward": 0.7265625,
      "reward_std": 0.34501129388809204,
      "rewards/accuracy_reward/mean": 0.11290322244167328,
      "rewards/accuracy_reward/std": 0.3167939782142639,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.6171875,
      "rewards/tag_count_reward/std": 0.2827172875404358,
      "step": 155
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.326171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1309.73046875,
      "completions/mean_terminated_length": 952.365234375,
      "completions/min_length": 35.0,
      "completions/min_terminated_length": 35.0,
      "epoch": 0.05325595288896475,
      "grad_norm": 0.1262756884098053,
      "kl": 0.00704193115234375,
      "learning_rate": 5.290102389078498e-07,
      "loss": 0.1845,
      "num_tokens": 140846342.0,
      "reward": 0.6826171875,
      "reward_std": 0.3658175468444824,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.5751953125,
      "rewards/tag_count_reward/std": 0.28747493028640747,
      "step": 156
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.322265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1266.55078125,
      "completions/mean_terminated_length": 894.96826171875,
      "completions/min_length": 33.0,
      "completions/min_terminated_length": 33.0,
      "epoch": 0.05359733720235555,
      "grad_norm": 0.14502325654029846,
      "kl": 0.0071258544921875,
      "learning_rate": 5.324232081911263e-07,
      "loss": 0.1829,
      "num_tokens": 141564656.0,
      "reward": 0.7021484375,
      "reward_std": 0.33567070960998535,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.5908203125,
      "rewards/tag_count_reward/std": 0.27856162190437317,
      "step": 157
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.302734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1280.9453125,
      "completions/mean_terminated_length": 947.910400390625,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.05393872151574635,
      "grad_norm": 0.12533237040042877,
      "kl": 0.00719451904296875,
      "learning_rate": 5.358361774744027e-07,
      "loss": 0.1363,
      "num_tokens": 142300964.0,
      "reward": 0.689453125,
      "reward_std": 0.3115350604057312,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.61328125,
      "rewards/tag_count_reward/std": 0.28301453590393066,
      "step": 158
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.345703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1340.380859375,
      "completions/mean_terminated_length": 966.5044555664062,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.05428010582913715,
      "grad_norm": 0.11826056987047195,
      "kl": 0.00634002685546875,
      "learning_rate": 5.392491467576792e-07,
      "loss": 0.1826,
      "num_tokens": 143067463.0,
      "reward": 0.6484375,
      "reward_std": 0.33227866888046265,
      "rewards/accuracy_reward/mean": 0.06854838877916336,
      "rewards/accuracy_reward/std": 0.25293970108032227,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.58203125,
      "rewards/tag_count_reward/std": 0.28171506524086,
      "step": 159
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.32421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1257.80859375,
      "completions/mean_terminated_length": 878.6994018554688,
      "completions/min_length": 4.0,
      "completions/min_terminated_length": 4.0,
      "epoch": 0.05462149014252795,
      "grad_norm": 0.14891350269317627,
      "kl": 0.00669097900390625,
      "learning_rate": 5.426621160409555e-07,
      "loss": 0.2124,
      "num_tokens": 143788373.0,
      "reward": 0.7451171875,
      "reward_std": 0.3568500876426697,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.5947265625,
      "rewards/tag_count_reward/std": 0.2906089127063751,
      "step": 160
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.267578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1970.0,
      "completions/mean_length": 1199.90234375,
      "completions/mean_terminated_length": 890.06396484375,
      "completions/min_length": 4.0,
      "completions/min_terminated_length": 4.0,
      "epoch": 0.05496287445591875,
      "grad_norm": 0.12351232022047043,
      "kl": 0.007415771484375,
      "learning_rate": 5.46075085324232e-07,
      "loss": 0.1958,
      "num_tokens": 144484499.0,
      "reward": 0.7333984375,
      "reward_std": 0.3267363905906677,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.6376953125,
      "rewards/tag_count_reward/std": 0.2919080853462219,
      "step": 161
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.26171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1179.337890625,
      "completions/mean_terminated_length": 871.3994140625,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.05530425876930955,
      "grad_norm": 0.1453288346529007,
      "kl": 0.0077362060546875,
      "learning_rate": 5.494880546075085e-07,
      "loss": 0.2039,
      "num_tokens": 145164992.0,
      "reward": 0.78076171875,
      "reward_std": 0.34023576974868774,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.64013671875,
      "rewards/tag_count_reward/std": 0.2815517783164978,
      "step": 162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.294921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1237.84375,
      "completions/mean_terminated_length": 898.969482421875,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.05564564308270035,
      "grad_norm": 0.1276940554380417,
      "kl": 0.008148193359375,
      "learning_rate": 5.52901023890785e-07,
      "loss": 0.1519,
      "num_tokens": 145875296.0,
      "reward": 0.71484375,
      "reward_std": 0.33005768060684204,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.6171875,
      "rewards/tag_count_reward/std": 0.2814164161682129,
      "step": 163
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.26953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1255.318359375,
      "completions/mean_terminated_length": 962.83154296875,
      "completions/min_length": 21.0,
      "completions/min_terminated_length": 21.0,
      "epoch": 0.05598702739609115,
      "grad_norm": 0.1260259747505188,
      "kl": 0.00727081298828125,
      "learning_rate": 5.563139931740614e-07,
      "loss": 0.1846,
      "num_tokens": 146595955.0,
      "reward": 0.79052734375,
      "reward_std": 0.3370605707168579,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.62841796875,
      "rewards/tag_count_reward/std": 0.2862437069416046,
      "step": 164
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.3203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1338.419921875,
      "completions/mean_terminated_length": 1004.0201416015625,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.05632841170948195,
      "grad_norm": 0.11814326047897339,
      "kl": 0.007232666015625,
      "learning_rate": 5.597269624573379e-07,
      "loss": 0.1865,
      "num_tokens": 147357146.0,
      "reward": 0.71484375,
      "reward_std": 0.3613835871219635,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.61328125,
      "rewards/tag_count_reward/std": 0.2864510118961334,
      "step": 165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.224609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1120.482421875,
      "completions/mean_terminated_length": 851.8060302734375,
      "completions/min_length": 13.0,
      "completions/min_terminated_length": 13.0,
      "epoch": 0.05666979602287275,
      "grad_norm": 0.13714024424552917,
      "kl": 0.009918212890625,
      "learning_rate": 5.631399317406143e-07,
      "loss": 0.1799,
      "num_tokens": 148007905.0,
      "reward": 0.78271484375,
      "reward_std": 0.3490524888038635,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.66357421875,
      "rewards/tag_count_reward/std": 0.2753334939479828,
      "step": 166
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.2265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1162.4609375,
      "completions/mean_terminated_length": 903.0606079101562,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.057011180336263546,
      "grad_norm": 0.13401290774345398,
      "kl": 0.0093841552734375,
      "learning_rate": 5.665529010238907e-07,
      "loss": 0.2036,
      "num_tokens": 148673693.0,
      "reward": 0.79443359375,
      "reward_std": 0.3502683639526367,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.67529296875,
      "rewards/tag_count_reward/std": 0.28738975524902344,
      "step": 167
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.349609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1301.564453125,
      "completions/mean_terminated_length": 900.3273315429688,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.057352564649654346,
      "grad_norm": 0.13131964206695557,
      "kl": 0.008575439453125,
      "learning_rate": 5.699658703071673e-07,
      "loss": 0.2153,
      "num_tokens": 149426702.0,
      "reward": 0.66162109375,
      "reward_std": 0.2989290952682495,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.60888671875,
      "rewards/tag_count_reward/std": 0.2934112250804901,
      "step": 168
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.212890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1105.23828125,
      "completions/mean_terminated_length": 850.2481079101562,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.057693948963045145,
      "grad_norm": 0.14257201552391052,
      "kl": 0.010467529296875,
      "learning_rate": 5.733788395904437e-07,
      "loss": 0.174,
      "num_tokens": 150065944.0,
      "reward": 0.8291015625,
      "reward_std": 0.3473888635635376,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.6826171875,
      "rewards/tag_count_reward/std": 0.28039422631263733,
      "step": 169
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.28515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1236.380859375,
      "completions/mean_terminated_length": 912.6201782226562,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.058035333276435945,
      "grad_norm": 0.13205033540725708,
      "kl": 0.008819580078125,
      "learning_rate": 5.767918088737202e-07,
      "loss": 0.2266,
      "num_tokens": 150777851.0,
      "reward": 0.7001953125,
      "reward_std": 0.3145097494125366,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.6513671875,
      "rewards/tag_count_reward/std": 0.2980498969554901,
      "step": 170
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.255859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1175.07421875,
      "completions/mean_terminated_length": 874.9343872070312,
      "completions/min_length": 62.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.058376717589826745,
      "grad_norm": 0.13501673936843872,
      "kl": 0.00872802734375,
      "learning_rate": 5.802047781569965e-07,
      "loss": 0.1589,
      "num_tokens": 151456993.0,
      "reward": 0.77197265625,
      "reward_std": 0.34662991762161255,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.65283203125,
      "rewards/tag_count_reward/std": 0.29043254256248474,
      "step": 171
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.240234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1159.556640625,
      "completions/mean_terminated_length": 878.6349487304688,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.058718101903217544,
      "grad_norm": 0.14753416180610657,
      "kl": 0.0096893310546875,
      "learning_rate": 5.83617747440273e-07,
      "loss": 0.1648,
      "num_tokens": 152136318.0,
      "reward": 0.77978515625,
      "reward_std": 0.35575854778289795,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.66845703125,
      "rewards/tag_count_reward/std": 0.29145723581314087,
      "step": 172
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.27734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1245.98828125,
      "completions/mean_terminated_length": 938.189208984375,
      "completions/min_length": 15.0,
      "completions/min_terminated_length": 15.0,
      "epoch": 0.059059486216608344,
      "grad_norm": 0.1311158388853073,
      "kl": 0.0095977783203125,
      "learning_rate": 5.870307167235494e-07,
      "loss": 0.1818,
      "num_tokens": 152849976.0,
      "reward": 0.73486328125,
      "reward_std": 0.34034109115600586,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.66455078125,
      "rewards/tag_count_reward/std": 0.29159489274024963,
      "step": 173
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.21875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1167.24609375,
      "completions/mean_terminated_length": 920.635009765625,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.05940087052999914,
      "grad_norm": 0.13743795454502106,
      "kl": 0.010498046875,
      "learning_rate": 5.904436860068259e-07,
      "loss": 0.1982,
      "num_tokens": 153527622.0,
      "reward": 0.8349609375,
      "reward_std": 0.37249088287353516,
      "rewards/accuracy_reward/mean": 0.15120968222618103,
      "rewards/accuracy_reward/std": 0.35861483216285706,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.6884765625,
      "rewards/tag_count_reward/std": 0.28260740637779236,
      "step": 174
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.126953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 993.3046875,
      "completions/mean_terminated_length": 839.9373779296875,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.05974225484338994,
      "grad_norm": 0.1527203768491745,
      "kl": 0.0121307373046875,
      "learning_rate": 5.938566552901024e-07,
      "loss": 0.1838,
      "num_tokens": 154113938.0,
      "reward": 0.83935546875,
      "reward_std": 0.3321494460105896,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.73974609375,
      "rewards/tag_count_reward/std": 0.2668350040912628,
      "step": 175
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.142578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1011.345703125,
      "completions/mean_terminated_length": 838.9635620117188,
      "completions/min_length": 33.0,
      "completions/min_terminated_length": 33.0,
      "epoch": 0.06008363915678075,
      "grad_norm": 0.16555017232894897,
      "kl": 0.01165771484375,
      "learning_rate": 5.972696245733788e-07,
      "loss": 0.1714,
      "num_tokens": 154711603.0,
      "reward": 0.828125,
      "reward_std": 0.3264949917793274,
      "rewards/accuracy_reward/mean": 0.0947580635547638,
      "rewards/accuracy_reward/std": 0.29317617416381836,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.736328125,
      "rewards/tag_count_reward/std": 0.2759232819080353,
      "step": 176
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.216796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1123.158203125,
      "completions/mean_terminated_length": 867.1546630859375,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.06042502347017155,
      "grad_norm": 0.15225385129451752,
      "kl": 0.012969970703125,
      "learning_rate": 6.006825938566553e-07,
      "loss": 0.2312,
      "num_tokens": 155364132.0,
      "reward": 0.85302734375,
      "reward_std": 0.3661240041255951,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.70654296875,
      "rewards/tag_count_reward/std": 0.28829270601272583,
      "step": 177
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.228515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1152.826171875,
      "completions/mean_terminated_length": 887.6734008789062,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.06076640778356235,
      "grad_norm": 0.14308057725429535,
      "kl": 0.0115203857421875,
      "learning_rate": 6.040955631399317e-07,
      "loss": 0.2071,
      "num_tokens": 156033515.0,
      "reward": 0.83935546875,
      "reward_std": 0.3647027909755707,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.70849609375,
      "rewards/tag_count_reward/std": 0.29362282156944275,
      "step": 178
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.271484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 1181.66015625,
      "completions/mean_terminated_length": 858.8150634765625,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.06110779209695315,
      "grad_norm": 0.16277040541172028,
      "kl": 0.0136260986328125,
      "learning_rate": 6.075085324232082e-07,
      "loss": 0.1894,
      "num_tokens": 156712653.0,
      "reward": 0.7724609375,
      "reward_std": 0.3247779905796051,
      "rewards/accuracy_reward/mean": 0.09879032522439957,
      "rewards/accuracy_reward/std": 0.2986815273761749,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.6767578125,
      "rewards/tag_count_reward/std": 0.30848538875579834,
      "step": 179
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.24609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1166.521484375,
      "completions/mean_terminated_length": 878.7849731445312,
      "completions/min_length": 48.0,
      "completions/min_terminated_length": 48.0,
      "epoch": 0.06144917641034395,
      "grad_norm": 0.14448601007461548,
      "kl": 0.012359619140625,
      "learning_rate": 6.109215017064846e-07,
      "loss": 0.1842,
      "num_tokens": 157399000.0,
      "reward": 0.7685546875,
      "reward_std": 0.32453253865242004,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.6923828125,
      "rewards/tag_count_reward/std": 0.2915150225162506,
      "step": 180
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 992.98046875,
      "completions/mean_terminated_length": 730.51220703125,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.06179056072373475,
      "grad_norm": 0.1693628877401352,
      "kl": 0.01519775390625,
      "learning_rate": 6.143344709897611e-07,
      "loss": 0.225,
      "num_tokens": 157989054.0,
      "reward": 0.8662109375,
      "reward_std": 0.30623167753219604,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7392578125,
      "rewards/tag_count_reward/std": 0.2804487645626068,
      "step": 181
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.2421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1212.3984375,
      "completions/mean_terminated_length": 945.3504638671875,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.06213194503712555,
      "grad_norm": 0.14012351632118225,
      "kl": 0.0143890380859375,
      "learning_rate": 6.177474402730375e-07,
      "loss": 0.185,
      "num_tokens": 158687962.0,
      "reward": 0.7490234375,
      "reward_std": 0.30691662430763245,
      "rewards/accuracy_reward/mean": 0.04296875,
      "rewards/accuracy_reward/std": 0.2029850035905838,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7060546875,
      "rewards/tag_count_reward/std": 0.29720231890678406,
      "step": 182
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1977.0,
      "completions/mean_length": 1030.939453125,
      "completions/mean_terminated_length": 771.6887817382812,
      "completions/min_length": 22.0,
      "completions/min_terminated_length": 22.0,
      "epoch": 0.062473329350516346,
      "grad_norm": 0.20735539495944977,
      "kl": 0.0152130126953125,
      "learning_rate": 6.21160409556314e-07,
      "loss": 0.2826,
      "num_tokens": 159292155.0,
      "reward": 0.80712890625,
      "reward_std": 0.33187347650527954,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.73681640625,
      "rewards/tag_count_reward/std": 0.28660064935684204,
      "step": 183
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.23046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1164.501953125,
      "completions/mean_terminated_length": 899.9010009765625,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.06281471366390715,
      "grad_norm": 0.15091517567634583,
      "kl": 0.0132904052734375,
      "learning_rate": 6.245733788395904e-07,
      "loss": 0.1759,
      "num_tokens": 159964364.0,
      "reward": 0.822265625,
      "reward_std": 0.3314219117164612,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.728515625,
      "rewards/tag_count_reward/std": 0.29762157797813416,
      "step": 184
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.208984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1129.025390625,
      "completions/mean_terminated_length": 886.234619140625,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.06315609797729795,
      "grad_norm": 0.1488422006368637,
      "kl": 0.0141754150390625,
      "learning_rate": 6.279863481228669e-07,
      "loss": 0.2132,
      "num_tokens": 160621929.0,
      "reward": 0.8271484375,
      "reward_std": 0.3353453278541565,
      "rewards/accuracy_reward/mean": 0.1088709682226181,
      "rewards/accuracy_reward/std": 0.31179171800613403,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7216796875,
      "rewards/tag_count_reward/std": 0.2916460931301117,
      "step": 185
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.240234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1129.703125,
      "completions/mean_terminated_length": 839.3419189453125,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.06349748229068874,
      "grad_norm": 8.422516822814941,
      "kl": 0.09814453125,
      "learning_rate": 6.313993174061433e-07,
      "loss": 0.1775,
      "num_tokens": 161280993.0,
      "reward": 0.89892578125,
      "reward_std": 0.38806048035621643,
      "rewards/accuracy_reward/mean": 0.173828125,
      "rewards/accuracy_reward/std": 0.3793322443962097,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.72509765625,
      "rewards/tag_count_reward/std": 0.30083054304122925,
      "step": 186
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.166015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 990.580078125,
      "completions/mean_terminated_length": 780.0866088867188,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.06383886660407954,
      "grad_norm": 0.17361460626125336,
      "kl": 0.0167999267578125,
      "learning_rate": 6.348122866894197e-07,
      "loss": 0.1832,
      "num_tokens": 161863114.0,
      "reward": 0.947265625,
      "reward_std": 0.34387677907943726,
      "rewards/accuracy_reward/mean": 0.169921875,
      "rewards/accuracy_reward/std": 0.3759314715862274,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.77734375,
      "rewards/tag_count_reward/std": 0.2766771912574768,
      "step": 187
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.212890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1985.0,
      "completions/mean_length": 1148.482421875,
      "completions/mean_terminated_length": 905.1885986328125,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.06418025091747034,
      "grad_norm": 0.13827481865882874,
      "kl": 0.0141448974609375,
      "learning_rate": 6.382252559726961e-07,
      "loss": 0.1854,
      "num_tokens": 162529009.0,
      "reward": 0.8095703125,
      "reward_std": 0.2875130772590637,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7451171875,
      "rewards/tag_count_reward/std": 0.2891981899738312,
      "step": 188
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.20703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1068.818359375,
      "completions/mean_terminated_length": 813.169921875,
      "completions/min_length": 42.0,
      "completions/min_terminated_length": 42.0,
      "epoch": 0.06452163523086114,
      "grad_norm": 0.15764501690864563,
      "kl": 0.0146942138671875,
      "learning_rate": 6.416382252559727e-07,
      "loss": 0.2003,
      "num_tokens": 163152772.0,
      "reward": 0.830078125,
      "reward_std": 0.3172072172164917,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.74609375,
      "rewards/tag_count_reward/std": 0.29382818937301636,
      "step": 189
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.185546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2009.0,
      "completions/mean_length": 1099.25390625,
      "completions/mean_terminated_length": 883.1127319335938,
      "completions/min_length": 61.0,
      "completions/min_terminated_length": 61.0,
      "epoch": 0.06486301954425194,
      "grad_norm": 0.13573741912841797,
      "kl": 0.0135650634765625,
      "learning_rate": 6.450511945392492e-07,
      "loss": 0.1951,
      "num_tokens": 163788086.0,
      "reward": 0.85888671875,
      "reward_std": 0.35918933153152466,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.75732421875,
      "rewards/tag_count_reward/std": 0.2855284512042999,
      "step": 190
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.228515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1127.689453125,
      "completions/mean_terminated_length": 855.0911254882812,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.06520440385764274,
      "grad_norm": 0.13883548974990845,
      "kl": 0.0126495361328125,
      "learning_rate": 6.484641638225256e-07,
      "loss": 0.2165,
      "num_tokens": 164447079.0,
      "reward": 0.9189453125,
      "reward_std": 0.3817644417285919,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7509765625,
      "rewards/tag_count_reward/std": 0.30003103613853455,
      "step": 191
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.216796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1212.306640625,
      "completions/mean_terminated_length": 980.9801025390625,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.06554578817103354,
      "grad_norm": 0.12487567216157913,
      "kl": 0.0131988525390625,
      "learning_rate": 6.51877133105802e-07,
      "loss": 0.1717,
      "num_tokens": 165143156.0,
      "reward": 0.79248046875,
      "reward_std": 0.32984548807144165,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.72607421875,
      "rewards/tag_count_reward/std": 0.29099130630493164,
      "step": 192
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.291015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1198.216796875,
      "completions/mean_terminated_length": 849.40771484375,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.06588717248442434,
      "grad_norm": 0.14539961516857147,
      "kl": 0.01318359375,
      "learning_rate": 6.552901023890784e-07,
      "loss": 0.2089,
      "num_tokens": 165840387.0,
      "reward": 0.74609375,
      "reward_std": 0.32558518648147583,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.68359375,
      "rewards/tag_count_reward/std": 0.30884605646133423,
      "step": 193
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1068.576171875,
      "completions/mean_terminated_length": 836.7318725585938,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.06622855679781514,
      "grad_norm": 0.1555928736925125,
      "kl": 0.015472412109375,
      "learning_rate": 6.587030716723549e-07,
      "loss": 0.2185,
      "num_tokens": 166465610.0,
      "reward": 0.89208984375,
      "reward_std": 0.3563552498817444,
      "rewards/accuracy_reward/mean": 0.13104838132858276,
      "rewards/accuracy_reward/std": 0.3377939462661743,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.76513671875,
      "rewards/tag_count_reward/std": 0.2953328788280487,
      "step": 194
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.30859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 1205.119140625,
      "completions/mean_terminated_length": 828.9180908203125,
      "completions/min_length": 28.0,
      "completions/min_terminated_length": 28.0,
      "epoch": 0.06656994111120594,
      "grad_norm": 0.15445198118686676,
      "kl": 0.0128326416015625,
      "learning_rate": 6.621160409556313e-07,
      "loss": 0.224,
      "num_tokens": 167156071.0,
      "reward": 0.79931640625,
      "reward_std": 0.3117251992225647,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.69970703125,
      "rewards/tag_count_reward/std": 0.32663094997406006,
      "step": 195
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.20703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1148.3359375,
      "completions/mean_terminated_length": 913.4482421875,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.06691132542459674,
      "grad_norm": 0.14241255819797516,
      "kl": 0.013671875,
      "learning_rate": 6.655290102389079e-07,
      "loss": 0.1861,
      "num_tokens": 167820067.0,
      "reward": 0.85986328125,
      "reward_std": 0.330346018075943,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.75244140625,
      "rewards/tag_count_reward/std": 0.29941052198410034,
      "step": 196
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.2734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1188.43359375,
      "completions/mean_terminated_length": 864.9408569335938,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.06725270973798754,
      "grad_norm": 0.13246527314186096,
      "kl": 0.01220703125,
      "learning_rate": 6.689419795221843e-07,
      "loss": 0.2363,
      "num_tokens": 168503745.0,
      "reward": 0.8134765625,
      "reward_std": 0.3302205204963684,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7119140625,
      "rewards/tag_count_reward/std": 0.31165337562561035,
      "step": 197
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1013.77734375,
      "completions/mean_terminated_length": 775.110595703125,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.06759409405137834,
      "grad_norm": 0.13493385910987854,
      "kl": 0.012359619140625,
      "learning_rate": 6.723549488054607e-07,
      "loss": 0.2048,
      "num_tokens": 169094127.0,
      "reward": 0.8671875,
      "reward_std": 0.3374782204627991,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.771484375,
      "rewards/tag_count_reward/std": 0.29306623339653015,
      "step": 198
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.197265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1079.85546875,
      "completions/mean_terminated_length": 841.9415893554688,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.06793547836476914,
      "grad_norm": 0.1415771245956421,
      "kl": 0.0149688720703125,
      "learning_rate": 6.757679180887371e-07,
      "loss": 0.2073,
      "num_tokens": 169724325.0,
      "reward": 0.89697265625,
      "reward_std": 0.3454717993736267,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.76220703125,
      "rewards/tag_count_reward/std": 0.29753127694129944,
      "step": 199
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.25,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1179.71484375,
      "completions/mean_terminated_length": 890.2864990234375,
      "completions/min_length": 73.0,
      "completions/min_terminated_length": 73.0,
      "epoch": 0.06827686267815994,
      "grad_norm": 0.1384713351726532,
      "kl": 0.0121917724609375,
      "learning_rate": 6.791808873720136e-07,
      "loss": 0.2496,
      "num_tokens": 170396051.0,
      "reward": 0.833984375,
      "reward_std": 0.33412545919418335,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.72265625,
      "rewards/tag_count_reward/std": 0.3092418313026428,
      "step": 200
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.287109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1221.71875,
      "completions/mean_terminated_length": 888.9425048828125,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.06861824699155074,
      "grad_norm": 0.12870904803276062,
      "kl": 0.0127105712890625,
      "learning_rate": 6.825938566552901e-07,
      "loss": 0.2314,
      "num_tokens": 171099091.0,
      "reward": 0.7841796875,
      "reward_std": 0.33621302247047424,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7021484375,
      "rewards/tag_count_reward/std": 0.32681119441986084,
      "step": 201
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1204.849609375,
      "completions/mean_terminated_length": 848.852783203125,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.06895963130494154,
      "grad_norm": 0.14517195522785187,
      "kl": 0.014617919921875,
      "learning_rate": 6.860068259385665e-07,
      "loss": 0.2354,
      "num_tokens": 171800118.0,
      "reward": 0.845703125,
      "reward_std": 0.37770742177963257,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.697265625,
      "rewards/tag_count_reward/std": 0.3241764307022095,
      "step": 202
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1061.5,
      "completions/mean_terminated_length": 878.8148193359375,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.06930101561833234,
      "grad_norm": 0.14468716084957123,
      "kl": 0.0157623291015625,
      "learning_rate": 6.89419795221843e-07,
      "loss": 0.2042,
      "num_tokens": 172421974.0,
      "reward": 0.8896484375,
      "reward_std": 0.33229973912239075,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7861328125,
      "rewards/tag_count_reward/std": 0.2882450520992279,
      "step": 203
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 980.158203125,
      "completions/mean_terminated_length": 720.9733276367188,
      "completions/min_length": 23.0,
      "completions/min_terminated_length": 23.0,
      "epoch": 0.06964239993172314,
      "grad_norm": 0.18174254894256592,
      "kl": 0.0180206298828125,
      "learning_rate": 6.928327645051194e-07,
      "loss": 0.254,
      "num_tokens": 172996087.0,
      "reward": 0.9267578125,
      "reward_std": 0.3677091598510742,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7724609375,
      "rewards/tag_count_reward/std": 0.2942425310611725,
      "step": 204
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.275390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1987.0,
      "completions/mean_length": 1194.7421875,
      "completions/mean_terminated_length": 870.4581909179688,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.06998378424511394,
      "grad_norm": 0.14662407338619232,
      "kl": 0.014312744140625,
      "learning_rate": 6.962457337883959e-07,
      "loss": 0.2183,
      "num_tokens": 173681187.0,
      "reward": 0.79736328125,
      "reward_std": 0.3289518654346466,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.72509765625,
      "rewards/tag_count_reward/std": 0.3170620799064636,
      "step": 205
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.212890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1109.548828125,
      "completions/mean_terminated_length": 855.7245483398438,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.07032516855850474,
      "grad_norm": 0.14206916093826294,
      "kl": 0.0142822265625,
      "learning_rate": 6.996587030716723e-07,
      "loss": 0.1932,
      "num_tokens": 174334524.0,
      "reward": 0.8896484375,
      "reward_std": 0.3636188507080078,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7587890625,
      "rewards/tag_count_reward/std": 0.29785749316215515,
      "step": 206
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.212890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1090.5234375,
      "completions/mean_terminated_length": 831.5533447265625,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.07066655287189554,
      "grad_norm": 0.14183954894542694,
      "kl": 0.0157623291015625,
      "learning_rate": 7.030716723549488e-07,
      "loss": 0.1804,
      "num_tokens": 174968264.0,
      "reward": 0.86279296875,
      "reward_std": 0.29027214646339417,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.77490234375,
      "rewards/tag_count_reward/std": 0.30964595079421997,
      "step": 207
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1038.671875,
      "completions/mean_terminated_length": 840.5794067382812,
      "completions/min_length": 87.0,
      "completions/min_terminated_length": 87.0,
      "epoch": 0.07100793718528634,
      "grad_norm": 0.15344756841659546,
      "kl": 0.0158538818359375,
      "learning_rate": 7.064846416382251e-07,
      "loss": 0.14,
      "num_tokens": 175572848.0,
      "reward": 0.9365234375,
      "reward_std": 0.3601889908313751,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7802734375,
      "rewards/tag_count_reward/std": 0.284225732088089,
      "step": 208
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.21484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 1102.173828125,
      "completions/mean_terminated_length": 843.3656616210938,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.07134932149867713,
      "grad_norm": 0.16120149195194244,
      "kl": 0.01666259765625,
      "learning_rate": 7.098976109215017e-07,
      "loss": 0.2597,
      "num_tokens": 176211801.0,
      "reward": 0.865234375,
      "reward_std": 0.3496299386024475,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.736328125,
      "rewards/tag_count_reward/std": 0.3109366297721863,
      "step": 209
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.21875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1073.322265625,
      "completions/mean_terminated_length": 800.4124755859375,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.07169070581206793,
      "grad_norm": 0.15534524619579315,
      "kl": 0.014801025390625,
      "learning_rate": 7.133105802047781e-07,
      "loss": 0.2832,
      "num_tokens": 176830606.0,
      "reward": 0.8349609375,
      "reward_std": 0.32635965943336487,
      "rewards/accuracy_reward/mean": 0.060483869165182114,
      "rewards/accuracy_reward/std": 0.2386218160390854,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7763671875,
      "rewards/tag_count_reward/std": 0.30172058939933777,
      "step": 210
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.173828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1014.869140625,
      "completions/mean_terminated_length": 797.4964599609375,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.07203209012545873,
      "grad_norm": 0.15638583898544312,
      "kl": 0.0158538818359375,
      "learning_rate": 7.167235494880546e-07,
      "loss": 0.2694,
      "num_tokens": 177427259.0,
      "reward": 0.95703125,
      "reward_std": 0.39338618516921997,
      "rewards/accuracy_reward/mean": 0.1875,
      "rewards/accuracy_reward/std": 0.39069411158561707,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.76953125,
      "rewards/tag_count_reward/std": 0.29486700892448425,
      "step": 211
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.263671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1199.0625,
      "completions/mean_terminated_length": 895.0662841796875,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.07237347443884953,
      "grad_norm": 0.13579830527305603,
      "kl": 0.01416015625,
      "learning_rate": 7.201365187713311e-07,
      "loss": 0.2345,
      "num_tokens": 178123195.0,
      "reward": 0.78271484375,
      "reward_std": 0.3598169982433319,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.70849609375,
      "rewards/tag_count_reward/std": 0.31647688150405884,
      "step": 212
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.310546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1289.328125,
      "completions/mean_terminated_length": 947.6033935546875,
      "completions/min_length": 12.0,
      "completions/min_terminated_length": 12.0,
      "epoch": 0.07271485875224033,
      "grad_norm": 0.1423669010400772,
      "kl": 0.0150604248046875,
      "learning_rate": 7.235494880546075e-07,
      "loss": 0.2477,
      "num_tokens": 178870371.0,
      "reward": 0.8017578125,
      "reward_std": 0.35919225215911865,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.6982421875,
      "rewards/tag_count_reward/std": 0.3163156807422638,
      "step": 213
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.142578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 991.017578125,
      "completions/mean_terminated_length": 815.2551879882812,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.07305624306563113,
      "grad_norm": 0.1522628217935562,
      "kl": 0.017059326171875,
      "learning_rate": 7.269624573378839e-07,
      "loss": 0.265,
      "num_tokens": 179449836.0,
      "reward": 0.83984375,
      "reward_std": 0.2854743003845215,
      "rewards/accuracy_reward/mean": 0.026209676638245583,
      "rewards/accuracy_reward/std": 0.1599196344614029,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.814453125,
      "rewards/tag_count_reward/std": 0.28108346462249756,
      "step": 214
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.25,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1168.271484375,
      "completions/mean_terminated_length": 875.0286865234375,
      "completions/min_length": 16.0,
      "completions/min_terminated_length": 16.0,
      "epoch": 0.07339762737902193,
      "grad_norm": 0.13755033910274506,
      "kl": 0.01641845703125,
      "learning_rate": 7.303754266211603e-07,
      "loss": 0.2554,
      "num_tokens": 180127383.0,
      "reward": 0.8310546875,
      "reward_std": 0.32114607095718384,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7412109375,
      "rewards/tag_count_reward/std": 0.3115061819553375,
      "step": 215
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.185546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1150.740234375,
      "completions/mean_terminated_length": 946.3285522460938,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.07373901169241273,
      "grad_norm": 0.12239421904087067,
      "kl": 0.0146026611328125,
      "learning_rate": 7.337883959044369e-07,
      "loss": 0.2139,
      "num_tokens": 180791938.0,
      "reward": 0.9150390625,
      "reward_std": 0.34235459566116333,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7919921875,
      "rewards/tag_count_reward/std": 0.2904115617275238,
      "step": 216
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1045.814453125,
      "completions/mean_terminated_length": 802.5655517578125,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.07408039600580353,
      "grad_norm": 0.16206489503383636,
      "kl": 0.0171661376953125,
      "learning_rate": 7.372013651877133e-07,
      "loss": 0.2219,
      "num_tokens": 181403667.0,
      "reward": 0.9501953125,
      "reward_std": 0.34202441573143005,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7998046875,
      "rewards/tag_count_reward/std": 0.2954481244087219,
      "step": 217
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.21875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1105.482421875,
      "completions/mean_terminated_length": 841.5774536132812,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.07442178031919433,
      "grad_norm": 0.21797847747802734,
      "kl": 0.02508544921875,
      "learning_rate": 7.406143344709898e-07,
      "loss": 0.2408,
      "num_tokens": 182044090.0,
      "reward": 0.9013671875,
      "reward_std": 0.3440747857093811,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7666015625,
      "rewards/tag_count_reward/std": 0.30241650342941284,
      "step": 218
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.197265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1082.025390625,
      "completions/mean_terminated_length": 844.644775390625,
      "completions/min_length": 62.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.07476316463258513,
      "grad_norm": 0.13452063500881195,
      "kl": 0.014129638671875,
      "learning_rate": 7.440273037542661e-07,
      "loss": 0.2309,
      "num_tokens": 182688695.0,
      "reward": 0.88037109375,
      "reward_std": 0.3124554753303528,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.77294921875,
      "rewards/tag_count_reward/std": 0.2985379993915558,
      "step": 219
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.208984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1136.6875,
      "completions/mean_terminated_length": 895.9210205078125,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.07510454894597593,
      "grad_norm": 0.13103114068508148,
      "kl": 0.0148773193359375,
      "learning_rate": 7.474402730375426e-07,
      "loss": 0.2316,
      "num_tokens": 183351831.0,
      "reward": 0.86279296875,
      "reward_std": 0.3280552327632904,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.78076171875,
      "rewards/tag_count_reward/std": 0.30832546949386597,
      "step": 220
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1070.05859375,
      "completions/mean_terminated_length": 878.1261596679688,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.07544593325936673,
      "grad_norm": 0.1350395828485489,
      "kl": 0.0158843994140625,
      "learning_rate": 7.50853242320819e-07,
      "loss": 0.2211,
      "num_tokens": 183972421.0,
      "reward": 0.92626953125,
      "reward_std": 0.3565624952316284,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.77978515625,
      "rewards/tag_count_reward/std": 0.28577929735183716,
      "step": 221
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.169921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1053.357421875,
      "completions/mean_terminated_length": 849.7482299804688,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.07578731757275753,
      "grad_norm": 0.14394913613796234,
      "kl": 0.0170440673828125,
      "learning_rate": 7.542662116040955e-07,
      "loss": 0.1876,
      "num_tokens": 184590428.0,
      "reward": 0.96044921875,
      "reward_std": 0.364574134349823,
      "rewards/accuracy_reward/mean": 0.171875,
      "rewards/accuracy_reward/std": 0.3776407241821289,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.78857421875,
      "rewards/tag_count_reward/std": 0.2830006182193756,
      "step": 222
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.185546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1074.298828125,
      "completions/mean_terminated_length": 852.472412109375,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.07612870188614833,
      "grad_norm": 0.15169014036655426,
      "kl": 0.0179595947265625,
      "learning_rate": 7.57679180887372e-07,
      "loss": 0.2147,
      "num_tokens": 185219029.0,
      "reward": 1.0185546875,
      "reward_std": 0.3537110388278961,
      "rewards/accuracy_reward/mean": 0.21484375,
      "rewards/accuracy_reward/std": 0.4111155867576599,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8037109375,
      "rewards/tag_count_reward/std": 0.29309719800949097,
      "step": 223
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.193359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1050.001953125,
      "completions/mean_terminated_length": 810.7724609375,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.07647008619953913,
      "grad_norm": 0.150232195854187,
      "kl": 0.01727294921875,
      "learning_rate": 7.610921501706485e-07,
      "loss": 0.2529,
      "num_tokens": 185833734.0,
      "reward": 0.83984375,
      "reward_std": 0.3130366802215576,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.77734375,
      "rewards/tag_count_reward/std": 0.3004145324230194,
      "step": 224
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.197265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1091.376953125,
      "completions/mean_terminated_length": 856.2943725585938,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.07681147051292993,
      "grad_norm": 0.14438505470752716,
      "kl": 0.0169677734375,
      "learning_rate": 7.645051194539249e-07,
      "loss": 0.2371,
      "num_tokens": 186473431.0,
      "reward": 0.880859375,
      "reward_std": 0.3424620032310486,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7734375,
      "rewards/tag_count_reward/std": 0.3019627630710602,
      "step": 225
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.126953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1948.0,
      "completions/mean_length": 942.357421875,
      "completions/mean_terminated_length": 781.5816650390625,
      "completions/min_length": 60.0,
      "completions/min_terminated_length": 60.0,
      "epoch": 0.07715285482632073,
      "grad_norm": 0.19273056089878082,
      "kl": 0.023223876953125,
      "learning_rate": 7.679180887372013e-07,
      "loss": 0.1726,
      "num_tokens": 187039422.0,
      "reward": 0.97119140625,
      "reward_std": 0.3649890422821045,
      "rewards/accuracy_reward/mean": 0.15322580933570862,
      "rewards/accuracy_reward/std": 0.36056873202323914,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82275390625,
      "rewards/tag_count_reward/std": 0.26945772767066956,
      "step": 226
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.212890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1111.291015625,
      "completions/mean_terminated_length": 857.93798828125,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.07749423913971153,
      "grad_norm": 0.14280608296394348,
      "kl": 0.0173187255859375,
      "learning_rate": 7.713310580204778e-07,
      "loss": 0.3246,
      "num_tokens": 187687571.0,
      "reward": 0.8671875,
      "reward_std": 0.34099018573760986,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7734375,
      "rewards/tag_count_reward/std": 0.3079785406589508,
      "step": 227
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.17578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 1069.025390625,
      "completions/mean_terminated_length": 860.2393798828125,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.07783562345310233,
      "grad_norm": 0.1343468725681305,
      "kl": 0.017791748046875,
      "learning_rate": 7.747440273037542e-07,
      "loss": 0.2295,
      "num_tokens": 188306112.0,
      "reward": 0.93408203125,
      "reward_std": 0.3749796450138092,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.79736328125,
      "rewards/tag_count_reward/std": 0.28767555952072144,
      "step": 228
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.220703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2016.0,
      "completions/mean_length": 1106.78515625,
      "completions/mean_terminated_length": 840.2255859375,
      "completions/min_length": 13.0,
      "completions/min_terminated_length": 13.0,
      "epoch": 0.07817700776649313,
      "grad_norm": 0.12399096041917801,
      "kl": 0.016082763671875,
      "learning_rate": 7.781569965870307e-07,
      "loss": 0.2438,
      "num_tokens": 188957410.0,
      "reward": 0.92919921875,
      "reward_std": 0.38114863634109497,
      "rewards/accuracy_reward/mean": 0.15322580933570862,
      "rewards/accuracy_reward/std": 0.36056873202323914,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.78076171875,
      "rewards/tag_count_reward/std": 0.3059360682964325,
      "step": 229
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.224609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1131.03515625,
      "completions/mean_terminated_length": 865.4155883789062,
      "completions/min_length": 16.0,
      "completions/min_terminated_length": 16.0,
      "epoch": 0.07851839207988393,
      "grad_norm": 0.1489233374595642,
      "kl": 0.018310546875,
      "learning_rate": 7.815699658703071e-07,
      "loss": 0.2707,
      "num_tokens": 189620404.0,
      "reward": 0.79296875,
      "reward_std": 0.3181414306163788,
      "rewards/accuracy_reward/mean": 0.038306452333927155,
      "rewards/accuracy_reward/std": 0.19212883710861206,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.755859375,
      "rewards/tag_count_reward/std": 0.3103953003883362,
      "step": 230
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.197265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2009.0,
      "completions/mean_length": 1049.0625,
      "completions/mean_terminated_length": 803.5814819335938,
      "completions/min_length": 33.0,
      "completions/min_terminated_length": 33.0,
      "epoch": 0.07885977639327472,
      "grad_norm": 0.15656845271587372,
      "kl": 0.01873779296875,
      "learning_rate": 7.849829351535836e-07,
      "loss": 0.2422,
      "num_tokens": 190233876.0,
      "reward": 0.900390625,
      "reward_std": 0.3332728445529938,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.78515625,
      "rewards/tag_count_reward/std": 0.29548853635787964,
      "step": 231
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1015.703125,
      "completions/mean_terminated_length": 835.7614135742188,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.07920116070666552,
      "grad_norm": 0.1452239751815796,
      "kl": 0.018707275390625,
      "learning_rate": 7.8839590443686e-07,
      "loss": 0.2323,
      "num_tokens": 190833740.0,
      "reward": 0.8779296875,
      "reward_std": 0.29707878828048706,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8037109375,
      "rewards/tag_count_reward/std": 0.28462886810302734,
      "step": 232
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1084.890625,
      "completions/mean_terminated_length": 885.0,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.07954254502005632,
      "grad_norm": 0.15919525921344757,
      "kl": 0.019744873046875,
      "learning_rate": 7.918088737201365e-07,
      "loss": 0.2261,
      "num_tokens": 191465028.0,
      "reward": 0.95654296875,
      "reward_std": 0.3967236280441284,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.80419921875,
      "rewards/tag_count_reward/std": 0.2915424704551697,
      "step": 233
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.173828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1050.771484375,
      "completions/mean_terminated_length": 840.9526977539062,
      "completions/min_length": 50.0,
      "completions/min_terminated_length": 50.0,
      "epoch": 0.07988392933344712,
      "grad_norm": 0.16227871179580688,
      "kl": 0.019683837890625,
      "learning_rate": 7.952218430034129e-07,
      "loss": 0.2561,
      "num_tokens": 192083903.0,
      "reward": 0.84716796875,
      "reward_std": 0.2716546058654785,
      "rewards/accuracy_reward/mean": 0.03515625,
      "rewards/accuracy_reward/std": 0.1843547374010086,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81201171875,
      "rewards/tag_count_reward/std": 0.28615689277648926,
      "step": 234
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.2265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1104.4921875,
      "completions/mean_terminated_length": 828.111083984375,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.08022531364683792,
      "grad_norm": 0.13913939893245697,
      "kl": 0.0223388671875,
      "learning_rate": 7.986348122866893e-07,
      "loss": 0.2385,
      "num_tokens": 192722075.0,
      "reward": 0.88525390625,
      "reward_std": 0.3522019386291504,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.77197265625,
      "rewards/tag_count_reward/std": 0.30429190397262573,
      "step": 235
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.119140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 953.42578125,
      "completions/mean_terminated_length": 805.379150390625,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.08056669796022872,
      "grad_norm": 0.14855922758579254,
      "kl": 0.0213623046875,
      "learning_rate": 8.020477815699659e-07,
      "loss": 0.2454,
      "num_tokens": 193284613.0,
      "reward": 0.96923828125,
      "reward_std": 0.3534427881240845,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82080078125,
      "rewards/tag_count_reward/std": 0.2616969048976898,
      "step": 236
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.185546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1144.033203125,
      "completions/mean_terminated_length": 938.0935668945312,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.08090808227361952,
      "grad_norm": 0.12940514087677002,
      "kl": 0.018157958984375,
      "learning_rate": 8.054607508532423e-07,
      "loss": 0.1829,
      "num_tokens": 193953446.0,
      "reward": 0.9619140625,
      "reward_std": 0.38028883934020996,
      "rewards/accuracy_reward/mean": 0.173828125,
      "rewards/accuracy_reward/std": 0.3793322443962097,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7880859375,
      "rewards/tag_count_reward/std": 0.29010871052742004,
      "step": 237
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1033.50390625,
      "completions/mean_terminated_length": 774.9068603515625,
      "completions/min_length": 51.0,
      "completions/min_terminated_length": 51.0,
      "epoch": 0.08124946658701032,
      "grad_norm": 0.14404235780239105,
      "kl": 0.021697998046875,
      "learning_rate": 8.088737201365188e-07,
      "loss": 0.2078,
      "num_tokens": 194556664.0,
      "reward": 0.9169921875,
      "reward_std": 0.3091548681259155,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8095703125,
      "rewards/tag_count_reward/std": 0.28858959674835205,
      "step": 238
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.166015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1991.0,
      "completions/mean_length": 974.3046875,
      "completions/mean_terminated_length": 760.5714111328125,
      "completions/min_length": 24.0,
      "completions/min_terminated_length": 24.0,
      "epoch": 0.08159085090040112,
      "grad_norm": 0.16828224062919617,
      "kl": 0.02117919921875,
      "learning_rate": 8.122866894197952e-07,
      "loss": 0.2004,
      "num_tokens": 195136180.0,
      "reward": 0.94482421875,
      "reward_std": 0.3471168875694275,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.80419921875,
      "rewards/tag_count_reward/std": 0.29028117656707764,
      "step": 239
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.16796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1041.275390625,
      "completions/mean_terminated_length": 838.0399169921875,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.08193223521379192,
      "grad_norm": 0.14916828274726868,
      "kl": 0.023284912109375,
      "learning_rate": 8.156996587030717e-07,
      "loss": 0.2065,
      "num_tokens": 195742785.0,
      "reward": 0.962890625,
      "reward_std": 0.3675592541694641,
      "rewards/accuracy_reward/mean": 0.1572580635547638,
      "rewards/accuracy_reward/std": 0.36441144347190857,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.810546875,
      "rewards/tag_count_reward/std": 0.28281864523887634,
      "step": 240
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 987.701171875,
      "completions/mean_terminated_length": 743.016845703125,
      "completions/min_length": 71.0,
      "completions/min_terminated_length": 71.0,
      "epoch": 0.08227361952718272,
      "grad_norm": 0.1716306358575821,
      "kl": 0.02398681640625,
      "learning_rate": 8.19112627986348e-07,
      "loss": 0.1742,
      "num_tokens": 196321848.0,
      "reward": 0.96044921875,
      "reward_std": 0.3217233121395111,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81591796875,
      "rewards/tag_count_reward/std": 0.2908008098602295,
      "step": 241
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.189453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1948.0,
      "completions/mean_length": 1032.234375,
      "completions/mean_terminated_length": 794.814453125,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.08261500384057352,
      "grad_norm": 0.14463070034980774,
      "kl": 0.019287109375,
      "learning_rate": 8.225255972696245e-07,
      "loss": 0.2317,
      "num_tokens": 196928848.0,
      "reward": 0.92724609375,
      "reward_std": 0.3264089822769165,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.80810546875,
      "rewards/tag_count_reward/std": 0.2831153869628906,
      "step": 242
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.2109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1126.90625,
      "completions/mean_terminated_length": 880.6732788085938,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.08295638815396432,
      "grad_norm": 0.12367022782564163,
      "kl": 0.020111083984375,
      "learning_rate": 8.259385665529009e-07,
      "loss": 0.1738,
      "num_tokens": 197585296.0,
      "reward": 0.94873046875,
      "reward_std": 0.36049264669418335,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.78076171875,
      "rewards/tag_count_reward/std": 0.3035278618335724,
      "step": 243
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.189453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1087.17578125,
      "completions/mean_terminated_length": 862.5975952148438,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.08329777246735512,
      "grad_norm": 0.14897318184375763,
      "kl": 0.020477294921875,
      "learning_rate": 8.293515358361775e-07,
      "loss": 0.2221,
      "num_tokens": 198220570.0,
      "reward": 0.87255859375,
      "reward_std": 0.33564668893814087,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.78662109375,
      "rewards/tag_count_reward/std": 0.2967562675476074,
      "step": 244
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1991.0,
      "completions/mean_length": 1089.884765625,
      "completions/mean_terminated_length": 796.5841674804688,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.08363915678074592,
      "grad_norm": 0.14930923283100128,
      "kl": 0.021484375,
      "learning_rate": 8.327645051194539e-07,
      "loss": 0.2469,
      "num_tokens": 198852847.0,
      "reward": 0.8369140625,
      "reward_std": 0.32589638233184814,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7568359375,
      "rewards/tag_count_reward/std": 0.3123394250869751,
      "step": 245
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.2421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1160.0625,
      "completions/mean_terminated_length": 876.2886352539062,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.08398054109413672,
      "grad_norm": 0.14294405281543732,
      "kl": 0.021026611328125,
      "learning_rate": 8.361774744027303e-07,
      "loss": 0.226,
      "num_tokens": 199525951.0,
      "reward": 0.84326171875,
      "reward_std": 0.32320284843444824,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.76513671875,
      "rewards/tag_count_reward/std": 0.30909308791160583,
      "step": 246
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.216796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 1147.544921875,
      "completions/mean_terminated_length": 898.2918090820312,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.08432192540752752,
      "grad_norm": 0.12825725972652435,
      "kl": 0.019287109375,
      "learning_rate": 8.395904436860067e-07,
      "loss": 0.2296,
      "num_tokens": 200195286.0,
      "reward": 0.9365234375,
      "reward_std": 0.36513566970825195,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7861328125,
      "rewards/tag_count_reward/std": 0.29866480827331543,
      "step": 247
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.2109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1128.236328125,
      "completions/mean_terminated_length": 882.35888671875,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.08466330972091832,
      "grad_norm": 0.1298787146806717,
      "kl": 0.02008056640625,
      "learning_rate": 8.430034129692832e-07,
      "loss": 0.2165,
      "num_tokens": 200854463.0,
      "reward": 0.88427734375,
      "reward_std": 0.34482067823410034,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.77685546875,
      "rewards/tag_count_reward/std": 0.30106866359710693,
      "step": 248
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.166015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1976.0,
      "completions/mean_length": 1008.9453125,
      "completions/mean_terminated_length": 802.107666015625,
      "completions/min_length": 52.0,
      "completions/min_terminated_length": 52.0,
      "epoch": 0.08500469403430912,
      "grad_norm": 0.14396578073501587,
      "kl": 0.021484375,
      "learning_rate": 8.464163822525597e-07,
      "loss": 0.2158,
      "num_tokens": 201451923.0,
      "reward": 0.923828125,
      "reward_std": 0.35609889030456543,
      "rewards/accuracy_reward/mean": 0.11290322244167328,
      "rewards/accuracy_reward/std": 0.3167939782142639,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.814453125,
      "rewards/tag_count_reward/std": 0.2858298718929291,
      "step": 249
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1034.232421875,
      "completions/mean_terminated_length": 794.2584228515625,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.08534607834769992,
      "grad_norm": 0.16448254883289337,
      "kl": 0.023681640625,
      "learning_rate": 8.498293515358362e-07,
      "loss": 0.2889,
      "num_tokens": 202053594.0,
      "reward": 0.8896484375,
      "reward_std": 0.34110236167907715,
      "rewards/accuracy_reward/mean": 0.08749999850988388,
      "rewards/accuracy_reward/std": 0.2828611731529236,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8076171875,
      "rewards/tag_count_reward/std": 0.28600868582725525,
      "step": 250
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.18359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1060.333984375,
      "completions/mean_terminated_length": 838.2272338867188,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.08568746266109073,
      "grad_norm": 0.1441984474658966,
      "kl": 0.021728515625,
      "learning_rate": 8.532423208191127e-07,
      "loss": 0.2662,
      "num_tokens": 202672037.0,
      "reward": 0.91162109375,
      "reward_std": 0.3293203115463257,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.80224609375,
      "rewards/tag_count_reward/std": 0.2960599660873413,
      "step": 251
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.201171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1088.607421875,
      "completions/mean_terminated_length": 847.0000610351562,
      "completions/min_length": 83.0,
      "completions/min_terminated_length": 83.0,
      "epoch": 0.08602884697448153,
      "grad_norm": 0.15352463722229004,
      "kl": 0.02069091796875,
      "learning_rate": 8.56655290102389e-07,
      "loss": 0.2408,
      "num_tokens": 203316076.0,
      "reward": 0.865234375,
      "reward_std": 0.323127806186676,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.794921875,
      "rewards/tag_count_reward/std": 0.2929096817970276,
      "step": 252
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1110.3359375,
      "completions/mean_terminated_length": 877.0634155273438,
      "completions/min_length": 23.0,
      "completions/min_terminated_length": 23.0,
      "epoch": 0.08637023128787233,
      "grad_norm": 0.36992698907852173,
      "kl": 0.02252197265625,
      "learning_rate": 8.600682593856655e-07,
      "loss": 0.2411,
      "num_tokens": 203973400.0,
      "reward": 0.8388671875,
      "reward_std": 0.3086473047733307,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7841796875,
      "rewards/tag_count_reward/std": 0.2993040084838867,
      "step": 253
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1065.009765625,
      "completions/mean_terminated_length": 820.4609985351562,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.08671161560126313,
      "grad_norm": 0.1553116887807846,
      "kl": 0.0225830078125,
      "learning_rate": 8.634812286689419e-07,
      "loss": 0.2449,
      "num_tokens": 204587725.0,
      "reward": 0.95556640625,
      "reward_std": 0.40006691217422485,
      "rewards/accuracy_reward/mean": 0.166015625,
      "rewards/accuracy_reward/std": 0.3724585771560669,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.78955078125,
      "rewards/tag_count_reward/std": 0.2980254590511322,
      "step": 254
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.25390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1125.8359375,
      "completions/mean_terminated_length": 812.010498046875,
      "completions/min_length": 18.0,
      "completions/min_terminated_length": 18.0,
      "epoch": 0.08705299991465393,
      "grad_norm": 0.13251453638076782,
      "kl": 0.02386474609375,
      "learning_rate": 8.668941979522184e-07,
      "loss": 0.2572,
      "num_tokens": 205247897.0,
      "reward": 0.84619140625,
      "reward_std": 0.34312546253204346,
      "rewards/accuracy_reward/mean": 0.0927419364452362,
      "rewards/accuracy_reward/std": 0.2903633117675781,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.75634765625,
      "rewards/tag_count_reward/std": 0.3144960403442383,
      "step": 255
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.185546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 1082.22265625,
      "completions/mean_terminated_length": 862.2014770507812,
      "completions/min_length": 29.0,
      "completions/min_terminated_length": 29.0,
      "epoch": 0.08739438422804473,
      "grad_norm": 0.20386654138565063,
      "kl": 0.0267333984375,
      "learning_rate": 8.703071672354948e-07,
      "loss": 0.2064,
      "num_tokens": 205881499.0,
      "reward": 0.919921875,
      "reward_std": 0.3333033323287964,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.810546875,
      "rewards/tag_count_reward/std": 0.287961483001709,
      "step": 256
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 1059.3828125,
      "completions/mean_terminated_length": 813.4341430664062,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.08773576854143553,
      "grad_norm": 0.14897507429122925,
      "kl": 0.0238037109375,
      "learning_rate": 8.737201365187713e-07,
      "loss": 0.238,
      "num_tokens": 206499103.0,
      "reward": 0.91796875,
      "reward_std": 0.3448280394077301,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8046875,
      "rewards/tag_count_reward/std": 0.2912411689758301,
      "step": 257
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1136.005859375,
      "completions/mean_terminated_length": 920.1231689453125,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.08807715285482633,
      "grad_norm": 0.1268673688173294,
      "kl": 0.021209716796875,
      "learning_rate": 8.771331058020477e-07,
      "loss": 0.2073,
      "num_tokens": 207149714.0,
      "reward": 0.9267578125,
      "reward_std": 0.30336177349090576,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8310546875,
      "rewards/tag_count_reward/std": 0.2771861255168915,
      "step": 258
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1042.88671875,
      "completions/mean_terminated_length": 822.7190551757812,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.08841853716821713,
      "grad_norm": 0.15476509928703308,
      "kl": 0.027069091796875,
      "learning_rate": 8.805460750853242e-07,
      "loss": 0.213,
      "num_tokens": 207758104.0,
      "reward": 0.96630859375,
      "reward_std": 0.359427809715271,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81396484375,
      "rewards/tag_count_reward/std": 0.2865806519985199,
      "step": 259
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.216796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1065.265625,
      "completions/mean_terminated_length": 793.2369384765625,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.08875992148160793,
      "grad_norm": 0.1515800952911377,
      "kl": 0.026947021484375,
      "learning_rate": 8.839590443686007e-07,
      "loss": 0.2679,
      "num_tokens": 208382784.0,
      "reward": 0.82568359375,
      "reward_std": 0.2970122694969177,
      "rewards/accuracy_reward/mean": 0.0390625,
      "rewards/accuracy_reward/std": 0.1939331740140915,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.78662109375,
      "rewards/tag_count_reward/std": 0.298400342464447,
      "step": 260
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.166015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 986.626953125,
      "completions/mean_terminated_length": 775.3465576171875,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.08910130579499873,
      "grad_norm": 0.1756720244884491,
      "kl": 0.0289306640625,
      "learning_rate": 8.873720136518771e-07,
      "loss": 0.202,
      "num_tokens": 208962129.0,
      "reward": 0.9228515625,
      "reward_std": 0.29644083976745605,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8310546875,
      "rewards/tag_count_reward/std": 0.27318599820137024,
      "step": 261
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 856.3671875,
      "completions/mean_terminated_length": 712.9540405273438,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.08944269010838952,
      "grad_norm": 0.16520744562149048,
      "kl": 0.0257568359375,
      "learning_rate": 8.907849829351535e-07,
      "loss": 0.1794,
      "num_tokens": 209475517.0,
      "reward": 1.00439453125,
      "reward_std": 0.3185638189315796,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87744140625,
      "rewards/tag_count_reward/std": 0.24076665937900543,
      "step": 262
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 882.658203125,
      "completions/mean_terminated_length": 727.966796875,
      "completions/min_length": 16.0,
      "completions/min_terminated_length": 16.0,
      "epoch": 0.08978407442178032,
      "grad_norm": 0.15659339725971222,
      "kl": 0.02850341796875,
      "learning_rate": 8.941979522184299e-07,
      "loss": 0.1734,
      "num_tokens": 210001214.0,
      "reward": 1.00341796875,
      "reward_std": 0.3333035409450531,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86669921875,
      "rewards/tag_count_reward/std": 0.24961701035499573,
      "step": 263
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.17578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1048.224609375,
      "completions/mean_terminated_length": 835.0023803710938,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.09012545873517112,
      "grad_norm": 0.14353342354297638,
      "kl": 0.027191162109375,
      "learning_rate": 8.976109215017065e-07,
      "loss": 0.1947,
      "num_tokens": 210621473.0,
      "reward": 0.9267578125,
      "reward_std": 0.31127870082855225,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8408203125,
      "rewards/tag_count_reward/std": 0.2650623321533203,
      "step": 264
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.212890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1080.56640625,
      "completions/mean_terminated_length": 818.9031982421875,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.09046684304856192,
      "grad_norm": 0.15938018262386322,
      "kl": 0.026763916015625,
      "learning_rate": 9.010238907849829e-07,
      "loss": 0.2906,
      "num_tokens": 211256435.0,
      "reward": 0.9267578125,
      "reward_std": 0.3406500816345215,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8056640625,
      "rewards/tag_count_reward/std": 0.30097225308418274,
      "step": 265
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.146484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1127.380859375,
      "completions/mean_terminated_length": 969.3798217773438,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.09080822736195272,
      "grad_norm": 0.11941824108362198,
      "kl": 0.023712158203125,
      "learning_rate": 9.044368600682594e-07,
      "loss": 0.1874,
      "num_tokens": 211909030.0,
      "reward": 0.93896484375,
      "reward_std": 0.2952817678451538,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83349609375,
      "rewards/tag_count_reward/std": 0.27222371101379395,
      "step": 266
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.166015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1053.94921875,
      "completions/mean_terminated_length": 856.0702514648438,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.09114961167534352,
      "grad_norm": 0.12648114562034607,
      "kl": 0.025543212890625,
      "learning_rate": 9.078498293515358e-07,
      "loss": 0.1808,
      "num_tokens": 212526860.0,
      "reward": 1.001953125,
      "reward_std": 0.3504851460456848,
      "rewards/accuracy_reward/mean": 0.166015625,
      "rewards/accuracy_reward/std": 0.3724585771560669,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8359375,
      "rewards/tag_count_reward/std": 0.27481982111930847,
      "step": 267
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.185546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 1063.12890625,
      "completions/mean_terminated_length": 838.7578125,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.09149099598873432,
      "grad_norm": 0.14063085615634918,
      "kl": 0.02874755859375,
      "learning_rate": 9.112627986348122e-07,
      "loss": 0.2123,
      "num_tokens": 213147934.0,
      "reward": 0.95947265625,
      "reward_std": 0.31506675481796265,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82861328125,
      "rewards/tag_count_reward/std": 0.2750140130519867,
      "step": 268
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.2109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 1097.771484375,
      "completions/mean_terminated_length": 843.75,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.09183238030212512,
      "grad_norm": 0.13077448308467865,
      "kl": 0.0252685546875,
      "learning_rate": 9.146757679180886e-07,
      "loss": 0.2463,
      "num_tokens": 213782761.0,
      "reward": 0.94384765625,
      "reward_std": 0.4028789699077606,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.79736328125,
      "rewards/tag_count_reward/std": 0.30380475521087646,
      "step": 269
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.158203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 999.697265625,
      "completions/mean_terminated_length": 802.6844482421875,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.09217376461551592,
      "grad_norm": 0.15468211472034454,
      "kl": 0.0260009765625,
      "learning_rate": 9.180887372013651e-07,
      "loss": 0.2588,
      "num_tokens": 214365966.0,
      "reward": 1.02880859375,
      "reward_std": 0.3489936590194702,
      "rewards/accuracy_reward/mean": 0.1796875,
      "rewards/accuracy_reward/std": 0.38430243730545044,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84912109375,
      "rewards/tag_count_reward/std": 0.26874756813049316,
      "step": 270
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.166015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1009.068359375,
      "completions/mean_terminated_length": 802.2552490234375,
      "completions/min_length": 4.0,
      "completions/min_terminated_length": 4.0,
      "epoch": 0.09251514892890672,
      "grad_norm": 0.15266716480255127,
      "kl": 0.0250244140625,
      "learning_rate": 9.215017064846417e-07,
      "loss": 0.2024,
      "num_tokens": 214956529.0,
      "reward": 0.95654296875,
      "reward_std": 0.34085455536842346,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82568359375,
      "rewards/tag_count_reward/std": 0.28284189105033875,
      "step": 271
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.162109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1979.0,
      "completions/mean_length": 950.8125,
      "completions/mean_terminated_length": 738.5361328125,
      "completions/min_length": 69.0,
      "completions/min_terminated_length": 69.0,
      "epoch": 0.09285653324229752,
      "grad_norm": 0.2611883878707886,
      "kl": 0.032440185546875,
      "learning_rate": 9.249146757679181e-07,
      "loss": 0.2428,
      "num_tokens": 215517441.0,
      "reward": 0.962890625,
      "reward_std": 0.2771681547164917,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8515625,
      "rewards/tag_count_reward/std": 0.2707847058773041,
      "step": 272
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.185546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 1052.43359375,
      "completions/mean_terminated_length": 825.6259155273438,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.09319791755568832,
      "grad_norm": 0.14994241297245026,
      "kl": 0.0274658203125,
      "learning_rate": 9.283276450511945e-07,
      "loss": 0.1972,
      "num_tokens": 216134351.0,
      "reward": 0.974609375,
      "reward_std": 0.3396124839782715,
      "rewards/accuracy_reward/mean": 0.171875,
      "rewards/accuracy_reward/std": 0.3776407241821289,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.802734375,
      "rewards/tag_count_reward/std": 0.29327481985092163,
      "step": 273
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.16796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2004.0,
      "completions/mean_length": 1051.017578125,
      "completions/mean_terminated_length": 849.7488403320312,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.09353930186907912,
      "grad_norm": 0.14378777146339417,
      "kl": 0.027984619140625,
      "learning_rate": 9.317406143344709e-07,
      "loss": 0.1863,
      "num_tokens": 216743848.0,
      "reward": 0.8837890625,
      "reward_std": 0.30530285835266113,
      "rewards/accuracy_reward/mean": 0.05443548411130905,
      "rewards/accuracy_reward/std": 0.227104052901268,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8310546875,
      "rewards/tag_count_reward/std": 0.276744544506073,
      "step": 274
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1040.619140625,
      "completions/mean_terminated_length": 842.9088745117188,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.09388068618246992,
      "grad_norm": 0.3193594813346863,
      "kl": 0.030029296875,
      "learning_rate": 9.351535836177474e-07,
      "loss": 0.1679,
      "num_tokens": 217359701.0,
      "reward": 0.89013671875,
      "reward_std": 0.3236680328845978,
      "rewards/accuracy_reward/mean": 0.0786290317773819,
      "rewards/accuracy_reward/std": 0.26943066716194153,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81396484375,
      "rewards/tag_count_reward/std": 0.2895527482032776,
      "step": 275
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.158203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1103.12890625,
      "completions/mean_terminated_length": 925.5545043945312,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.09422207049586072,
      "grad_norm": 0.13808484375476837,
      "kl": 0.027313232421875,
      "learning_rate": 9.385665529010238e-07,
      "loss": 0.1576,
      "num_tokens": 217996839.0,
      "reward": 0.9833984375,
      "reward_std": 0.3657929301261902,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8232421875,
      "rewards/tag_count_reward/std": 0.27803975343704224,
      "step": 276
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.185546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1013.66015625,
      "completions/mean_terminated_length": 778.0192260742188,
      "completions/min_length": 30.0,
      "completions/min_terminated_length": 30.0,
      "epoch": 0.09456345480925152,
      "grad_norm": 0.13520270586013794,
      "kl": 0.0279541015625,
      "learning_rate": 9.419795221843004e-07,
      "loss": 0.218,
      "num_tokens": 218590153.0,
      "reward": 0.90869140625,
      "reward_std": 0.3093388080596924,
      "rewards/accuracy_reward/mean": 0.09072580933570862,
      "rewards/accuracy_reward/std": 0.2875087857246399,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82080078125,
      "rewards/tag_count_reward/std": 0.29300713539123535,
      "step": 277
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 1101.97265625,
      "completions/mean_terminated_length": 860.8284912109375,
      "completions/min_length": 65.0,
      "completions/min_terminated_length": 65.0,
      "epoch": 0.09490483912264232,
      "grad_norm": 0.17787189781665802,
      "kl": 0.035247802734375,
      "learning_rate": 9.453924914675768e-07,
      "loss": 0.2535,
      "num_tokens": 219230315.0,
      "reward": 0.93603515625,
      "reward_std": 0.37049442529678345,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.79931640625,
      "rewards/tag_count_reward/std": 0.2977977395057678,
      "step": 278
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.20703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1113.8203125,
      "completions/mean_terminated_length": 869.921142578125,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.09524622343603312,
      "grad_norm": 0.1434744894504547,
      "kl": 0.02899169921875,
      "learning_rate": 9.488054607508532e-07,
      "loss": 0.2241,
      "num_tokens": 219888031.0,
      "reward": 0.93896484375,
      "reward_std": 0.341295063495636,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.80810546875,
      "rewards/tag_count_reward/std": 0.2949638068675995,
      "step": 279
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.13671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1070.541015625,
      "completions/mean_terminated_length": 915.7398681640625,
      "completions/min_length": 18.0,
      "completions/min_terminated_length": 18.0,
      "epoch": 0.09558760774942392,
      "grad_norm": 0.13831409811973572,
      "kl": 0.0296630859375,
      "learning_rate": 9.522184300341296e-07,
      "loss": 0.1834,
      "num_tokens": 220504948.0,
      "reward": 0.90380859375,
      "reward_std": 0.31455230712890625,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83154296875,
      "rewards/tag_count_reward/std": 0.2746037244796753,
      "step": 280
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.23046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1126.234375,
      "completions/mean_terminated_length": 850.1725463867188,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.09592899206281472,
      "grad_norm": 0.13532893359661102,
      "kl": 0.02655029296875,
      "learning_rate": 9.556313993174062e-07,
      "loss": 0.2558,
      "num_tokens": 221156300.0,
      "reward": 0.8955078125,
      "reward_std": 0.38487786054611206,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7783203125,
      "rewards/tag_count_reward/std": 0.3099439740180969,
      "step": 281
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.158203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1045.921875,
      "completions/mean_terminated_length": 857.5962524414062,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.09627037637620552,
      "grad_norm": 0.13227953016757965,
      "kl": 0.02691650390625,
      "learning_rate": 9.590443686006826e-07,
      "loss": 0.1855,
      "num_tokens": 221762340.0,
      "reward": 0.962890625,
      "reward_std": 0.328264057636261,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84765625,
      "rewards/tag_count_reward/std": 0.2695113718509674,
      "step": 282
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.21484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1145.62109375,
      "completions/mean_terminated_length": 898.7014770507812,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.09661176068959632,
      "grad_norm": 0.14567619562149048,
      "kl": 0.029205322265625,
      "learning_rate": 9.62457337883959e-07,
      "loss": 0.268,
      "num_tokens": 222437186.0,
      "reward": 0.841796875,
      "reward_std": 0.3250593841075897,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.794921875,
      "rewards/tag_count_reward/std": 0.3043770492076874,
      "step": 283
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1029.9453125,
      "completions/mean_terminated_length": 830.14013671875,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.09695314500298712,
      "grad_norm": 0.1334325075149536,
      "kl": 0.025909423828125,
      "learning_rate": 9.658703071672355e-07,
      "loss": 0.2196,
      "num_tokens": 223032950.0,
      "reward": 0.9970703125,
      "reward_std": 0.3637813329696655,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8369140625,
      "rewards/tag_count_reward/std": 0.2806803584098816,
      "step": 284
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.2109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1136.189453125,
      "completions/mean_terminated_length": 892.4381103515625,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.09729452931637791,
      "grad_norm": 0.14422355592250824,
      "kl": 0.02813720703125,
      "learning_rate": 9.69283276450512e-07,
      "loss": 0.2591,
      "num_tokens": 223698071.0,
      "reward": 0.95458984375,
      "reward_std": 0.3851277530193329,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.80615234375,
      "rewards/tag_count_reward/std": 0.2949281632900238,
      "step": 285
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.189453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1083.91796875,
      "completions/mean_terminated_length": 858.5783081054688,
      "completions/min_length": 49.0,
      "completions/min_terminated_length": 49.0,
      "epoch": 0.09763591362976871,
      "grad_norm": 0.13818009197711945,
      "kl": 0.02630615234375,
      "learning_rate": 9.726962457337883e-07,
      "loss": 0.2129,
      "num_tokens": 224332381.0,
      "reward": 0.96923828125,
      "reward_std": 0.3827122449874878,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81494140625,
      "rewards/tag_count_reward/std": 0.29269713163375854,
      "step": 286
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.166015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2002.0,
      "completions/mean_length": 1039.78125,
      "completions/mean_terminated_length": 839.0819091796875,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.09797729794315951,
      "grad_norm": 0.14740139245986938,
      "kl": 0.028076171875,
      "learning_rate": 9.761092150170647e-07,
      "loss": 0.2035,
      "num_tokens": 224951661.0,
      "reward": 0.935546875,
      "reward_std": 0.3139309883117676,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.849609375,
      "rewards/tag_count_reward/std": 0.26742565631866455,
      "step": 287
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.162109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2009.0,
      "completions/mean_length": 1095.73828125,
      "completions/mean_terminated_length": 911.5011596679688,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.09831868225655031,
      "grad_norm": 0.12596474587917328,
      "kl": 0.024871826171875,
      "learning_rate": 9.795221843003413e-07,
      "loss": 0.1797,
      "num_tokens": 225593991.0,
      "reward": 0.91943359375,
      "reward_std": 0.33202680945396423,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83740234375,
      "rewards/tag_count_reward/std": 0.2781200706958771,
      "step": 288
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.189453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1111.5546875,
      "completions/mean_terminated_length": 892.6747436523438,
      "completions/min_length": 16.0,
      "completions/min_terminated_length": 16.0,
      "epoch": 0.09866006656994111,
      "grad_norm": 0.14945776760578156,
      "kl": 0.028411865234375,
      "learning_rate": 9.829351535836176e-07,
      "loss": 0.21,
      "num_tokens": 226240819.0,
      "reward": 0.9716796875,
      "reward_std": 0.3576521873474121,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8291015625,
      "rewards/tag_count_reward/std": 0.2847094237804413,
      "step": 289
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1049.82421875,
      "completions/mean_terminated_length": 842.6557006835938,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.09900145088333191,
      "grad_norm": 0.1299966275691986,
      "kl": 0.028961181640625,
      "learning_rate": 9.863481228668942e-07,
      "loss": 0.154,
      "num_tokens": 226854089.0,
      "reward": 0.94482421875,
      "reward_std": 0.28372257947921753,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84716796875,
      "rewards/tag_count_reward/std": 0.27574270963668823,
      "step": 290
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.216796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 1203.43359375,
      "completions/mean_terminated_length": 969.65087890625,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.09934283519672271,
      "grad_norm": 0.13255862891674042,
      "kl": 0.024932861328125,
      "learning_rate": 9.897610921501706e-07,
      "loss": 0.214,
      "num_tokens": 227547687.0,
      "reward": 0.9423828125,
      "reward_std": 0.34205949306488037,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8134765625,
      "rewards/tag_count_reward/std": 0.2907141149044037,
      "step": 291
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.173828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1085.421875,
      "completions/mean_terminated_length": 882.8936157226562,
      "completions/min_length": 79.0,
      "completions/min_terminated_length": 79.0,
      "epoch": 0.09968421951011351,
      "grad_norm": 0.16226981580257416,
      "kl": 0.03125,
      "learning_rate": 9.93174061433447e-07,
      "loss": 0.1645,
      "num_tokens": 228178943.0,
      "reward": 0.9697265625,
      "reward_std": 0.32159310579299927,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8349609375,
      "rewards/tag_count_reward/std": 0.2817133665084839,
      "step": 292
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1029.17578125,
      "completions/mean_terminated_length": 846.0691528320312,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.10002560382350431,
      "grad_norm": 0.5379236936569214,
      "kl": 0.03948974609375,
      "learning_rate": 9.965870307167234e-07,
      "loss": 0.2447,
      "num_tokens": 228781913.0,
      "reward": 1.025390625,
      "reward_std": 0.36331331729888916,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.861328125,
      "rewards/tag_count_reward/std": 0.2650713324546814,
      "step": 293
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.14453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 1009.509765625,
      "completions/mean_terminated_length": 834.0570678710938,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.10036698813689511,
      "grad_norm": 0.13812671601772308,
      "kl": 0.027008056640625,
      "learning_rate": 1e-06,
      "loss": 0.1818,
      "num_tokens": 229376078.0,
      "reward": 0.97021484375,
      "reward_std": 0.30007249116897583,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86865234375,
      "rewards/tag_count_reward/std": 0.2644248306751251,
      "step": 294
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.169921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1069.103515625,
      "completions/mean_terminated_length": 868.7175903320312,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.10070837245028591,
      "grad_norm": 0.14459733664989471,
      "kl": 0.030517578125,
      "learning_rate": 9.999996804113108e-07,
      "loss": 0.2377,
      "num_tokens": 229997235.0,
      "reward": 0.89013671875,
      "reward_std": 0.2950636148452759,
      "rewards/accuracy_reward/mean": 0.04296875,
      "rewards/accuracy_reward/std": 0.2029850035905838,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84716796875,
      "rewards/tag_count_reward/std": 0.27662840485572815,
      "step": 295
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 991.001953125,
      "completions/mean_terminated_length": 801.0345458984375,
      "completions/min_length": 51.0,
      "completions/min_terminated_length": 51.0,
      "epoch": 0.10104975676367671,
      "grad_norm": 0.14756450057029724,
      "kl": 0.02978515625,
      "learning_rate": 9.999987216456977e-07,
      "loss": 0.2413,
      "num_tokens": 230576388.0,
      "reward": 0.9853515625,
      "reward_std": 0.33799609541893005,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8544921875,
      "rewards/tag_count_reward/std": 0.26830142736434937,
      "step": 296
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.2109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1136.458984375,
      "completions/mean_terminated_length": 892.7796630859375,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.10139114107706751,
      "grad_norm": 0.14217402040958405,
      "kl": 0.0286865234375,
      "learning_rate": 9.999971237045224e-07,
      "loss": 0.2314,
      "num_tokens": 231236239.0,
      "reward": 0.9287109375,
      "reward_std": 0.36870306730270386,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8095703125,
      "rewards/tag_count_reward/std": 0.298178106546402,
      "step": 297
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.166015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1177.875,
      "completions/mean_terminated_length": 1004.6650390625,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.10173252539045831,
      "grad_norm": 0.1258356273174286,
      "kl": 0.0262451171875,
      "learning_rate": 9.999948865900542e-07,
      "loss": 0.1849,
      "num_tokens": 231912879.0,
      "reward": 0.95849609375,
      "reward_std": 0.36331701278686523,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83349609375,
      "rewards/tag_count_reward/std": 0.2775629162788391,
      "step": 298
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.185546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1092.74609375,
      "completions/mean_terminated_length": 875.122314453125,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.10207390970384911,
      "grad_norm": 0.13738124072551727,
      "kl": 0.030242919921875,
      "learning_rate": 9.999920103054712e-07,
      "loss": 0.2349,
      "num_tokens": 232552765.0,
      "reward": 0.978515625,
      "reward_std": 0.3726804256439209,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83203125,
      "rewards/tag_count_reward/std": 0.2847379744052887,
      "step": 299
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.212890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1169.267578125,
      "completions/mean_terminated_length": 931.5955200195312,
      "completions/min_length": 22.0,
      "completions/min_terminated_length": 22.0,
      "epoch": 0.10241529401723991,
      "grad_norm": 0.13634316623210907,
      "kl": 0.029205322265625,
      "learning_rate": 9.999884948548586e-07,
      "loss": 0.1817,
      "num_tokens": 233232486.0,
      "reward": 0.927734375,
      "reward_std": 0.3437793552875519,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8125,
      "rewards/tag_count_reward/std": 0.29551440477371216,
      "step": 300
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.150390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1064.658203125,
      "completions/mean_terminated_length": 890.5953979492188,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.10275667833063071,
      "grad_norm": 0.13200511038303375,
      "kl": 0.028533935546875,
      "learning_rate": 9.999843402432097e-07,
      "loss": 0.2077,
      "num_tokens": 233852039.0,
      "reward": 1.017578125,
      "reward_std": 0.362113893032074,
      "rewards/accuracy_reward/mean": 0.166015625,
      "rewards/accuracy_reward/std": 0.3724585771560669,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8515625,
      "rewards/tag_count_reward/std": 0.2716865837574005,
      "step": 301
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.2109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1142.224609375,
      "completions/mean_terminated_length": 900.0866088867188,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.10309806264402151,
      "grad_norm": 0.14424169063568115,
      "kl": 0.033843994140625,
      "learning_rate": 9.999795464764258e-07,
      "loss": 0.1977,
      "num_tokens": 234514746.0,
      "reward": 0.91845703125,
      "reward_std": 0.3266125023365021,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81103515625,
      "rewards/tag_count_reward/std": 0.3001309335231781,
      "step": 302
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1158.349609375,
      "completions/mean_terminated_length": 931.5759887695312,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.1034394469574123,
      "grad_norm": 0.14931531250476837,
      "kl": 0.026947021484375,
      "learning_rate": 9.99974113561316e-07,
      "loss": 0.2459,
      "num_tokens": 235192765.0,
      "reward": 0.91748046875,
      "reward_std": 0.322037935256958,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81787109375,
      "rewards/tag_count_reward/std": 0.29906564950942993,
      "step": 303
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 1137.58984375,
      "completions/mean_terminated_length": 911.0975341796875,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.1037808312708031,
      "grad_norm": 0.15357358753681183,
      "kl": 0.02783203125,
      "learning_rate": 9.999680415055969e-07,
      "loss": 0.165,
      "num_tokens": 235851323.0,
      "reward": 0.94580078125,
      "reward_std": 0.3047916889190674,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83642578125,
      "rewards/tag_count_reward/std": 0.280613511800766,
      "step": 304
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.24609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1263.966796875,
      "completions/mean_terminated_length": 1008.038818359375,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.1041222155841939,
      "grad_norm": 0.8344973921775818,
      "kl": 0.035736083984375,
      "learning_rate": 9.999613303178934e-07,
      "loss": 0.1767,
      "num_tokens": 236571930.0,
      "reward": 0.9365234375,
      "reward_std": 0.34821170568466187,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7880859375,
      "rewards/tag_count_reward/std": 0.30928972363471985,
      "step": 305
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1114.48828125,
      "completions/mean_terminated_length": 882.248779296875,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.1044635998975847,
      "grad_norm": 0.13022573292255402,
      "kl": 0.029266357421875,
      "learning_rate": 9.999539800077384e-07,
      "loss": 0.1916,
      "num_tokens": 237225972.0,
      "reward": 0.97021484375,
      "reward_std": 0.35741788148880005,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82568359375,
      "rewards/tag_count_reward/std": 0.28755927085876465,
      "step": 306
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.26171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1174.61328125,
      "completions/mean_terminated_length": 865.0,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.1048049842109755,
      "grad_norm": 0.13066816329956055,
      "kl": 0.028778076171875,
      "learning_rate": 9.999459905855716e-07,
      "loss": 0.1739,
      "num_tokens": 237899646.0,
      "reward": 0.86865234375,
      "reward_std": 0.3209155797958374,
      "rewards/accuracy_reward/mean": 0.0833333358168602,
      "rewards/accuracy_reward/std": 0.2766737639904022,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.79052734375,
      "rewards/tag_count_reward/std": 0.3111482262611389,
      "step": 307
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.20703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1208.798828125,
      "completions/mean_terminated_length": 989.697021484375,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.1051463685243663,
      "grad_norm": 0.18847060203552246,
      "kl": 0.03399658203125,
      "learning_rate": 9.999373620627412e-07,
      "loss": 0.2203,
      "num_tokens": 238598519.0,
      "reward": 0.9638671875,
      "reward_std": 0.3631572127342224,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8154296875,
      "rewards/tag_count_reward/std": 0.30103573203086853,
      "step": 308
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.177734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1102.20703125,
      "completions/mean_terminated_length": 897.7720336914062,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.1054877528377571,
      "grad_norm": 0.12446834146976471,
      "kl": 0.025115966796875,
      "learning_rate": 9.999280944515035e-07,
      "loss": 0.1647,
      "num_tokens": 239239601.0,
      "reward": 0.98974609375,
      "reward_std": 0.32373538613319397,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84130859375,
      "rewards/tag_count_reward/std": 0.27905985713005066,
      "step": 309
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.134765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1039.314453125,
      "completions/mean_terminated_length": 882.2054443359375,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.1058291371511479,
      "grad_norm": 0.137374609708786,
      "kl": 0.028167724609375,
      "learning_rate": 9.99918187765022e-07,
      "loss": 0.1498,
      "num_tokens": 239844050.0,
      "reward": 1.01611328125,
      "reward_std": 0.31929969787597656,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85400390625,
      "rewards/tag_count_reward/std": 0.2608667314052582,
      "step": 310
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2004.0,
      "completions/mean_length": 1032.001953125,
      "completions/mean_terminated_length": 849.4031982421875,
      "completions/min_length": 19.0,
      "completions/min_terminated_length": 19.0,
      "epoch": 0.1061705214645387,
      "grad_norm": 0.14066371321678162,
      "kl": 0.027435302734375,
      "learning_rate": 9.99907642017368e-07,
      "loss": 0.2044,
      "num_tokens": 240451603.0,
      "reward": 0.92724609375,
      "reward_std": 0.28212085366249084,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85107421875,
      "rewards/tag_count_reward/std": 0.2666451334953308,
      "step": 311
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.23828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1233.1640625,
      "completions/mean_terminated_length": 978.2667236328125,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.1065119057779295,
      "grad_norm": 0.12637880444526672,
      "kl": 0.026824951171875,
      "learning_rate": 9.998964572235205e-07,
      "loss": 0.2305,
      "num_tokens": 241157527.0,
      "reward": 0.8857421875,
      "reward_std": 0.34094083309173584,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7763671875,
      "rewards/tag_count_reward/std": 0.31208235025405884,
      "step": 312
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 1156.83203125,
      "completions/mean_terminated_length": 961.6238403320312,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.1068532900913203,
      "grad_norm": 0.2379995584487915,
      "kl": 0.0279541015625,
      "learning_rate": 9.998846333993667e-07,
      "loss": 0.2032,
      "num_tokens": 241821969.0,
      "reward": 0.99072265625,
      "reward_std": 0.3368230164051056,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83447265625,
      "rewards/tag_count_reward/std": 0.28164342045783997,
      "step": 313
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.23046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2016.0,
      "completions/mean_length": 1211.44140625,
      "completions/mean_terminated_length": 960.8984375,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.1071946744047111,
      "grad_norm": 0.12838341295719147,
      "kl": 0.024261474609375,
      "learning_rate": 9.99872170561701e-07,
      "loss": 0.2032,
      "num_tokens": 242521027.0,
      "reward": 0.9482421875,
      "reward_std": 0.37479346990585327,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8095703125,
      "rewards/tag_count_reward/std": 0.29570674896240234,
      "step": 314
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.181640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1167.080078125,
      "completions/mean_terminated_length": 971.5537109375,
      "completions/min_length": 88.0,
      "completions/min_terminated_length": 88.0,
      "epoch": 0.1075360587181019,
      "grad_norm": 0.15141969919204712,
      "kl": 0.02655029296875,
      "learning_rate": 9.99859068728225e-07,
      "loss": 0.1864,
      "num_tokens": 243194060.0,
      "reward": 0.96044921875,
      "reward_std": 0.3245297372341156,
      "rewards/accuracy_reward/mean": 0.12298387289047241,
      "rewards/accuracy_reward/std": 0.32875028252601624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84130859375,
      "rewards/tag_count_reward/std": 0.27641761302948,
      "step": 315
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.16796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1121.447265625,
      "completions/mean_terminated_length": 934.396728515625,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.1078774430314927,
      "grad_norm": 0.12909026443958282,
      "kl": 0.0235595703125,
      "learning_rate": 9.998453279175492e-07,
      "loss": 0.2343,
      "num_tokens": 243844289.0,
      "reward": 0.93115234375,
      "reward_std": 0.30712559819221497,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83935546875,
      "rewards/tag_count_reward/std": 0.268537700176239,
      "step": 316
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2016.0,
      "completions/mean_length": 1136.208984375,
      "completions/mean_terminated_length": 925.7957153320312,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.1082188273448835,
      "grad_norm": 0.12713587284088135,
      "kl": 0.0272216796875,
      "learning_rate": 9.998309481491906e-07,
      "loss": 0.1886,
      "num_tokens": 244501388.0,
      "reward": 0.9765625,
      "reward_std": 0.36434584856033325,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.822265625,
      "rewards/tag_count_reward/std": 0.2830888330936432,
      "step": 317
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.146484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 960.869140625,
      "completions/mean_terminated_length": 774.2905883789062,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.1085602116582743,
      "grad_norm": 0.16936686635017395,
      "kl": 0.029144287109375,
      "learning_rate": 9.998159294435742e-07,
      "loss": 0.1699,
      "num_tokens": 245064601.0,
      "reward": 1.005859375,
      "reward_std": 0.3112642168998718,
      "rewards/accuracy_reward/mean": 0.15322580933570862,
      "rewards/accuracy_reward/std": 0.36056873202323914,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.857421875,
      "rewards/tag_count_reward/std": 0.26345139741897583,
      "step": 318
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.18359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1139.046875,
      "completions/mean_terminated_length": 934.64111328125,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.1089015959716651,
      "grad_norm": 0.14525948464870453,
      "kl": 0.025726318359375,
      "learning_rate": 9.998002718220323e-07,
      "loss": 0.1549,
      "num_tokens": 245718721.0,
      "reward": 0.9501953125,
      "reward_std": 0.33043381571769714,
      "rewards/accuracy_reward/mean": 0.1391129046678543,
      "rewards/accuracy_reward/std": 0.34641367197036743,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8154296875,
      "rewards/tag_count_reward/std": 0.2834581732749939,
      "step": 319
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2000.0,
      "completions/mean_length": 1048.458984375,
      "completions/mean_terminated_length": 884.897705078125,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.1092429802850559,
      "grad_norm": 0.14780759811401367,
      "kl": 0.025604248046875,
      "learning_rate": 9.997839753068054e-07,
      "loss": 0.2192,
      "num_tokens": 246337948.0,
      "reward": 0.947265625,
      "reward_std": 0.2669388949871063,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85546875,
      "rewards/tag_count_reward/std": 0.25815349817276,
      "step": 320
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.2265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1203.94921875,
      "completions/mean_terminated_length": 956.7020263671875,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.1095843645984467,
      "grad_norm": 0.12179320305585861,
      "kl": 0.026092529296875,
      "learning_rate": 9.997670399210405e-07,
      "loss": 0.1962,
      "num_tokens": 247029410.0,
      "reward": 0.955078125,
      "reward_std": 0.3568507432937622,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.798828125,
      "rewards/tag_count_reward/std": 0.2968500554561615,
      "step": 321
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.11328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 1039.693359375,
      "completions/mean_terminated_length": 910.8788452148438,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.1099257489118375,
      "grad_norm": 0.1347188800573349,
      "kl": 0.02587890625,
      "learning_rate": 9.997494656887927e-07,
      "loss": 0.1647,
      "num_tokens": 247633285.0,
      "reward": 1.01416015625,
      "reward_std": 0.31157585978507996,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88330078125,
      "rewards/tag_count_reward/std": 0.23601685464382172,
      "step": 322
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.162109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1161.80859375,
      "completions/mean_terminated_length": 990.3543090820312,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.1102671332252283,
      "grad_norm": 0.12787990272045135,
      "kl": 0.024627685546875,
      "learning_rate": 9.997312526350242e-07,
      "loss": 0.1688,
      "num_tokens": 248306739.0,
      "reward": 0.974609375,
      "reward_std": 0.33962225914001465,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.853515625,
      "rewards/tag_count_reward/std": 0.25941628217697144,
      "step": 323
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.251953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1231.490234375,
      "completions/mean_terminated_length": 956.4778442382812,
      "completions/min_length": 23.0,
      "completions/min_terminated_length": 23.0,
      "epoch": 0.1106085175386191,
      "grad_norm": 0.11818953603506088,
      "kl": 0.0235595703125,
      "learning_rate": 9.997124007856049e-07,
      "loss": 0.1793,
      "num_tokens": 249027710.0,
      "reward": 0.84423828125,
      "reward_std": 0.3030323386192322,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.78369140625,
      "rewards/tag_count_reward/std": 0.3146965205669403,
      "step": 324
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1041.869140625,
      "completions/mean_terminated_length": 887.7770385742188,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.1109499018520099,
      "grad_norm": 0.15102706849575043,
      "kl": 0.02838134765625,
      "learning_rate": 9.996929101673117e-07,
      "loss": 0.1679,
      "num_tokens": 249630123.0,
      "reward": 1.0576171875,
      "reward_std": 0.33777889609336853,
      "rewards/accuracy_reward/mean": 0.1875,
      "rewards/accuracy_reward/std": 0.39069411158561707,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8701171875,
      "rewards/tag_count_reward/std": 0.24625489115715027,
      "step": 325
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.24609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1215.65625,
      "completions/mean_terminated_length": 943.95849609375,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.1112912861654007,
      "grad_norm": 0.3314480781555176,
      "kl": 0.030853271484375,
      "learning_rate": 9.996727808078292e-07,
      "loss": 0.1608,
      "num_tokens": 250326939.0,
      "reward": 0.96728515625,
      "reward_std": 0.32705235481262207,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.80517578125,
      "rewards/tag_count_reward/std": 0.29922857880592346,
      "step": 326
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.14453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1098.333984375,
      "completions/mean_terminated_length": 937.8880615234375,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.1116326704787915,
      "grad_norm": 0.12496457993984222,
      "kl": 0.02447509765625,
      "learning_rate": 9.996520127357488e-07,
      "loss": 0.1215,
      "num_tokens": 250963686.0,
      "reward": 1.1142578125,
      "reward_std": 0.38647955656051636,
      "rewards/accuracy_reward/mean": 0.248046875,
      "rewards/accuracy_reward/std": 0.4323015511035919,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8662109375,
      "rewards/tag_count_reward/std": 0.2456488162279129,
      "step": 327
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.166015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1126.291015625,
      "completions/mean_terminated_length": 942.8126220703125,
      "completions/min_length": 82.0,
      "completions/min_terminated_length": 82.0,
      "epoch": 0.1119740547921823,
      "grad_norm": 0.13243867456912994,
      "kl": 0.026123046875,
      "learning_rate": 9.996306059805693e-07,
      "loss": 0.1773,
      "num_tokens": 251615515.0,
      "reward": 0.9365234375,
      "reward_std": 0.3187788426876068,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8388671875,
      "rewards/tag_count_reward/std": 0.27299004793167114,
      "step": 328
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1105.86328125,
      "completions/mean_terminated_length": 936.5391845703125,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.1123154391055731,
      "grad_norm": 0.13291388750076294,
      "kl": 0.024688720703125,
      "learning_rate": 9.99608560572697e-07,
      "loss": 0.1792,
      "num_tokens": 252253941.0,
      "reward": 1.037109375,
      "reward_std": 0.34071582555770874,
      "rewards/accuracy_reward/mean": 0.1875,
      "rewards/accuracy_reward/std": 0.39069411158561707,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.849609375,
      "rewards/tag_count_reward/std": 0.2618798613548279,
      "step": 329
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.228515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1203.212890625,
      "completions/mean_terminated_length": 952.9848022460938,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.1126568234189639,
      "grad_norm": 0.12625975906848907,
      "kl": 0.0262451171875,
      "learning_rate": 9.995858765434448e-07,
      "loss": 0.2066,
      "num_tokens": 252946882.0,
      "reward": 0.8818359375,
      "reward_std": 0.3105853796005249,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8037109375,
      "rewards/tag_count_reward/std": 0.2996996343135834,
      "step": 330
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1113.40234375,
      "completions/mean_terminated_length": 880.8927001953125,
      "completions/min_length": 59.0,
      "completions/min_terminated_length": 59.0,
      "epoch": 0.1129982077323547,
      "grad_norm": 0.28922170400619507,
      "kl": 0.033233642578125,
      "learning_rate": 9.995625539250332e-07,
      "loss": 0.2163,
      "num_tokens": 253599584.0,
      "reward": 0.93017578125,
      "reward_std": 0.34205788373947144,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82861328125,
      "rewards/tag_count_reward/std": 0.28591638803482056,
      "step": 331
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.21484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1161.751953125,
      "completions/mean_terminated_length": 919.2462768554688,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.1133395920457455,
      "grad_norm": 0.17107222974300385,
      "kl": 0.029327392578125,
      "learning_rate": 9.995385927505893e-07,
      "loss": 0.2005,
      "num_tokens": 254273745.0,
      "reward": 0.91259765625,
      "reward_std": 0.3472982347011566,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.80517578125,
      "rewards/tag_count_reward/std": 0.3000449538230896,
      "step": 332
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1103.44921875,
      "completions/mean_terminated_length": 907.410400390625,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.1136809763591363,
      "grad_norm": 0.13893826305866241,
      "kl": 0.027740478515625,
      "learning_rate": 9.995139930541476e-07,
      "loss": 0.1546,
      "num_tokens": 254916775.0,
      "reward": 0.9716796875,
      "reward_std": 0.30238959193229675,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8388671875,
      "rewards/tag_count_reward/std": 0.27962982654571533,
      "step": 333
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1041.51953125,
      "completions/mean_terminated_length": 892.5784912109375,
      "completions/min_length": 63.0,
      "completions/min_terminated_length": 63.0,
      "epoch": 0.11402236067252709,
      "grad_norm": 0.15418261289596558,
      "kl": 0.028228759765625,
      "learning_rate": 9.994887548706493e-07,
      "loss": 0.1576,
      "num_tokens": 255527265.0,
      "reward": 1.03564453125,
      "reward_std": 0.36193418502807617,
      "rewards/accuracy_reward/mean": 0.1796875,
      "rewards/accuracy_reward/std": 0.38430243730545044,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85595703125,
      "rewards/tag_count_reward/std": 0.26195237040519714,
      "step": 334
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.130859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1945.0,
      "completions/mean_length": 987.32421875,
      "completions/mean_terminated_length": 827.626953125,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.11436374498591789,
      "grad_norm": 0.16910158097743988,
      "kl": 0.03070068359375,
      "learning_rate": 9.994628782359422e-07,
      "loss": 0.1612,
      "num_tokens": 256109783.0,
      "reward": 1.083984375,
      "reward_std": 0.34096887707710266,
      "rewards/accuracy_reward/mean": 0.20703125,
      "rewards/accuracy_reward/std": 0.40557438135147095,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.876953125,
      "rewards/tag_count_reward/std": 0.23975300788879395,
      "step": 335
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.16015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1143.517578125,
      "completions/mean_terminated_length": 971.0348510742188,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.11470512929930869,
      "grad_norm": 0.1310206651687622,
      "kl": 0.02618408203125,
      "learning_rate": 9.99436363186782e-07,
      "loss": 0.1408,
      "num_tokens": 256769152.0,
      "reward": 1.09814453125,
      "reward_std": 0.3855630159378052,
      "rewards/accuracy_reward/mean": 0.25,
      "rewards/accuracy_reward/std": 0.43343618512153625,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84814453125,
      "rewards/tag_count_reward/std": 0.26266634464263916,
      "step": 336
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.185546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1126.822265625,
      "completions/mean_terminated_length": 916.961669921875,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.11504651361269949,
      "grad_norm": 0.13938570022583008,
      "kl": 0.02838134765625,
      "learning_rate": 9.994092097608302e-07,
      "loss": 0.1767,
      "num_tokens": 257422805.0,
      "reward": 0.97998046875,
      "reward_std": 0.3367058038711548,
      "rewards/accuracy_reward/mean": 0.1572580635547638,
      "rewards/accuracy_reward/std": 0.36441144347190857,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82763671875,
      "rewards/tag_count_reward/std": 0.2857559025287628,
      "step": 337
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.11328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1021.044921875,
      "completions/mean_terminated_length": 889.8479614257812,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.11538789792609029,
      "grad_norm": 0.3287694752216339,
      "kl": 0.029327392578125,
      "learning_rate": 9.993814179966551e-07,
      "loss": 0.1733,
      "num_tokens": 258029468.0,
      "reward": 0.99365234375,
      "reward_std": 0.277240127325058,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88818359375,
      "rewards/tag_count_reward/std": 0.23475435376167297,
      "step": 338
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.18359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1084.23046875,
      "completions/mean_terminated_length": 867.49755859375,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.11572928223948109,
      "grad_norm": 0.13999946415424347,
      "kl": 0.02886962890625,
      "learning_rate": 9.993529879337324e-07,
      "loss": 0.22,
      "num_tokens": 258666130.0,
      "reward": 1.03125,
      "reward_std": 0.397691547870636,
      "rewards/accuracy_reward/mean": 0.18359375,
      "rewards/accuracy_reward/std": 0.3875311613082886,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84765625,
      "rewards/tag_count_reward/std": 0.27843984961509705,
      "step": 339
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.138671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1984.0,
      "completions/mean_length": 1019.7421875,
      "completions/mean_terminated_length": 854.1950073242188,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.11607066655287189,
      "grad_norm": 0.15282343327999115,
      "kl": 0.02935791015625,
      "learning_rate": 9.993239196124437e-07,
      "loss": 0.1908,
      "num_tokens": 259260174.0,
      "reward": 1.0,
      "reward_std": 0.3294396996498108,
      "rewards/accuracy_reward/mean": 0.1411290317773819,
      "rewards/accuracy_reward/std": 0.3485061228275299,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86328125,
      "rewards/tag_count_reward/std": 0.2567282021045685,
      "step": 340
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.14453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1050.4765625,
      "completions/mean_terminated_length": 881.9451904296875,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.11641205086626269,
      "grad_norm": 0.13595366477966309,
      "kl": 0.027130126953125,
      "learning_rate": 9.992942130740775e-07,
      "loss": 0.1692,
      "num_tokens": 259875970.0,
      "reward": 1.09326171875,
      "reward_std": 0.3595791459083557,
      "rewards/accuracy_reward/mean": 0.234375,
      "rewards/accuracy_reward/std": 0.42402184009552,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85888671875,
      "rewards/tag_count_reward/std": 0.2635452449321747,
      "step": 341
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.154296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1004.53515625,
      "completions/mean_terminated_length": 814.1570434570312,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.11675343517965349,
      "grad_norm": 0.15039843320846558,
      "kl": 0.028045654296875,
      "learning_rate": 9.99263868360829e-07,
      "loss": 0.1846,
      "num_tokens": 260463972.0,
      "reward": 0.9951171875,
      "reward_std": 0.3225647807121277,
      "rewards/accuracy_reward/mean": 0.1411290317773819,
      "rewards/accuracy_reward/std": 0.3485061228275299,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8583984375,
      "rewards/tag_count_reward/std": 0.25598084926605225,
      "step": 342
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 990.525390625,
      "completions/mean_terminated_length": 852.7969360351562,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.11709481949304429,
      "grad_norm": 0.16409173607826233,
      "kl": 0.031890869140625,
      "learning_rate": 9.992328855157995e-07,
      "loss": 0.2332,
      "num_tokens": 261039857.0,
      "reward": 0.98486328125,
      "reward_std": 0.3110677897930145,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87548828125,
      "rewards/tag_count_reward/std": 0.23976047337055206,
      "step": 343
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.189453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1143.869140625,
      "completions/mean_terminated_length": 932.5421752929688,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.11743620380643509,
      "grad_norm": 0.13601191341876984,
      "kl": 0.028350830078125,
      "learning_rate": 9.992012645829967e-07,
      "loss": 0.1945,
      "num_tokens": 261701582.0,
      "reward": 0.92431640625,
      "reward_std": 0.3164195418357849,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82275390625,
      "rewards/tag_count_reward/std": 0.2827472686767578,
      "step": 344
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1006.763671875,
      "completions/mean_terminated_length": 881.4508056640625,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.11777758811982589,
      "grad_norm": 0.1759040355682373,
      "kl": 0.031585693359375,
      "learning_rate": 9.991690056073353e-07,
      "loss": 0.1321,
      "num_tokens": 262296197.0,
      "reward": 1.0283203125,
      "reward_std": 0.33437466621398926,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8759765625,
      "rewards/tag_count_reward/std": 0.23822365701198578,
      "step": 345
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1131.197265625,
      "completions/mean_terminated_length": 908.67236328125,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.11811897243321669,
      "grad_norm": 0.14551134407520294,
      "kl": 0.025604248046875,
      "learning_rate": 9.991361086346352e-07,
      "loss": 0.1946,
      "num_tokens": 262958586.0,
      "reward": 0.9130859375,
      "reward_std": 0.2960287630558014,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8193359375,
      "rewards/tag_count_reward/std": 0.2859686017036438,
      "step": 346
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.13671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 978.11328125,
      "completions/mean_terminated_length": 808.6742553710938,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.11846035674660749,
      "grad_norm": 0.16117340326309204,
      "kl": 0.030059814453125,
      "learning_rate": 9.991025737116235e-07,
      "loss": 0.1929,
      "num_tokens": 263533428.0,
      "reward": 1.044921875,
      "reward_std": 0.3310525119304657,
      "rewards/accuracy_reward/mean": 0.177734375,
      "rewards/accuracy_reward/std": 0.3826628625392914,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8671875,
      "rewards/tag_count_reward/std": 0.25544461607933044,
      "step": 347
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.16796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1041.669921875,
      "completions/mean_terminated_length": 838.5140991210938,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.11880174105999829,
      "grad_norm": 0.22051376104354858,
      "kl": 0.0433349609375,
      "learning_rate": 9.990684008859325e-07,
      "loss": 0.2308,
      "num_tokens": 264144203.0,
      "reward": 1.07177734375,
      "reward_std": 0.37083977460861206,
      "rewards/accuracy_reward/mean": 0.212890625,
      "rewards/accuracy_reward/std": 0.409751296043396,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85888671875,
      "rewards/tag_count_reward/std": 0.26214927434921265,
      "step": 348
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.158203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1047.736328125,
      "completions/mean_terminated_length": 859.751708984375,
      "completions/min_length": 67.0,
      "completions/min_terminated_length": 67.0,
      "epoch": 0.11914312537338909,
      "grad_norm": 0.2330407202243805,
      "kl": 0.031951904296875,
      "learning_rate": 9.990335902061015e-07,
      "loss": 0.1538,
      "num_tokens": 264757860.0,
      "reward": 0.9970703125,
      "reward_std": 0.32531172037124634,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8486328125,
      "rewards/tag_count_reward/std": 0.27231717109680176,
      "step": 349
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.189453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1082.99609375,
      "completions/mean_terminated_length": 857.4409790039062,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.11948450968677989,
      "grad_norm": 0.15811064839363098,
      "kl": 0.03271484375,
      "learning_rate": 9.989981417215755e-07,
      "loss": 0.1847,
      "num_tokens": 265383170.0,
      "reward": 0.8896484375,
      "reward_std": 0.3348539471626282,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8271484375,
      "rewards/tag_count_reward/std": 0.281360387802124,
      "step": 350
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.146484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1050.236328125,
      "completions/mean_terminated_length": 878.995361328125,
      "completions/min_length": 35.0,
      "completions/min_terminated_length": 35.0,
      "epoch": 0.1198258940001707,
      "grad_norm": 0.14287719130516052,
      "kl": 0.027069091796875,
      "learning_rate": 9.98962055482705e-07,
      "loss": 0.1796,
      "num_tokens": 266000107.0,
      "reward": 1.01025390625,
      "reward_std": 0.33847808837890625,
      "rewards/accuracy_reward/mean": 0.1713709682226181,
      "rewards/accuracy_reward/std": 0.3772132694721222,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84423828125,
      "rewards/tag_count_reward/std": 0.2631678879261017,
      "step": 351
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.14453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1018.263671875,
      "completions/mean_terminated_length": 844.2899169921875,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.1201672783135615,
      "grad_norm": 0.14097464084625244,
      "kl": 0.0313720703125,
      "learning_rate": 9.989253315407466e-07,
      "loss": 0.1469,
      "num_tokens": 266588578.0,
      "reward": 0.9443359375,
      "reward_std": 0.3343873620033264,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8583984375,
      "rewards/tag_count_reward/std": 0.26118385791778564,
      "step": 352
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 1103.642578125,
      "completions/mean_terminated_length": 907.6438598632812,
      "completions/min_length": 87.0,
      "completions/min_terminated_length": 87.0,
      "epoch": 0.1205086626269523,
      "grad_norm": 0.1444326490163803,
      "kl": 0.031646728515625,
      "learning_rate": 9.98887969947863e-07,
      "loss": 0.199,
      "num_tokens": 267236491.0,
      "reward": 0.951171875,
      "reward_std": 0.31488221883773804,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.837890625,
      "rewards/tag_count_reward/std": 0.2655899226665497,
      "step": 353
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.17578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 1112.1328125,
      "completions/mean_terminated_length": 912.5403442382812,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.1208500469403431,
      "grad_norm": 0.13784323632717133,
      "kl": 0.030548095703125,
      "learning_rate": 9.988499707571226e-07,
      "loss": 0.2054,
      "num_tokens": 267887407.0,
      "reward": 0.93310546875,
      "reward_std": 0.2967950701713562,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84130859375,
      "rewards/tag_count_reward/std": 0.26558586955070496,
      "step": 354
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.16796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1979.0,
      "completions/mean_length": 1056.72265625,
      "completions/mean_terminated_length": 856.6056518554688,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.1211914312537339,
      "grad_norm": 0.1503535360097885,
      "kl": 0.0325927734375,
      "learning_rate": 9.988113340224986e-07,
      "loss": 0.1873,
      "num_tokens": 268503313.0,
      "reward": 0.98681640625,
      "reward_std": 0.3488824963569641,
      "rewards/accuracy_reward/mean": 0.16129031777381897,
      "rewards/accuracy_reward/std": 0.3681698739528656,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83056640625,
      "rewards/tag_count_reward/std": 0.2748923897743225,
      "step": 355
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.138671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1055.072265625,
      "completions/mean_terminated_length": 895.213134765625,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.1215328155671247,
      "grad_norm": 0.1478099524974823,
      "kl": 0.0308837890625,
      "learning_rate": 9.98772059798871e-07,
      "loss": 0.1792,
      "num_tokens": 269124102.0,
      "reward": 0.95947265625,
      "reward_std": 0.28720688819885254,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85986328125,
      "rewards/tag_count_reward/std": 0.25367239117622375,
      "step": 356
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.138671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1992.0,
      "completions/mean_length": 1029.591796875,
      "completions/mean_terminated_length": 865.63037109375,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.1218741998805155,
      "grad_norm": 0.15571890771389008,
      "kl": 0.029937744140625,
      "learning_rate": 9.987321481420244e-07,
      "loss": 0.1857,
      "num_tokens": 269727317.0,
      "reward": 1.0390625,
      "reward_std": 0.3653073310852051,
      "rewards/accuracy_reward/mean": 0.181640625,
      "rewards/accuracy_reward/std": 0.38592514395713806,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.857421875,
      "rewards/tag_count_reward/std": 0.25923943519592285,
      "step": 357
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 952.359375,
      "completions/mean_terminated_length": 806.9203491210938,
      "completions/min_length": 12.0,
      "completions/min_terminated_length": 12.0,
      "epoch": 0.1222155841939063,
      "grad_norm": 0.28905969858169556,
      "kl": 0.04150390625,
      "learning_rate": 9.98691599108649e-07,
      "loss": 0.1945,
      "num_tokens": 270305693.0,
      "reward": 1.068359375,
      "reward_std": 0.30664169788360596,
      "rewards/accuracy_reward/mean": 0.181640625,
      "rewards/accuracy_reward/std": 0.38592514395713806,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88671875,
      "rewards/tag_count_reward/std": 0.22956475615501404,
      "step": 358
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.189453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1121.091796875,
      "completions/mean_terminated_length": 904.4409790039062,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.1225569685072971,
      "grad_norm": 0.1388411968946457,
      "kl": 0.02850341796875,
      "learning_rate": 9.986504127563407e-07,
      "loss": 0.2306,
      "num_tokens": 270961564.0,
      "reward": 0.93896484375,
      "reward_std": 0.3266991376876831,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83154296875,
      "rewards/tag_count_reward/std": 0.2790221869945526,
      "step": 359
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.14453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2009.0,
      "completions/mean_length": 1020.287109375,
      "completions/mean_terminated_length": 846.6552124023438,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.1228983528206879,
      "grad_norm": 0.1675242930650711,
      "kl": 0.03277587890625,
      "learning_rate": 9.986085891436e-07,
      "loss": 0.1759,
      "num_tokens": 271566815.0,
      "reward": 0.93701171875,
      "reward_std": 0.31937652826309204,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85302734375,
      "rewards/tag_count_reward/std": 0.25984644889831543,
      "step": 360
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.17578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1083.35546875,
      "completions/mean_terminated_length": 877.6256103515625,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.1232397371340787,
      "grad_norm": 0.1524626463651657,
      "kl": 0.03472900390625,
      "learning_rate": 9.985661283298332e-07,
      "loss": 0.2022,
      "num_tokens": 272203317.0,
      "reward": 1.02197265625,
      "reward_std": 0.3534594774246216,
      "rewards/accuracy_reward/mean": 0.17578125,
      "rewards/accuracy_reward/std": 0.3810062110424042,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84619140625,
      "rewards/tag_count_reward/std": 0.26662003993988037,
      "step": 361
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 968.298828125,
      "completions/mean_terminated_length": 819.5400390625,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.1235811214474695,
      "grad_norm": 0.15877166390419006,
      "kl": 0.03656005859375,
      "learning_rate": 9.985230303753514e-07,
      "loss": 0.1785,
      "num_tokens": 272781438.0,
      "reward": 0.99658203125,
      "reward_std": 0.2940343916416168,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87353515625,
      "rewards/tag_count_reward/std": 0.2512158453464508,
      "step": 362
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1988.0,
      "completions/mean_length": 936.013671875,
      "completions/mean_terminated_length": 791.1854248046875,
      "completions/min_length": 21.0,
      "completions/min_terminated_length": 21.0,
      "epoch": 0.1239225057608603,
      "grad_norm": 0.1602502167224884,
      "kl": 0.03466796875,
      "learning_rate": 9.984792953413704e-07,
      "loss": 0.1606,
      "num_tokens": 273343077.0,
      "reward": 1.0615234375,
      "reward_std": 0.372483491897583,
      "rewards/accuracy_reward/mean": 0.1875,
      "rewards/accuracy_reward/std": 0.39069411158561707,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8740234375,
      "rewards/tag_count_reward/std": 0.24975334107875824,
      "step": 363
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.21875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1189.833984375,
      "completions/mean_terminated_length": 949.5474853515625,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.1242638900742511,
      "grad_norm": 0.13621152937412262,
      "kl": 0.032318115234375,
      "learning_rate": 9.984349232900116e-07,
      "loss": 0.2168,
      "num_tokens": 274019760.0,
      "reward": 0.94775390625,
      "reward_std": 0.35309305787086487,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.79931640625,
      "rewards/tag_count_reward/std": 0.2977977395057678,
      "step": 364
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 993.0703125,
      "completions/mean_terminated_length": 847.7244873046875,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.12460527438764189,
      "grad_norm": 0.150365948677063,
      "kl": 0.031402587890625,
      "learning_rate": 9.983899142843003e-07,
      "loss": 0.17,
      "num_tokens": 274604004.0,
      "reward": 1.044921875,
      "reward_std": 0.33601388335227966,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8828125,
      "rewards/tag_count_reward/std": 0.23758302628993988,
      "step": 365
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.142578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1029.462890625,
      "completions/mean_terminated_length": 860.0934448242188,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.12494665870103269,
      "grad_norm": 0.1535954773426056,
      "kl": 0.0340576171875,
      "learning_rate": 9.983442683881674e-07,
      "loss": 0.1953,
      "num_tokens": 275207889.0,
      "reward": 1.0068359375,
      "reward_std": 0.3589969575405121,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8544921875,
      "rewards/tag_count_reward/std": 0.2646293640136719,
      "step": 366
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.22265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1118.158203125,
      "completions/mean_terminated_length": 851.8215942382812,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.12528804301442348,
      "grad_norm": 0.15709184110164642,
      "kl": 0.03350830078125,
      "learning_rate": 9.98297985666448e-07,
      "loss": 0.2782,
      "num_tokens": 275857746.0,
      "reward": 0.93017578125,
      "reward_std": 0.32532137632369995,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81298828125,
      "rewards/tag_count_reward/std": 0.29354146122932434,
      "step": 367
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.158203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1093.9609375,
      "completions/mean_terminated_length": 914.6635131835938,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.1256294273278143,
      "grad_norm": 0.13502192497253418,
      "kl": 0.033782958984375,
      "learning_rate": 9.982510661848819e-07,
      "loss": 0.1753,
      "num_tokens": 276490174.0,
      "reward": 1.0791015625,
      "reward_std": 0.38882726430892944,
      "rewards/accuracy_reward/mean": 0.2421875,
      "rewards/accuracy_reward/std": 0.42882615327835083,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8369140625,
      "rewards/tag_count_reward/std": 0.272723913192749,
      "step": 368
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.111328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2010.0,
      "completions/mean_length": 976.408203125,
      "completions/mean_terminated_length": 842.1648559570312,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.12597081164120508,
      "grad_norm": 0.1473228484392166,
      "kl": 0.033416748046875,
      "learning_rate": 9.98203510010113e-07,
      "loss": 0.1656,
      "num_tokens": 277062639.0,
      "reward": 1.07421875,
      "reward_std": 0.32450687885284424,
      "rewards/accuracy_reward/mean": 0.177734375,
      "rewards/accuracy_reward/std": 0.3826628625392914,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.896484375,
      "rewards/tag_count_reward/std": 0.23256702721118927,
      "step": 369
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.23046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1193.373046875,
      "completions/mean_terminated_length": 937.4187622070312,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.1263121959545959,
      "grad_norm": 0.1366780698299408,
      "kl": 0.031280517578125,
      "learning_rate": 9.981553172096898e-07,
      "loss": 0.1669,
      "num_tokens": 277749598.0,
      "reward": 0.96044921875,
      "reward_std": 0.35311082005500793,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81005859375,
      "rewards/tag_count_reward/std": 0.299512654542923,
      "step": 370
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.216796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1984.0,
      "completions/mean_length": 1137.755859375,
      "completions/mean_terminated_length": 885.7930297851562,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.12665358026798668,
      "grad_norm": 0.14127393066883087,
      "kl": 0.035888671875,
      "learning_rate": 9.981064878520655e-07,
      "loss": 0.2243,
      "num_tokens": 278408785.0,
      "reward": 0.91845703125,
      "reward_std": 0.33893805742263794,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81494140625,
      "rewards/tag_count_reward/std": 0.2968464195728302,
      "step": 371
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.150390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1069.248046875,
      "completions/mean_terminated_length": 895.9976806640625,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.1269949645813775,
      "grad_norm": 0.1410568654537201,
      "kl": 0.03564453125,
      "learning_rate": 9.980570220065969e-07,
      "loss": 0.18,
      "num_tokens": 279047264.0,
      "reward": 0.9501953125,
      "reward_std": 0.2930806279182434,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8583984375,
      "rewards/tag_count_reward/std": 0.26211875677108765,
      "step": 372
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 997.392578125,
      "completions/mean_terminated_length": 868.37060546875,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.12733634889476828,
      "grad_norm": 0.14614659547805786,
      "kl": 0.030242919921875,
      "learning_rate": 9.980069197435444e-07,
      "loss": 0.1732,
      "num_tokens": 279632553.0,
      "reward": 1.1259765625,
      "reward_std": 0.35918954014778137,
      "rewards/accuracy_reward/mean": 0.2265625,
      "rewards/accuracy_reward/std": 0.4190165400505066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8994140625,
      "rewards/tag_count_reward/std": 0.22094275057315826,
      "step": 373
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1083.3984375,
      "completions/mean_terminated_length": 935.6666870117188,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.1276777332081591,
      "grad_norm": 0.16419485211372375,
      "kl": 0.03302001953125,
      "learning_rate": 9.979561811340737e-07,
      "loss": 0.1638,
      "num_tokens": 280261461.0,
      "reward": 1.03173828125,
      "reward_std": 0.3253314793109894,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87158203125,
      "rewards/tag_count_reward/std": 0.24776503443717957,
      "step": 374
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.13671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 1004.001953125,
      "completions/mean_terminated_length": 838.6629028320312,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.12801911752154987,
      "grad_norm": 0.16056229174137115,
      "kl": 0.0382080078125,
      "learning_rate": 9.979048062502532e-07,
      "loss": 0.1912,
      "num_tokens": 280857750.0,
      "reward": 1.0078125,
      "reward_std": 0.3076658844947815,
      "rewards/accuracy_reward/mean": 0.13104838132858276,
      "rewards/accuracy_reward/std": 0.3377939462661743,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.880859375,
      "rewards/tag_count_reward/std": 0.24573633074760437,
      "step": 375
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1140.400390625,
      "completions/mean_terminated_length": 982.1948852539062,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.1283605018349407,
      "grad_norm": 0.15369459986686707,
      "kl": 0.03521728515625,
      "learning_rate": 9.978527951650558e-07,
      "loss": 0.1735,
      "num_tokens": 281522115.0,
      "reward": 0.96533203125,
      "reward_std": 0.3165265917778015,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86376953125,
      "rewards/tag_count_reward/std": 0.2605331838130951,
      "step": 376
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1957.0,
      "completions/mean_length": 1010.84765625,
      "completions/mean_terminated_length": 886.0262451171875,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.12870188614833147,
      "grad_norm": 0.12651118636131287,
      "kl": 0.031890869140625,
      "learning_rate": 9.978001479523573e-07,
      "loss": 0.1193,
      "num_tokens": 282107317.0,
      "reward": 1.01416015625,
      "reward_std": 0.28059664368629456,
      "rewards/accuracy_reward/mean": 0.13104838132858276,
      "rewards/accuracy_reward/std": 0.3377939462661743,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88720703125,
      "rewards/tag_count_reward/std": 0.23480726778507233,
      "step": 377
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.158203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1064.865234375,
      "completions/mean_terminated_length": 880.0997314453125,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.1290432704617223,
      "grad_norm": 0.1738119125366211,
      "kl": 0.03253173828125,
      "learning_rate": 9.97746864686938e-07,
      "loss": 0.2181,
      "num_tokens": 282722000.0,
      "reward": 0.9736328125,
      "reward_std": 0.34592851996421814,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8681640625,
      "rewards/tag_count_reward/std": 0.2625558376312256,
      "step": 378
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1977.0,
      "completions/mean_length": 1055.5625,
      "completions/mean_terminated_length": 882.5687866210938,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.12938465477511307,
      "grad_norm": 0.14871911704540253,
      "kl": 0.032745361328125,
      "learning_rate": 9.976929454444809e-07,
      "loss": 0.1825,
      "num_tokens": 283337344.0,
      "reward": 0.95849609375,
      "reward_std": 0.29456979036331177,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87060546875,
      "rewards/tag_count_reward/std": 0.2540864050388336,
      "step": 379
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.130859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1074.015625,
      "completions/mean_terminated_length": 927.3707885742188,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.12972603908850389,
      "grad_norm": 0.13046395778656006,
      "kl": 0.031890869140625,
      "learning_rate": 9.976383903015724e-07,
      "loss": 0.1671,
      "num_tokens": 283962824.0,
      "reward": 1.03076171875,
      "reward_std": 0.311119943857193,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89013671875,
      "rewards/tag_count_reward/std": 0.24131768941879272,
      "step": 380
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1075.09765625,
      "completions/mean_terminated_length": 900.2442626953125,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.13006742340189467,
      "grad_norm": 0.14830279350280762,
      "kl": 0.031829833984375,
      "learning_rate": 9.975831993357026e-07,
      "loss": 0.2256,
      "num_tokens": 284591018.0,
      "reward": 0.94677734375,
      "reward_std": 0.27035853266716003,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87060546875,
      "rewards/tag_count_reward/std": 0.25360459089279175,
      "step": 381
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1038.443359375,
      "completions/mean_terminated_length": 919.4126586914062,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.13040880771528549,
      "grad_norm": 0.15144680440425873,
      "kl": 0.0301513671875,
      "learning_rate": 9.975273726252644e-07,
      "loss": 0.167,
      "num_tokens": 285196477.0,
      "reward": 1.0185546875,
      "reward_std": 0.2786235809326172,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.21141289174556732,
      "step": 382
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 995.138671875,
      "completions/mean_terminated_length": 910.7319946289062,
      "completions/min_length": 58.0,
      "completions/min_terminated_length": 58.0,
      "epoch": 0.13075019202867627,
      "grad_norm": 0.14347217977046967,
      "kl": 0.028839111328125,
      "learning_rate": 9.974709102495536e-07,
      "loss": 0.1066,
      "num_tokens": 285784964.0,
      "reward": 1.05908203125,
      "reward_std": 0.3068065345287323,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.19569343328475952,
      "step": 383
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.14453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1112.611328125,
      "completions/mean_terminated_length": 954.5775756835938,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.13109157634206708,
      "grad_norm": 0.13277432322502136,
      "kl": 0.031402587890625,
      "learning_rate": 9.974138122887689e-07,
      "loss": 0.1369,
      "num_tokens": 286426589.0,
      "reward": 0.966796875,
      "reward_std": 0.3141400218009949,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.869140625,
      "rewards/tag_count_reward/std": 0.25017574429512024,
      "step": 384
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 989.17578125,
      "completions/mean_terminated_length": 859.1447143554688,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.13143296065545787,
      "grad_norm": 0.1668711006641388,
      "kl": 0.03533935546875,
      "learning_rate": 9.973560788240122e-07,
      "loss": 0.1547,
      "num_tokens": 287017575.0,
      "reward": 1.021484375,
      "reward_std": 0.3046708106994629,
      "rewards/accuracy_reward/mean": 0.12298387289047241,
      "rewards/accuracy_reward/std": 0.32875028252601624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.22280539572238922,
      "step": 385
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1106.5078125,
      "completions/mean_terminated_length": 932.1574096679688,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.13177434496884868,
      "grad_norm": 0.15250162780284882,
      "kl": 0.0341796875,
      "learning_rate": 9.972977099372877e-07,
      "loss": 0.1607,
      "num_tokens": 287654795.0,
      "reward": 0.99755859375,
      "reward_std": 0.30660396814346313,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88818359375,
      "rewards/tag_count_reward/std": 0.23371002078056335,
      "step": 386
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1047.12109375,
      "completions/mean_terminated_length": 914.2610473632812,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.13211572928223947,
      "grad_norm": 0.15170042216777802,
      "kl": 0.03753662109375,
      "learning_rate": 9.972387057115022e-07,
      "loss": 0.2021,
      "num_tokens": 288272841.0,
      "reward": 0.9462890625,
      "reward_std": 0.2462095320224762,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9052734375,
      "rewards/tag_count_reward/std": 0.226781964302063,
      "step": 387
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.177734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1152.87109375,
      "completions/mean_terminated_length": 959.38720703125,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.13245711359563028,
      "grad_norm": 0.12724484503269196,
      "kl": 0.030914306640625,
      "learning_rate": 9.97179066230465e-07,
      "loss": 0.1602,
      "num_tokens": 288951815.0,
      "reward": 0.93994140625,
      "reward_std": 0.3069894313812256,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86181640625,
      "rewards/tag_count_reward/std": 0.26967042684555054,
      "step": 388
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.13671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1052.642578125,
      "completions/mean_terminated_length": 895.0068359375,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.13279849790902107,
      "grad_norm": 0.14453551173210144,
      "kl": 0.03594970703125,
      "learning_rate": 9.971187915788875e-07,
      "loss": 0.209,
      "num_tokens": 289570864.0,
      "reward": 0.98828125,
      "reward_std": 0.2822495996952057,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.876953125,
      "rewards/tag_count_reward/std": 0.2443011850118637,
      "step": 389
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.142578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1055.484375,
      "completions/mean_terminated_length": 890.4419555664062,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.13313988222241188,
      "grad_norm": 0.14505472779273987,
      "kl": 0.033782958984375,
      "learning_rate": 9.970578818423837e-07,
      "loss": 0.1256,
      "num_tokens": 290188456.0,
      "reward": 1.01611328125,
      "reward_std": 0.2951487898826599,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86767578125,
      "rewards/tag_count_reward/std": 0.26020291447639465,
      "step": 390
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 953.166015625,
      "completions/mean_terminated_length": 857.862060546875,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.13348126653580267,
      "grad_norm": 0.1563599556684494,
      "kl": 0.03515625,
      "learning_rate": 9.969963371074693e-07,
      "loss": 0.1462,
      "num_tokens": 290755373.0,
      "reward": 1.06884765625,
      "reward_std": 0.3398585915565491,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91064453125,
      "rewards/tag_count_reward/std": 0.2137608826160431,
      "step": 391
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1031.66796875,
      "completions/mean_terminated_length": 911.8384399414062,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.13382265084919348,
      "grad_norm": 0.16045336425304413,
      "kl": 0.032470703125,
      "learning_rate": 9.96934157461562e-07,
      "loss": 0.1425,
      "num_tokens": 291356963.0,
      "reward": 0.9990234375,
      "reward_std": 0.28106868267059326,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8994140625,
      "rewards/tag_count_reward/std": 0.2258700281381607,
      "step": 392
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.134765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1918.0,
      "completions/mean_length": 1034.720703125,
      "completions/mean_terminated_length": 876.8961791992188,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.13416403516258427,
      "grad_norm": 4.809753894805908,
      "kl": 0.1025390625,
      "learning_rate": 9.968713429929818e-07,
      "loss": 0.1725,
      "num_tokens": 291962164.0,
      "reward": 1.06787109375,
      "reward_std": 0.3107529878616333,
      "rewards/accuracy_reward/mean": 0.181640625,
      "rewards/accuracy_reward/std": 0.38592514395713806,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88623046875,
      "rewards/tag_count_reward/std": 0.24554912745952606,
      "step": 393
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.13671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1014.494140625,
      "completions/mean_terminated_length": 850.8167724609375,
      "completions/min_length": 17.0,
      "completions/min_terminated_length": 17.0,
      "epoch": 0.13450541947597508,
      "grad_norm": 0.15697811543941498,
      "kl": 0.0338134765625,
      "learning_rate": 9.968078937909493e-07,
      "loss": 0.2401,
      "num_tokens": 292551313.0,
      "reward": 0.96142578125,
      "reward_std": 0.25520914793014526,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88916015625,
      "rewards/tag_count_reward/std": 0.24238838255405426,
      "step": 394
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1046.177734375,
      "completions/mean_terminated_length": 935.3471069335938,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.13484680378936587,
      "grad_norm": 0.22697971761226654,
      "kl": 0.039886474609375,
      "learning_rate": 9.967438099455881e-07,
      "loss": 0.1606,
      "num_tokens": 293156524.0,
      "reward": 1.16064453125,
      "reward_std": 0.3526654541492462,
      "rewards/accuracy_reward/mean": 0.259765625,
      "rewards/accuracy_reward/std": 0.4389347732067108,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90087890625,
      "rewards/tag_count_reward/std": 0.23106196522712708,
      "step": 395
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1121.23046875,
      "completions/mean_terminated_length": 969.5772705078125,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.13518818810275668,
      "grad_norm": 0.1371777057647705,
      "kl": 0.0308837890625,
      "learning_rate": 9.96679091547922e-07,
      "loss": 0.149,
      "num_tokens": 293810978.0,
      "reward": 1.001953125,
      "reward_std": 0.30599159002304077,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.900390625,
      "rewards/tag_count_reward/std": 0.2246759831905365,
      "step": 396
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.150390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1962.0,
      "completions/mean_length": 1141.888671875,
      "completions/mean_terminated_length": 981.4965209960938,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.13552957241614746,
      "grad_norm": 0.13772086799144745,
      "kl": 0.0369873046875,
      "learning_rate": 9.96613738689877e-07,
      "loss": 0.1924,
      "num_tokens": 294466729.0,
      "reward": 1.0146484375,
      "reward_std": 0.34111836552619934,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8798828125,
      "rewards/tag_count_reward/std": 0.24970743060112,
      "step": 397
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1051.92578125,
      "completions/mean_terminated_length": 904.5247192382812,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.13587095672953828,
      "grad_norm": 0.1373293101787567,
      "kl": 0.03533935546875,
      "learning_rate": 9.965477514642797e-07,
      "loss": 0.1332,
      "num_tokens": 295079091.0,
      "reward": 1.076171875,
      "reward_std": 0.26283931732177734,
      "rewards/accuracy_reward/mean": 0.177734375,
      "rewards/accuracy_reward/std": 0.3826628625392914,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.2275916188955307,
      "step": 398
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1181.81640625,
      "completions/mean_terminated_length": 1040.0772705078125,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.13621234104292906,
      "grad_norm": 0.11741556972265244,
      "kl": 0.031097412109375,
      "learning_rate": 9.964811299648581e-07,
      "loss": 0.135,
      "num_tokens": 295766197.0,
      "reward": 1.09375,
      "reward_std": 0.37734484672546387,
      "rewards/accuracy_reward/mean": 0.20703125,
      "rewards/accuracy_reward/std": 0.40557438135147095,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88671875,
      "rewards/tag_count_reward/std": 0.2394738495349884,
      "step": 399
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1062.68359375,
      "completions/mean_terminated_length": 921.9241333007812,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.13655372535631988,
      "grad_norm": 0.13724146783351898,
      "kl": 0.033111572265625,
      "learning_rate": 9.964138742862408e-07,
      "loss": 0.1326,
      "num_tokens": 296394547.0,
      "reward": 1.0693359375,
      "reward_std": 0.31078818440437317,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9013671875,
      "rewards/tag_count_reward/std": 0.22780774533748627,
      "step": 400
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.134765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 1054.640625,
      "completions/mean_terminated_length": 899.9187622070312,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.1368951096697107,
      "grad_norm": 0.36762896180152893,
      "kl": 0.0484619140625,
      "learning_rate": 9.963459845239579e-07,
      "loss": 0.1355,
      "num_tokens": 297018571.0,
      "reward": 1.080078125,
      "reward_std": 0.2847171723842621,
      "rewards/accuracy_reward/mean": 0.181640625,
      "rewards/accuracy_reward/std": 0.38592514395713806,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.2275916188955307,
      "step": 401
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.154296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1154.470703125,
      "completions/mean_terminated_length": 991.4480590820312,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.13723649398310148,
      "grad_norm": 0.12652191519737244,
      "kl": 0.0291748046875,
      "learning_rate": 9.962774607744387e-07,
      "loss": 0.1448,
      "num_tokens": 297674444.0,
      "reward": 1.03466796875,
      "reward_std": 0.32548218965530396,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89990234375,
      "rewards/tag_count_reward/std": 0.22904333472251892,
      "step": 402
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1006.044921875,
      "completions/mean_terminated_length": 862.4866943359375,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.1375778782964923,
      "grad_norm": 0.17126622796058655,
      "kl": 0.0369873046875,
      "learning_rate": 9.962083031350148e-07,
      "loss": 0.1525,
      "num_tokens": 298273747.0,
      "reward": 1.1142578125,
      "reward_std": 0.3468095064163208,
      "rewards/accuracy_reward/mean": 0.2109375,
      "rewards/accuracy_reward/std": 0.4083731174468994,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.22213320434093475,
      "step": 403
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.130859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1123.775390625,
      "completions/mean_terminated_length": 984.6224975585938,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.13791926260988308,
      "grad_norm": 0.1291474848985672,
      "kl": 0.035247802734375,
      "learning_rate": 9.961385117039167e-07,
      "loss": 0.1149,
      "num_tokens": 298925424.0,
      "reward": 1.083984375,
      "reward_std": 0.3407275080680847,
      "rewards/accuracy_reward/mean": 0.189453125,
      "rewards/accuracy_reward/std": 0.3922513723373413,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89453125,
      "rewards/tag_count_reward/std": 0.23378820717334747,
      "step": 404
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.134765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1115.7109375,
      "completions/mean_terminated_length": 970.5011596679688,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.1382606469232739,
      "grad_norm": 0.1537109613418579,
      "kl": 0.0352783203125,
      "learning_rate": 9.960680865802762e-07,
      "loss": 0.2194,
      "num_tokens": 299573132.0,
      "reward": 1.00146484375,
      "reward_std": 0.30505937337875366,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89208984375,
      "rewards/tag_count_reward/std": 0.2396608144044876,
      "step": 405
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1062.830078125,
      "completions/mean_terminated_length": 911.9482421875,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.13860203123666467,
      "grad_norm": 0.14802739024162292,
      "kl": 0.033355712890625,
      "learning_rate": 9.959970278641246e-07,
      "loss": 0.1128,
      "num_tokens": 300191221.0,
      "reward": 1.0869140625,
      "reward_std": 0.2655200660228729,
      "rewards/accuracy_reward/mean": 0.181640625,
      "rewards/accuracy_reward/std": 0.38592514395713806,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9052734375,
      "rewards/tag_count_reward/std": 0.21515825390815735,
      "step": 406
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.21484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1172.5234375,
      "completions/mean_terminated_length": 932.9651489257812,
      "completions/min_length": 20.0,
      "completions/min_terminated_length": 20.0,
      "epoch": 0.1389434155500555,
      "grad_norm": 0.16850464046001434,
      "kl": 0.04071044921875,
      "learning_rate": 9.959253356563931e-07,
      "loss": 0.2187,
      "num_tokens": 300878481.0,
      "reward": 0.958984375,
      "reward_std": 0.3165563941001892,
      "rewards/accuracy_reward/mean": 0.13508065044879913,
      "rewards/accuracy_reward/std": 0.3421548008918762,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.828125,
      "rewards/tag_count_reward/std": 0.2934376895427704,
      "step": 407
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.173828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 1132.078125,
      "completions/mean_terminated_length": 939.366455078125,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.13928479986344627,
      "grad_norm": 0.1512688398361206,
      "kl": 0.03875732421875,
      "learning_rate": 9.958530100589131e-07,
      "loss": 0.1723,
      "num_tokens": 301545081.0,
      "reward": 0.9375,
      "reward_std": 0.3331637382507324,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.857421875,
      "rewards/tag_count_reward/std": 0.2721293866634369,
      "step": 408
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.123046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1974.0,
      "completions/mean_length": 1062.703125,
      "completions/mean_terminated_length": 924.454345703125,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.1396261841768371,
      "grad_norm": 0.14967599511146545,
      "kl": 0.0372314453125,
      "learning_rate": 9.957800511744153e-07,
      "loss": 0.184,
      "num_tokens": 302165953.0,
      "reward": 0.99853515625,
      "reward_std": 0.29199162125587463,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89892578125,
      "rewards/tag_count_reward/std": 0.22754070162773132,
      "step": 409
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.134765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1097.9140625,
      "completions/mean_terminated_length": 949.9323120117188,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.13996756849022787,
      "grad_norm": 0.2295297086238861,
      "kl": 0.0372314453125,
      "learning_rate": 9.957064591065301e-07,
      "loss": 0.1574,
      "num_tokens": 302818869.0,
      "reward": 0.97705078125,
      "reward_std": 0.27609753608703613,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88330078125,
      "rewards/tag_count_reward/std": 0.24466808140277863,
      "step": 410
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1041.005859375,
      "completions/mean_terminated_length": 941.60302734375,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.1403089528036187,
      "grad_norm": 0.1434800773859024,
      "kl": 0.036102294921875,
      "learning_rate": 9.956322339597874e-07,
      "loss": 0.1088,
      "num_tokens": 303428744.0,
      "reward": 1.16552734375,
      "reward_std": 0.2934776544570923,
      "rewards/accuracy_reward/mean": 0.2421875,
      "rewards/accuracy_reward/std": 0.42882615327835083,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.20656347274780273,
      "step": 411
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1103.9140625,
      "completions/mean_terminated_length": 969.044677734375,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.14065033711700947,
      "grad_norm": 0.21864053606987,
      "kl": 0.037078857421875,
      "learning_rate": 9.955573758396162e-07,
      "loss": 0.1377,
      "num_tokens": 304071180.0,
      "reward": 1.02392578125,
      "reward_std": 0.28571438789367676,
      "rewards/accuracy_reward/mean": 0.1270161271095276,
      "rewards/accuracy_reward/std": 0.33332720398902893,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90087890625,
      "rewards/tag_count_reward/std": 0.22188088297843933,
      "step": 412
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1034.455078125,
      "completions/mean_terminated_length": 889.6629638671875,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.14099172143040029,
      "grad_norm": 0.15414918959140778,
      "kl": 0.035614013671875,
      "learning_rate": 9.954818848523442e-07,
      "loss": 0.1777,
      "num_tokens": 304669669.0,
      "reward": 1.080078125,
      "reward_std": 0.294488787651062,
      "rewards/accuracy_reward/mean": 0.189453125,
      "rewards/accuracy_reward/std": 0.3922513723373413,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.890625,
      "rewards/tag_count_reward/std": 0.24530823528766632,
      "step": 413
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1044.52734375,
      "completions/mean_terminated_length": 923.7593383789062,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.14133310574379107,
      "grad_norm": 0.1796736866235733,
      "kl": 0.03643798828125,
      "learning_rate": 9.954057611051986e-07,
      "loss": 0.1675,
      "num_tokens": 305291987.0,
      "reward": 1.06005859375,
      "reward_std": 0.30217552185058594,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.21676163375377655,
      "step": 414
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1102.021484375,
      "completions/mean_terminated_length": 976.4490966796875,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.14167449005718188,
      "grad_norm": 0.1292155236005783,
      "kl": 0.035797119140625,
      "learning_rate": 9.953290047063054e-07,
      "loss": 0.163,
      "num_tokens": 305930222.0,
      "reward": 1.02734375,
      "reward_std": 0.29956069588661194,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.22059866786003113,
      "step": 415
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1050.326171875,
      "completions/mean_terminated_length": 920.3862915039062,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.14201587437057267,
      "grad_norm": 0.6303587555885315,
      "kl": 0.07183837890625,
      "learning_rate": 9.952516157646884e-07,
      "loss": 0.1541,
      "num_tokens": 306545717.0,
      "reward": 1.12158203125,
      "reward_std": 0.2818402349948883,
      "rewards/accuracy_reward/mean": 0.21875,
      "rewards/accuracy_reward/std": 0.41380295157432556,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90283203125,
      "rewards/tag_count_reward/std": 0.2313636690378189,
      "step": 416
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.134765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 1147.41015625,
      "completions/mean_terminated_length": 1007.1376953125,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "epoch": 0.14235725868396348,
      "grad_norm": 0.12928138673305511,
      "kl": 0.03466796875,
      "learning_rate": 9.951735943902704e-07,
      "loss": 0.1337,
      "num_tokens": 307205015.0,
      "reward": 1.10791015625,
      "reward_std": 0.3449528217315674,
      "rewards/accuracy_reward/mean": 0.203125,
      "rewards/accuracy_reward/std": 0.4027182459831238,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.21408694982528687,
      "step": 417
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.123046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1065.63671875,
      "completions/mean_terminated_length": 927.799560546875,
      "completions/min_length": 33.0,
      "completions/min_terminated_length": 33.0,
      "epoch": 0.14269864299735427,
      "grad_norm": 0.1417904496192932,
      "kl": 0.0341796875,
      "learning_rate": 9.95094940693873e-07,
      "loss": 0.1148,
      "num_tokens": 307826429.0,
      "reward": 0.96826171875,
      "reward_std": 0.2755052447319031,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90576171875,
      "rewards/tag_count_reward/std": 0.22180765867233276,
      "step": 418
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.111328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 1094.279296875,
      "completions/mean_terminated_length": 974.80224609375,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.14304002731074508,
      "grad_norm": 0.12677240371704102,
      "kl": 0.030975341796875,
      "learning_rate": 9.95015654787215e-07,
      "loss": 0.0976,
      "num_tokens": 308458764.0,
      "reward": 1.10986328125,
      "reward_std": 0.27914077043533325,
      "rewards/accuracy_reward/mean": 0.193359375,
      "rewards/accuracy_reward/std": 0.39531853795051575,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.20804768800735474,
      "step": 419
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1109.974609375,
      "completions/mean_terminated_length": 946.465576171875,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.14338141162413587,
      "grad_norm": 0.14157600700855255,
      "kl": 0.037841796875,
      "learning_rate": 9.94935736782914e-07,
      "loss": 0.1489,
      "num_tokens": 309111519.0,
      "reward": 0.9443359375,
      "reward_std": 0.25531116127967834,
      "rewards/accuracy_reward/mean": 0.052419353276491165,
      "rewards/accuracy_reward/std": 0.22309619188308716,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8935546875,
      "rewards/tag_count_reward/std": 0.23334431648254395,
      "step": 420
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.119140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1115.642578125,
      "completions/mean_terminated_length": 989.5365600585938,
      "completions/min_length": 57.0,
      "completions/min_terminated_length": 57.0,
      "epoch": 0.14372279593752668,
      "grad_norm": 1.5215121507644653,
      "kl": 0.04486083984375,
      "learning_rate": 9.948551867944848e-07,
      "loss": 0.1294,
      "num_tokens": 309767528.0,
      "reward": 1.0654296875,
      "reward_std": 0.3083324432373047,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.21964147686958313,
      "step": 421
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1124.982421875,
      "completions/mean_terminated_length": 993.122802734375,
      "completions/min_length": 25.0,
      "completions/min_terminated_length": 25.0,
      "epoch": 0.14406418025091747,
      "grad_norm": 0.14088740944862366,
      "kl": 0.03472900390625,
      "learning_rate": 9.947740049363404e-07,
      "loss": 0.1804,
      "num_tokens": 310421615.0,
      "reward": 0.99951171875,
      "reward_std": 0.30131995677948,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89599609375,
      "rewards/tag_count_reward/std": 0.23208530247211456,
      "step": 422
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1026.978515625,
      "completions/mean_terminated_length": 914.0238647460938,
      "completions/min_length": 16.0,
      "completions/min_terminated_length": 16.0,
      "epoch": 0.14440556456430828,
      "grad_norm": 0.15640226006507874,
      "kl": 0.0390625,
      "learning_rate": 9.946921913237908e-07,
      "loss": 0.0839,
      "num_tokens": 311025364.0,
      "reward": 1.09130859375,
      "reward_std": 0.320438414812088,
      "rewards/accuracy_reward/mean": 0.181640625,
      "rewards/accuracy_reward/std": 0.38592514395713806,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.21844784915447235,
      "step": 423
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1140.55078125,
      "completions/mean_terminated_length": 1001.5720825195312,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.14474694887769907,
      "grad_norm": 0.11658474057912827,
      "kl": 0.0316162109375,
      "learning_rate": 9.946097460730436e-07,
      "loss": 0.1107,
      "num_tokens": 311685454.0,
      "reward": 1.06005859375,
      "reward_std": 0.3215235471725464,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89599609375,
      "rewards/tag_count_reward/std": 0.22513006627559662,
      "step": 424
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1997.0,
      "completions/mean_length": 1126.42578125,
      "completions/mean_terminated_length": 999.453369140625,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.14508833319108988,
      "grad_norm": 0.14736075699329376,
      "kl": 0.03631591796875,
      "learning_rate": 9.945266693012037e-07,
      "loss": 0.1691,
      "num_tokens": 312346424.0,
      "reward": 1.01318359375,
      "reward_std": 0.29328978061676025,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.22316910326480865,
      "step": 425
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.138671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1114.875,
      "completions/mean_terminated_length": 964.6439819335938,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.14542971750448067,
      "grad_norm": 0.13163742423057556,
      "kl": 0.034912109375,
      "learning_rate": 9.944429611262728e-07,
      "loss": 0.1491,
      "num_tokens": 312992824.0,
      "reward": 1.02978515625,
      "reward_std": 0.3319040536880493,
      "rewards/accuracy_reward/mean": 0.14314515888690948,
      "rewards/accuracy_reward/std": 0.35057440400123596,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89111328125,
      "rewards/tag_count_reward/std": 0.23870600759983063,
      "step": 426
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.126953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1063.32421875,
      "completions/mean_terminated_length": 920.1387329101562,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.14577110181787148,
      "grad_norm": 0.1511382907629013,
      "kl": 0.036834716796875,
      "learning_rate": 9.943586216671493e-07,
      "loss": 0.1876,
      "num_tokens": 313615806.0,
      "reward": 1.00439453125,
      "reward_std": 0.29750609397888184,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88916015625,
      "rewards/tag_count_reward/std": 0.24289245903491974,
      "step": 427
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1062.6328125,
      "completions/mean_terminated_length": 944.0437622070312,
      "completions/min_length": 19.0,
      "completions/min_terminated_length": 19.0,
      "epoch": 0.14611248613126226,
      "grad_norm": 0.14157192409038544,
      "kl": 0.03338623046875,
      "learning_rate": 9.942736510436285e-07,
      "loss": 0.14,
      "num_tokens": 314230674.0,
      "reward": 1.16650390625,
      "reward_std": 0.31410905718803406,
      "rewards/accuracy_reward/mean": 0.25,
      "rewards/accuracy_reward/std": 0.43343618512153625,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.20980393886566162,
      "step": 428
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.13671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1104.36328125,
      "completions/mean_terminated_length": 954.9185791015625,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.14645387044465308,
      "grad_norm": 0.1387367695569992,
      "kl": 0.033233642578125,
      "learning_rate": 9.941880493764027e-07,
      "loss": 0.1513,
      "num_tokens": 314875292.0,
      "reward": 0.99609375,
      "reward_std": 0.2841317653656006,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.892578125,
      "rewards/tag_count_reward/std": 0.23289547860622406,
      "step": 429
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1051.76171875,
      "completions/mean_terminated_length": 922.0088500976562,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.14679525475804386,
      "grad_norm": 0.14188094437122345,
      "kl": 0.0350341796875,
      "learning_rate": 9.941018167870596e-07,
      "loss": 0.0986,
      "num_tokens": 315500386.0,
      "reward": 1.05224609375,
      "reward_std": 0.32542142271995544,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89208984375,
      "rewards/tag_count_reward/std": 0.24067933857440948,
      "step": 430
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1077.369140625,
      "completions/mean_terminated_length": 967.6456298828125,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.14713663907143468,
      "grad_norm": 0.1448766440153122,
      "kl": 0.03277587890625,
      "learning_rate": 9.94014953398083e-07,
      "loss": 0.1235,
      "num_tokens": 316134111.0,
      "reward": 1.0830078125,
      "reward_std": 0.25815266370773315,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.21008896827697754,
      "step": 431
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1071.845703125,
      "completions/mean_terminated_length": 944.7086181640625,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.14747802338482546,
      "grad_norm": 0.15038932859897614,
      "kl": 0.03570556640625,
      "learning_rate": 9.939274593328542e-07,
      "loss": 0.0935,
      "num_tokens": 316768512.0,
      "reward": 1.01806640625,
      "reward_std": 0.25878143310546875,
      "rewards/accuracy_reward/mean": 0.11088709533214569,
      "rewards/accuracy_reward/std": 0.3143092691898346,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91064453125,
      "rewards/tag_count_reward/std": 0.21490219235420227,
      "step": 432
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.18359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1160.26171875,
      "completions/mean_terminated_length": 960.6267700195312,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.14781940769821628,
      "grad_norm": 0.1468881368637085,
      "kl": 0.03759765625,
      "learning_rate": 9.938393347156485e-07,
      "loss": 0.1812,
      "num_tokens": 317445254.0,
      "reward": 0.98486328125,
      "reward_std": 0.3092552423477173,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85009765625,
      "rewards/tag_count_reward/std": 0.26974835991859436,
      "step": 433
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.13671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1122.84375,
      "completions/mean_terminated_length": 976.3258056640625,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.14816079201160706,
      "grad_norm": 0.2122993767261505,
      "kl": 0.038818359375,
      "learning_rate": 9.93750579671638e-07,
      "loss": 0.1848,
      "num_tokens": 318097110.0,
      "reward": 0.95751953125,
      "reward_std": 0.32212772965431213,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87353515625,
      "rewards/tag_count_reward/std": 0.25315582752227783,
      "step": 434
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1159.16796875,
      "completions/mean_terminated_length": 1032.1920166015625,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.14850217632499788,
      "grad_norm": 0.1583891659975052,
      "kl": 0.0369873046875,
      "learning_rate": 9.936611943268895e-07,
      "loss": 0.1416,
      "num_tokens": 318769948.0,
      "reward": 1.02978515625,
      "reward_std": 0.3188987374305725,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89111328125,
      "rewards/tag_count_reward/std": 0.23404912650585175,
      "step": 435
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1050.26953125,
      "completions/mean_terminated_length": 949.4237060546875,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.14884356063838866,
      "grad_norm": 0.14156770706176758,
      "kl": 0.03759765625,
      "learning_rate": 9.935711788083654e-07,
      "loss": 0.1092,
      "num_tokens": 319385318.0,
      "reward": 1.14990234375,
      "reward_std": 0.33361732959747314,
      "rewards/accuracy_reward/mean": 0.244140625,
      "rewards/accuracy_reward/std": 0.42999663949012756,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90576171875,
      "rewards/tag_count_reward/std": 0.22180765867233276,
      "step": 436
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 1003.669921875,
      "completions/mean_terminated_length": 890.6471557617188,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.14918494495177947,
      "grad_norm": 0.13414405286312103,
      "kl": 0.03759765625,
      "learning_rate": 9.934805332439238e-07,
      "loss": 0.0956,
      "num_tokens": 319981133.0,
      "reward": 1.07177734375,
      "reward_std": 0.2685449719429016,
      "rewards/accuracy_reward/mean": 0.16129031777381897,
      "rewards/accuracy_reward/std": 0.3681698739528656,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.2174350470304489,
      "step": 437
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1024.37890625,
      "completions/mean_terminated_length": 911.1366577148438,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.14952632926517026,
      "grad_norm": 0.1496797502040863,
      "kl": 0.03826904296875,
      "learning_rate": 9.933892577623165e-07,
      "loss": 0.1449,
      "num_tokens": 320585519.0,
      "reward": 1.044921875,
      "reward_std": 0.2584763169288635,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.21867573261260986,
      "step": 438
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1102.052734375,
      "completions/mean_terminated_length": 990.5218505859375,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.14986771357856107,
      "grad_norm": 0.14976739883422852,
      "kl": 0.03509521484375,
      "learning_rate": 9.932973524931909e-07,
      "loss": 0.1653,
      "num_tokens": 321220874.0,
      "reward": 0.98876953125,
      "reward_std": 0.2523287534713745,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.21169914305210114,
      "step": 439
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1010.55859375,
      "completions/mean_terminated_length": 908.1502075195312,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.15020909789195186,
      "grad_norm": 0.14024309813976288,
      "kl": 0.034698486328125,
      "learning_rate": 9.932048175670886e-07,
      "loss": 0.1466,
      "num_tokens": 321819288.0,
      "reward": 1.14599609375,
      "reward_std": 0.3399246633052826,
      "rewards/accuracy_reward/mean": 0.224609375,
      "rewards/accuracy_reward/std": 0.41773295402526855,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.21512438356876373,
      "step": 440
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.111328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1056.2265625,
      "completions/mean_terminated_length": 931.9824829101562,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.15055048220534267,
      "grad_norm": 0.14226427674293518,
      "kl": 0.03460693359375,
      "learning_rate": 9.931116531154458e-07,
      "loss": 0.1441,
      "num_tokens": 322428204.0,
      "reward": 1.03759765625,
      "reward_std": 0.2947860360145569,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89892578125,
      "rewards/tag_count_reward/std": 0.23442442715168,
      "step": 441
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1994.0,
      "completions/mean_length": 1038.359375,
      "completions/mean_terminated_length": 904.3363037109375,
      "completions/min_length": 17.0,
      "completions/min_terminated_length": 17.0,
      "epoch": 0.15089186651873346,
      "grad_norm": 0.13173320889472961,
      "kl": 0.03228759765625,
      "learning_rate": 9.930178592705929e-07,
      "loss": 0.104,
      "num_tokens": 323038116.0,
      "reward": 1.11572265625,
      "reward_std": 0.31469881534576416,
      "rewards/accuracy_reward/mean": 0.20766128599643707,
      "rewards/accuracy_reward/std": 0.4060424566268921,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91455078125,
      "rewards/tag_count_reward/std": 0.2170523852109909,
      "step": 442
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 997.322265625,
      "completions/mean_terminated_length": 898.5406494140625,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.15123325083212427,
      "grad_norm": 0.15234129130840302,
      "kl": 0.03607177734375,
      "learning_rate": 9.92923436165754e-07,
      "loss": 0.1051,
      "num_tokens": 323631049.0,
      "reward": 1.06689453125,
      "reward_std": 0.2941228747367859,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.20394715666770935,
      "step": 443
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1066.47265625,
      "completions/mean_terminated_length": 938.6357421875,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.15157463514551506,
      "grad_norm": 0.16123086214065552,
      "kl": 0.03369140625,
      "learning_rate": 9.928283839350469e-07,
      "loss": 0.0977,
      "num_tokens": 324255291.0,
      "reward": 1.05224609375,
      "reward_std": 0.2948440611362457,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90185546875,
      "rewards/tag_count_reward/std": 0.22231541574001312,
      "step": 444
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 1054.919921875,
      "completions/mean_terminated_length": 942.6586303710938,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.15191601945890587,
      "grad_norm": 0.1454250067472458,
      "kl": 0.03521728515625,
      "learning_rate": 9.927327027134833e-07,
      "loss": 0.1261,
      "num_tokens": 324872418.0,
      "reward": 1.009765625,
      "reward_std": 0.2698069214820862,
      "rewards/accuracy_reward/mean": 0.0947580635547638,
      "rewards/accuracy_reward/std": 0.29317617416381836,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.21412767469882965,
      "step": 445
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.126953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1110.09375,
      "completions/mean_terminated_length": 973.7091674804688,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.15225740377229666,
      "grad_norm": 0.14470691978931427,
      "kl": 0.0357666015625,
      "learning_rate": 9.926363926369685e-07,
      "loss": 0.1634,
      "num_tokens": 325515810.0,
      "reward": 0.9638671875,
      "reward_std": 0.27993327379226685,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8955078125,
      "rewards/tag_count_reward/std": 0.23888057470321655,
      "step": 446
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1049.02734375,
      "completions/mean_terminated_length": 959.7574462890625,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.15259878808568747,
      "grad_norm": 0.1457584649324417,
      "kl": 0.03619384765625,
      "learning_rate": 9.925394538423005e-07,
      "loss": 0.1422,
      "num_tokens": 326124768.0,
      "reward": 0.9912109375,
      "reward_std": 0.26201674342155457,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.20414677262306213,
      "step": 447
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1060.12109375,
      "completions/mean_terminated_length": 941.2297973632812,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.15294017239907826,
      "grad_norm": 0.8526865839958191,
      "kl": 0.0455322265625,
      "learning_rate": 9.924418864671708e-07,
      "loss": 0.1173,
      "num_tokens": 326745342.0,
      "reward": 1.02490234375,
      "reward_std": 0.2669713497161865,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310528099536896,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.21874071657657623,
      "step": 448
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1086.126953125,
      "completions/mean_terminated_length": 986.6228637695312,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.15328155671246907,
      "grad_norm": 1444939.625,
      "kl": 5056.0260009765625,
      "learning_rate": 9.923436906501635e-07,
      "loss": 202.9986,
      "num_tokens": 327372207.0,
      "reward": 1.01171875,
      "reward_std": 0.25588080286979675,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.20715993642807007,
      "step": 449
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 989.2109375,
      "completions/mean_terminated_length": 887.186279296875,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.15362294102585985,
      "grad_norm": 0.15711206197738647,
      "kl": 0.0362548828125,
      "learning_rate": 9.922448665307552e-07,
      "loss": 0.1206,
      "num_tokens": 327953499.0,
      "reward": 1.1181640625,
      "reward_std": 0.26618778705596924,
      "rewards/accuracy_reward/mean": 0.201171875,
      "rewards/accuracy_reward/std": 0.4012683033943176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.20676980912685394,
      "step": 450
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 983.72265625,
      "completions/mean_terminated_length": 919.8219604492188,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.15396432533925067,
      "grad_norm": 0.13837960362434387,
      "kl": 0.03631591796875,
      "learning_rate": 9.921454142493155e-07,
      "loss": 0.08,
      "num_tokens": 328538653.0,
      "reward": 1.0830078125,
      "reward_std": 0.26221001148223877,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.16867490112781525,
      "step": 451
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 984.099609375,
      "completions/mean_terminated_length": 898.8079833984375,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.15430570965264145,
      "grad_norm": 0.15354254841804504,
      "kl": 0.03790283203125,
      "learning_rate": 9.920453339471052e-07,
      "loss": 0.1513,
      "num_tokens": 329118800.0,
      "reward": 0.99267578125,
      "reward_std": 0.22924144566059113,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.19423779845237732,
      "step": 452
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 936.76953125,
      "completions/mean_terminated_length": 852.7269287109375,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.15464709396603227,
      "grad_norm": 0.15643727779388428,
      "kl": 0.04217529296875,
      "learning_rate": 9.919446257662785e-07,
      "loss": 0.1308,
      "num_tokens": 329683690.0,
      "reward": 1.091796875,
      "reward_std": 0.2412022352218628,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.19736173748970032,
      "step": 453
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 975.494140625,
      "completions/mean_terminated_length": 887.0634155273438,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.15498847827942305,
      "grad_norm": 0.14415857195854187,
      "kl": 0.03485107421875,
      "learning_rate": 9.918432898498802e-07,
      "loss": 0.1004,
      "num_tokens": 330256807.0,
      "reward": 1.095703125,
      "reward_std": 0.28144875168800354,
      "rewards/accuracy_reward/mean": 0.16733871400356293,
      "rewards/accuracy_reward/std": 0.37365487217903137,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.1869896799325943,
      "step": 454
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1161.822265625,
      "completions/mean_terminated_length": 1016.8113403320312,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.15532986259281387,
      "grad_norm": 0.1531001180410385,
      "kl": 0.03802490234375,
      "learning_rate": 9.917413263418474e-07,
      "loss": 0.146,
      "num_tokens": 330933052.0,
      "reward": 0.99560546875,
      "reward_std": 0.321479469537735,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89208984375,
      "rewards/tag_count_reward/std": 0.24017061293125153,
      "step": 455
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1013.353515625,
      "completions/mean_terminated_length": 953.4978637695312,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.15567124690620465,
      "grad_norm": 0.1461944282054901,
      "kl": 0.03753662109375,
      "learning_rate": 9.916387353870085e-07,
      "loss": 0.1226,
      "num_tokens": 331537201.0,
      "reward": 1.0615234375,
      "reward_std": 0.2562964856624603,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.18260227143764496,
      "step": 456
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 980.486328125,
      "completions/mean_terminated_length": 897.3325805664062,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.15601263121959547,
      "grad_norm": 0.1541946977376938,
      "kl": 0.0416259765625,
      "learning_rate": 9.91535517131083e-07,
      "loss": 0.1247,
      "num_tokens": 332109658.0,
      "reward": 1.00927734375,
      "reward_std": 0.19664829969406128,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94091796875,
      "rewards/tag_count_reward/std": 0.18319980800151825,
      "step": 457
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1984.0,
      "completions/mean_length": 972.650390625,
      "completions/mean_terminated_length": 888.8862915039062,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.15635401553298625,
      "grad_norm": 0.18938900530338287,
      "kl": 0.040191650390625,
      "learning_rate": 9.914316717206816e-07,
      "loss": 0.1348,
      "num_tokens": 332685335.0,
      "reward": 1.08447265625,
      "reward_std": 0.28646454215049744,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.19072304666042328,
      "step": 458
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1084.564453125,
      "completions/mean_terminated_length": 1005.1268310546875,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.15669539984637706,
      "grad_norm": 0.1524220108985901,
      "kl": 0.034881591796875,
      "learning_rate": 9.913271993033058e-07,
      "loss": 0.1326,
      "num_tokens": 333315944.0,
      "reward": 1.17041015625,
      "reward_std": 0.323802649974823,
      "rewards/accuracy_reward/mean": 0.234375,
      "rewards/accuracy_reward/std": 0.42402184009552,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.1828918159008026,
      "step": 459
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1037.828125,
      "completions/mean_terminated_length": 949.8939208984375,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.15703678415976785,
      "grad_norm": 0.21820634603500366,
      "kl": 0.03631591796875,
      "learning_rate": 9.912221000273474e-07,
      "loss": 0.1279,
      "num_tokens": 333927200.0,
      "reward": 1.00537109375,
      "reward_std": 0.26538532972335815,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.1999441683292389,
      "step": 460
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1068.623046875,
      "completions/mean_terminated_length": 967.3081665039062,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.15737816847315866,
      "grad_norm": 6.625924110412598,
      "kl": 0.08343505859375,
      "learning_rate": 9.91116374042089e-07,
      "loss": 0.1406,
      "num_tokens": 334552191.0,
      "reward": 1.02392578125,
      "reward_std": 0.26444312930107117,
      "rewards/accuracy_reward/mean": 0.10080645233392715,
      "rewards/accuracy_reward/std": 0.30137622356414795,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.19859671592712402,
      "step": 461
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1063.3828125,
      "completions/mean_terminated_length": 977.673095703125,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.15771955278654945,
      "grad_norm": 0.23513740301132202,
      "kl": 0.0377197265625,
      "learning_rate": 9.910100214977032e-07,
      "loss": 0.1174,
      "num_tokens": 335173283.0,
      "reward": 1.0546875,
      "reward_std": 0.2536543309688568,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.18889120221138,
      "step": 462
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 1059.017578125,
      "completions/mean_terminated_length": 947.2195434570312,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.15806093709994026,
      "grad_norm": 0.1616012156009674,
      "kl": 0.03857421875,
      "learning_rate": 9.90903042545252e-07,
      "loss": 0.1206,
      "num_tokens": 335803884.0,
      "reward": 1.05126953125,
      "reward_std": 0.2340162992477417,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.19982466101646423,
      "step": 463
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1966.0,
      "completions/mean_length": 1062.298828125,
      "completions/mean_terminated_length": 962.6688232421875,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.15840232141333105,
      "grad_norm": 0.15010185539722443,
      "kl": 0.0364990234375,
      "learning_rate": 9.907954373366884e-07,
      "loss": 0.1089,
      "num_tokens": 336421397.0,
      "reward": 1.041015625,
      "reward_std": 0.2394903600215912,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.19257840514183044,
      "step": 464
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1107.087890625,
      "completions/mean_terminated_length": 991.5372924804688,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.15874370572672186,
      "grad_norm": 0.18746060132980347,
      "kl": 0.03753662109375,
      "learning_rate": 9.90687206024854e-07,
      "loss": 0.1577,
      "num_tokens": 337062322.0,
      "reward": 1.03515625,
      "reward_std": 0.26289528608322144,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.2219373881816864,
      "step": 465
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.111328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1165.6953125,
      "completions/mean_terminated_length": 1055.1649169921875,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.15908509004011265,
      "grad_norm": 0.14396274089813232,
      "kl": 0.03863525390625,
      "learning_rate": 9.905783487634796e-07,
      "loss": 0.0726,
      "num_tokens": 337734774.0,
      "reward": 0.99462890625,
      "reward_std": 0.24153770506381989,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91455078125,
      "rewards/tag_count_reward/std": 0.20959889888763428,
      "step": 466
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1173.458984375,
      "completions/mean_terminated_length": 981.8928833007812,
      "completions/min_length": 50.0,
      "completions/min_terminated_length": 50.0,
      "epoch": 0.15942647435350346,
      "grad_norm": 0.21711322665214539,
      "kl": 0.03863525390625,
      "learning_rate": 9.904688657071858e-07,
      "loss": 0.1423,
      "num_tokens": 338413041.0,
      "reward": 0.95849609375,
      "reward_std": 0.30655211210250854,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86083984375,
      "rewards/tag_count_reward/std": 0.2622622549533844,
      "step": 467
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1991.0,
      "completions/mean_length": 1133.345703125,
      "completions/mean_terminated_length": 1032.1583251953125,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.15976785866689425,
      "grad_norm": 0.1276520937681198,
      "kl": 0.034698486328125,
      "learning_rate": 9.903587570114814e-07,
      "loss": 0.1449,
      "num_tokens": 339063490.0,
      "reward": 0.98974609375,
      "reward_std": 0.24342095851898193,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91162109375,
      "rewards/tag_count_reward/std": 0.21643958985805511,
      "step": 468
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1103.58984375,
      "completions/mean_terminated_length": 999.1106567382812,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.16010924298028506,
      "grad_norm": 0.2375566065311432,
      "kl": 0.03875732421875,
      "learning_rate": 9.902480228327645e-07,
      "loss": 0.1268,
      "num_tokens": 339703648.0,
      "reward": 1.0361328125,
      "reward_std": 0.24838443100452423,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310528099536896,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.21008896827697754,
      "step": 469
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1122.00390625,
      "completions/mean_terminated_length": 1001.3995361328125,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.16045062729367585,
      "grad_norm": 0.30124250054359436,
      "kl": 0.04132080078125,
      "learning_rate": 9.90136663328321e-07,
      "loss": 0.1767,
      "num_tokens": 340358834.0,
      "reward": 1.01123046875,
      "reward_std": 0.30274468660354614,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90185546875,
      "rewards/tag_count_reward/std": 0.2335832417011261,
      "step": 470
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1141.6796875,
      "completions/mean_terminated_length": 1021.3717041015625,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.16079201160706666,
      "grad_norm": 0.3650186061859131,
      "kl": 0.04541015625,
      "learning_rate": 9.900246786563254e-07,
      "loss": 0.1238,
      "num_tokens": 341012958.0,
      "reward": 1.048828125,
      "reward_std": 0.3344082236289978,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.2244802713394165,
      "step": 471
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.095703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1056.5078125,
      "completions/mean_terminated_length": 951.57666015625,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.16113339592045745,
      "grad_norm": 262.1431884765625,
      "kl": 1.83160400390625,
      "learning_rate": 9.8991206897584e-07,
      "loss": 0.1907,
      "num_tokens": 341619602.0,
      "reward": 1.001953125,
      "reward_std": 0.2624667286872864,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.20555779337882996,
      "step": 472
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.095703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1073.13671875,
      "completions/mean_terminated_length": 969.9653930664062,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.16147478023384826,
      "grad_norm": 7812.05810546875,
      "kl": 123.5379638671875,
      "learning_rate": 9.897988344468148e-07,
      "loss": 5.0653,
      "num_tokens": 342247912.0,
      "reward": 1.0830078125,
      "reward_std": 0.27097246050834656,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9189453125,
      "rewards/tag_count_reward/std": 0.20277541875839233,
      "step": 473
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.103515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1068.548828125,
      "completions/mean_terminated_length": 955.453125,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.16181616454723904,
      "grad_norm": 0.20627427101135254,
      "kl": 0.0450439453125,
      "learning_rate": 9.89684975230088e-07,
      "loss": 0.1183,
      "num_tokens": 342863713.0,
      "reward": 1.06103515625,
      "reward_std": 0.27761712670326233,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.21285150945186615,
      "step": 474
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.103515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1164.78515625,
      "completions/mean_terminated_length": 1062.8017578125,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.16215754886062986,
      "grad_norm": 0.32532963156700134,
      "kl": 0.04119873046875,
      "learning_rate": 9.895704914873838e-07,
      "loss": 0.1244,
      "num_tokens": 343536675.0,
      "reward": 0.98291015625,
      "reward_std": 0.2782757878303528,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89501953125,
      "rewards/tag_count_reward/std": 0.23058590292930603,
      "step": 475
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1020.779296875,
      "completions/mean_terminated_length": 933.7266845703125,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.16249893317402064,
      "grad_norm": 0.29765912890434265,
      "kl": 0.03851318359375,
      "learning_rate": 9.89455383381315e-07,
      "loss": 0.1446,
      "num_tokens": 344136514.0,
      "reward": 1.1279296875,
      "reward_std": 0.2812463343143463,
      "rewards/accuracy_reward/mean": 0.2036290317773819,
      "rewards/accuracy_reward/std": 0.4031028151512146,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.1930219829082489,
      "step": 476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.16015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1106.541015625,
      "completions/mean_terminated_length": 927.0069580078125,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.16284031748741146,
      "grad_norm": 0.33845609426498413,
      "kl": 0.0445556640625,
      "learning_rate": 9.893396510753802e-07,
      "loss": 0.1348,
      "num_tokens": 344780407.0,
      "reward": 1.00244140625,
      "reward_std": 0.3071286678314209,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88330078125,
      "rewards/tag_count_reward/std": 0.24961701035499573,
      "step": 477
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1129.001953125,
      "completions/mean_terminated_length": 1049.0042724609375,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.16318170180080224,
      "grad_norm": 0.27333542704582214,
      "kl": 0.0372314453125,
      "learning_rate": 9.892232947339646e-07,
      "loss": 0.0807,
      "num_tokens": 345435496.0,
      "reward": 1.0166015625,
      "reward_std": 0.2632399797439575,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.1806451380252838,
      "step": 478
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1125.5859375,
      "completions/mean_terminated_length": 1023.5401611328125,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.16352308611419306,
      "grad_norm": 0.5575989484786987,
      "kl": 0.05474853515625,
      "learning_rate": 9.891063145223405e-07,
      "loss": 0.1207,
      "num_tokens": 346085252.0,
      "reward": 0.9619140625,
      "reward_std": 0.2514452338218689,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.2142503559589386,
      "step": 479
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1052.884765625,
      "completions/mean_terminated_length": 982.1024780273438,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.16386447042758384,
      "grad_norm": 243.59165954589844,
      "kl": 1.30230712890625,
      "learning_rate": 9.889887106066654e-07,
      "loss": 0.1438,
      "num_tokens": 346702265.0,
      "reward": 1.0771484375,
      "reward_std": 0.25558602809906006,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.17660093307495117,
      "step": 480
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1056.18359375,
      "completions/mean_terminated_length": 962.9359741210938,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.16420585474097465,
      "grad_norm": 32.50343322753906,
      "kl": 0.28216552734375,
      "learning_rate": 9.888704831539838e-07,
      "loss": 0.1373,
      "num_tokens": 347317495.0,
      "reward": 1.05810546875,
      "reward_std": 0.24973270297050476,
      "rewards/accuracy_reward/mean": 0.13508065044879913,
      "rewards/accuracy_reward/std": 0.3421548008918762,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.19460642337799072,
      "step": 481
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.126953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1123.12890625,
      "completions/mean_terminated_length": 988.6398315429688,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "epoch": 0.16454723905436544,
      "grad_norm": 2.283095359802246,
      "kl": 0.085693359375,
      "learning_rate": 9.88751632332225e-07,
      "loss": 0.0917,
      "num_tokens": 347976521.0,
      "reward": 0.953125,
      "reward_std": 0.24625083804130554,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.896484375,
      "rewards/tag_count_reward/std": 0.23204052448272705,
      "step": 482
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 1105.572265625,
      "completions/mean_terminated_length": 1021.3552856445312,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.16488862336775625,
      "grad_norm": 0.1593397706747055,
      "kl": 0.036376953125,
      "learning_rate": 9.88632158310204e-07,
      "loss": 0.0721,
      "num_tokens": 348615070.0,
      "reward": 1.0361328125,
      "reward_std": 0.2503836154937744,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.19661229848861694,
      "step": 483
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1033.029296875,
      "completions/mean_terminated_length": 956.266845703125,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.16523000768114704,
      "grad_norm": 0.20737029612064362,
      "kl": 0.0379638671875,
      "learning_rate": 9.885120612576208e-07,
      "loss": 0.0928,
      "num_tokens": 349224189.0,
      "reward": 1.0654296875,
      "reward_std": 0.23803508281707764,
      "rewards/accuracy_reward/mean": 0.13508065044879913,
      "rewards/accuracy_reward/std": 0.3421548008918762,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.1892828494310379,
      "step": 484
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.103515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1102.4375,
      "completions/mean_terminated_length": 993.2548828125,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.16557139199453785,
      "grad_norm": 0.19747956097126007,
      "kl": 0.03814697265625,
      "learning_rate": 9.88391341345061e-07,
      "loss": 0.0927,
      "num_tokens": 349879837.0,
      "reward": 1.109375,
      "reward_std": 0.307794988155365,
      "rewards/accuracy_reward/mean": 0.203125,
      "rewards/accuracy_reward/std": 0.4027182459831238,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.2266491949558258,
      "step": 485
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1173.375,
      "completions/mean_terminated_length": 1039.4234619140625,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.16591277630792864,
      "grad_norm": 0.18783214688301086,
      "kl": 0.041015625,
      "learning_rate": 9.882699987439943e-07,
      "loss": 0.1592,
      "num_tokens": 350561933.0,
      "reward": 1.00390625,
      "reward_std": 0.299715131521225,
      "rewards/accuracy_reward/mean": 0.10483870655298233,
      "rewards/accuracy_reward/std": 0.30665475130081177,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.22822889685630798,
      "step": 486
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1107.548828125,
      "completions/mean_terminated_length": 994.3654174804688,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.16625416062131945,
      "grad_norm": 0.15802687406539917,
      "kl": 0.03765869140625,
      "learning_rate": 9.88148033626775e-07,
      "loss": 0.093,
      "num_tokens": 351205718.0,
      "reward": 1.01513671875,
      "reward_std": 0.26605281233787537,
      "rewards/accuracy_reward/mean": 0.10685484111309052,
      "rewards/accuracy_reward/std": 0.30924052000045776,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91162109375,
      "rewards/tag_count_reward/std": 0.2181282937526703,
      "step": 487
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.130859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1203.0078125,
      "completions/mean_terminated_length": 1075.7843017578125,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.16659554493471024,
      "grad_norm": 0.147533118724823,
      "kl": 0.03314208984375,
      "learning_rate": 9.880254461666415e-07,
      "loss": 0.1096,
      "num_tokens": 351896026.0,
      "reward": 1.0126953125,
      "reward_std": 0.24784868955612183,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9013671875,
      "rewards/tag_count_reward/std": 0.21680405735969543,
      "step": 488
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2010.0,
      "completions/mean_length": 1140.591796875,
      "completions/mean_terminated_length": 1040.2060546875,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.16693692924810105,
      "grad_norm": 0.13074490427970886,
      "kl": 0.035797119140625,
      "learning_rate": 9.879022365377164e-07,
      "loss": 0.1082,
      "num_tokens": 352565065.0,
      "reward": 1.05078125,
      "reward_std": 0.2811756432056427,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.20478467643260956,
      "step": 489
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1169.712890625,
      "completions/mean_terminated_length": 1053.1260986328125,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "epoch": 0.16727831356149184,
      "grad_norm": 0.14120085537433624,
      "kl": 0.0350341796875,
      "learning_rate": 9.877784049150062e-07,
      "loss": 0.0626,
      "num_tokens": 353242278.0,
      "reward": 1.07958984375,
      "reward_std": 0.3144848048686981,
      "rewards/accuracy_reward/mean": 0.173828125,
      "rewards/accuracy_reward/std": 0.3793322443962097,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90576171875,
      "rewards/tag_count_reward/std": 0.22070206701755524,
      "step": 490
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.142578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1174.03515625,
      "completions/mean_terminated_length": 1028.7061767578125,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.16761969787488265,
      "grad_norm": 0.16105440258979797,
      "kl": 0.0406494140625,
      "learning_rate": 9.876539514744e-07,
      "loss": 0.1167,
      "num_tokens": 353917592.0,
      "reward": 1.02587890625,
      "reward_std": 0.30852940678596497,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88720703125,
      "rewards/tag_count_reward/std": 0.24097691476345062,
      "step": 491
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2002.0,
      "completions/mean_length": 1143.662109375,
      "completions/mean_terminated_length": 1032.60302734375,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.16796108218827344,
      "grad_norm": 0.1420840173959732,
      "kl": 0.0360107421875,
      "learning_rate": 9.875288763926716e-07,
      "loss": 0.1238,
      "num_tokens": 354578091.0,
      "reward": 1.10791015625,
      "reward_std": 0.3026808202266693,
      "rewards/accuracy_reward/mean": 0.203125,
      "rewards/accuracy_reward/std": 0.4027182459831238,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.2224915623664856,
      "step": 492
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.119140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1208.732421875,
      "completions/mean_terminated_length": 1095.21728515625,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.16830246650166425,
      "grad_norm": 0.14380201697349548,
      "kl": 0.03558349609375,
      "learning_rate": 9.87403179847476e-07,
      "loss": 0.0951,
      "num_tokens": 355271954.0,
      "reward": 1.04345703125,
      "reward_std": 0.2788853645324707,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89306640625,
      "rewards/tag_count_reward/std": 0.23021680116653442,
      "step": 493
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.095703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1055.939453125,
      "completions/mean_terminated_length": 950.9481201171875,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.16864385081505504,
      "grad_norm": 0.1528129130601883,
      "kl": 0.03900146484375,
      "learning_rate": 9.872768620173523e-07,
      "loss": 0.1204,
      "num_tokens": 355881267.0,
      "reward": 1.00341796875,
      "reward_std": 0.2849913239479065,
      "rewards/accuracy_reward/mean": 0.10685484111309052,
      "rewards/accuracy_reward/std": 0.30924052000045776,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89990234375,
      "rewards/tag_count_reward/std": 0.22418582439422607,
      "step": 494
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1029.697265625,
      "completions/mean_terminated_length": 929.1781005859375,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.16898523512844585,
      "grad_norm": 0.1555251181125641,
      "kl": 0.03839111328125,
      "learning_rate": 9.87149923081722e-07,
      "loss": 0.1316,
      "num_tokens": 356489592.0,
      "reward": 1.0419921875,
      "reward_std": 0.295937180519104,
      "rewards/accuracy_reward/mean": 0.12903225421905518,
      "rewards/accuracy_reward/std": 0.33557409048080444,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.2120266854763031,
      "step": 495
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1135.919921875,
      "completions/mean_terminated_length": 1058.625,
      "completions/min_length": 296.0,
      "completions/min_terminated_length": 296.0,
      "epoch": 0.16932661944183663,
      "grad_norm": 0.128618985414505,
      "kl": 0.032958984375,
      "learning_rate": 9.870223632208875e-07,
      "loss": 0.0608,
      "num_tokens": 357141999.0,
      "reward": 1.15087890625,
      "reward_std": 0.32117411494255066,
      "rewards/accuracy_reward/mean": 0.21875,
      "rewards/accuracy_reward/std": 0.41380295157432556,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.1867896467447281,
      "step": 496
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1160.767578125,
      "completions/mean_terminated_length": 1053.989013671875,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.16966800375522745,
      "grad_norm": 0.1433144360780716,
      "kl": 0.03558349609375,
      "learning_rate": 9.868941826160349e-07,
      "loss": 0.0866,
      "num_tokens": 357813016.0,
      "reward": 1.01806640625,
      "reward_std": 0.29755228757858276,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90087890625,
      "rewards/tag_count_reward/std": 0.22188088297843933,
      "step": 497
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 1075.751953125,
      "completions/mean_terminated_length": 1000.0189208984375,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.17000938806861823,
      "grad_norm": 0.1315048784017563,
      "kl": 0.03363037109375,
      "learning_rate": 9.86765381449231e-07,
      "loss": 0.0788,
      "num_tokens": 358444345.0,
      "reward": 1.0986328125,
      "reward_std": 0.2701328992843628,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.18138417601585388,
      "step": 498
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1068.4140625,
      "completions/mean_terminated_length": 971.7167358398438,
      "completions/min_length": 92.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.17035077238200905,
      "grad_norm": 0.13883817195892334,
      "kl": 0.03594970703125,
      "learning_rate": 9.866359599034239e-07,
      "loss": 0.0684,
      "num_tokens": 359067261.0,
      "reward": 1.03662109375,
      "reward_std": 0.2716313302516937,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.20490537583827972,
      "step": 499
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1080.716796875,
      "completions/mean_terminated_length": 932.5743408203125,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.17069215669539983,
      "grad_norm": 0.18865686655044556,
      "kl": 0.04241943359375,
      "learning_rate": 9.865059181624434e-07,
      "loss": 0.1159,
      "num_tokens": 359695180.0,
      "reward": 1.0673828125,
      "reward_std": 0.3113729655742645,
      "rewards/accuracy_reward/mean": 0.169921875,
      "rewards/accuracy_reward/std": 0.3759314715862274,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8974609375,
      "rewards/tag_count_reward/std": 0.23561012744903564,
      "step": 500
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.11328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1162.13671875,
      "completions/mean_terminated_length": 1048.9647216796875,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.17103354100879065,
      "grad_norm": 0.1335000842809677,
      "kl": 0.03570556640625,
      "learning_rate": 9.863752564110003e-07,
      "loss": 0.1143,
      "num_tokens": 360370066.0,
      "reward": 1.080078125,
      "reward_std": 0.28146272897720337,
      "rewards/accuracy_reward/mean": 0.171875,
      "rewards/accuracy_reward/std": 0.3776407241821289,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.2203473001718521,
      "step": 501
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1028.130859375,
      "completions/mean_terminated_length": 982.3407592773438,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.17137492532218146,
      "grad_norm": 0.13408465683460236,
      "kl": 0.03814697265625,
      "learning_rate": 9.862439748346854e-07,
      "loss": 0.0502,
      "num_tokens": 360970021.0,
      "reward": 1.08837890625,
      "reward_std": 0.19343972206115723,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95556640625,
      "rewards/tag_count_reward/std": 0.14953702688217163,
      "step": 502
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.111328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1139.931640625,
      "completions/mean_terminated_length": 1026.1737060546875,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.17171630963557225,
      "grad_norm": 0.18070316314697266,
      "kl": 0.036865234375,
      "learning_rate": 9.861120736199701e-07,
      "loss": 0.1277,
      "num_tokens": 361637234.0,
      "reward": 1.06201171875,
      "reward_std": 0.2937353253364563,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.2202296257019043,
      "step": 503
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1070.6484375,
      "completions/mean_terminated_length": 996.7311401367188,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "epoch": 0.17205769394896306,
      "grad_norm": 0.12468232959508896,
      "kl": 0.037445068359375,
      "learning_rate": 9.859795529542069e-07,
      "loss": 0.0588,
      "num_tokens": 362263790.0,
      "reward": 1.0478515625,
      "reward_std": 0.23821130394935608,
      "rewards/accuracy_reward/mean": 0.11491935700178146,
      "rewards/accuracy_reward/std": 0.3192465901374817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.18406164646148682,
      "step": 504
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1109.9140625,
      "completions/mean_terminated_length": 1023.9061889648438,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.17239907826235384,
      "grad_norm": 0.7725427746772766,
      "kl": 0.0546875,
      "learning_rate": 9.858464130256268e-07,
      "loss": 0.1126,
      "num_tokens": 362906194.0,
      "reward": 1.125,
      "reward_std": 0.3140985071659088,
      "rewards/accuracy_reward/mean": 0.1953125,
      "rewards/accuracy_reward/std": 0.3968288004398346,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.1951904594898224,
      "step": 505
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1094.91796875,
      "completions/mean_terminated_length": 991.7705688476562,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.17274046257574466,
      "grad_norm": 0.1942758709192276,
      "kl": 0.03955078125,
      "learning_rate": 9.85712654023341e-07,
      "loss": 0.1022,
      "num_tokens": 363545416.0,
      "reward": 1.11083984375,
      "reward_std": 0.2971748113632202,
      "rewards/accuracy_reward/mean": 0.1875,
      "rewards/accuracy_reward/std": 0.39069411158561707,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.20950312912464142,
      "step": 506
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1102.806640625,
      "completions/mean_terminated_length": 1005.0280151367188,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.17308184688913544,
      "grad_norm": 0.13935035467147827,
      "kl": 0.03753662109375,
      "learning_rate": 9.855782761373402e-07,
      "loss": 0.0977,
      "num_tokens": 364190485.0,
      "reward": 1.07421875,
      "reward_std": 0.2387661635875702,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.19759400188922882,
      "step": 507
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.130859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1165.626953125,
      "completions/mean_terminated_length": 1032.7752685546875,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.17342323120252626,
      "grad_norm": 0.21689465641975403,
      "kl": 0.04156494140625,
      "learning_rate": 9.854432795584938e-07,
      "loss": 0.1235,
      "num_tokens": 364869174.0,
      "reward": 0.9736328125,
      "reward_std": 0.27307945489883423,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8857421875,
      "rewards/tag_count_reward/std": 0.2480488121509552,
      "step": 508
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1150.201171875,
      "completions/mean_terminated_length": 1044.34716796875,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.17376461551591704,
      "grad_norm": 0.3246607482433319,
      "kl": 0.0452880859375,
      "learning_rate": 9.853076644785505e-07,
      "loss": 0.1065,
      "num_tokens": 365545021.0,
      "reward": 1.00048828125,
      "reward_std": 0.25012367963790894,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.20922017097473145,
      "step": 509
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.166015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1275.62890625,
      "completions/mean_terminated_length": 1121.878173828125,
      "completions/min_length": 281.0,
      "completions/min_terminated_length": 281.0,
      "epoch": 0.17410599982930786,
      "grad_norm": 0.1762906163930893,
      "kl": 0.034637451171875,
      "learning_rate": 9.851714310901365e-07,
      "loss": 0.1341,
      "num_tokens": 366271663.0,
      "reward": 0.9794921875,
      "reward_std": 0.28135573863983154,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8837890625,
      "rewards/tag_count_reward/std": 0.24763242900371552,
      "step": 510
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.103515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1071.146484375,
      "completions/mean_terminated_length": 958.3507690429688,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.17444738414269864,
      "grad_norm": 0.21623636782169342,
      "kl": 0.04559326171875,
      "learning_rate": 9.850345795867576e-07,
      "loss": 0.0738,
      "num_tokens": 366899386.0,
      "reward": 0.994140625,
      "reward_std": 0.21640846133232117,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.21164102852344513,
      "step": 511
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.134765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1172.599609375,
      "completions/mean_terminated_length": 1036.2506103515625,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.17478876845608946,
      "grad_norm": 0.7232561111450195,
      "kl": 0.04559326171875,
      "learning_rate": 9.848971101627965e-07,
      "loss": 0.1261,
      "num_tokens": 367575597.0,
      "reward": 0.994140625,
      "reward_std": 0.28845974802970886,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.22444620728492737,
      "step": 512
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1181.056640625,
      "completions/mean_terminated_length": 1061.611083984375,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "epoch": 0.17513015276948024,
      "grad_norm": 0.1659488081932068,
      "kl": 0.04522705078125,
      "learning_rate": 9.847590230135142e-07,
      "loss": 0.1185,
      "num_tokens": 368264634.0,
      "reward": 1.02197265625,
      "reward_std": 0.2936013340950012,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.21692466735839844,
      "step": 513
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1108.900390625,
      "completions/mean_terminated_length": 1007.2662353515625,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.17547153708287105,
      "grad_norm": 0.35106366872787476,
      "kl": 0.0496826171875,
      "learning_rate": 9.846203183350486e-07,
      "loss": 0.12,
      "num_tokens": 368911383.0,
      "reward": 1.06640625,
      "reward_std": 0.3203471004962921,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.20392431318759918,
      "step": 514
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1138.67578125,
      "completions/mean_terminated_length": 989.8772583007812,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.17581292139626184,
      "grad_norm": 0.33725979924201965,
      "kl": 0.0477294921875,
      "learning_rate": 9.844809963244153e-07,
      "loss": 0.1325,
      "num_tokens": 369571873.0,
      "reward": 1.05126953125,
      "reward_std": 0.29890111088752747,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88720703125,
      "rewards/tag_count_reward/std": 0.2373974323272705,
      "step": 515
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1216.09375,
      "completions/mean_terminated_length": 1092.986572265625,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.17615430570965265,
      "grad_norm": 129.20872497558594,
      "kl": 1.166259765625,
      "learning_rate": 9.84341057179506e-07,
      "loss": 0.1696,
      "num_tokens": 370278321.0,
      "reward": 1.07080078125,
      "reward_std": 0.3014245629310608,
      "rewards/accuracy_reward/mean": 0.173828125,
      "rewards/accuracy_reward/std": 0.3793322443962097,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89697265625,
      "rewards/tag_count_reward/std": 0.22612106800079346,
      "step": 516
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1260.37109375,
      "completions/mean_terminated_length": 1087.8428955078125,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.17649569002304344,
      "grad_norm": 13.521764755249023,
      "kl": 0.1954345703125,
      "learning_rate": 9.8420050109909e-07,
      "loss": 0.1263,
      "num_tokens": 371000927.0,
      "reward": 0.9501953125,
      "reward_std": 0.27213138341903687,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8779296875,
      "rewards/tag_count_reward/std": 0.24228043854236603,
      "step": 517
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.208984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1248.27734375,
      "completions/mean_terminated_length": 1036.99267578125,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.17683707433643425,
      "grad_norm": 0.49862024188041687,
      "kl": 0.05731201171875,
      "learning_rate": 9.840593282828121e-07,
      "loss": 0.1197,
      "num_tokens": 371724413.0,
      "reward": 0.94921875,
      "reward_std": 0.31343209743499756,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.865234375,
      "rewards/tag_count_reward/std": 0.2643204629421234,
      "step": 518
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.162109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1254.5859375,
      "completions/mean_terminated_length": 1101.0816650390625,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.17717845864982504,
      "grad_norm": 0.562168538570404,
      "kl": 0.048095703125,
      "learning_rate": 9.839175389311934e-07,
      "loss": 0.1291,
      "num_tokens": 372448697.0,
      "reward": 0.9697265625,
      "reward_std": 0.30398112535476685,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8740234375,
      "rewards/tag_count_reward/std": 0.2536408603191376,
      "step": 519
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1157.724609375,
      "completions/mean_terminated_length": 1050.579833984375,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.17751984296321585,
      "grad_norm": 0.4277644455432892,
      "kl": 0.0462646484375,
      "learning_rate": 9.837751332456306e-07,
      "loss": 0.1201,
      "num_tokens": 373120812.0,
      "reward": 0.9931640625,
      "reward_std": 0.22299577295780182,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.18938377499580383,
      "step": 520
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1010.0625,
      "completions/mean_terminated_length": 907.6051635742188,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.17786122727660664,
      "grad_norm": 0.30204182863235474,
      "kl": 0.05279541015625,
      "learning_rate": 9.83632111428396e-07,
      "loss": 0.0776,
      "num_tokens": 373721164.0,
      "reward": 1.0078125,
      "reward_std": 0.2607133090496063,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.1767766922712326,
      "step": 521
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1997.0,
      "completions/mean_length": 1175.888671875,
      "completions/mean_terminated_length": 1077.3021240234375,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.17820261158999745,
      "grad_norm": 0.3688586354255676,
      "kl": 0.04742431640625,
      "learning_rate": 9.834884736826366e-07,
      "loss": 0.1072,
      "num_tokens": 374400659.0,
      "reward": 0.99072265625,
      "reward_std": 0.19481873512268066,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.19380934536457062,
      "step": 522
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.11328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1126.701171875,
      "completions/mean_terminated_length": 1009.0021362304688,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "epoch": 0.17854399590338824,
      "grad_norm": 0.31846165657043457,
      "kl": 0.04681396484375,
      "learning_rate": 9.833442202123754e-07,
      "loss": 0.1067,
      "num_tokens": 375051418.0,
      "reward": 0.98486328125,
      "reward_std": 0.18726766109466553,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.1818806678056717,
      "step": 523
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1098.70703125,
      "completions/mean_terminated_length": 967.9155883789062,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.17888538021677905,
      "grad_norm": 0.20927104353904724,
      "kl": 0.04705810546875,
      "learning_rate": 9.831993512225084e-07,
      "loss": 0.0805,
      "num_tokens": 375688548.0,
      "reward": 1.07080078125,
      "reward_std": 0.2962263524532318,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91064453125,
      "rewards/tag_count_reward/std": 0.21772928535938263,
      "step": 524
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1083.947265625,
      "completions/mean_terminated_length": 979.612548828125,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.17922676453016984,
      "grad_norm": 0.3787153661251068,
      "kl": 0.06329345703125,
      "learning_rate": 9.830538669188068e-07,
      "loss": 0.1176,
      "num_tokens": 376324649.0,
      "reward": 1.0380859375,
      "reward_std": 0.2227935642004013,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.18003050982952118,
      "step": 525
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1142.720703125,
      "completions/mean_terminated_length": 1042.570556640625,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.17956814884356065,
      "grad_norm": 6.252066135406494,
      "kl": 0.1630859375,
      "learning_rate": 9.829077675079162e-07,
      "loss": 0.1408,
      "num_tokens": 376988442.0,
      "reward": 1.009765625,
      "reward_std": 0.279976487159729,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.19534705579280853,
      "step": 526
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1216.142578125,
      "completions/mean_terminated_length": 1105.718994140625,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "epoch": 0.17990953315695143,
      "grad_norm": 536.9520874023438,
      "kl": 4.33642578125,
      "learning_rate": 9.827610531973547e-07,
      "loss": 0.3018,
      "num_tokens": 377693843.0,
      "reward": 1.005859375,
      "reward_std": 0.2589573860168457,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.1995285600423813,
      "step": 527
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1084.8671875,
      "completions/mean_terminated_length": 1005.4545288085938,
      "completions/min_length": 301.0,
      "completions/min_terminated_length": 301.0,
      "epoch": 0.18025091747034225,
      "grad_norm": 17.69856834411621,
      "kl": 0.5198974609375,
      "learning_rate": 9.826137241955148e-07,
      "loss": 0.1135,
      "num_tokens": 378320671.0,
      "reward": 1.10009765625,
      "reward_std": 0.23680847883224487,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.17257477343082428,
      "step": 528
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 1059.419921875,
      "completions/mean_terminated_length": 973.365234375,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.18059230178373303,
      "grad_norm": 1183.978271484375,
      "kl": 12.9266357421875,
      "learning_rate": 9.824657807116617e-07,
      "loss": 0.6084,
      "num_tokens": 378935558.0,
      "reward": 1.04150390625,
      "reward_std": 0.23618459701538086,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.18878936767578125,
      "step": 529
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1265.384765625,
      "completions/mean_terminated_length": 1124.73046875,
      "completions/min_length": 335.0,
      "completions/min_terminated_length": 335.0,
      "epoch": 0.18093368609712385,
      "grad_norm": 0.5579692721366882,
      "kl": 0.05126953125,
      "learning_rate": 9.823172229559335e-07,
      "loss": 0.1222,
      "num_tokens": 379662555.0,
      "reward": 1.02197265625,
      "reward_std": 0.29389214515686035,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89697265625,
      "rewards/tag_count_reward/std": 0.22340019047260284,
      "step": 530
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.103515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1084.130859375,
      "completions/mean_terminated_length": 972.8344116210938,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.18127507041051463,
      "grad_norm": 0.4010159969329834,
      "kl": 0.04547119140625,
      "learning_rate": 9.821680511393407e-07,
      "loss": 0.0922,
      "num_tokens": 380298222.0,
      "reward": 1.01171875,
      "reward_std": 0.2094048112630844,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.18033012747764587,
      "step": 531
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.162109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1217.08203125,
      "completions/mean_terminated_length": 1056.3216552734375,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.18161645472390545,
      "grad_norm": 0.3693610429763794,
      "kl": 0.04864501953125,
      "learning_rate": 9.82018265473766e-07,
      "loss": 0.1253,
      "num_tokens": 381005368.0,
      "reward": 1.02197265625,
      "reward_std": 0.29467299580574036,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88525390625,
      "rewards/tag_count_reward/std": 0.24359171092510223,
      "step": 532
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1280.248046875,
      "completions/mean_terminated_length": 1146.419677734375,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.18195783903729623,
      "grad_norm": 0.48421764373779297,
      "kl": 0.04736328125,
      "learning_rate": 9.818678661719642e-07,
      "loss": 0.1214,
      "num_tokens": 381735767.0,
      "reward": 0.99462890625,
      "reward_std": 0.30959808826446533,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90087890625,
      "rewards/tag_count_reward/std": 0.21854843199253082,
      "step": 533
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1142.37109375,
      "completions/mean_terminated_length": 1008.3543090820312,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.18229922335068705,
      "grad_norm": 0.2830883264541626,
      "kl": 0.066650390625,
      "learning_rate": 9.817168534475617e-07,
      "loss": 0.111,
      "num_tokens": 382390149.0,
      "reward": 1.03271484375,
      "reward_std": 0.2560274004936218,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.21779070794582367,
      "step": 534
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1169.939453125,
      "completions/mean_terminated_length": 1053.3826904296875,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.18264060766407783,
      "grad_norm": 0.4295150339603424,
      "kl": 0.06268310546875,
      "learning_rate": 9.81565227515056e-07,
      "loss": 0.0992,
      "num_tokens": 383063782.0,
      "reward": 1.10595703125,
      "reward_std": 0.25862962007522583,
      "rewards/accuracy_reward/mean": 0.20967741310596466,
      "rewards/accuracy_reward/std": 0.4074893593788147,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90283203125,
      "rewards/tag_count_reward/std": 0.2166205197572708,
      "step": 535
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.13671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1146.947265625,
      "completions/mean_terminated_length": 1004.2466430664062,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.18298199197746864,
      "grad_norm": 2.3532238006591797,
      "kl": 0.118408203125,
      "learning_rate": 9.814129885898154e-07,
      "loss": 0.1271,
      "num_tokens": 383728811.0,
      "reward": 0.99169921875,
      "reward_std": 0.21569226682186127,
      "rewards/accuracy_reward/mean": 0.0786290317773819,
      "rewards/accuracy_reward/std": 0.26943066716194153,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.1967647224664688,
      "step": 536
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1164.4140625,
      "completions/mean_terminated_length": 1019.8272705078125,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.18332337629085943,
      "grad_norm": 0.5218260288238525,
      "kl": 0.0560302734375,
      "learning_rate": 9.812601368880796e-07,
      "loss": 0.076,
      "num_tokens": 384396815.0,
      "reward": 0.98486328125,
      "reward_std": 0.2580307126045227,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.21692466735839844,
      "step": 537
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1130.181640625,
      "completions/mean_terminated_length": 1017.4671020507812,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.18366476060425024,
      "grad_norm": 20.854175567626953,
      "kl": 0.41790771484375,
      "learning_rate": 9.811066726269582e-07,
      "loss": 0.1362,
      "num_tokens": 385045516.0,
      "reward": 1.06201171875,
      "reward_std": 0.24447444081306458,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.19449345767498016,
      "step": 538
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.166015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1200.7578125,
      "completions/mean_terminated_length": 1032.10302734375,
      "completions/min_length": 283.0,
      "completions/min_terminated_length": 283.0,
      "epoch": 0.18400614491764103,
      "grad_norm": 0.5710415244102478,
      "kl": 0.07281494140625,
      "learning_rate": 9.809525960244308e-07,
      "loss": 0.119,
      "num_tokens": 385736480.0,
      "reward": 1.00439453125,
      "reward_std": 0.28465235233306885,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89111328125,
      "rewards/tag_count_reward/std": 0.23561164736747742,
      "step": 539
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.111328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1132.79296875,
      "completions/mean_terminated_length": 1018.1406860351562,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.18434752923103184,
      "grad_norm": 3.235412836074829,
      "kl": 0.10955810546875,
      "learning_rate": 9.807979072993469e-07,
      "loss": 0.0988,
      "num_tokens": 386389446.0,
      "reward": 1.001953125,
      "reward_std": 0.21348832547664642,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.17862646281719208,
      "step": 540
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.146484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1231.66796875,
      "completions/mean_terminated_length": 1091.565185546875,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.18468891354442263,
      "grad_norm": 0.3809445798397064,
      "kl": 0.07183837890625,
      "learning_rate": 9.806426066714256e-07,
      "loss": 0.1247,
      "num_tokens": 387100524.0,
      "reward": 1.01123046875,
      "reward_std": 0.2569984197616577,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90185546875,
      "rewards/tag_count_reward/std": 0.21561242640018463,
      "step": 541
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1074.423828125,
      "completions/mean_terminated_length": 930.35205078125,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.18503029785781344,
      "grad_norm": 8.068211555480957,
      "kl": 0.2899169921875,
      "learning_rate": 9.804866943612547e-07,
      "loss": 0.1111,
      "num_tokens": 387733717.0,
      "reward": 1.0380859375,
      "reward_std": 0.22613106667995453,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.2204751819372177,
      "step": 542
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.130859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1209.01953125,
      "completions/mean_terminated_length": 1082.701171875,
      "completions/min_length": 352.0,
      "completions/min_terminated_length": 352.0,
      "epoch": 0.18537168217120423,
      "grad_norm": 1.091995358467102,
      "kl": 0.073486328125,
      "learning_rate": 9.803301705902917e-07,
      "loss": 0.1413,
      "num_tokens": 388434319.0,
      "reward": 1.02978515625,
      "reward_std": 0.2876089811325073,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91064453125,
      "rewards/tag_count_reward/std": 0.2085477113723755,
      "step": 543
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.123046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1146.916015625,
      "completions/mean_terminated_length": 1020.4833374023438,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.18571306648459504,
      "grad_norm": 0.3270891606807709,
      "kl": 0.0604248046875,
      "learning_rate": 9.801730355808616e-07,
      "loss": 0.1041,
      "num_tokens": 389093924.0,
      "reward": 1.146484375,
      "reward_std": 0.3347158432006836,
      "rewards/accuracy_reward/mean": 0.23828125,
      "rewards/accuracy_reward/std": 0.42644867300987244,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.21699129045009613,
      "step": 544
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.11328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1102.109375,
      "completions/mean_terminated_length": 981.2686767578125,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.18605445079798583,
      "grad_norm": 0.3841545283794403,
      "kl": 0.0579833984375,
      "learning_rate": 9.80015289556158e-07,
      "loss": 0.0828,
      "num_tokens": 389740636.0,
      "reward": 1.15673828125,
      "reward_std": 0.3368246555328369,
      "rewards/accuracy_reward/mean": 0.228515625,
      "rewards/accuracy_reward/std": 0.4202871024608612,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.18131764233112335,
      "step": 545
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1073.97265625,
      "completions/mean_terminated_length": 954.3552856445312,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.18639583511137664,
      "grad_norm": 0.6618931293487549,
      "kl": 0.065673828125,
      "learning_rate": 9.798569327402428e-07,
      "loss": 0.0987,
      "num_tokens": 390368622.0,
      "reward": 1.1953125,
      "reward_std": 0.3582373261451721,
      "rewards/accuracy_reward/mean": 0.271484375,
      "rewards/accuracy_reward/std": 0.44516023993492126,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.1948670893907547,
      "step": 546
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1294.09375,
      "completions/mean_terminated_length": 1115.6328125,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.18673721942476743,
      "grad_norm": 0.7665673494338989,
      "kl": 0.069091796875,
      "learning_rate": 9.79697965358045e-07,
      "loss": 0.136,
      "num_tokens": 391108494.0,
      "reward": 0.9814453125,
      "reward_std": 0.29430800676345825,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8720703125,
      "rewards/tag_count_reward/std": 0.2555474638938904,
      "step": 547
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.134765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 1177.345703125,
      "completions/mean_terminated_length": 1041.7359619140625,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.18707860373815824,
      "grad_norm": 0.4188109040260315,
      "kl": 0.060302734375,
      "learning_rate": 9.795383876353606e-07,
      "loss": 0.0912,
      "num_tokens": 391796719.0,
      "reward": 1.0732421875,
      "reward_std": 0.28261393308639526,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.2087017148733139,
      "step": 548
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.13671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1203.34765625,
      "completions/mean_terminated_length": 1069.5792236328125,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.18741998805154902,
      "grad_norm": 5.095983028411865,
      "kl": 0.1500244140625,
      "learning_rate": 9.793781997988532e-07,
      "loss": 0.1039,
      "num_tokens": 392481553.0,
      "reward": 1.02392578125,
      "reward_std": 0.2649180591106415,
      "rewards/accuracy_reward/mean": 0.10685484111309052,
      "rewards/accuracy_reward/std": 0.3092404901981354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.19569343328475952,
      "step": 549
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1180.8046875,
      "completions/mean_terminated_length": 1061.324462890625,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "epoch": 0.18776137236493984,
      "grad_norm": 0.5860349535942078,
      "kl": 0.07501220703125,
      "learning_rate": 9.792174020760524e-07,
      "loss": 0.0843,
      "num_tokens": 393160621.0,
      "reward": 1.099609375,
      "reward_std": 0.2811385691165924,
      "rewards/accuracy_reward/mean": 0.177734375,
      "rewards/accuracy_reward/std": 0.3826628625392914,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.19091396033763885,
      "step": 550
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1117.69921875,
      "completions/mean_terminated_length": 1043.1180419921875,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.18810275667833062,
      "grad_norm": 0.5190368890762329,
      "kl": 0.076904296875,
      "learning_rate": 9.790559946953549e-07,
      "loss": 0.0743,
      "num_tokens": 393813667.0,
      "reward": 1.04248046875,
      "reward_std": 0.26518183946609497,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.169349804520607,
      "step": 551
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.134765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1194.0,
      "completions/mean_terminated_length": 1060.9842529296875,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.18844414099172144,
      "grad_norm": 0.5157608985900879,
      "kl": 0.099365234375,
      "learning_rate": 9.788939778860224e-07,
      "loss": 0.1115,
      "num_tokens": 394494675.0,
      "reward": 1.0224609375,
      "reward_std": 0.2601080536842346,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.1972527801990509,
      "step": 552
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 954.28125,
      "completions/mean_terminated_length": 891.0082397460938,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.18878552530511222,
      "grad_norm": 0.5783326029777527,
      "kl": 0.07244873046875,
      "learning_rate": 9.787313518781823e-07,
      "loss": 0.0764,
      "num_tokens": 395059363.0,
      "reward": 1.1435546875,
      "reward_std": 0.28659093379974365,
      "rewards/accuracy_reward/mean": 0.189453125,
      "rewards/accuracy_reward/std": 0.3922513723373413,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9541015625,
      "rewards/tag_count_reward/std": 0.14535459876060486,
      "step": 553
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1110.6875,
      "completions/mean_terminated_length": 1015.9484252929688,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.18912690961850304,
      "grad_norm": 0.4482949376106262,
      "kl": 0.07421875,
      "learning_rate": 9.785681169028283e-07,
      "loss": 0.0812,
      "num_tokens": 395707459.0,
      "reward": 1.06103515625,
      "reward_std": 0.2188917100429535,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.16157673299312592,
      "step": 554
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.111328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1096.193359375,
      "completions/mean_terminated_length": 976.9561157226562,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.18946829393189382,
      "grad_norm": 0.787347137928009,
      "kl": 0.098876953125,
      "learning_rate": 9.784042731918182e-07,
      "loss": 0.1182,
      "num_tokens": 396344982.0,
      "reward": 1.05615234375,
      "reward_std": 0.27714595198631287,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91162109375,
      "rewards/tag_count_reward/std": 0.21244709193706512,
      "step": 555
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 1110.333984375,
      "completions/mean_terminated_length": 1026.54248046875,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.18980967824528464,
      "grad_norm": 0.2713336944580078,
      "kl": 0.0731201171875,
      "learning_rate": 9.782398209778744e-07,
      "loss": 0.0739,
      "num_tokens": 396992753.0,
      "reward": 1.01171875,
      "reward_std": 0.23044559359550476,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.1586231142282486,
      "step": 556
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.169921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1158.2421875,
      "completions/mean_terminated_length": 976.103515625,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.19015106255867542,
      "grad_norm": 25.266206741333008,
      "kl": 0.24407958984375,
      "learning_rate": 9.78074760494584e-07,
      "loss": 0.0873,
      "num_tokens": 397660109.0,
      "reward": 1.04052734375,
      "reward_std": 0.28423190116882324,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89794921875,
      "rewards/tag_count_reward/std": 0.22110001742839813,
      "step": 557
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.11328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1219.36328125,
      "completions/mean_terminated_length": 1113.502197265625,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.19049244687206623,
      "grad_norm": 3.4805595874786377,
      "kl": 0.095458984375,
      "learning_rate": 9.77909091976398e-07,
      "loss": 0.0796,
      "num_tokens": 398361127.0,
      "reward": 1.00439453125,
      "reward_std": 0.24572907388210297,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18900687992572784,
      "step": 558
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1084.763671875,
      "completions/mean_terminated_length": 1026.9295654296875,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.19083383118545702,
      "grad_norm": 0.35506051778793335,
      "kl": 0.0626220703125,
      "learning_rate": 9.77742815658631e-07,
      "loss": 0.0797,
      "num_tokens": 398990958.0,
      "reward": 1.015625,
      "reward_std": 0.19875165820121765,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.951171875,
      "rewards/tag_count_reward/std": 0.14856980741024017,
      "step": 559
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1104.12109375,
      "completions/mean_terminated_length": 1026.2960205078125,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.19117521549884783,
      "grad_norm": 0.5398379564285278,
      "kl": 0.066650390625,
      "learning_rate": 9.775759317774608e-07,
      "loss": 0.0758,
      "num_tokens": 399629692.0,
      "reward": 1.119140625,
      "reward_std": 0.2749728262424469,
      "rewards/accuracy_reward/mean": 0.18359375,
      "rewards/accuracy_reward/std": 0.3875311613082886,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.935546875,
      "rewards/tag_count_reward/std": 0.17968250811100006,
      "step": 560
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1147.884765625,
      "completions/mean_terminated_length": 1059.0322265625,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.19151659981223862,
      "grad_norm": 0.42627501487731934,
      "kl": 0.05914306640625,
      "learning_rate": 9.774084405699285e-07,
      "loss": 0.081,
      "num_tokens": 400290465.0,
      "reward": 1.04296875,
      "reward_std": 0.2823117971420288,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.19436629116535187,
      "step": 561
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.119140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1150.671875,
      "completions/mean_terminated_length": 1029.3037109375,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.19185798412562943,
      "grad_norm": 0.3655388653278351,
      "kl": 0.05712890625,
      "learning_rate": 9.772403422739374e-07,
      "loss": 0.0923,
      "num_tokens": 400961337.0,
      "reward": 1.048828125,
      "reward_std": 0.27918076515197754,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.20592933893203735,
      "step": 562
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1117.5390625,
      "completions/mean_terminated_length": 989.3422241210938,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.19219936843902022,
      "grad_norm": 0.37263110280036926,
      "kl": 0.0657958984375,
      "learning_rate": 9.770716371282538e-07,
      "loss": 0.0957,
      "num_tokens": 401609021.0,
      "reward": 0.97119140625,
      "reward_std": 0.23943334817886353,
      "rewards/accuracy_reward/mean": 0.06854838877916336,
      "rewards/accuracy_reward/std": 0.25293970108032227,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.21579405665397644,
      "step": 563
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.14453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1173.470703125,
      "completions/mean_terminated_length": 1025.7191162109375,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.19254075275241103,
      "grad_norm": 0.2630736231803894,
      "kl": 0.06439208984375,
      "learning_rate": 9.769023253725047e-07,
      "loss": 0.08,
      "num_tokens": 402297006.0,
      "reward": 1.0703125,
      "reward_std": 0.2503066062927246,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.21157780289649963,
      "step": 564
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1212.0546875,
      "completions/mean_terminated_length": 1103.1788330078125,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "epoch": 0.19288213706580182,
      "grad_norm": 0.34691181778907776,
      "kl": 0.0675048828125,
      "learning_rate": 9.767324072471803e-07,
      "loss": 0.1125,
      "num_tokens": 402992250.0,
      "reward": 1.05224609375,
      "reward_std": 0.2543666660785675,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.19716253876686096,
      "step": 565
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.119140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1192.375,
      "completions/mean_terminated_length": 1076.6474609375,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.19322352137919263,
      "grad_norm": 0.6449598073959351,
      "kl": 0.07659912109375,
      "learning_rate": 9.76561882993631e-07,
      "loss": 0.1298,
      "num_tokens": 403685082.0,
      "reward": 1.0283203125,
      "reward_std": 0.29140976071357727,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.20515529811382294,
      "step": 566
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1077.818359375,
      "completions/mean_terminated_length": 982.0493774414062,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.19356490569258342,
      "grad_norm": 0.7065788507461548,
      "kl": 0.07843017578125,
      "learning_rate": 9.763907528540684e-07,
      "loss": 0.1166,
      "num_tokens": 404321325.0,
      "reward": 1.025390625,
      "reward_std": 0.24978119134902954,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.18686699867248535,
      "step": 567
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.111328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1140.861328125,
      "completions/mean_terminated_length": 1027.2198486328125,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.19390629000597423,
      "grad_norm": 0.5742402672767639,
      "kl": 0.1163330078125,
      "learning_rate": 9.762190170715649e-07,
      "loss": 0.086,
      "num_tokens": 404978742.0,
      "reward": 1.072265625,
      "reward_std": 0.26042798161506653,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.18861782550811768,
      "step": 568
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1228.419921875,
      "completions/mean_terminated_length": 1119.6260986328125,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.19424767431936502,
      "grad_norm": 0.48563316464424133,
      "kl": 0.1265869140625,
      "learning_rate": 9.760466758900526e-07,
      "loss": 0.095,
      "num_tokens": 405680605.0,
      "reward": 1.01953125,
      "reward_std": 0.2674994468688965,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.20338943600654602,
      "step": 569
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1154.271484375,
      "completions/mean_terminated_length": 1053.2412109375,
      "completions/min_length": 334.0,
      "completions/min_terminated_length": 334.0,
      "epoch": 0.19458905863275583,
      "grad_norm": 0.8530169129371643,
      "kl": 0.145751953125,
      "learning_rate": 9.758737295543246e-07,
      "loss": 0.1397,
      "num_tokens": 406344888.0,
      "reward": 1.02001953125,
      "reward_std": 0.26721084117889404,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.19709952175617218,
      "step": 570
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.103515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1167.205078125,
      "completions/mean_terminated_length": 1065.5010986328125,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.19493044294614661,
      "grad_norm": 2.242124080657959,
      "kl": 0.24560546875,
      "learning_rate": 9.757001783100323e-07,
      "loss": 0.0968,
      "num_tokens": 407027057.0,
      "reward": 1.0234375,
      "reward_std": 0.227874293923378,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.19409078359603882,
      "step": 571
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1108.5390625,
      "completions/mean_terminated_length": 995.474853515625,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.19527182725953743,
      "grad_norm": 2.936920166015625,
      "kl": 0.2293701171875,
      "learning_rate": 9.755260224036872e-07,
      "loss": 0.1002,
      "num_tokens": 407671253.0,
      "reward": 1.05615234375,
      "reward_std": 0.2248762547969818,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.17357957363128662,
      "step": 572
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1145.361328125,
      "completions/mean_terminated_length": 1070.9365234375,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.19561321157292821,
      "grad_norm": 0.45513296127319336,
      "kl": 0.1466064453125,
      "learning_rate": 9.753512620826592e-07,
      "loss": 0.1024,
      "num_tokens": 408334206.0,
      "reward": 1.00927734375,
      "reward_std": 0.17300641536712646,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95263671875,
      "rewards/tag_count_reward/std": 0.1418975442647934,
      "step": 573
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.095703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1160.25,
      "completions/mean_terminated_length": 1066.2979736328125,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.19595459588631903,
      "grad_norm": 11.788080215454102,
      "kl": 0.33154296875,
      "learning_rate": 9.751758975951767e-07,
      "loss": 0.09,
      "num_tokens": 409005086.0,
      "reward": 1.015625,
      "reward_std": 0.22155682742595673,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.15556970238685608,
      "step": 574
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1078.783203125,
      "completions/mean_terminated_length": 994.4140625,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.1962959801997098,
      "grad_norm": 0.4927197992801666,
      "kl": 0.150634765625,
      "learning_rate": 9.749999291903267e-07,
      "loss": 0.0712,
      "num_tokens": 409631503.0,
      "reward": 1.12158203125,
      "reward_std": 0.28047245740890503,
      "rewards/accuracy_reward/mean": 0.177734375,
      "rewards/accuracy_reward/std": 0.3826628625392914,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94384765625,
      "rewards/tag_count_reward/std": 0.16372689604759216,
      "step": 575
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1155.580078125,
      "completions/mean_terminated_length": 1084.0357666015625,
      "completions/min_length": 4.0,
      "completions/min_terminated_length": 4.0,
      "epoch": 0.19663736451310063,
      "grad_norm": 0.2798035442829132,
      "kl": 0.1241455078125,
      "learning_rate": 9.748233571180536e-07,
      "loss": 0.0676,
      "num_tokens": 410308120.0,
      "reward": 0.9853515625,
      "reward_std": 0.1960594654083252,
      "rewards/accuracy_reward/mean": 0.04233871027827263,
      "rewards/accuracy_reward/std": 0.2015640139579773,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.16201746463775635,
      "step": 576
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1098.4375,
      "completions/mean_terminated_length": 1035.1334228515625,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.1969787488264914,
      "grad_norm": 4.284827709197998,
      "kl": 0.2630615234375,
      "learning_rate": 9.74646181629159e-07,
      "loss": 0.0988,
      "num_tokens": 410950312.0,
      "reward": 1.0498046875,
      "reward_std": 0.2191469520330429,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9521484375,
      "rewards/tag_count_reward/std": 0.15052182972431183,
      "step": 577
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1094.064453125,
      "completions/mean_terminated_length": 1028.344482421875,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.19732013313988223,
      "grad_norm": 83.3451919555664,
      "kl": 1.0875244140625,
      "learning_rate": 9.744684029753026e-07,
      "loss": 0.1079,
      "num_tokens": 411586905.0,
      "reward": 1.0888671875,
      "reward_std": 0.24662557244300842,
      "rewards/accuracy_reward/mean": 0.14516128599643707,
      "rewards/accuracy_reward/std": 0.3526190221309662,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9482421875,
      "rewards/tag_count_reward/std": 0.15085157752037048,
      "step": 578
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1133.701171875,
      "completions/mean_terminated_length": 1058.31494140625,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.197661517453273,
      "grad_norm": 0.9344030022621155,
      "kl": 0.0947265625,
      "learning_rate": 9.742900214089994e-07,
      "loss": 0.0975,
      "num_tokens": 412246736.0,
      "reward": 1.0185546875,
      "reward_std": 0.2350711077451706,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.18318742513656616,
      "step": 579
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1107.046875,
      "completions/mean_terminated_length": 1054.6639404296875,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.19800290176666382,
      "grad_norm": 0.5140022039413452,
      "kl": 0.0635986328125,
      "learning_rate": 9.741110371836224e-07,
      "loss": 0.0381,
      "num_tokens": 412892520.0,
      "reward": 1.1103515625,
      "reward_std": 0.2751343846321106,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9462890625,
      "rewards/tag_count_reward/std": 0.15964092314243317,
      "step": 580
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1048.87109375,
      "completions/mean_terminated_length": 975.5596923828125,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.1983442860800546,
      "grad_norm": 0.34006255865097046,
      "kl": 0.06719970703125,
      "learning_rate": 9.739314505533989e-07,
      "loss": 0.0814,
      "num_tokens": 413511414.0,
      "reward": 1.01025390625,
      "reward_std": 0.22366735339164734,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94580078125,
      "rewards/tag_count_reward/std": 0.16363932192325592,
      "step": 581
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1029.501953125,
      "completions/mean_terminated_length": 968.3499145507812,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.19868567039344542,
      "grad_norm": 0.2730991542339325,
      "kl": 0.064208984375,
      "learning_rate": 9.73751261773413e-07,
      "loss": 0.0427,
      "num_tokens": 414124583.0,
      "reward": 1.08056640625,
      "reward_std": 0.2226194590330124,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95361328125,
      "rewards/tag_count_reward/std": 0.13961657881736755,
      "step": 582
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1985.0,
      "completions/mean_length": 1001.361328125,
      "completions/mean_terminated_length": 945.3682861328125,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.1990270547068362,
      "grad_norm": 0.39661121368408203,
      "kl": 0.077880859375,
      "learning_rate": 9.735704710996043e-07,
      "loss": 0.0598,
      "num_tokens": 414708672.0,
      "reward": 1.08154296875,
      "reward_std": 0.26310551166534424,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95849609375,
      "rewards/tag_count_reward/std": 0.1445726603269577,
      "step": 583
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1981.0,
      "completions/mean_length": 1051.6171875,
      "completions/mean_terminated_length": 991.79296875,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.19936843902022702,
      "grad_norm": 0.29163286089897156,
      "kl": 0.07293701171875,
      "learning_rate": 9.73389078788766e-07,
      "loss": 0.0647,
      "num_tokens": 415329052.0,
      "reward": 1.0439453125,
      "reward_std": 0.198550745844841,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9541015625,
      "rewards/tag_count_reward/std": 0.1419488787651062,
      "step": 584
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 905.3515625,
      "completions/mean_terminated_length": 856.480712890625,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.1997098233336178,
      "grad_norm": 0.281498521566391,
      "kl": 0.0682373046875,
      "learning_rate": 9.732070850985472e-07,
      "loss": 0.0499,
      "num_tokens": 415861904.0,
      "reward": 1.1123046875,
      "reward_std": 0.23264080286026,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9677734375,
      "rewards/tag_count_reward/std": 0.11466160416603088,
      "step": 585
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1053.068359375,
      "completions/mean_terminated_length": 995.5103149414062,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.20005120764700862,
      "grad_norm": 0.42289862036705017,
      "kl": 0.085205078125,
      "learning_rate": 9.730244902874507e-07,
      "loss": 0.0564,
      "num_tokens": 416479059.0,
      "reward": 1.06005859375,
      "reward_std": 0.22527457773685455,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95849609375,
      "rewards/tag_count_reward/std": 0.14201197028160095,
      "step": 586
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 1084.958984375,
      "completions/mean_terminated_length": 1003.3453369140625,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.2003925919603994,
      "grad_norm": 1.545763373374939,
      "kl": 0.1494140625,
      "learning_rate": 9.728412946148327e-07,
      "loss": 0.0919,
      "num_tokens": 417116798.0,
      "reward": 1.0390625,
      "reward_std": 0.2163223922252655,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94921875,
      "rewards/tag_count_reward/std": 0.15037257969379425,
      "step": 587
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1020.591796875,
      "completions/mean_terminated_length": 967.8501586914062,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.20073397627379022,
      "grad_norm": 0.5551316142082214,
      "kl": 0.1324462890625,
      "learning_rate": 9.726574983409039e-07,
      "loss": 0.0943,
      "num_tokens": 417715069.0,
      "reward": 1.0673828125,
      "reward_std": 0.21322165429592133,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9599609375,
      "rewards/tag_count_reward/std": 0.14113877713680267,
      "step": 588
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1062.693359375,
      "completions/mean_terminated_length": 979.1928100585938,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.201075360587181,
      "grad_norm": 661676.5625,
      "kl": 4672.11572265625,
      "learning_rate": 9.724731017267267e-07,
      "loss": 186.9552,
      "num_tokens": 418337216.0,
      "reward": 1.12353515625,
      "reward_std": 0.3131940960884094,
      "rewards/accuracy_reward/mean": 0.19959677755832672,
      "rewards/accuracy_reward/std": 0.40010079741477966,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.18932512402534485,
      "step": 589
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1016.14453125,
      "completions/mean_terminated_length": 938.1051025390625,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.20141674490057182,
      "grad_norm": 112.77184295654297,
      "kl": 1.376220703125,
      "learning_rate": 9.722881050342175e-07,
      "loss": 0.14,
      "num_tokens": 418924954.0,
      "reward": 1.09814453125,
      "reward_std": 0.2744031548500061,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94384765625,
      "rewards/tag_count_reward/std": 0.1666882485151291,
      "step": 590
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1049.443359375,
      "completions/mean_terminated_length": 982.8729858398438,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.2017581292139626,
      "grad_norm": 10.41447925567627,
      "kl": 0.300048828125,
      "learning_rate": 9.721025085261442e-07,
      "loss": 0.1252,
      "num_tokens": 419543933.0,
      "reward": 1.0625,
      "reward_std": 0.21535976231098175,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.953125,
      "rewards/tag_count_reward/std": 0.1483767330646515,
      "step": 591
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1055.271484375,
      "completions/mean_terminated_length": 966.5595703125,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.20209951352735342,
      "grad_norm": 1.1468920707702637,
      "kl": 0.21044921875,
      "learning_rate": 9.719163124661276e-07,
      "loss": 0.0996,
      "num_tokens": 420157912.0,
      "reward": 1.0859375,
      "reward_std": 0.24691808223724365,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.17556172609329224,
      "step": 592
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1081.751953125,
      "completions/mean_terminated_length": 1010.8532104492188,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "epoch": 0.2024408978407442,
      "grad_norm": 40.83711242675781,
      "kl": 0.5858154296875,
      "learning_rate": 9.717295171186388e-07,
      "loss": 0.0852,
      "num_tokens": 420793513.0,
      "reward": 1.060546875,
      "reward_std": 0.19900736212730408,
      "rewards/accuracy_reward/mean": 0.11491935700178146,
      "rewards/accuracy_reward/std": 0.3192465901374817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94921875,
      "rewards/tag_count_reward/std": 0.1495569944381714,
      "step": 593
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 977.927734375,
      "completions/mean_terminated_length": 908.9625854492188,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.20278228215413502,
      "grad_norm": 0.5450801849365234,
      "kl": 0.142578125,
      "learning_rate": 9.71542122749001e-07,
      "loss": 0.0414,
      "num_tokens": 421364804.0,
      "reward": 1.154296875,
      "reward_std": 0.25699377059936523,
      "rewards/accuracy_reward/mean": 0.19140625,
      "rewards/accuracy_reward/std": 0.3937928080558777,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.962890625,
      "rewards/tag_count_reward/std": 0.1357729285955429,
      "step": 594
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1201.599609375,
      "completions/mean_terminated_length": 1097.65576171875,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.2031236664675258,
      "grad_norm": 0.7900511026382446,
      "kl": 0.168701171875,
      "learning_rate": 9.713541296233884e-07,
      "loss": 0.1118,
      "num_tokens": 422054839.0,
      "reward": 1.0703125,
      "reward_std": 0.26460564136505127,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.16772332787513733,
      "step": 595
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1111.208984375,
      "completions/mean_terminated_length": 1033.96826171875,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.20346505078091662,
      "grad_norm": 1.1540671586990356,
      "kl": 0.1524658203125,
      "learning_rate": 9.711655380088249e-07,
      "loss": 0.0708,
      "num_tokens": 422689730.0,
      "reward": 1.12109375,
      "reward_std": 0.23350730538368225,
      "rewards/accuracy_reward/mean": 0.17741934955120087,
      "rewards/accuracy_reward/std": 0.38240888714790344,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94921875,
      "rewards/tag_count_reward/std": 0.14873693883419037,
      "step": 596
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.111328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1189.44140625,
      "completions/mean_terminated_length": 1081.8857421875,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.2038064350943074,
      "grad_norm": 0.5086233019828796,
      "kl": 0.1591796875,
      "learning_rate": 9.709763481731853e-07,
      "loss": 0.0815,
      "num_tokens": 423370628.0,
      "reward": 1.02880859375,
      "reward_std": 0.23846885561943054,
      "rewards/accuracy_reward/mean": 0.10282257944345474,
      "rewards/accuracy_reward/std": 0.30403366684913635,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92919921875,
      "rewards/tag_count_reward/std": 0.17967121303081512,
      "step": 597
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1081.880859375,
      "completions/mean_terminated_length": 1019.6154174804688,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.20414781940769822,
      "grad_norm": 0.4582197666168213,
      "kl": 0.1004638671875,
      "learning_rate": 9.707865603851936e-07,
      "loss": 0.0686,
      "num_tokens": 424006983.0,
      "reward": 1.12744140625,
      "reward_std": 0.2185264229774475,
      "rewards/accuracy_reward/mean": 0.171875,
      "rewards/accuracy_reward/std": 0.3776407241821289,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95556640625,
      "rewards/tag_count_reward/std": 0.13937683403491974,
      "step": 598
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 1035.8046875,
      "completions/mean_terminated_length": 981.654296875,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.204489203721089,
      "grad_norm": 0.2900364398956299,
      "kl": 0.0867919921875,
      "learning_rate": 9.70596174914423e-07,
      "loss": 0.0377,
      "num_tokens": 424622947.0,
      "reward": 1.1083984375,
      "reward_std": 0.22132006287574768,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9638671875,
      "rewards/tag_count_reward/std": 0.1267271488904953,
      "step": 599
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1044.212890625,
      "completions/mean_terminated_length": 1005.52734375,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "epoch": 0.20483058803447982,
      "grad_norm": 0.3275425434112549,
      "kl": 0.0880126953125,
      "learning_rate": 9.704051920312964e-07,
      "loss": 0.0347,
      "num_tokens": 425237552.0,
      "reward": 1.10888671875,
      "reward_std": 0.19505611062049866,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96630859375,
      "rewards/tag_count_reward/std": 0.11998306214809418,
      "step": 600
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1117.275390625,
      "completions/mean_terminated_length": 1027.5909423828125,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.20517197234787063,
      "grad_norm": 3.3291659355163574,
      "kl": 0.16650390625,
      "learning_rate": 9.702136120070845e-07,
      "loss": 0.0757,
      "num_tokens": 425885725.0,
      "reward": 1.0830078125,
      "reward_std": 0.27318036556243896,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.16208821535110474,
      "step": 601
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1092.35546875,
      "completions/mean_terminated_length": 1011.36865234375,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.20551335666126141,
      "grad_norm": 3.173513889312744,
      "kl": 0.178955078125,
      "learning_rate": 9.700214351139064e-07,
      "loss": 0.1079,
      "num_tokens": 426523939.0,
      "reward": 1.08349609375,
      "reward_std": 0.21784833073616028,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94873046875,
      "rewards/tag_count_reward/std": 0.15697528421878815,
      "step": 602
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1231.22265625,
      "completions/mean_terminated_length": 1106.130615234375,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "epoch": 0.20585474097465223,
      "grad_norm": 10.558650016784668,
      "kl": 0.2490234375,
      "learning_rate": 9.69828661624729e-07,
      "loss": 0.117,
      "num_tokens": 427229173.0,
      "reward": 1.06640625,
      "reward_std": 0.3105151355266571,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.2203473001718521,
      "step": 603
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.123046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1266.990234375,
      "completions/mean_terminated_length": 1157.4053955078125,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "epoch": 0.20619612528804301,
      "grad_norm": 0.7882794141769409,
      "kl": 0.093017578125,
      "learning_rate": 9.696352918133672e-07,
      "loss": 0.103,
      "num_tokens": 427956848.0,
      "reward": 1.06640625,
      "reward_std": 0.2940067648887634,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.19534705579280853,
      "step": 604
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.123046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1214.0390625,
      "completions/mean_terminated_length": 1097.0245361328125,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.20653750960143383,
      "grad_norm": 0.7613054513931274,
      "kl": 0.073974609375,
      "learning_rate": 9.694413259544815e-07,
      "loss": 0.1006,
      "num_tokens": 428651556.0,
      "reward": 1.0986328125,
      "reward_std": 0.2871810495853424,
      "rewards/accuracy_reward/mean": 0.171875,
      "rewards/accuracy_reward/std": 0.3776407241821289,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.18964596092700958,
      "step": 605
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1149.650390625,
      "completions/mean_terminated_length": 1043.7314453125,
      "completions/min_length": 312.0,
      "completions/min_terminated_length": 312.0,
      "epoch": 0.2068788939148246,
      "grad_norm": 0.3430488109588623,
      "kl": 0.068115234375,
      "learning_rate": 9.692467643235805e-07,
      "loss": 0.0927,
      "num_tokens": 429317953.0,
      "reward": 1.013671875,
      "reward_std": 0.23991644382476807,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.20555779337882996,
      "step": 606
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1251.81640625,
      "completions/mean_terminated_length": 1146.1282958984375,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "epoch": 0.20722027822821543,
      "grad_norm": 1.1188578605651855,
      "kl": 0.09454345703125,
      "learning_rate": 9.690516071970182e-07,
      "loss": 0.0884,
      "num_tokens": 430033107.0,
      "reward": 1.00927734375,
      "reward_std": 0.22156324982643127,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.19800402224063873,
      "step": 607
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.119140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1188.490234375,
      "completions/mean_terminated_length": 1072.2371826171875,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.2075616625416062,
      "grad_norm": 1.0040582418441772,
      "kl": 0.07025146484375,
      "learning_rate": 9.688558548519946e-07,
      "loss": 0.1061,
      "num_tokens": 430721294.0,
      "reward": 1.0009765625,
      "reward_std": 0.24179868400096893,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9052734375,
      "rewards/tag_count_reward/std": 0.21629218757152557,
      "step": 608
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1205.611328125,
      "completions/mean_terminated_length": 1067.765869140625,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.20790304685499703,
      "grad_norm": 0.3633801341056824,
      "kl": 0.103759765625,
      "learning_rate": 9.686595075665552e-07,
      "loss": 0.0856,
      "num_tokens": 431415319.0,
      "reward": 1.015625,
      "reward_std": 0.27655965089797974,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.21316158771514893,
      "step": 609
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2016.0,
      "completions/mean_length": 1242.548828125,
      "completions/mean_terminated_length": 1119.1915283203125,
      "completions/min_length": 421.0,
      "completions/min_terminated_length": 421.0,
      "epoch": 0.2082444311683878,
      "grad_norm": 0.6648967266082764,
      "kl": 0.08544921875,
      "learning_rate": 9.684625656195908e-07,
      "loss": 0.0911,
      "num_tokens": 432138592.0,
      "reward": 1.0888671875,
      "reward_std": 0.33590537309646606,
      "rewards/accuracy_reward/mean": 0.177734375,
      "rewards/accuracy_reward/std": 0.3826628625392914,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.20904938876628876,
      "step": 610
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1166.6875,
      "completions/mean_terminated_length": 1092.0,
      "completions/min_length": 375.0,
      "completions/min_terminated_length": 375.0,
      "epoch": 0.20858581548177862,
      "grad_norm": 0.6680558323860168,
      "kl": 0.090087890625,
      "learning_rate": 9.682650292908362e-07,
      "loss": 0.0837,
      "num_tokens": 432815056.0,
      "reward": 1.095703125,
      "reward_std": 0.25818902254104614,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.1720430850982666,
      "step": 611
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1179.91796875,
      "completions/mean_terminated_length": 1090.1163330078125,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.2089271997951694,
      "grad_norm": 0.5763041973114014,
      "kl": 0.1025390625,
      "learning_rate": 9.680668988608708e-07,
      "loss": 0.0878,
      "num_tokens": 433503366.0,
      "reward": 0.98828125,
      "reward_std": 0.18409407138824463,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.16771192848682404,
      "step": 612
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1177.51953125,
      "completions/mean_terminated_length": 1109.713623046875,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.20926858410856022,
      "grad_norm": 0.5027387738227844,
      "kl": 0.144287109375,
      "learning_rate": 9.678681746111186e-07,
      "loss": 0.0387,
      "num_tokens": 434177984.0,
      "reward": 1.072265625,
      "reward_std": 0.26588761806488037,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.16299647092819214,
      "step": 613
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1122.59765625,
      "completions/mean_terminated_length": 1044.1737060546875,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.209609968421951,
      "grad_norm": 0.4440973699092865,
      "kl": 0.1669921875,
      "learning_rate": 9.676688568238456e-07,
      "loss": 0.0751,
      "num_tokens": 434830882.0,
      "reward": 1.0751953125,
      "reward_std": 0.22314193844795227,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.16655419766902924,
      "step": 614
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1151.62109375,
      "completions/mean_terminated_length": 1079.7593994140625,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.20995135273534182,
      "grad_norm": 1.4469910860061646,
      "kl": 0.19482421875,
      "learning_rate": 9.67468945782162e-07,
      "loss": 0.117,
      "num_tokens": 435501920.0,
      "reward": 1.0712890625,
      "reward_std": 0.22600241005420685,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9482421875,
      "rewards/tag_count_reward/std": 0.14922119677066803,
      "step": 615
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1113.05859375,
      "completions/mean_terminated_length": 1035.9703369140625,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.2102927370487326,
      "grad_norm": 51.226444244384766,
      "kl": 1.251953125,
      "learning_rate": 9.672684417700203e-07,
      "loss": 0.1569,
      "num_tokens": 436155630.0,
      "reward": 1.013671875,
      "reward_std": 0.17954176664352417,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94921875,
      "rewards/tag_count_reward/std": 0.1519906222820282,
      "step": 616
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1200.74609375,
      "completions/mean_terminated_length": 1104.969482421875,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.21063412136212342,
      "grad_norm": 0.9761913418769836,
      "kl": 0.230224609375,
      "learning_rate": 9.67067345072215e-07,
      "loss": 0.1219,
      "num_tokens": 436853276.0,
      "reward": 1.0224609375,
      "reward_std": 0.2553250193595886,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17727059125900269,
      "step": 617
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1192.8671875,
      "completions/mean_terminated_length": 1112.4700927734375,
      "completions/min_length": 293.0,
      "completions/min_terminated_length": 293.0,
      "epoch": 0.2109755056755142,
      "grad_norm": 3.313305616378784,
      "kl": 0.2674560546875,
      "learning_rate": 9.668656559743827e-07,
      "loss": 0.0622,
      "num_tokens": 437533160.0,
      "reward": 1.1640625,
      "reward_std": 0.22554805874824524,
      "rewards/accuracy_reward/mean": 0.220703125,
      "rewards/accuracy_reward/std": 0.4151262938976288,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.1547197550535202,
      "step": 618
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1152.23828125,
      "completions/mean_terminated_length": 1092.5208740234375,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.21131688998890502,
      "grad_norm": 0.35532379150390625,
      "kl": 0.153564453125,
      "learning_rate": 9.666633747630017e-07,
      "loss": 0.0594,
      "num_tokens": 438201474.0,
      "reward": 1.06103515625,
      "reward_std": 0.17333631217479706,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95556640625,
      "rewards/tag_count_reward/std": 0.1411210000514984,
      "step": 619
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 1061.30078125,
      "completions/mean_terminated_length": 999.8880004882812,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.2116582743022958,
      "grad_norm": 13.381671905517578,
      "kl": 0.259033203125,
      "learning_rate": 9.66460501725391e-07,
      "loss": 0.0589,
      "num_tokens": 438822332.0,
      "reward": 1.072265625,
      "reward_std": 0.20817849040031433,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9609375,
      "rewards/tag_count_reward/std": 0.1379096806049347,
      "step": 620
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1129.638671875,
      "completions/mean_terminated_length": 1066.3695068359375,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.21199965861568662,
      "grad_norm": 12.081338882446289,
      "kl": 0.30029296875,
      "learning_rate": 9.662570371497098e-07,
      "loss": 0.0854,
      "num_tokens": 439478579.0,
      "reward": 1.0810546875,
      "reward_std": 0.2389516532421112,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9501953125,
      "rewards/tag_count_reward/std": 0.15311495959758759,
      "step": 621
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 1067.845703125,
      "completions/mean_terminated_length": 1002.5021362304688,
      "completions/min_length": 326.0,
      "completions/min_terminated_length": 326.0,
      "epoch": 0.2123410429290774,
      "grad_norm": 0.3467945456504822,
      "kl": 0.1341552734375,
      "learning_rate": 9.660529813249586e-07,
      "loss": 0.0564,
      "num_tokens": 440103460.0,
      "reward": 1.10693359375,
      "reward_std": 0.2673289179801941,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94873046875,
      "rewards/tag_count_reward/std": 0.14649643003940582,
      "step": 622
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 979.154296875,
      "completions/mean_terminated_length": 940.20849609375,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.21268242724246822,
      "grad_norm": 8.4327974319458,
      "kl": 0.3653564453125,
      "learning_rate": 9.65848334540977e-07,
      "loss": 0.0686,
      "num_tokens": 440678547.0,
      "reward": 1.20458984375,
      "reward_std": 0.25466054677963257,
      "rewards/accuracy_reward/mean": 0.23828125,
      "rewards/accuracy_reward/std": 0.42644867300987244,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96630859375,
      "rewards/tag_count_reward/std": 0.12883129715919495,
      "step": 623
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1137.7578125,
      "completions/mean_terminated_length": 1050.047119140625,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.213023811555859,
      "grad_norm": 0.7812462449073792,
      "kl": 0.1260986328125,
      "learning_rate": 9.656430970884437e-07,
      "loss": 0.0806,
      "num_tokens": 441350503.0,
      "reward": 1.0771484375,
      "reward_std": 0.2545987069606781,
      "rewards/accuracy_reward/mean": 0.14717741310596466,
      "rewards/accuracy_reward/std": 0.354640394449234,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.1680619716644287,
      "step": 624
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1145.984375,
      "completions/mean_terminated_length": 1075.7220458984375,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "epoch": 0.21336519586924982,
      "grad_norm": 1.5636364221572876,
      "kl": 0.119140625,
      "learning_rate": 9.65437269258877e-07,
      "loss": 0.1033,
      "num_tokens": 442015967.0,
      "reward": 1.05419921875,
      "reward_std": 0.21494579315185547,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.16331200301647186,
      "step": 625
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1055.650390625,
      "completions/mean_terminated_length": 1008.9754638671875,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.2137065801826406,
      "grad_norm": 11.236275672912598,
      "kl": 0.2906494140625,
      "learning_rate": 9.652308513446339e-07,
      "loss": 0.0817,
      "num_tokens": 442636652.0,
      "reward": 1.1494140625,
      "reward_std": 0.1985960602760315,
      "rewards/accuracy_reward/mean": 0.201171875,
      "rewards/accuracy_reward/std": 0.4012683033943176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9482421875,
      "rewards/tag_count_reward/std": 0.16180500388145447,
      "step": 626
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1134.619140625,
      "completions/mean_terminated_length": 1067.5994873046875,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.21404796449603142,
      "grad_norm": 0.43855372071266174,
      "kl": 0.11474609375,
      "learning_rate": 9.650238436389088e-07,
      "loss": 0.0637,
      "num_tokens": 443296137.0,
      "reward": 1.0791015625,
      "reward_std": 0.247659370303154,
      "rewards/accuracy_reward/mean": 0.13104838132858276,
      "rewards/accuracy_reward/std": 0.3377939760684967,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9521484375,
      "rewards/tag_count_reward/std": 0.15213829278945923,
      "step": 627
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1024.248046875,
      "completions/mean_terminated_length": 978.2836303710938,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.2143893488094222,
      "grad_norm": 0.6465330123901367,
      "kl": 0.122314453125,
      "learning_rate": 9.648162464357344e-07,
      "loss": 0.0772,
      "num_tokens": 443900168.0,
      "reward": 1.1220703125,
      "reward_std": 0.22566094994544983,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9619140625,
      "rewards/tag_count_reward/std": 0.13906539976596832,
      "step": 628
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1025.5625,
      "completions/mean_terminated_length": 952.8367919921875,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.21473073312281302,
      "grad_norm": 5.626789569854736,
      "kl": 0.2998046875,
      "learning_rate": 9.646080600299802e-07,
      "loss": 0.0728,
      "num_tokens": 444508344.0,
      "reward": 1.04345703125,
      "reward_std": 0.23375311493873596,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95556640625,
      "rewards/tag_count_reward/std": 0.1511640101671219,
      "step": 629
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1063.392578125,
      "completions/mean_terminated_length": 1012.8480834960938,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.2150721174362038,
      "grad_norm": 0.5234067440032959,
      "kl": 0.1243896484375,
      "learning_rate": 9.643992847173535e-07,
      "loss": 0.0793,
      "num_tokens": 445125761.0,
      "reward": 1.0537109375,
      "reward_std": 0.2313232421875,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9580078125,
      "rewards/tag_count_reward/std": 0.13881781697273254,
      "step": 630
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1152.306640625,
      "completions/mean_terminated_length": 1080.5,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.21541350174959462,
      "grad_norm": 2.6268069744110107,
      "kl": 0.244873046875,
      "learning_rate": 9.641899207943971e-07,
      "loss": 0.0832,
      "num_tokens": 445790158.0,
      "reward": 1.029296875,
      "reward_std": 0.23583336174488068,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9453125,
      "rewards/tag_count_reward/std": 0.16007427871227264,
      "step": 631
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1067.2109375,
      "completions/mean_terminated_length": 1008.322998046875,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "epoch": 0.2157548860629854,
      "grad_norm": 2.4828763008117676,
      "kl": 0.1898193359375,
      "learning_rate": 9.639799685584907e-07,
      "loss": 0.0496,
      "num_tokens": 446413770.0,
      "reward": 1.20263671875,
      "reward_std": 0.31869786977767944,
      "rewards/accuracy_reward/mean": 0.251953125,
      "rewards/accuracy_reward/std": 0.43455907702445984,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95068359375,
      "rewards/tag_count_reward/std": 0.15207155048847198,
      "step": 632
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1151.234375,
      "completions/mean_terminated_length": 1060.5936279296875,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.21609627037637621,
      "grad_norm": 0.9391236901283264,
      "kl": 0.1937255859375,
      "learning_rate": 9.63769428307849e-07,
      "loss": 0.0704,
      "num_tokens": 447076706.0,
      "reward": 1.0625,
      "reward_std": 0.23874926567077637,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.182897686958313,
      "step": 633
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1042.548828125,
      "completions/mean_terminated_length": 966.50634765625,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.216437654689767,
      "grad_norm": 1.5962361097335815,
      "kl": 0.2001953125,
      "learning_rate": 9.63558300341522e-07,
      "loss": 0.0938,
      "num_tokens": 447683355.0,
      "reward": 1.0751953125,
      "reward_std": 0.25834929943084717,
      "rewards/accuracy_reward/mean": 0.13306452333927155,
      "rewards/accuracy_reward/std": 0.3399873673915863,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9462890625,
      "rewards/tag_count_reward/std": 0.16858422756195068,
      "step": 634
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.11328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1205.935546875,
      "completions/mean_terminated_length": 1098.3590087890625,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.21677903900315781,
      "grad_norm": 5.905625820159912,
      "kl": 0.414794921875,
      "learning_rate": 9.63346584959395e-07,
      "loss": 0.0961,
      "num_tokens": 448380074.0,
      "reward": 0.97216796875,
      "reward_std": 0.2261180281639099,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.19671128690242767,
      "step": 635
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1121.923828125,
      "completions/mean_terminated_length": 1051.884521484375,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "epoch": 0.2171204233165486,
      "grad_norm": 1.1541615724563599,
      "kl": 0.133544921875,
      "learning_rate": 9.63134282462187e-07,
      "loss": 0.1177,
      "num_tokens": 449030563.0,
      "reward": 1.04052734375,
      "reward_std": 0.20850953459739685,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.16927079856395721,
      "step": 636
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.095703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1158.65625,
      "completions/mean_terminated_length": 1064.53564453125,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.2174618076299394,
      "grad_norm": 0.7348608374595642,
      "kl": 0.143798828125,
      "learning_rate": 9.629213931514513e-07,
      "loss": 0.0863,
      "num_tokens": 449703587.0,
      "reward": 1.06689453125,
      "reward_std": 0.23084154725074768,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94189453125,
      "rewards/tag_count_reward/std": 0.16675129532814026,
      "step": 637
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1109.015625,
      "completions/mean_terminated_length": 1027.2781982421875,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.2178031919433302,
      "grad_norm": 5.815976142883301,
      "kl": 0.2303466796875,
      "learning_rate": 9.627079173295747e-07,
      "loss": 0.0975,
      "num_tokens": 450339899.0,
      "reward": 1.08642578125,
      "reward_std": 0.24913567304611206,
      "rewards/accuracy_reward/mean": 0.15120968222618103,
      "rewards/accuracy_reward/std": 0.35861483216285706,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.1718478947877884,
      "step": 638
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1069.744140625,
      "completions/mean_terminated_length": 984.588134765625,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.218144576256721,
      "grad_norm": 0.7231947183609009,
      "kl": 0.1585693359375,
      "learning_rate": 9.62493855299777e-07,
      "loss": 0.0733,
      "num_tokens": 450960808.0,
      "reward": 1.09912109375,
      "reward_std": 0.26701319217681885,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.1757296919822693,
      "step": 639
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1105.728515625,
      "completions/mean_terminated_length": 1036.589111328125,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.2184859605701118,
      "grad_norm": 1.2328861951828003,
      "kl": 0.254150390625,
      "learning_rate": 9.622792073661107e-07,
      "loss": 0.1195,
      "num_tokens": 451602717.0,
      "reward": 1.0859375,
      "reward_std": 0.24592015147209167,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.16916421055793762,
      "step": 640
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1137.111328125,
      "completions/mean_terminated_length": 1034.1412353515625,
      "completions/min_length": 261.0,
      "completions/min_terminated_length": 261.0,
      "epoch": 0.2188273448835026,
      "grad_norm": 1.3244597911834717,
      "kl": 0.20556640625,
      "learning_rate": 9.620639738334602e-07,
      "loss": 0.1133,
      "num_tokens": 452259558.0,
      "reward": 1.060546875,
      "reward_std": 0.21626397967338562,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17896848917007446,
      "step": 641
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1081.0625,
      "completions/mean_terminated_length": 1001.3361206054688,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.2191687291968934,
      "grad_norm": 4.508296489715576,
      "kl": 0.299072265625,
      "learning_rate": 9.618481550075423e-07,
      "loss": 0.0903,
      "num_tokens": 452890630.0,
      "reward": 1.041015625,
      "reward_std": 0.23068498075008392,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.935546875,
      "rewards/tag_count_reward/std": 0.18636520206928253,
      "step": 642
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1166.376953125,
      "completions/mean_terminated_length": 1087.5936279296875,
      "completions/min_length": 305.0,
      "completions/min_terminated_length": 305.0,
      "epoch": 0.2195101135102842,
      "grad_norm": 14.663076400756836,
      "kl": 0.561279296875,
      "learning_rate": 9.616317511949047e-07,
      "loss": 0.1207,
      "num_tokens": 453567543.0,
      "reward": 1.08056640625,
      "reward_std": 0.24798694252967834,
      "rewards/accuracy_reward/mean": 0.14919355511665344,
      "rewards/accuracy_reward/std": 0.3566388487815857,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.17538133263587952,
      "step": 643
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1087.89453125,
      "completions/mean_terminated_length": 1021.74951171875,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.219851497823675,
      "grad_norm": 1.0262993574142456,
      "kl": 0.205810546875,
      "learning_rate": 9.61414762702926e-07,
      "loss": 0.076,
      "num_tokens": 454198545.0,
      "reward": 1.08056640625,
      "reward_std": 0.24146193265914917,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95361328125,
      "rewards/tag_count_reward/std": 0.15771618485450745,
      "step": 644
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 1069.38671875,
      "completions/mean_terminated_length": 995.3740234375,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.2201928821370658,
      "grad_norm": 3.216106414794922,
      "kl": 0.30322265625,
      "learning_rate": 9.611971898398155e-07,
      "loss": 0.0824,
      "num_tokens": 454820951.0,
      "reward": 1.072265625,
      "reward_std": 0.21444615721702576,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.953125,
      "rewards/tag_count_reward/std": 0.14162877202033997,
      "step": 645
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1022.4375,
      "completions/mean_terminated_length": 967.5719604492188,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.2205342664504566,
      "grad_norm": 1.9107329845428467,
      "kl": 0.269287109375,
      "learning_rate": 9.609790329146124e-07,
      "loss": 0.1166,
      "num_tokens": 455433303.0,
      "reward": 1.03564453125,
      "reward_std": 0.22553111612796783,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94970703125,
      "rewards/tag_count_reward/std": 0.1549411565065384,
      "step": 646
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1099.373046875,
      "completions/mean_terminated_length": 1050.6756591796875,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.2208756507638474,
      "grad_norm": 1.1532723903656006,
      "kl": 0.283203125,
      "learning_rate": 9.607602922371855e-07,
      "loss": 0.11,
      "num_tokens": 456077142.0,
      "reward": 1.0625,
      "reward_std": 0.23354697227478027,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.951171875,
      "rewards/tag_count_reward/std": 0.1604439616203308,
      "step": 647
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1034.953125,
      "completions/mean_terminated_length": 998.04052734375,
      "completions/min_length": 294.0,
      "completions/min_terminated_length": 294.0,
      "epoch": 0.2212170350772382,
      "grad_norm": 1.4442238807678223,
      "kl": 0.2216796875,
      "learning_rate": 9.605409681182328e-07,
      "loss": 0.0786,
      "num_tokens": 456678974.0,
      "reward": 1.14013671875,
      "reward_std": 0.23208163678646088,
      "rewards/accuracy_reward/mean": 0.181640625,
      "rewards/accuracy_reward/std": 0.38592514395713806,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95849609375,
      "rewards/tag_count_reward/std": 0.13940425217151642,
      "step": 648
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 1062.14453125,
      "completions/mean_terminated_length": 1009.4032592773438,
      "completions/min_length": 328.0,
      "completions/min_terminated_length": 328.0,
      "epoch": 0.221558419390629,
      "grad_norm": 6.689726829528809,
      "kl": 0.454345703125,
      "learning_rate": 9.60321060869281e-07,
      "loss": 0.0621,
      "num_tokens": 457296440.0,
      "reward": 1.0439453125,
      "reward_std": 0.220662921667099,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9560546875,
      "rewards/tag_count_reward/std": 0.14762458205223083,
      "step": 649
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1985.0,
      "completions/mean_length": 1094.9453125,
      "completions/mean_terminated_length": 1027.15478515625,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.2218998037040198,
      "grad_norm": 1.7962830066680908,
      "kl": 0.34765625,
      "learning_rate": 9.601005708026851e-07,
      "loss": 0.1216,
      "num_tokens": 457937788.0,
      "reward": 1.09130859375,
      "reward_std": 0.29480671882629395,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.17362910509109497,
      "step": 650
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1061.111328125,
      "completions/mean_terminated_length": 1020.9938354492188,
      "completions/min_length": 310.0,
      "completions/min_terminated_length": 310.0,
      "epoch": 0.2222411880174106,
      "grad_norm": 10.762516021728516,
      "kl": 0.40771484375,
      "learning_rate": 9.59879498231628e-07,
      "loss": 0.0941,
      "num_tokens": 458554277.0,
      "reward": 1.0830078125,
      "reward_std": 0.24051667749881744,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9521484375,
      "rewards/tag_count_reward/std": 0.15453127026557922,
      "step": 651
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 990.31640625,
      "completions/mean_terminated_length": 940.5684814453125,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.2225825723308014,
      "grad_norm": 3.1867833137512207,
      "kl": 0.333251953125,
      "learning_rate": 9.596578434701198e-07,
      "loss": 0.1013,
      "num_tokens": 459141655.0,
      "reward": 1.0732421875,
      "reward_std": 0.25161483883857727,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9580078125,
      "rewards/tag_count_reward/std": 0.1490161269903183,
      "step": 652
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1085.6171875,
      "completions/mean_terminated_length": 1012.8319702148438,
      "completions/min_length": 300.0,
      "completions/min_terminated_length": 300.0,
      "epoch": 0.2229239566441922,
      "grad_norm": 26.43825340270996,
      "kl": 1.060546875,
      "learning_rate": 9.594356068329975e-07,
      "loss": 0.1706,
      "num_tokens": 459777043.0,
      "reward": 1.083984375,
      "reward_std": 0.28108423948287964,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.1782301664352417,
      "step": 653
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.095703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 1111.92578125,
      "completions/mean_terminated_length": 1012.8595581054688,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.223265340957583,
      "grad_norm": 29024.78125,
      "kl": 550.1171875,
      "learning_rate": 9.592127886359247e-07,
      "loss": 22.1737,
      "num_tokens": 460427949.0,
      "reward": 1.017578125,
      "reward_std": 0.247486412525177,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.21882425248622894,
      "step": 654
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1067.748046875,
      "completions/mean_terminated_length": 998.0230102539062,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.2236067252709738,
      "grad_norm": 15.009438514709473,
      "kl": 0.81396484375,
      "learning_rate": 9.589893891953914e-07,
      "loss": 0.1353,
      "num_tokens": 461047212.0,
      "reward": 1.0439453125,
      "reward_std": 0.21697312593460083,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.18668025732040405,
      "step": 655
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 983.181640625,
      "completions/mean_terminated_length": 883.070556640625,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.2239481095843646,
      "grad_norm": 151.59271240234375,
      "kl": 2.9228515625,
      "learning_rate": 9.587654088287128e-07,
      "loss": 0.2174,
      "num_tokens": 461626265.0,
      "reward": 1.1240234375,
      "reward_std": 0.24472007155418396,
      "rewards/accuracy_reward/mean": 0.197265625,
      "rewards/accuracy_reward/std": 0.3983237147331238,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.2075078934431076,
      "step": 656
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1095.560546875,
      "completions/mean_terminated_length": 1021.3704833984375,
      "completions/min_length": 274.0,
      "completions/min_terminated_length": 274.0,
      "epoch": 0.2242894938977554,
      "grad_norm": 2.1108622550964355,
      "kl": 0.46875,
      "learning_rate": 9.585408478540289e-07,
      "loss": 0.1222,
      "num_tokens": 462259592.0,
      "reward": 1.07421875,
      "reward_std": 0.2752722501754761,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.2015109360218048,
      "step": 657
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 1022.576171875,
      "completions/mean_terminated_length": 978.718994140625,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.2246308782111462,
      "grad_norm": 1.516474962234497,
      "kl": 0.1995849609375,
      "learning_rate": 9.58315706590305e-07,
      "loss": 0.0797,
      "num_tokens": 462852159.0,
      "reward": 1.09228515625,
      "reward_std": 0.236845463514328,
      "rewards/accuracy_reward/mean": 0.13306452333927155,
      "rewards/accuracy_reward/std": 0.3399873673915863,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.96142578125,
      "rewards/tag_count_reward/std": 0.13671186566352844,
      "step": 658
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 1110.794921875,
      "completions/mean_terminated_length": 1033.52001953125,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.224972262524537,
      "grad_norm": 3.092843532562256,
      "kl": 0.4921875,
      "learning_rate": 9.580899853573308e-07,
      "loss": 0.1366,
      "num_tokens": 463502550.0,
      "reward": 1.0341796875,
      "reward_std": 0.23125649988651276,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.19123151898384094,
      "step": 659
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1087.748046875,
      "completions/mean_terminated_length": 1042.582763671875,
      "completions/min_length": 326.0,
      "completions/min_terminated_length": 326.0,
      "epoch": 0.2253136468379278,
      "grad_norm": 1.9711774587631226,
      "kl": 0.244873046875,
      "learning_rate": 9.57863684475719e-07,
      "loss": 0.079,
      "num_tokens": 464133125.0,
      "reward": 1.07763671875,
      "reward_std": 0.26416558027267456,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95458984375,
      "rewards/tag_count_reward/std": 0.14924278855323792,
      "step": 660
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1025.240234375,
      "completions/mean_terminated_length": 994.3721923828125,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.2256550311513186,
      "grad_norm": 3.0381991863250732,
      "kl": 0.377685546875,
      "learning_rate": 9.576368042669063e-07,
      "loss": 0.0684,
      "num_tokens": 464736112.0,
      "reward": 1.0947265625,
      "reward_std": 0.2287023365497589,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9599609375,
      "rewards/tag_count_reward/std": 0.13673719763755798,
      "step": 661
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1926.0,
      "completions/mean_length": 1065.873046875,
      "completions/mean_terminated_length": 996.0146484375,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.2259964154647094,
      "grad_norm": 4.670502662658691,
      "kl": 0.5634765625,
      "learning_rate": 9.574093450531518e-07,
      "loss": 0.1339,
      "num_tokens": 465359487.0,
      "reward": 1.12451171875,
      "reward_std": 0.2823469042778015,
      "rewards/accuracy_reward/mean": 0.185546875,
      "rewards/accuracy_reward/std": 0.38912075757980347,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.1798572540283203,
      "step": 662
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1157.30859375,
      "completions/mean_terminated_length": 1079.7750244140625,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.2263377997781002,
      "grad_norm": 18.447429656982422,
      "kl": 1.0283203125,
      "learning_rate": 9.571813071575375e-07,
      "loss": 0.156,
      "num_tokens": 466036557.0,
      "reward": 1.00048828125,
      "reward_std": 0.24942567944526672,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.18932512402534485,
      "step": 663
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2004.0,
      "completions/mean_length": 1140.634765625,
      "completions/mean_terminated_length": 1042.43505859375,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.226679184091491,
      "grad_norm": 86.0719985961914,
      "kl": 1.96484375,
      "learning_rate": 9.56952690903967e-07,
      "loss": 0.1846,
      "num_tokens": 466693234.0,
      "reward": 1.0400390625,
      "reward_std": 0.2606220841407776,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.20621450245380402,
      "step": 664
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1072.736328125,
      "completions/mean_terminated_length": 1033.0914306640625,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.2270205684048818,
      "grad_norm": 2.3356974124908447,
      "kl": 0.32177734375,
      "learning_rate": 9.567234966171651e-07,
      "loss": 0.0914,
      "num_tokens": 467323771.0,
      "reward": 1.02001953125,
      "reward_std": 0.20084954798221588,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95751953125,
      "rewards/tag_count_reward/std": 0.1425827592611313,
      "step": 665
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 1050.623046875,
      "completions/mean_terminated_length": 997.265380859375,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.2273619527182726,
      "grad_norm": 12.463715553283691,
      "kl": 0.55224609375,
      "learning_rate": 9.564937246226787e-07,
      "loss": 0.0961,
      "num_tokens": 467940826.0,
      "reward": 1.06591796875,
      "reward_std": 0.21576757729053497,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95263671875,
      "rewards/tag_count_reward/std": 0.16426876187324524,
      "step": 666
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1061.53515625,
      "completions/mean_terminated_length": 989.1530151367188,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.2277033370316634,
      "grad_norm": 2.1825854778289795,
      "kl": 0.297119140625,
      "learning_rate": 9.562633752468744e-07,
      "loss": 0.1005,
      "num_tokens": 468563164.0,
      "reward": 1.06640625,
      "reward_std": 0.20834612846374512,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.951171875,
      "rewards/tag_count_reward/std": 0.15501591563224792,
      "step": 667
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 995.908203125,
      "completions/mean_terminated_length": 948.67138671875,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.22804472134505419,
      "grad_norm": 1.2705602645874023,
      "kl": 0.23828125,
      "learning_rate": 9.560324488169387e-07,
      "loss": 0.0693,
      "num_tokens": 469146381.0,
      "reward": 1.1171875,
      "reward_std": 0.2328583300113678,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.958984375,
      "rewards/tag_count_reward/std": 0.14513419568538666,
      "step": 668
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 963.025390625,
      "completions/mean_terminated_length": 921.2109375,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.228386105658445,
      "grad_norm": 2.1494147777557373,
      "kl": 0.20263671875,
      "learning_rate": 9.558009456608786e-07,
      "loss": 0.0783,
      "num_tokens": 469717130.0,
      "reward": 1.05810546875,
      "reward_std": 0.19948862493038177,
      "rewards/accuracy_reward/mean": 0.10080645233392715,
      "rewards/accuracy_reward/std": 0.30137622356414795,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96044921875,
      "rewards/tag_count_reward/std": 0.1382133513689041,
      "step": 669
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1002.859375,
      "completions/mean_terminated_length": 960.3739624023438,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.22872748997183578,
      "grad_norm": 0.9131292104721069,
      "kl": 0.195068359375,
      "learning_rate": 9.555688661075198e-07,
      "loss": 0.0574,
      "num_tokens": 470312450.0,
      "reward": 1.146484375,
      "reward_std": 0.2447153776884079,
      "rewards/accuracy_reward/mean": 0.177734375,
      "rewards/accuracy_reward/std": 0.3826628625392914,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96875,
      "rewards/tag_count_reward/std": 0.1308559775352478,
      "step": 670
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1948.0,
      "completions/mean_length": 874.861328125,
      "completions/mean_terminated_length": 841.8814697265625,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.2290688742852266,
      "grad_norm": 1.7777296304702759,
      "kl": 0.1478271484375,
      "learning_rate": 9.553362104865063e-07,
      "loss": 0.0553,
      "num_tokens": 470828379.0,
      "reward": 1.16552734375,
      "reward_std": 0.24790939688682556,
      "rewards/accuracy_reward/mean": 0.197265625,
      "rewards/accuracy_reward/std": 0.3983237147331238,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96826171875,
      "rewards/tag_count_reward/std": 0.1274217665195465,
      "step": 671
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1031.810546875,
      "completions/mean_terminated_length": 986.1856689453125,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "epoch": 0.22941025859861738,
      "grad_norm": 1.654274821281433,
      "kl": 0.289306640625,
      "learning_rate": 9.551029791283014e-07,
      "loss": 0.0718,
      "num_tokens": 471434538.0,
      "reward": 1.0263671875,
      "reward_std": 0.19223755598068237,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9580078125,
      "rewards/tag_count_reward/std": 0.14315544068813324,
      "step": 672
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1033.25390625,
      "completions/mean_terminated_length": 996.2793579101562,
      "completions/min_length": 289.0,
      "completions/min_terminated_length": 289.0,
      "epoch": 0.2297516429120082,
      "grad_norm": 14.117053985595703,
      "kl": 0.67431640625,
      "learning_rate": 9.548691723641851e-07,
      "loss": 0.0823,
      "num_tokens": 472041388.0,
      "reward": 1.1025390625,
      "reward_std": 0.23748698830604553,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9619140625,
      "rewards/tag_count_reward/std": 0.1408134400844574,
      "step": 673
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 989.890625,
      "completions/mean_terminated_length": 957.9556884765625,
      "completions/min_length": 26.0,
      "completions/min_terminated_length": 26.0,
      "epoch": 0.23009302722539898,
      "grad_norm": 1.6093616485595703,
      "kl": 0.27734375,
      "learning_rate": 9.546347905262556e-07,
      "loss": 0.0896,
      "num_tokens": 472625044.0,
      "reward": 1.064453125,
      "reward_std": 0.20218700170516968,
      "rewards/accuracy_reward/mean": 0.10685484111309052,
      "rewards/accuracy_reward/std": 0.3092404901981354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9609375,
      "rewards/tag_count_reward/std": 0.1361243724822998,
      "step": 674
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1101.912109375,
      "completions/mean_terminated_length": 1028.216796875,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "epoch": 0.2304344115387898,
      "grad_norm": 2.2166543006896973,
      "kl": 0.5693359375,
      "learning_rate": 9.543998339474272e-07,
      "loss": 0.1435,
      "num_tokens": 473269959.0,
      "reward": 1.0322265625,
      "reward_std": 0.2642326056957245,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.19616466760635376,
      "step": 675
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1068.87890625,
      "completions/mean_terminated_length": 1010.0911254882812,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.23077579585218058,
      "grad_norm": 9.61108112335205,
      "kl": 0.51708984375,
      "learning_rate": 9.541643029614309e-07,
      "loss": 0.0981,
      "num_tokens": 473896313.0,
      "reward": 1.07958984375,
      "reward_std": 0.24111506342887878,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95068359375,
      "rewards/tag_count_reward/std": 0.15207155048847198,
      "step": 676
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1002.8359375,
      "completions/mean_terminated_length": 966.9414672851562,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.2311171801655714,
      "grad_norm": 3.052957534790039,
      "kl": 0.48681640625,
      "learning_rate": 9.539281979028132e-07,
      "loss": 0.0844,
      "num_tokens": 474493269.0,
      "reward": 1.041015625,
      "reward_std": 0.17344260215759277,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.962890625,
      "rewards/tag_count_reward/std": 0.12740769982337952,
      "step": 677
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1964.0,
      "completions/mean_length": 999.80078125,
      "completions/mean_terminated_length": 950.4989624023438,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.23145856447896218,
      "grad_norm": 5.525875568389893,
      "kl": 0.7158203125,
      "learning_rate": 9.53691519106937e-07,
      "loss": 0.1567,
      "num_tokens": 475076815.0,
      "reward": 1.07666015625,
      "reward_std": 0.2343330681324005,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95556640625,
      "rewards/tag_count_reward/std": 0.1535721719264984,
      "step": 678
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1035.986328125,
      "completions/mean_terminated_length": 972.9979858398438,
      "completions/min_length": 250.0,
      "completions/min_terminated_length": 250.0,
      "epoch": 0.231799948792353,
      "grad_norm": 5.435208797454834,
      "kl": 0.623046875,
      "learning_rate": 9.534542669099792e-07,
      "loss": 0.1484,
      "num_tokens": 475685992.0,
      "reward": 1.0361328125,
      "reward_std": 0.24256518483161926,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9462890625,
      "rewards/tag_count_reward/std": 0.1784525215625763,
      "step": 679
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1027.701171875,
      "completions/mean_terminated_length": 948.2252197265625,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.23214133310574378,
      "grad_norm": 3.4324328899383545,
      "kl": 0.7021484375,
      "learning_rate": 9.532164416489314e-07,
      "loss": 0.1585,
      "num_tokens": 476297567.0,
      "reward": 1.03466796875,
      "reward_std": 0.24270811676979065,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92919921875,
      "rewards/tag_count_reward/std": 0.19781571626663208,
      "step": 680
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 973.802734375,
      "completions/mean_terminated_length": 904.5717163085938,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.2324827174191346,
      "grad_norm": 10.406401634216309,
      "kl": 1.11474609375,
      "learning_rate": 9.529780436615992e-07,
      "loss": 0.1538,
      "num_tokens": 476870042.0,
      "reward": 1.10791015625,
      "reward_std": 0.2906540632247925,
      "rewards/accuracy_reward/mean": 0.171875,
      "rewards/accuracy_reward/std": 0.3776407241821289,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.18686124682426453,
      "step": 681
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1969.0,
      "completions/mean_length": 993.78515625,
      "completions/mean_terminated_length": 937.3867797851562,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.23282410173252538,
      "grad_norm": 4.53196382522583,
      "kl": 0.9306640625,
      "learning_rate": 9.527390732866016e-07,
      "loss": 0.1547,
      "num_tokens": 477454652.0,
      "reward": 1.083984375,
      "reward_std": 0.23493245244026184,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.1659708470106125,
      "step": 682
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1957.0,
      "completions/mean_length": 1071.419921875,
      "completions/mean_terminated_length": 977.31689453125,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.2331654860459162,
      "grad_norm": 12.178365707397461,
      "kl": 1.2666015625,
      "learning_rate": 9.52499530863371e-07,
      "loss": 0.1879,
      "num_tokens": 478079843.0,
      "reward": 1.0439453125,
      "reward_std": 0.2553746700286865,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.20262455940246582,
      "step": 683
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1924.0,
      "completions/mean_length": 1027.55078125,
      "completions/mean_terminated_length": 968.5164794921875,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.23350687035930698,
      "grad_norm": 5.280699729919434,
      "kl": 0.9677734375,
      "learning_rate": 9.522594167321519e-07,
      "loss": 0.1295,
      "num_tokens": 478680173.0,
      "reward": 1.0732421875,
      "reward_std": 0.2343463897705078,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9521484375,
      "rewards/tag_count_reward/std": 0.1584392786026001,
      "step": 684
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1907.0,
      "completions/mean_length": 1113.02734375,
      "completions/mean_terminated_length": 1040.1978759765625,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "epoch": 0.2338482546726978,
      "grad_norm": 26.820039749145508,
      "kl": 1.2861328125,
      "learning_rate": 9.520187312340011e-07,
      "loss": 0.1656,
      "num_tokens": 479329163.0,
      "reward": 1.0380859375,
      "reward_std": 0.25632888078689575,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.1873546987771988,
      "step": 685
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1055.44921875,
      "completions/mean_terminated_length": 959.8072509765625,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.23418963898608858,
      "grad_norm": 3.7987263202667236,
      "kl": 0.96044921875,
      "learning_rate": 9.517774747107868e-07,
      "loss": 0.1271,
      "num_tokens": 479945809.0,
      "reward": 1.05322265625,
      "reward_std": 0.281509131193161,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.20810279250144958,
      "step": 686
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2002.0,
      "completions/mean_length": 1050.935546875,
      "completions/mean_terminated_length": 982.2442626953125,
      "completions/min_length": 281.0,
      "completions/min_terminated_length": 281.0,
      "epoch": 0.2345310232994794,
      "grad_norm": 5.604643821716309,
      "kl": 0.38330078125,
      "learning_rate": 9.515356475051884e-07,
      "loss": 0.1541,
      "num_tokens": 480563264.0,
      "reward": 1.07568359375,
      "reward_std": 0.28175023198127747,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.17773018777370453,
      "step": 687
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1988.0,
      "completions/mean_length": 1068.994140625,
      "completions/mean_terminated_length": 1018.7371826171875,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.23487240761287018,
      "grad_norm": 4.438237190246582,
      "kl": 0.294921875,
      "learning_rate": 9.512932499606957e-07,
      "loss": 0.0731,
      "num_tokens": 481199293.0,
      "reward": 1.033203125,
      "reward_std": 0.2095925211906433,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.951171875,
      "rewards/tag_count_reward/std": 0.15101934969425201,
      "step": 688
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1045.1640625,
      "completions/mean_terminated_length": 987.1487426757812,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.235213791926261,
      "grad_norm": 6.629810333251953,
      "kl": 0.36962890625,
      "learning_rate": 9.510502824216091e-07,
      "loss": 0.1187,
      "num_tokens": 481814401.0,
      "reward": 0.9970703125,
      "reward_std": 0.19589579105377197,
      "rewards/accuracy_reward/mean": 0.05443548411130905,
      "rewards/accuracy_reward/std": 0.227104052901268,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.1743793785572052,
      "step": 689
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 990.037109375,
      "completions/mean_terminated_length": 944.7882080078125,
      "completions/min_length": 310.0,
      "completions/min_terminated_length": 310.0,
      "epoch": 0.23555517623965178,
      "grad_norm": 7.432539463043213,
      "kl": 0.586669921875,
      "learning_rate": 9.50806745233038e-07,
      "loss": 0.0801,
      "num_tokens": 482400612.0,
      "reward": 1.09814453125,
      "reward_std": 0.20601269602775574,
      "rewards/accuracy_reward/mean": 0.14717741310596466,
      "rewards/accuracy_reward/std": 0.354640394449234,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95556640625,
      "rewards/tag_count_reward/std": 0.14871685206890106,
      "step": 690
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1961.0,
      "completions/mean_length": 1058.2734375,
      "completions/mean_terminated_length": 990.0877075195312,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.2358965605530426,
      "grad_norm": 4.2346110343933105,
      "kl": 0.42919921875,
      "learning_rate": 9.505626387409013e-07,
      "loss": 0.0859,
      "num_tokens": 483019040.0,
      "reward": 1.0830078125,
      "reward_std": 0.2561722993850708,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.1672183722257614,
      "step": 691
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1020.44921875,
      "completions/mean_terminated_length": 972.1185913085938,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.23623794486643337,
      "grad_norm": 19.660938262939453,
      "kl": 0.873779296875,
      "learning_rate": 9.503179632919265e-07,
      "loss": 0.147,
      "num_tokens": 483622310.0,
      "reward": 1.04638671875,
      "reward_std": 0.23474785685539246,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95263671875,
      "rewards/tag_count_reward/std": 0.16426876187324524,
      "step": 692
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2009.0,
      "completions/mean_length": 1094.1171875,
      "completions/mean_terminated_length": 1028.40087890625,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.2365793291798242,
      "grad_norm": 6.599265098571777,
      "kl": 0.62451171875,
      "learning_rate": 9.500727192336488e-07,
      "loss": 0.1423,
      "num_tokens": 484252178.0,
      "reward": 1.09814453125,
      "reward_std": 0.2637082636356354,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94580078125,
      "rewards/tag_count_reward/std": 0.17308342456817627,
      "step": 693
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1983.0,
      "completions/mean_length": 1127.314453125,
      "completions/mean_terminated_length": 1057.682861328125,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.23692071349321497,
      "grad_norm": 3.1476166248321533,
      "kl": 0.90185546875,
      "learning_rate": 9.49826906914412e-07,
      "loss": 0.0944,
      "num_tokens": 484901875.0,
      "reward": 1.0361328125,
      "reward_std": 0.2459559589624405,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.19740772247314453,
      "step": 694
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1960.0,
      "completions/mean_length": 967.2578125,
      "completions/mean_terminated_length": 907.0928344726562,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.2372620978066058,
      "grad_norm": 23.895429611206055,
      "kl": 1.2744140625,
      "learning_rate": 9.495805266833661e-07,
      "loss": 0.1372,
      "num_tokens": 485470711.0,
      "reward": 1.12841796875,
      "reward_std": 0.2886299192905426,
      "rewards/accuracy_reward/mean": 0.1875,
      "rewards/accuracy_reward/std": 0.39069411158561707,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94091796875,
      "rewards/tag_count_reward/std": 0.1750049889087677,
      "step": 695
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 997.763671875,
      "completions/mean_terminated_length": 915.9557495117188,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.23760348211999657,
      "grad_norm": 5.85207986831665,
      "kl": 1.0927734375,
      "learning_rate": 9.493335788904683e-07,
      "loss": 0.1868,
      "num_tokens": 486061006.0,
      "reward": 1.07861328125,
      "reward_std": 0.3283153474330902,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.20810279250144958,
      "step": 696
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1949.0,
      "completions/mean_length": 1021.322265625,
      "completions/mean_terminated_length": 936.670166015625,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.2379448664333874,
      "grad_norm": 8.984502792358398,
      "kl": 0.71875,
      "learning_rate": 9.490860638864818e-07,
      "loss": 0.1274,
      "num_tokens": 486660083.0,
      "reward": 1.08544921875,
      "reward_std": 0.2907658517360687,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.20523154735565186,
      "step": 697
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2000.0,
      "completions/mean_length": 1088.578125,
      "completions/mean_terminated_length": 993.8712158203125,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.23828625074677817,
      "grad_norm": 9.338218688964844,
      "kl": 0.66015625,
      "learning_rate": 9.488379820229755e-07,
      "loss": 0.1452,
      "num_tokens": 487291819.0,
      "reward": 0.990234375,
      "reward_std": 0.23613004386425018,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.20983639359474182,
      "step": 698
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1098.69140625,
      "completions/mean_terminated_length": 1009.4402465820312,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.23862763506016899,
      "grad_norm": 5.446010589599609,
      "kl": 0.82421875,
      "learning_rate": 9.485893336523233e-07,
      "loss": 0.1365,
      "num_tokens": 487926509.0,
      "reward": 1.029296875,
      "reward_std": 0.3105788826942444,
      "rewards/accuracy_reward/mean": 0.12096773833036423,
      "rewards/accuracy_reward/std": 0.32641899585723877,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.2197219431400299,
      "step": 699
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 985.19921875,
      "completions/mean_terminated_length": 911.9791259765625,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.23896901937355977,
      "grad_norm": 1068.2701416015625,
      "kl": 22.4677734375,
      "learning_rate": 9.483401191277038e-07,
      "loss": 1.0403,
      "num_tokens": 488501571.0,
      "reward": 1.10205078125,
      "reward_std": 0.3101636469364166,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.18422965705394745,
      "step": 700
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1984.0,
      "completions/mean_length": 1136.693359375,
      "completions/mean_terminated_length": 1024.778564453125,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.23931040368695058,
      "grad_norm": 40.02294158935547,
      "kl": 2.693359375,
      "learning_rate": 9.480903388031002e-07,
      "loss": 0.274,
      "num_tokens": 489162582.0,
      "reward": 1.056640625,
      "reward_std": 0.32342439889907837,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.2392183393239975,
      "step": 701
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1017.47265625,
      "completions/mean_terminated_length": 900.9782104492188,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.2396517880003414,
      "grad_norm": 18.939517974853516,
      "kl": 1.6015625,
      "learning_rate": 9.478399930332987e-07,
      "loss": 0.1901,
      "num_tokens": 489766440.0,
      "reward": 1.0146484375,
      "reward_std": 0.2792699933052063,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9013671875,
      "rewards/tag_count_reward/std": 0.22994530200958252,
      "step": 702
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1980.0,
      "completions/mean_length": 1121.630859375,
      "completions/mean_terminated_length": 1012.4083251953125,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.23999317231373218,
      "grad_norm": 5.711365222930908,
      "kl": 1.1943359375,
      "learning_rate": 9.475890821738894e-07,
      "loss": 0.2002,
      "num_tokens": 490409451.0,
      "reward": 1.01611328125,
      "reward_std": 0.3051610589027405,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90673828125,
      "rewards/tag_count_reward/std": 0.2276582568883896,
      "step": 703
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1989.0,
      "completions/mean_length": 1059.8671875,
      "completions/mean_terminated_length": 966.9658813476562,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.240334556627123,
      "grad_norm": 5.511206150054932,
      "kl": 1.140625,
      "learning_rate": 9.47337606581264e-07,
      "loss": 0.2077,
      "num_tokens": 491027783.0,
      "reward": 1.0263671875,
      "reward_std": 0.29222220182418823,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.2060847282409668,
      "step": 704
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1002.513671875,
      "completions/mean_terminated_length": 932.8146362304688,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.24067594094051378,
      "grad_norm": 4.493340492248535,
      "kl": 0.8916015625,
      "learning_rate": 9.470855666126176e-07,
      "loss": 0.1246,
      "num_tokens": 491615710.0,
      "reward": 1.13671875,
      "reward_std": 0.29003408551216125,
      "rewards/accuracy_reward/mean": 0.21572580933570862,
      "rewards/accuracy_reward/std": 0.4117402136325836,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.19257840514183044,
      "step": 705
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1071.4453125,
      "completions/mean_terminated_length": 963.4099731445312,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.2410173252539046,
      "grad_norm": 76.13548278808594,
      "kl": 3.16796875,
      "learning_rate": 9.468329626259459e-07,
      "loss": 0.3033,
      "num_tokens": 492245170.0,
      "reward": 1.1005859375,
      "reward_std": 0.2980038821697235,
      "rewards/accuracy_reward/mean": 0.1875,
      "rewards/accuracy_reward/std": 0.39069411158561707,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.22451218962669373,
      "step": 706
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1937.0,
      "completions/mean_length": 1028.552734375,
      "completions/mean_terminated_length": 944.496826171875,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.24135870956729538,
      "grad_norm": 4.781183242797852,
      "kl": 1.1416015625,
      "learning_rate": 9.465797949800462e-07,
      "loss": 0.1637,
      "num_tokens": 492854125.0,
      "reward": 1.04345703125,
      "reward_std": 0.27039211988449097,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.20703940093517303,
      "step": 707
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1047.654296875,
      "completions/mean_terminated_length": 948.90771484375,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.2417000938806862,
      "grad_norm": 7.940341472625732,
      "kl": 1.4130859375,
      "learning_rate": 9.463260640345164e-07,
      "loss": 0.2157,
      "num_tokens": 493471708.0,
      "reward": 0.9873046875,
      "reward_std": 0.26273661851882935,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.21526481211185455,
      "step": 708
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1960.0,
      "completions/mean_length": 1103.5625,
      "completions/mean_terminated_length": 989.8993530273438,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.24204147819407698,
      "grad_norm": 3.457846164703369,
      "kl": 1.0087890625,
      "learning_rate": 9.460717701497546e-07,
      "loss": 0.1961,
      "num_tokens": 494105964.0,
      "reward": 0.97607421875,
      "reward_std": 0.24296388030052185,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90576171875,
      "rewards/tag_count_reward/std": 0.22832883894443512,
      "step": 709
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 993.1796875,
      "completions/mean_terminated_length": 922.8583984375,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.2423828625074678,
      "grad_norm": 3.3752620220184326,
      "kl": 0.65283203125,
      "learning_rate": 9.458169136869581e-07,
      "loss": 0.1428,
      "num_tokens": 494685656.0,
      "reward": 1.04833984375,
      "reward_std": 0.2690609097480774,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.18708612024784088,
      "step": 710
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1067.66015625,
      "completions/mean_terminated_length": 997.9288330078125,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.24272424682085858,
      "grad_norm": 4.665998458862305,
      "kl": 0.51708984375,
      "learning_rate": 9.455614950081236e-07,
      "loss": 0.1397,
      "num_tokens": 495308874.0,
      "reward": 1.0986328125,
      "reward_std": 0.2627273499965668,
      "rewards/accuracy_reward/mean": 0.16733871400356293,
      "rewards/accuracy_reward/std": 0.37365487217903137,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.1820572316646576,
      "step": 711
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.103515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1091.50390625,
      "completions/mean_terminated_length": 981.0587768554688,
      "completions/min_length": 334.0,
      "completions/min_terminated_length": 334.0,
      "epoch": 0.2430656311342494,
      "grad_norm": 13.149555206298828,
      "kl": 1.359375,
      "learning_rate": 9.453055144760462e-07,
      "loss": 0.2086,
      "num_tokens": 495943276.0,
      "reward": 1.05615234375,
      "reward_std": 0.2935149073600769,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.22590121626853943,
      "step": 712
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2005.0,
      "completions/mean_length": 1078.240234375,
      "completions/mean_terminated_length": 944.62890625,
      "completions/min_length": 300.0,
      "completions/min_terminated_length": 300.0,
      "epoch": 0.24340701544764018,
      "grad_norm": 3.737703561782837,
      "kl": 0.9765625,
      "learning_rate": 9.450489724543195e-07,
      "loss": 0.1947,
      "num_tokens": 496569799.0,
      "reward": 0.97216796875,
      "reward_std": 0.2608855962753296,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89404296875,
      "rewards/tag_count_reward/std": 0.235911563038826,
      "step": 713
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1054.4609375,
      "completions/mean_terminated_length": 954.0387573242188,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.243748399761031,
      "grad_norm": 4.930484294891357,
      "kl": 0.958984375,
      "learning_rate": 9.447918693073339e-07,
      "loss": 0.1872,
      "num_tokens": 497186739.0,
      "reward": 1.01318359375,
      "reward_std": 0.2567800283432007,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.21517324447631836,
      "step": 714
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1038.640625,
      "completions/mean_terminated_length": 973.58837890625,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.24408978407442178,
      "grad_norm": 7.069862365722656,
      "kl": 0.978515625,
      "learning_rate": 9.445342054002775e-07,
      "loss": 0.1449,
      "num_tokens": 497788987.0,
      "reward": 1.0400390625,
      "reward_std": 0.23149043321609497,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.17932851612567902,
      "step": 715
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2001.0,
      "completions/mean_length": 1149.5078125,
      "completions/mean_terminated_length": 1041.3741455078125,
      "completions/min_length": 352.0,
      "completions/min_terminated_length": 352.0,
      "epoch": 0.2444311683878126,
      "grad_norm": 7.361259937286377,
      "kl": 0.9892578125,
      "learning_rate": 9.442759810991345e-07,
      "loss": 0.1988,
      "num_tokens": 498455599.0,
      "reward": 0.96435546875,
      "reward_std": 0.28180551528930664,
      "rewards/accuracy_reward/mean": 0.058467742055654526,
      "rewards/accuracy_reward/std": 0.23486268520355225,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.22372503578662872,
      "step": 716
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1154.73828125,
      "completions/mean_terminated_length": 1055.9176025390625,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.24477255270120338,
      "grad_norm": 2.7958168983459473,
      "kl": 1.0244140625,
      "learning_rate": 9.440171967706852e-07,
      "loss": 0.1561,
      "num_tokens": 499120665.0,
      "reward": 1.02734375,
      "reward_std": 0.293550968170166,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.896484375,
      "rewards/tag_count_reward/std": 0.23621970415115356,
      "step": 717
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1952.0,
      "completions/mean_length": 1010.73828125,
      "completions/mean_terminated_length": 952.9938354492188,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.2451139370145942,
      "grad_norm": 8.287996292114258,
      "kl": 1.041015625,
      "learning_rate": 9.437578527825055e-07,
      "loss": 0.1763,
      "num_tokens": 499712931.0,
      "reward": 1.072265625,
      "reward_std": 0.26099175214767456,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.1783159226179123,
      "step": 718
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1062.5546875,
      "completions/mean_terminated_length": 992.460205078125,
      "completions/min_length": 350.0,
      "completions/min_terminated_length": 350.0,
      "epoch": 0.24545532132798498,
      "grad_norm": 4.7984771728515625,
      "kl": 0.6640625,
      "learning_rate": 9.434979495029658e-07,
      "loss": 0.1494,
      "num_tokens": 500333663.0,
      "reward": 1.0478515625,
      "reward_std": 0.24851752817630768,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.18982726335525513,
      "step": 719
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1989.0,
      "completions/mean_length": 1058.337890625,
      "completions/mean_terminated_length": 974.4682006835938,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.2457967056413758,
      "grad_norm": 7.418297290802002,
      "kl": 0.6455078125,
      "learning_rate": 9.432374873012313e-07,
      "loss": 0.1462,
      "num_tokens": 500945484.0,
      "reward": 1.04150390625,
      "reward_std": 0.25468748807907104,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.20525948703289032,
      "step": 720
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1084.05859375,
      "completions/mean_terminated_length": 995.68017578125,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.24613808995476658,
      "grad_norm": 4.748532295227051,
      "kl": 0.8251953125,
      "learning_rate": 9.429764665472612e-07,
      "loss": 0.159,
      "num_tokens": 501571210.0,
      "reward": 1.09716796875,
      "reward_std": 0.3214423656463623,
      "rewards/accuracy_reward/mean": 0.17578125,
      "rewards/accuracy_reward/std": 0.3810062110424042,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.20877666771411896,
      "step": 721
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1978.0,
      "completions/mean_length": 988.26171875,
      "completions/mean_terminated_length": 926.9545288085938,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.2464794742681574,
      "grad_norm": 3.508500099182129,
      "kl": 0.65087890625,
      "learning_rate": 9.427148876118077e-07,
      "loss": 0.1545,
      "num_tokens": 502144192.0,
      "reward": 0.9697265625,
      "reward_std": 0.1716979444026947,
      "rewards/accuracy_reward/mean": 0.02734375,
      "rewards/accuracy_reward/std": 0.16324250400066376,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.17514485120773315,
      "step": 722
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.095703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 1053.5078125,
      "completions/mean_terminated_length": 948.2591552734375,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.24682085858154817,
      "grad_norm": 4.22104024887085,
      "kl": 1.134765625,
      "learning_rate": 9.424527508664157e-07,
      "loss": 0.1824,
      "num_tokens": 502757348.0,
      "reward": 0.9873046875,
      "reward_std": 0.20495033264160156,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.21240492165088654,
      "step": 723
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.146484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1983.0,
      "completions/mean_length": 1143.0859375,
      "completions/mean_terminated_length": 987.7802734375,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.247162242894939,
      "grad_norm": 19.98847198486328,
      "kl": 1.771484375,
      "learning_rate": 9.421900566834233e-07,
      "loss": 0.2436,
      "num_tokens": 503424032.0,
      "reward": 0.96630859375,
      "reward_std": 0.3224031925201416,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87841796875,
      "rewards/tag_count_reward/std": 0.26075315475463867,
      "step": 724
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1983.0,
      "completions/mean_length": 1040.48046875,
      "completions/mean_terminated_length": 919.2254028320312,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.24750362720832977,
      "grad_norm": 3.7426517009735107,
      "kl": 1.201171875,
      "learning_rate": 9.419268054359594e-07,
      "loss": 0.2092,
      "num_tokens": 504032774.0,
      "reward": 0.98486328125,
      "reward_std": 0.2758023142814636,
      "rewards/accuracy_reward/mean": 0.08669354766607285,
      "rewards/accuracy_reward/std": 0.281669557094574,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90087890625,
      "rewards/tag_count_reward/std": 0.23264455795288086,
      "step": 725
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1900.0,
      "completions/mean_length": 1043.919921875,
      "completions/mean_terminated_length": 935.2532348632812,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.2478450115217206,
      "grad_norm": 14.944722175598145,
      "kl": 1.8857421875,
      "learning_rate": 9.416629974979448e-07,
      "loss": 0.2595,
      "num_tokens": 504649613.0,
      "reward": 0.96533203125,
      "reward_std": 0.24623164534568787,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90869140625,
      "rewards/tag_count_reward/std": 0.22898492217063904,
      "step": 726
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1072.001953125,
      "completions/mean_terminated_length": 937.5311279296875,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.24818639583511137,
      "grad_norm": 2.1958847045898438,
      "kl": 0.9375,
      "learning_rate": 9.413986332440903e-07,
      "loss": 0.1899,
      "num_tokens": 505280670.0,
      "reward": 0.91455078125,
      "reward_std": 0.22004647552967072,
      "rewards/accuracy_reward/mean": 0.0234375,
      "rewards/accuracy_reward/std": 0.15143637359142303,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89111328125,
      "rewards/tag_count_reward/std": 0.24377600848674774,
      "step": 727
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1995.0,
      "completions/mean_length": 1069.27734375,
      "completions/mean_terminated_length": 981.8170166015625,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.2485277801485022,
      "grad_norm": 2.0797388553619385,
      "kl": 0.96484375,
      "learning_rate": 9.411337130498977e-07,
      "loss": 0.1611,
      "num_tokens": 505905308.0,
      "reward": 0.9814453125,
      "reward_std": 0.23239141702651978,
      "rewards/accuracy_reward/mean": 0.058467742055654526,
      "rewards/accuracy_reward/std": 0.23486268520355225,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.20680677890777588,
      "step": 728
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1065.705078125,
      "completions/mean_terminated_length": 995.834716796875,
      "completions/min_length": 314.0,
      "completions/min_terminated_length": 314.0,
      "epoch": 0.24886916446189297,
      "grad_norm": 1.9189743995666504,
      "kl": 0.744140625,
      "learning_rate": 9.408682372916582e-07,
      "loss": 0.1508,
      "num_tokens": 506526469.0,
      "reward": 1.04833984375,
      "reward_std": 0.2662036418914795,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.19102340936660767,
      "step": 729
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1970.0,
      "completions/mean_length": 1039.390625,
      "completions/mean_terminated_length": 965.3836059570312,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.24921054877528379,
      "grad_norm": 1.7278939485549927,
      "kl": 0.82373046875,
      "learning_rate": 9.406022063464516e-07,
      "loss": 0.1684,
      "num_tokens": 507130621.0,
      "reward": 1.06787109375,
      "reward_std": 0.2978924512863159,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.18455612659454346,
      "step": 730
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1125.212890625,
      "completions/mean_terminated_length": 1036.2933349609375,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.24955193308867457,
      "grad_norm": 2.8078134059906006,
      "kl": 0.8388671875,
      "learning_rate": 9.403356205921471e-07,
      "loss": 0.1912,
      "num_tokens": 507785466.0,
      "reward": 0.99462890625,
      "reward_std": 0.26011571288108826,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90869140625,
      "rewards/tag_count_reward/std": 0.21804066002368927,
      "step": 731
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 956.703125,
      "completions/mean_terminated_length": 898.3209838867188,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.24989331740206538,
      "grad_norm": 2.4974358081817627,
      "kl": 0.546875,
      "learning_rate": 9.400684804074015e-07,
      "loss": 0.1341,
      "num_tokens": 508347394.0,
      "reward": 1.06689453125,
      "reward_std": 0.2672039270401001,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95166015625,
      "rewards/tag_count_reward/std": 0.167671337723732,
      "step": 732
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1021.470703125,
      "completions/mean_terminated_length": 917.7139892578125,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.2502347017154562,
      "grad_norm": 8.79793930053711,
      "kl": 1.10107421875,
      "learning_rate": 9.398007861716589e-07,
      "loss": 0.191,
      "num_tokens": 508955731.0,
      "reward": 1.01416015625,
      "reward_std": 0.279678076505661,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.2145996242761612,
      "step": 733
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2000.0,
      "completions/mean_length": 1060.44140625,
      "completions/mean_terminated_length": 987.97900390625,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.25057608602884696,
      "grad_norm": 2.8684802055358887,
      "kl": 0.6962890625,
      "learning_rate": 9.39532538265151e-07,
      "loss": 0.1673,
      "num_tokens": 509580645.0,
      "reward": 0.962890625,
      "reward_std": 0.19349947571754456,
      "rewards/accuracy_reward/mean": 0.025390625,
      "rewards/accuracy_reward/std": 0.15746226906776428,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.18373169004917145,
      "step": 734
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1972.0,
      "completions/mean_length": 998.53125,
      "completions/mean_terminated_length": 907.17626953125,
      "completions/min_length": 312.0,
      "completions/min_terminated_length": 312.0,
      "epoch": 0.25091747034223777,
      "grad_norm": 3.143089532852173,
      "kl": 0.7255859375,
      "learning_rate": 9.392637370688951e-07,
      "loss": 0.1674,
      "num_tokens": 510170021.0,
      "reward": 1.06591796875,
      "reward_std": 0.2568363547325134,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.1979750692844391,
      "step": 735
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1039.94921875,
      "completions/mean_terminated_length": 965.9832153320312,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "epoch": 0.2512588546556286,
      "grad_norm": 2.5431292057037354,
      "kl": 0.58837890625,
      "learning_rate": 9.389943829646953e-07,
      "loss": 0.1749,
      "num_tokens": 510780603.0,
      "reward": 1.021484375,
      "reward_std": 0.25412070751190186,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.1953079104423523,
      "step": 736
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1947.0,
      "completions/mean_length": 913.486328125,
      "completions/mean_terminated_length": 857.6905517578125,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.2516002389690194,
      "grad_norm": 3.322721481323242,
      "kl": 0.6826171875,
      "learning_rate": 9.387244763351403e-07,
      "loss": 0.1552,
      "num_tokens": 511318356.0,
      "reward": 1.10400390625,
      "reward_std": 0.2542824447154999,
      "rewards/accuracy_reward/mean": 0.16330644488334656,
      "rewards/accuracy_reward/std": 0.37001824378967285,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94580078125,
      "rewards/tag_count_reward/std": 0.171664297580719,
      "step": 737
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1052.099609375,
      "completions/mean_terminated_length": 976.7794799804688,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.25194162328241015,
      "grad_norm": 5.92504358291626,
      "kl": 0.9052734375,
      "learning_rate": 9.384540175636042e-07,
      "loss": 0.1786,
      "num_tokens": 511929975.0,
      "reward": 1.0703125,
      "reward_std": 0.2450016289949417,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.1895880103111267,
      "step": 738
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 988.81640625,
      "completions/mean_terminated_length": 908.7101440429688,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.25228300759580097,
      "grad_norm": 7.068661212921143,
      "kl": 0.91845703125,
      "learning_rate": 9.381830070342446e-07,
      "loss": 0.1494,
      "num_tokens": 512511289.0,
      "reward": 1.1357421875,
      "reward_std": 0.30168014764785767,
      "rewards/accuracy_reward/mean": 0.197265625,
      "rewards/accuracy_reward/std": 0.3983237147331238,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.19377298653125763,
      "step": 739
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 991.103515625,
      "completions/mean_terminated_length": 925.3216552734375,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.2526243919091918,
      "grad_norm": 13.25341796875,
      "kl": 0.6748046875,
      "learning_rate": 9.379114451320039e-07,
      "loss": 0.1429,
      "num_tokens": 513096190.0,
      "reward": 1.0625,
      "reward_std": 0.2925964891910553,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.18567688763141632,
      "step": 740
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1942.0,
      "completions/mean_length": 1039.828125,
      "completions/mean_terminated_length": 972.61669921875,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.2529657762225826,
      "grad_norm": 14.147185325622559,
      "kl": 0.8779296875,
      "learning_rate": 9.376393322426065e-07,
      "loss": 0.1716,
      "num_tokens": 513703974.0,
      "reward": 1.09765625,
      "reward_std": 0.2624806761741638,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.18033012747764587,
      "step": 741
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1033.697265625,
      "completions/mean_terminated_length": 977.23095703125,
      "completions/min_length": 331.0,
      "completions/min_terminated_length": 331.0,
      "epoch": 0.25330716053597335,
      "grad_norm": 10.49718189239502,
      "kl": 1.2021484375,
      "learning_rate": 9.373666687525603e-07,
      "loss": 0.1751,
      "num_tokens": 514318107.0,
      "reward": 1.041015625,
      "reward_std": 0.23247992992401123,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.1816815733909607,
      "step": 742
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1021.82421875,
      "completions/mean_terminated_length": 973.5582885742188,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.25364854484936417,
      "grad_norm": 11.299504280090332,
      "kl": 0.947265625,
      "learning_rate": 9.370934550491547e-07,
      "loss": 0.1465,
      "num_tokens": 514919921.0,
      "reward": 1.01904296875,
      "reward_std": 0.16841323673725128,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95458984375,
      "rewards/tag_count_reward/std": 0.15954138338565826,
      "step": 743
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 1062.951171875,
      "completions/mean_terminated_length": 999.4656982421875,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.253989929162755,
      "grad_norm": 11.003332138061523,
      "kl": 1.568359375,
      "learning_rate": 9.36819691520461e-07,
      "loss": 0.136,
      "num_tokens": 515537144.0,
      "reward": 1.00341796875,
      "reward_std": 0.23539161682128906,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.18454577028751373,
      "step": 744
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1985.0,
      "completions/mean_length": 963.91015625,
      "completions/mean_terminated_length": 912.9202270507812,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.2543313134761458,
      "grad_norm": 23.343652725219727,
      "kl": 2.296875,
      "learning_rate": 9.365453785553313e-07,
      "loss": 0.1733,
      "num_tokens": 516105866.0,
      "reward": 1.12841796875,
      "reward_std": 0.2690393924713135,
      "rewards/accuracy_reward/mean": 0.177734375,
      "rewards/accuracy_reward/std": 0.3826628625392914,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95068359375,
      "rewards/tag_count_reward/std": 0.16443736851215363,
      "step": 745
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 966.7421875,
      "completions/mean_terminated_length": 911.2361450195312,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.25467269778953655,
      "grad_norm": 18.213146209716797,
      "kl": 3.28125,
      "learning_rate": 9.36270516543398e-07,
      "loss": 0.2117,
      "num_tokens": 516678278.0,
      "reward": 1.10595703125,
      "reward_std": 0.25160735845565796,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95166015625,
      "rewards/tag_count_reward/std": 0.16323591768741608,
      "step": 746
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1969.0,
      "completions/mean_length": 916.38671875,
      "completions/mean_terminated_length": 858.2957153320312,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.25501408210292736,
      "grad_norm": 4412.37353515625,
      "kl": 77.189453125,
      "learning_rate": 9.359951058750738e-07,
      "loss": 3.1958,
      "num_tokens": 517229196.0,
      "reward": 1.0654296875,
      "reward_std": 0.2353786826133728,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9482421875,
      "rewards/tag_count_reward/std": 0.16330981254577637,
      "step": 747
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 1036.7421875,
      "completions/mean_terminated_length": 978.2396240234375,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.2553554664163182,
      "grad_norm": 18.636999130249023,
      "kl": 2.818359375,
      "learning_rate": 9.357191469415501e-07,
      "loss": 0.2048,
      "num_tokens": 517833784.0,
      "reward": 1.09326171875,
      "reward_std": 0.23580974340438843,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.16321250796318054,
      "step": 748
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1055.8515625,
      "completions/mean_terminated_length": 1000.6185913085938,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "epoch": 0.255696850729709,
      "grad_norm": 72.12713623046875,
      "kl": 4.38671875,
      "learning_rate": 9.354426401347974e-07,
      "loss": 0.2717,
      "num_tokens": 518460188.0,
      "reward": 0.9765625,
      "reward_std": 0.1754680871963501,
      "rewards/accuracy_reward/mean": 0.037109375,
      "rewards/accuracy_reward/std": 0.18921469151973724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.1810387820005417,
      "step": 749
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1911.0,
      "completions/mean_length": 931.974609375,
      "completions/mean_terminated_length": 872.26953125,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.25603823504309975,
      "grad_norm": 993.8719482421875,
      "kl": 26.9140625,
      "learning_rate": 9.351655858475646e-07,
      "loss": 1.1859,
      "num_tokens": 519012671.0,
      "reward": 1.03271484375,
      "reward_std": 0.22397825121879578,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17503775656223297,
      "step": 750
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1939.0,
      "completions/mean_length": 940.498046875,
      "completions/mean_terminated_length": 918.436279296875,
      "completions/min_length": 336.0,
      "completions/min_terminated_length": 336.0,
      "epoch": 0.25637961935649056,
      "grad_norm": 4.655689716339111,
      "kl": 1.06103515625,
      "learning_rate": 9.348879844733779e-07,
      "loss": 0.0985,
      "num_tokens": 519573614.0,
      "reward": 1.09033203125,
      "reward_std": 0.20516103506088257,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.97119140625,
      "rewards/tag_count_reward/std": 0.11714621633291245,
      "step": 751
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 968.875,
      "completions/mean_terminated_length": 931.814208984375,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.2567210036698814,
      "grad_norm": 13.530494689941406,
      "kl": 2.39453125,
      "learning_rate": 9.346098364065405e-07,
      "loss": 0.1711,
      "num_tokens": 520149726.0,
      "reward": 1.046875,
      "reward_std": 0.19065305590629578,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.958984375,
      "rewards/tag_count_reward/std": 0.14764074981212616,
      "step": 752
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2005.0,
      "completions/mean_length": 1013.578125,
      "completions/mean_terminated_length": 967.1346435546875,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.2570623879832722,
      "grad_norm": 5.790446758270264,
      "kl": 1.2001953125,
      "learning_rate": 9.343311420421323e-07,
      "loss": 0.1263,
      "num_tokens": 520745798.0,
      "reward": 1.02978515625,
      "reward_std": 0.2289455235004425,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95947265625,
      "rewards/tag_count_reward/std": 0.14315126836299896,
      "step": 753
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1950.0,
      "completions/mean_length": 1003.39453125,
      "completions/mean_terminated_length": 963.1358642578125,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.25740377229666295,
      "grad_norm": 7.176300048828125,
      "kl": 0.923828125,
      "learning_rate": 9.340519017760093e-07,
      "loss": 0.1112,
      "num_tokens": 521339888.0,
      "reward": 1.0390625,
      "reward_std": 0.21267008781433105,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.953125,
      "rewards/tag_count_reward/std": 0.15950019657611847,
      "step": 754
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1991.0,
      "completions/mean_length": 949.740234375,
      "completions/mean_terminated_length": 925.6267700195312,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.25774515661005376,
      "grad_norm": 6.401724815368652,
      "kl": 0.6787109375,
      "learning_rate": 9.337721160048028e-07,
      "loss": 0.096,
      "num_tokens": 521899579.0,
      "reward": 1.1005859375,
      "reward_std": 0.2047678828239441,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9658203125,
      "rewards/tag_count_reward/std": 0.13105663657188416,
      "step": 755
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 965.056640625,
      "completions/mean_terminated_length": 925.59716796875,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.2580865409234446,
      "grad_norm": 13.514364242553711,
      "kl": 0.994140625,
      "learning_rate": 9.334917851259187e-07,
      "loss": 0.115,
      "num_tokens": 522469736.0,
      "reward": 1.1015625,
      "reward_std": 0.2454531192779541,
      "rewards/accuracy_reward/mean": 0.14919355511665344,
      "rewards/accuracy_reward/std": 0.3566388487815857,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95703125,
      "rewards/tag_count_reward/std": 0.15037257969379425,
      "step": 756
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2005.0,
      "completions/mean_length": 1073.171875,
      "completions/mean_terminated_length": 1010.3450927734375,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.2584279252368354,
      "grad_norm": 8.269085884094238,
      "kl": 1.2099609375,
      "learning_rate": 9.332109095375376e-07,
      "loss": 0.1442,
      "num_tokens": 523097808.0,
      "reward": 1.03564453125,
      "reward_std": 0.23710045218467712,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94384765625,
      "rewards/tag_count_reward/std": 0.1794104278087616,
      "step": 757
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1081.7734375,
      "completions/mean_terminated_length": 1030.082275390625,
      "completions/min_length": 322.0,
      "completions/min_terminated_length": 322.0,
      "epoch": 0.25876930955022615,
      "grad_norm": 4.554450511932373,
      "kl": 0.94140625,
      "learning_rate": 9.329294896386131e-07,
      "loss": 0.0992,
      "num_tokens": 523731292.0,
      "reward": 1.123046875,
      "reward_std": 0.26751840114593506,
      "rewards/accuracy_reward/mean": 0.17741934955120087,
      "rewards/accuracy_reward/std": 0.38240891695022583,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.951171875,
      "rewards/tag_count_reward/std": 0.1612044721841812,
      "step": 758
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 948.291015625,
      "completions/mean_terminated_length": 915.1005859375,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.25911069386361696,
      "grad_norm": 6.214273929595947,
      "kl": 1.2587890625,
      "learning_rate": 9.326475258288729e-07,
      "loss": 0.1482,
      "num_tokens": 524289617.0,
      "reward": 1.078125,
      "reward_std": 0.2043112814426422,
      "rewards/accuracy_reward/mean": 0.11491935700178146,
      "rewards/accuracy_reward/std": 0.3192465901374817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.966796875,
      "rewards/tag_count_reward/std": 0.1284831464290619,
      "step": 759
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1972.0,
      "completions/mean_length": 1032.13671875,
      "completions/mean_terminated_length": 975.5835571289062,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.25945207817700777,
      "grad_norm": 6.642508029937744,
      "kl": 1.2841796875,
      "learning_rate": 9.323650185088164e-07,
      "loss": 0.181,
      "num_tokens": 524898471.0,
      "reward": 1.07080078125,
      "reward_std": 0.27675095200538635,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94775390625,
      "rewards/tag_count_reward/std": 0.16868269443511963,
      "step": 760
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1987.0,
      "completions/mean_length": 1034.298828125,
      "completions/mean_terminated_length": 984.4446411132812,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.2597934624903986,
      "grad_norm": 9.08815860748291,
      "kl": 1.4560546875,
      "learning_rate": 9.320819680797154e-07,
      "loss": 0.1458,
      "num_tokens": 525504128.0,
      "reward": 1.0888671875,
      "reward_std": 0.20690321922302246,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9501953125,
      "rewards/tag_count_reward/std": 0.16466166079044342,
      "step": 761
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1927.0,
      "completions/mean_length": 1024.84375,
      "completions/mean_terminated_length": 940.4819946289062,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.26013484680378934,
      "grad_norm": 12.516509056091309,
      "kl": 2.51953125,
      "learning_rate": 9.317983749436133e-07,
      "loss": 0.2286,
      "num_tokens": 526102480.0,
      "reward": 1.015625,
      "reward_std": 0.27147382497787476,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.2059757262468338,
      "step": 762
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2016.0,
      "completions/mean_length": 954.794921875,
      "completions/mean_terminated_length": 919.5302124023438,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.26047623111718016,
      "grad_norm": 9.569135665893555,
      "kl": 1.4814453125,
      "learning_rate": 9.315142395033239e-07,
      "loss": 0.1629,
      "num_tokens": 526671799.0,
      "reward": 1.0927734375,
      "reward_std": 0.203653484582901,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9677734375,
      "rewards/tag_count_reward/std": 0.13061843812465668,
      "step": 763
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 989.978515625,
      "completions/mean_terminated_length": 960.2349243164062,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.26081761543057097,
      "grad_norm": 3.776266098022461,
      "kl": 1.2421875,
      "learning_rate": 9.312295621624317e-07,
      "loss": 0.1527,
      "num_tokens": 527250028.0,
      "reward": 1.03271484375,
      "reward_std": 0.17305736243724823,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95849609375,
      "rewards/tag_count_reward/std": 0.15199612081050873,
      "step": 764
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1071.771484375,
      "completions/mean_terminated_length": 1021.6571044921875,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.2611589997439618,
      "grad_norm": 22.29033088684082,
      "kl": 2.4140625,
      "learning_rate": 9.309443433252904e-07,
      "loss": 0.1926,
      "num_tokens": 527870375.0,
      "reward": 1.00537109375,
      "reward_std": 0.19676750898361206,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94873046875,
      "rewards/tag_count_reward/std": 0.16970491409301758,
      "step": 765
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1953.0,
      "completions/mean_length": 1038.96484375,
      "completions/mean_terminated_length": 960.3662719726562,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.26150038405735254,
      "grad_norm": 8.716938018798828,
      "kl": 3.26171875,
      "learning_rate": 9.306585833970237e-07,
      "loss": 0.2634,
      "num_tokens": 528486277.0,
      "reward": 1.08203125,
      "reward_std": 0.2926439940929413,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.2005603015422821,
      "step": 766
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1021.5859375,
      "completions/mean_terminated_length": 984.186279296875,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "epoch": 0.26184176837074336,
      "grad_norm": 7.548423767089844,
      "kl": 2.515625,
      "learning_rate": 9.303722827835229e-07,
      "loss": 0.1813,
      "num_tokens": 529086417.0,
      "reward": 1.1357421875,
      "reward_std": 0.23893500864505768,
      "rewards/accuracy_reward/mean": 0.1796875,
      "rewards/accuracy_reward/std": 0.38430243730545044,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9560546875,
      "rewards/tag_count_reward/std": 0.1408405750989914,
      "step": 767
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1050.638671875,
      "completions/mean_terminated_length": 1018.4656982421875,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.26218315268413417,
      "grad_norm": 26.18227195739746,
      "kl": 2.44091796875,
      "learning_rate": 9.30085441891448e-07,
      "loss": 0.1607,
      "num_tokens": 529699848.0,
      "reward": 1.07275390625,
      "reward_std": 0.24135644733905792,
      "rewards/accuracy_reward/mean": 0.12298387289047241,
      "rewards/accuracy_reward/std": 0.32875028252601624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95361328125,
      "rewards/tag_count_reward/std": 0.15299242734909058,
      "step": 768
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1989.0,
      "completions/mean_length": 967.138671875,
      "completions/mean_terminated_length": 943.4071655273438,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.262524536997525,
      "grad_norm": 8.040897369384766,
      "kl": 1.3896484375,
      "learning_rate": 9.297980611282259e-07,
      "loss": 0.1224,
      "num_tokens": 530264863.0,
      "reward": 1.02978515625,
      "reward_std": 0.14422252774238586,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96728515625,
      "rewards/tag_count_reward/std": 0.11923210322856903,
      "step": 769
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1104.115234375,
      "completions/mean_terminated_length": 1059.7198486328125,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.26286592131091574,
      "grad_norm": 3.894073486328125,
      "kl": 1.767578125,
      "learning_rate": 9.295101409020507e-07,
      "loss": 0.1473,
      "num_tokens": 530911770.0,
      "reward": 1.048828125,
      "reward_std": 0.19878928363323212,
      "rewards/accuracy_reward/mean": 0.09072580933570862,
      "rewards/accuracy_reward/std": 0.2875087857246399,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9609375,
      "rewards/tag_count_reward/std": 0.1396721750497818,
      "step": 770
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1033.3046875,
      "completions/mean_terminated_length": 1011.0259399414062,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.26320730562430655,
      "grad_norm": 1.7520126104354858,
      "kl": 0.48583984375,
      "learning_rate": 9.292216816218826e-07,
      "loss": 0.0527,
      "num_tokens": 531524966.0,
      "reward": 1.154296875,
      "reward_std": 0.21976973116397858,
      "rewards/accuracy_reward/mean": 0.18359375,
      "rewards/accuracy_reward/std": 0.3875311613082886,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.970703125,
      "rewards/tag_count_reward/std": 0.12163712829351425,
      "step": 771
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2016.0,
      "completions/mean_length": 1003.591796875,
      "completions/mean_terminated_length": 982.786865234375,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.26354868993769737,
      "grad_norm": 3.8183629512786865,
      "kl": 0.82421875,
      "learning_rate": 9.289326836974474e-07,
      "loss": 0.101,
      "num_tokens": 532111605.0,
      "reward": 1.04296875,
      "reward_std": 0.18722647428512573,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96484375,
      "rewards/tag_count_reward/std": 0.12506113946437836,
      "step": 772
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1985.0,
      "completions/mean_length": 1022.734375,
      "completions/mean_terminated_length": 1006.4603881835938,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.2638900742510882,
      "grad_norm": 1.6211934089660645,
      "kl": 0.93359375,
      "learning_rate": 9.286431475392363e-07,
      "loss": 0.0695,
      "num_tokens": 532709853.0,
      "reward": 1.02685546875,
      "reward_std": 0.1864224076271057,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.97216796875,
      "rewards/tag_count_reward/std": 0.11527974903583527,
      "step": 773
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 991.841796875,
      "completions/mean_terminated_length": 968.6527099609375,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.26423145856447894,
      "grad_norm": 3.4774885177612305,
      "kl": 1.0576171875,
      "learning_rate": 9.283530735585044e-07,
      "loss": 0.094,
      "num_tokens": 533295644.0,
      "reward": 1.19580078125,
      "reward_std": 0.2450578808784485,
      "rewards/accuracy_reward/mean": 0.220703125,
      "rewards/accuracy_reward/std": 0.4151262938976288,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.97509765625,
      "rewards/tag_count_reward/std": 0.10717868059873581,
      "step": 774
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1965.0,
      "completions/mean_length": 1026.12109375,
      "completions/mean_terminated_length": 1020.0982666015625,
      "completions/min_length": 333.0,
      "completions/min_terminated_length": 333.0,
      "epoch": 0.26457284287786975,
      "grad_norm": 1.5099610090255737,
      "kl": 0.52685546875,
      "learning_rate": 9.280624621672716e-07,
      "loss": 0.0325,
      "num_tokens": 533892362.0,
      "reward": 1.1474609375,
      "reward_std": 0.20763105154037476,
      "rewards/accuracy_reward/mean": 0.169921875,
      "rewards/accuracy_reward/std": 0.3759314715862274,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9775390625,
      "rewards/tag_count_reward/std": 0.09505070745944977,
      "step": 775
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1008.173828125,
      "completions/mean_terminated_length": 978.9417114257812,
      "completions/min_length": 375.0,
      "completions/min_terminated_length": 375.0,
      "epoch": 0.26491422719126057,
      "grad_norm": 5.090696334838867,
      "kl": 1.26708984375,
      "learning_rate": 9.2777131377832e-07,
      "loss": 0.132,
      "num_tokens": 534483251.0,
      "reward": 1.0244140625,
      "reward_std": 0.19809219241142273,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9619140625,
      "rewards/tag_count_reward/std": 0.13994215428829193,
      "step": 776
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 1014.541015625,
      "completions/mean_terminated_length": 985.4879150390625,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.2652556115046514,
      "grad_norm": 4.278371334075928,
      "kl": 0.99267578125,
      "learning_rate": 9.274796288051956e-07,
      "loss": 0.1079,
      "num_tokens": 535082184.0,
      "reward": 1.037109375,
      "reward_std": 0.21481657028198242,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.962890625,
      "rewards/tag_count_reward/std": 0.1393296867609024,
      "step": 777
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 1022.33984375,
      "completions/mean_terminated_length": 1010.1779174804688,
      "completions/min_length": 315.0,
      "completions/min_terminated_length": 315.0,
      "epoch": 0.26559699581804214,
      "grad_norm": 1.9273333549499512,
      "kl": 0.560546875,
      "learning_rate": 9.271874076622057e-07,
      "loss": 0.0594,
      "num_tokens": 535683542.0,
      "reward": 1.046875,
      "reward_std": 0.201980859041214,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.97265625,
      "rewards/tag_count_reward/std": 0.10367217659950256,
      "step": 778
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 980.490234375,
      "completions/mean_terminated_length": 941.5931396484375,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.26593838013143295,
      "grad_norm": 2.6369338035583496,
      "kl": 1.66015625,
      "learning_rate": 9.268946507644197e-07,
      "loss": 0.1327,
      "num_tokens": 536264289.0,
      "reward": 1.13720703125,
      "reward_std": 0.2692152261734009,
      "rewards/accuracy_reward/mean": 0.1796875,
      "rewards/accuracy_reward/std": 0.38430243730545044,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95751953125,
      "rewards/tag_count_reward/std": 0.149287611246109,
      "step": 779
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 933.021484375,
      "completions/mean_terminated_length": 924.2421264648438,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "epoch": 0.26627976444482376,
      "grad_norm": 2.2521584033966064,
      "kl": 0.8876953125,
      "learning_rate": 9.266013585276678e-07,
      "loss": 0.0929,
      "num_tokens": 536814764.0,
      "reward": 1.10400390625,
      "reward_std": 0.2229701280593872,
      "rewards/accuracy_reward/mean": 0.13306452333927155,
      "rewards/accuracy_reward/std": 0.3399873375892639,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.97509765625,
      "rewards/tag_count_reward/std": 0.1060313731431961,
      "step": 780
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2002.0,
      "completions/mean_length": 1002.607421875,
      "completions/mean_terminated_length": 977.51806640625,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.2666211487582146,
      "grad_norm": 2.152036428451538,
      "kl": 1.15234375,
      "learning_rate": 9.263075313685405e-07,
      "loss": 0.1356,
      "num_tokens": 537401667.0,
      "reward": 1.08251953125,
      "reward_std": 0.17819756269454956,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96923828125,
      "rewards/tag_count_reward/std": 0.12475418299436569,
      "step": 781
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1007.265625,
      "completions/mean_terminated_length": 984.4151611328125,
      "completions/min_length": 279.0,
      "completions/min_terminated_length": 279.0,
      "epoch": 0.26696253307160533,
      "grad_norm": 2.3568570613861084,
      "kl": 1.49267578125,
      "learning_rate": 9.260131697043882e-07,
      "loss": 0.1556,
      "num_tokens": 537992347.0,
      "reward": 1.056640625,
      "reward_std": 0.16587641835212708,
      "rewards/accuracy_reward/mean": 0.09677419066429138,
      "rewards/accuracy_reward/std": 0.2959485352039337,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.962890625,
      "rewards/tag_count_reward/std": 0.1254730522632599,
      "step": 782
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1002.91015625,
      "completions/mean_terminated_length": 982.0916748046875,
      "completions/min_length": 288.0,
      "completions/min_terminated_length": 288.0,
      "epoch": 0.26730391738499615,
      "grad_norm": 4.647830009460449,
      "kl": 1.54296875,
      "learning_rate": 9.257182739533203e-07,
      "loss": 0.1065,
      "num_tokens": 538580141.0,
      "reward": 1.05908203125,
      "reward_std": 0.18386191129684448,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96142578125,
      "rewards/tag_count_reward/std": 0.1349107027053833,
      "step": 783
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1926.0,
      "completions/mean_length": 921.39453125,
      "completions/mean_terminated_length": 885.0523681640625,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.26764530169838696,
      "grad_norm": 8.755029678344727,
      "kl": 2.267578125,
      "learning_rate": 9.254228445342056e-07,
      "loss": 0.1518,
      "num_tokens": 539126295.0,
      "reward": 1.0888671875,
      "reward_std": 0.252022922039032,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9599609375,
      "rewards/tag_count_reward/std": 0.14456358551979065,
      "step": 784
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 980.40234375,
      "completions/mean_terminated_length": 961.3001708984375,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.2679866860117778,
      "grad_norm": 7.662311553955078,
      "kl": 1.6728515625,
      "learning_rate": 9.251268818666695e-07,
      "loss": 0.103,
      "num_tokens": 539701381.0,
      "reward": 1.07080078125,
      "reward_std": 0.14887943863868713,
      "rewards/accuracy_reward/mean": 0.11088709533214569,
      "rewards/accuracy_reward/std": 0.3143092691898346,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96337890625,
      "rewards/tag_count_reward/std": 0.12610261142253876,
      "step": 785
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1963.0,
      "completions/mean_length": 958.181640625,
      "completions/mean_terminated_length": 938.681884765625,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.26832807032516853,
      "grad_norm": 1.6267530918121338,
      "kl": 1.166015625,
      "learning_rate": 9.248303863710965e-07,
      "loss": 0.1044,
      "num_tokens": 540265266.0,
      "reward": 1.1005859375,
      "reward_std": 0.22841449081897736,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9658203125,
      "rewards/tag_count_reward/std": 0.1253320872783661,
      "step": 786
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1976.0,
      "completions/mean_length": 947.267578125,
      "completions/mean_terminated_length": 934.2154541015625,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.26866945463855935,
      "grad_norm": 1.436933159828186,
      "kl": 0.96484375,
      "learning_rate": 9.245333584686264e-07,
      "loss": 0.105,
      "num_tokens": 540824683.0,
      "reward": 1.140625,
      "reward_std": 0.25158441066741943,
      "rewards/accuracy_reward/mean": 0.166015625,
      "rewards/accuracy_reward/std": 0.3724585771560669,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.974609375,
      "rewards/tag_count_reward/std": 0.1064911037683487,
      "step": 787
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1957.0,
      "completions/mean_length": 926.09375,
      "completions/mean_terminated_length": 906.0198364257812,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.26901083895195016,
      "grad_norm": 9.073989868164062,
      "kl": 2.3349609375,
      "learning_rate": 9.242357985811562e-07,
      "loss": 0.1738,
      "num_tokens": 541374347.0,
      "reward": 1.1435546875,
      "reward_std": 0.24310924112796783,
      "rewards/accuracy_reward/mean": 0.171875,
      "rewards/accuracy_reward/std": 0.3776407241821289,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9716796875,
      "rewards/tag_count_reward/std": 0.11778579652309418,
      "step": 788
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1894.0,
      "completions/mean_length": 922.802734375,
      "completions/mean_terminated_length": 907.2059936523438,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.269352223265341,
      "grad_norm": 4.688058376312256,
      "kl": 1.59375,
      "learning_rate": 9.239377071313381e-07,
      "loss": 0.1196,
      "num_tokens": 541923110.0,
      "reward": 1.1357421875,
      "reward_std": 0.23167961835861206,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9677734375,
      "rewards/tag_count_reward/std": 0.11358989775180817,
      "step": 789
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1994.0,
      "completions/mean_length": 978.75390625,
      "completions/mean_terminated_length": 959.6222534179688,
      "completions/min_length": 288.0,
      "completions/min_terminated_length": 288.0,
      "epoch": 0.26969360757873173,
      "grad_norm": 8.775617599487305,
      "kl": 2.291015625,
      "learning_rate": 9.236390845425797e-07,
      "loss": 0.162,
      "num_tokens": 542498808.0,
      "reward": 1.14697265625,
      "reward_std": 0.25526946783065796,
      "rewards/accuracy_reward/mean": 0.17578125,
      "rewards/accuracy_reward/std": 0.3810062110424042,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.97119140625,
      "rewards/tag_count_reward/std": 0.11818567663431168,
      "step": 790
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1833.0,
      "completions/mean_length": 920.056640625,
      "completions/mean_terminated_length": 904.4218139648438,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.27003499189212254,
      "grad_norm": 2.28690505027771,
      "kl": 1.61328125,
      "learning_rate": 9.233399312390427e-07,
      "loss": 0.1422,
      "num_tokens": 543035109.0,
      "reward": 1.11962890625,
      "reward_std": 0.21681568026542664,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96728515625,
      "rewards/tag_count_reward/std": 0.11923210322856903,
      "step": 791
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1965.0,
      "completions/mean_length": 984.072265625,
      "completions/mean_terminated_length": 971.45654296875,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.27037637620551336,
      "grad_norm": 2.2115464210510254,
      "kl": 1.134765625,
      "learning_rate": 9.230402476456424e-07,
      "loss": 0.0898,
      "num_tokens": 543615210.0,
      "reward": 1.02392578125,
      "reward_std": 0.1776273399591446,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96728515625,
      "rewards/tag_count_reward/std": 0.118201844394207,
      "step": 792
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 975.880859375,
      "completions/mean_terminated_length": 952.34130859375,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.27071776051890417,
      "grad_norm": 4.202908992767334,
      "kl": 1.966796875,
      "learning_rate": 9.22740034188048e-07,
      "loss": 0.1393,
      "num_tokens": 544194589.0,
      "reward": 1.08740234375,
      "reward_std": 0.22083085775375366,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95654296875,
      "rewards/tag_count_reward/std": 0.14142537117004395,
      "step": 793
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 938.03515625,
      "completions/mean_terminated_length": 902.2297973632812,
      "completions/min_length": 56.0,
      "completions/min_terminated_length": 56.0,
      "epoch": 0.27105914483229493,
      "grad_norm": 17.585086822509766,
      "kl": 1.8251953125,
      "learning_rate": 9.224392912926809e-07,
      "loss": 0.1545,
      "num_tokens": 544764959.0,
      "reward": 1.04248046875,
      "reward_std": 0.18668007850646973,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96826171875,
      "rewards/tag_count_reward/std": 0.12051546573638916,
      "step": 794
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2004.0,
      "completions/mean_length": 1014.638671875,
      "completions/mean_terminated_length": 994.0538330078125,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.27140052914568574,
      "grad_norm": 3.2779500484466553,
      "kl": 0.9375,
      "learning_rate": 9.221380193867144e-07,
      "loss": 0.0841,
      "num_tokens": 545352614.0,
      "reward": 1.16796875,
      "reward_std": 0.2738982141017914,
      "rewards/accuracy_reward/mean": 0.19921875,
      "rewards/accuracy_reward/std": 0.39980348944664,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96875,
      "rewards/tag_count_reward/std": 0.12114909291267395,
      "step": 795
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1988.0,
      "completions/mean_length": 1015.81640625,
      "completions/mean_terminated_length": 999.4326171875,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.27174191345907656,
      "grad_norm": 1.4899282455444336,
      "kl": 0.73583984375,
      "learning_rate": 9.218362188980732e-07,
      "loss": 0.0689,
      "num_tokens": 545949368.0,
      "reward": 1.029296875,
      "reward_std": 0.21988213062286377,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9609375,
      "rewards/tag_count_reward/std": 0.12487763166427612,
      "step": 796
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1927.0,
      "completions/mean_length": 904.7890625,
      "completions/mean_terminated_length": 879.6885986328125,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.27208329777246737,
      "grad_norm": 3.2160911560058594,
      "kl": 1.11083984375,
      "learning_rate": 9.215338902554335e-07,
      "loss": 0.1037,
      "num_tokens": 546491212.0,
      "reward": 1.166015625,
      "reward_std": 0.2668801248073578,
      "rewards/accuracy_reward/mean": 0.201171875,
      "rewards/accuracy_reward/std": 0.4012683033943176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96484375,
      "rewards/tag_count_reward/std": 0.13357339799404144,
      "step": 797
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 928.353515625,
      "completions/mean_terminated_length": 906.0498046875,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.2724246820858581,
      "grad_norm": 3.320685386657715,
      "kl": 0.61376953125,
      "learning_rate": 9.212310338882207e-07,
      "loss": 0.0856,
      "num_tokens": 547043809.0,
      "reward": 1.10009765625,
      "reward_std": 0.1896565556526184,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96923828125,
      "rewards/tag_count_reward/std": 0.12277772277593613,
      "step": 798
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 997.97265625,
      "completions/mean_terminated_length": 979.1848754882812,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.27276606639924894,
      "grad_norm": 6.246214866638184,
      "kl": 0.84716796875,
      "learning_rate": 9.209276502266102e-07,
      "loss": 0.1,
      "num_tokens": 547625555.0,
      "reward": 1.1171875,
      "reward_std": 0.23665377497673035,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.966796875,
      "rewards/tag_count_reward/std": 0.12461719661951065,
      "step": 799
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2000.0,
      "completions/mean_length": 945.556640625,
      "completions/mean_terminated_length": 912.28369140625,
      "completions/min_length": 319.0,
      "completions/min_terminated_length": 319.0,
      "epoch": 0.27310745071263975,
      "grad_norm": 8.196688652038574,
      "kl": 1.525390625,
      "learning_rate": 9.206237397015267e-07,
      "loss": 0.1532,
      "num_tokens": 548185584.0,
      "reward": 1.07470703125,
      "reward_std": 0.2203240543603897,
      "rewards/accuracy_reward/mean": 0.11693548411130905,
      "rewards/accuracy_reward/std": 0.3216678202152252,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96142578125,
      "rewards/tag_count_reward/std": 0.13308516144752502,
      "step": 800
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1999.0,
      "completions/mean_length": 986.818359375,
      "completions/mean_terminated_length": 959.17236328125,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.27344883502603057,
      "grad_norm": 7.788846969604492,
      "kl": 1.2353515625,
      "learning_rate": 9.203193027446429e-07,
      "loss": 0.1359,
      "num_tokens": 548767891.0,
      "reward": 1.04736328125,
      "reward_std": 0.20470289885997772,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95556640625,
      "rewards/tag_count_reward/std": 0.1519709825515747,
      "step": 801
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1998.0,
      "completions/mean_length": 963.51171875,
      "completions/mean_terminated_length": 941.9083862304688,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.2737902193394214,
      "grad_norm": 2.766261339187622,
      "kl": 0.98583984375,
      "learning_rate": 9.20014339788379e-07,
      "loss": 0.0917,
      "num_tokens": 549337305.0,
      "reward": 1.03564453125,
      "reward_std": 0.1824563592672348,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96142578125,
      "rewards/tag_count_reward/std": 0.12935683131217957,
      "step": 802
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1768.0,
      "completions/mean_length": 926.216796875,
      "completions/mean_terminated_length": 887.6909790039062,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.27413160365281214,
      "grad_norm": 4.854599475860596,
      "kl": 2.498046875,
      "learning_rate": 9.197088512659028e-07,
      "loss": 0.2291,
      "num_tokens": 549886040.0,
      "reward": 1.06689453125,
      "reward_std": 0.22579032182693481,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94970703125,
      "rewards/tag_count_reward/std": 0.15883907675743103,
      "step": 803
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1965.0,
      "completions/mean_length": 918.013671875,
      "completions/mean_terminated_length": 890.89404296875,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.27447298796620295,
      "grad_norm": 5.286581516265869,
      "kl": 2.458984375,
      "learning_rate": 9.194028376111284e-07,
      "loss": 0.2059,
      "num_tokens": 550428143.0,
      "reward": 1.04736328125,
      "reward_std": 0.2311810702085495,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95751953125,
      "rewards/tag_count_reward/std": 0.13998566567897797,
      "step": 804
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1832.0,
      "completions/mean_length": 953.55859375,
      "completions/mean_terminated_length": 915.9717407226562,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.27481437227959377,
      "grad_norm": 2.703359603881836,
      "kl": 2.9765625,
      "learning_rate": 9.190962992587157e-07,
      "loss": 0.2383,
      "num_tokens": 550988829.0,
      "reward": 1.10400390625,
      "reward_std": 0.22138017416000366,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94384765625,
      "rewards/tag_count_reward/std": 0.16447223722934723,
      "step": 805
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1978.0,
      "completions/mean_length": 897.677734375,
      "completions/mean_terminated_length": 855.76318359375,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.2751557565929846,
      "grad_norm": 8.313536643981934,
      "kl": 4.1875,
      "learning_rate": 9.187892366440702e-07,
      "loss": 0.3229,
      "num_tokens": 551531528.0,
      "reward": 0.966796875,
      "reward_std": 0.2052759975194931,
      "rewards/accuracy_reward/mean": 0.029296875,
      "rewards/accuracy_reward/std": 0.16880230605602264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.17416280508041382,
      "step": 806
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 917.73828125,
      "completions/mean_terminated_length": 866.9918212890625,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.27549714090637534,
      "grad_norm": 15.719550132751465,
      "kl": 4.6064453125,
      "learning_rate": 9.184816502033417e-07,
      "loss": 0.3137,
      "num_tokens": 552084194.0,
      "reward": 1.01220703125,
      "reward_std": 0.21843752264976501,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.17813833057880402,
      "step": 807
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1932.0,
      "completions/mean_length": 923.197265625,
      "completions/mean_terminated_length": 843.1903686523438,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.27583852521976615,
      "grad_norm": 21.94876480102539,
      "kl": 6.796875,
      "learning_rate": 9.181735403734241e-07,
      "loss": 0.4634,
      "num_tokens": 552632087.0,
      "reward": 1.0634765625,
      "reward_std": 0.2763099670410156,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9189453125,
      "rewards/tag_count_reward/std": 0.20034818351268768,
      "step": 808
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2002.0,
      "completions/mean_length": 922.220703125,
      "completions/mean_terminated_length": 869.2698974609375,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.27617990953315696,
      "grad_norm": 37.096961975097656,
      "kl": 5.74609375,
      "learning_rate": 9.17864907591955e-07,
      "loss": 0.3865,
      "num_tokens": 553189640.0,
      "reward": 1.0576171875,
      "reward_std": 0.2363978624343872,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.18517960608005524,
      "step": 809
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1981.0,
      "completions/mean_length": 867.037109375,
      "completions/mean_terminated_length": 793.5332641601562,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.2765212938465478,
      "grad_norm": 22.411043167114258,
      "kl": 5.69140625,
      "learning_rate": 9.175557522973146e-07,
      "loss": 0.3527,
      "num_tokens": 553706939.0,
      "reward": 1.00146484375,
      "reward_std": 0.23566189408302307,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.19761274755001068,
      "step": 810
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 867.408203125,
      "completions/mean_terminated_length": 806.8029174804688,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "epoch": 0.27686267815993854,
      "grad_norm": 26.506681442260742,
      "kl": 6.0078125,
      "learning_rate": 9.17246074928625e-07,
      "loss": 0.3716,
      "num_tokens": 554228092.0,
      "reward": 1.03173828125,
      "reward_std": 0.23587149381637573,
      "rewards/accuracy_reward/mean": 0.0927419364452362,
      "rewards/accuracy_reward/std": 0.2903633117675781,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94189453125,
      "rewards/tag_count_reward/std": 0.17251938581466675,
      "step": 811
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1864.0,
      "completions/mean_length": 824.185546875,
      "completions/mean_terminated_length": 782.1555786132812,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.27720406247332935,
      "grad_norm": 90.6357192993164,
      "kl": 5.96875,
      "learning_rate": 9.169358759257508e-07,
      "loss": 0.3751,
      "num_tokens": 554729899.0,
      "reward": 1.1025390625,
      "reward_std": 0.25330930948257446,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9462890625,
      "rewards/tag_count_reward/std": 0.16116593778133392,
      "step": 812
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 894.39453125,
      "completions/mean_terminated_length": 866.7080688476562,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.27754544678672016,
      "grad_norm": 4.809081554412842,
      "kl": 3.384765625,
      "learning_rate": 9.166251557292959e-07,
      "loss": 0.2645,
      "num_tokens": 555265381.0,
      "reward": 0.994140625,
      "reward_std": 0.1926138997077942,
      "rewards/accuracy_reward/mean": 0.037109375,
      "rewards/accuracy_reward/std": 0.18921469151973724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95703125,
      "rewards/tag_count_reward/std": 0.1454104632139206,
      "step": 813
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 870.2421875,
      "completions/mean_terminated_length": 812.3196411132812,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.277886831100111,
      "grad_norm": 9.092361450195312,
      "kl": 4.45703125,
      "learning_rate": 9.163139147806062e-07,
      "loss": 0.3152,
      "num_tokens": 555784529.0,
      "reward": 1.00927734375,
      "reward_std": 0.23800216615200043,
      "rewards/accuracy_reward/mean": 0.07056451588869095,
      "rewards/accuracy_reward/std": 0.25635457038879395,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94091796875,
      "rewards/tag_count_reward/std": 0.17360158264636993,
      "step": 814
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1961.0,
      "completions/mean_length": 933.630859375,
      "completions/mean_terminated_length": 881.2167358398438,
      "completions/min_length": 276.0,
      "completions/min_terminated_length": 276.0,
      "epoch": 0.27822821541350173,
      "grad_norm": 7.917178630828857,
      "kl": 4.19140625,
      "learning_rate": 9.160021535217661e-07,
      "loss": 0.2892,
      "num_tokens": 556344836.0,
      "reward": 1.0244140625,
      "reward_std": 0.21468347311019897,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.17308135330677032,
      "step": 815
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1791.0,
      "completions/mean_length": 920.28125,
      "completions/mean_terminated_length": 874.43896484375,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.27856959972689255,
      "grad_norm": 5.408258438110352,
      "kl": 3.021484375,
      "learning_rate": 9.156898723955997e-07,
      "loss": 0.2441,
      "num_tokens": 556899604.0,
      "reward": 1.01953125,
      "reward_std": 0.1890992522239685,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94921875,
      "rewards/tag_count_reward/std": 0.16211473941802979,
      "step": 816
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 894.185546875,
      "completions/mean_terminated_length": 849.718017578125,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.27891098404028336,
      "grad_norm": 13.570917129516602,
      "kl": 2.794921875,
      "learning_rate": 9.153770718456693e-07,
      "loss": 0.2587,
      "num_tokens": 557433427.0,
      "reward": 1.01953125,
      "reward_std": 0.19096723198890686,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.953125,
      "rewards/tag_count_reward/std": 0.1564028114080429,
      "step": 817
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1720.0,
      "completions/mean_length": 841.42578125,
      "completions/mean_terminated_length": 809.9920043945312,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.2792523683536742,
      "grad_norm": 9.170187950134277,
      "kl": 1.875,
      "learning_rate": 9.15063752316275e-07,
      "loss": 0.1896,
      "num_tokens": 557937309.0,
      "reward": 1.1328125,
      "reward_std": 0.263831228017807,
      "rewards/accuracy_reward/mean": 0.171875,
      "rewards/accuracy_reward/std": 0.3776407241821289,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9609375,
      "rewards/tag_count_reward/std": 0.14483103156089783,
      "step": 818
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 958.130859375,
      "completions/mean_terminated_length": 911.517333984375,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.27959375266706493,
      "grad_norm": 20.351158142089844,
      "kl": 1.849609375,
      "learning_rate": 9.14749914252454e-07,
      "loss": 0.1799,
      "num_tokens": 558508960.0,
      "reward": 1.04443359375,
      "reward_std": 0.22863608598709106,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95458984375,
      "rewards/tag_count_reward/std": 0.15722467005252838,
      "step": 819
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1917.0,
      "completions/mean_length": 866.94140625,
      "completions/mean_terminated_length": 843.4143676757812,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.27993513698045575,
      "grad_norm": 6.2960662841796875,
      "kl": 1.06591796875,
      "learning_rate": 9.144355580999798e-07,
      "loss": 0.1062,
      "num_tokens": 559025330.0,
      "reward": 1.083984375,
      "reward_std": 0.23968768119812012,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.958984375,
      "rewards/tag_count_reward/std": 0.14172318577766418,
      "step": 820
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1792.0,
      "completions/mean_length": 873.98828125,
      "completions/mean_terminated_length": 843.40283203125,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.28027652129384656,
      "grad_norm": 18.691938400268555,
      "kl": 1.11962890625,
      "learning_rate": 9.141206843053624e-07,
      "loss": 0.1445,
      "num_tokens": 559547356.0,
      "reward": 1.07861328125,
      "reward_std": 0.2303360104560852,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95947265625,
      "rewards/tag_count_reward/std": 0.14143213629722595,
      "step": 821
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 915.697265625,
      "completions/mean_terminated_length": 864.859130859375,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.2806179056072374,
      "grad_norm": 18.163387298583984,
      "kl": 2.05078125,
      "learning_rate": 9.138052933158466e-07,
      "loss": 0.2047,
      "num_tokens": 560097633.0,
      "reward": 1.03759765625,
      "reward_std": 0.21714366972446442,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94970703125,
      "rewards/tag_count_reward/std": 0.16339389979839325,
      "step": 822
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1827.0,
      "completions/mean_length": 843.0078125,
      "completions/mean_terminated_length": 821.447265625,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.28095928992062813,
      "grad_norm": 10.442327499389648,
      "kl": 1.27294921875,
      "learning_rate": 9.134893855794118e-07,
      "loss": 0.1627,
      "num_tokens": 560608693.0,
      "reward": 1.07568359375,
      "reward_std": 0.2077239453792572,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95458984375,
      "rewards/tag_count_reward/std": 0.14924278855323792,
      "step": 823
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1793.0,
      "completions/mean_length": 861.103515625,
      "completions/mean_terminated_length": 802.7315063476562,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.28130067423401894,
      "grad_norm": 12.728594779968262,
      "kl": 2.93359375,
      "learning_rate": 9.131729615447715e-07,
      "loss": 0.2667,
      "num_tokens": 561132250.0,
      "reward": 1.0615234375,
      "reward_std": 0.24650120735168457,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.1806451380252838,
      "step": 824
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1943.0,
      "completions/mean_length": 867.466796875,
      "completions/mean_terminated_length": 816.9755859375,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.28164205854740976,
      "grad_norm": 8.853020668029785,
      "kl": 2.251953125,
      "learning_rate": 9.128560216613729e-07,
      "loss": 0.2186,
      "num_tokens": 561653161.0,
      "reward": 1.00927734375,
      "reward_std": 0.20880228281021118,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.17980943620204926,
      "step": 825
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1896.0,
      "completions/mean_length": 881.134765625,
      "completions/mean_terminated_length": 792.884521484375,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.28198344286080057,
      "grad_norm": 26.289365768432617,
      "kl": 5.01171875,
      "learning_rate": 9.125385663793951e-07,
      "loss": 0.405,
      "num_tokens": 562179230.0,
      "reward": 0.97607421875,
      "reward_std": 0.24553290009498596,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91162109375,
      "rewards/tag_count_reward/std": 0.20542235672473907,
      "step": 826
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1967.0,
      "completions/mean_length": 822.25,
      "completions/mean_terminated_length": 777.5870361328125,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.28232482717419133,
      "grad_norm": 7.790221691131592,
      "kl": 3.10546875,
      "learning_rate": 9.122205961497502e-07,
      "loss": 0.2181,
      "num_tokens": 562693102.0,
      "reward": 1.08203125,
      "reward_std": 0.1966366171836853,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.955078125,
      "rewards/tag_count_reward/std": 0.15061385929584503,
      "step": 827
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1798.0,
      "completions/mean_length": 882.1484375,
      "completions/mean_terminated_length": 812.1491088867188,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.28266621148758214,
      "grad_norm": 21.112844467163086,
      "kl": 5.59375,
      "learning_rate": 9.11902111424081e-07,
      "loss": 0.3911,
      "num_tokens": 563224922.0,
      "reward": 1.03759765625,
      "reward_std": 0.28140753507614136,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.20184673368930817,
      "step": 828
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 856.671875,
      "completions/mean_terminated_length": 810.7586059570312,
      "completions/min_length": 77.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.28300759580097296,
      "grad_norm": 10.879014015197754,
      "kl": 3.91015625,
      "learning_rate": 9.11583112654761e-07,
      "loss": 0.2928,
      "num_tokens": 563743266.0,
      "reward": 0.9873046875,
      "reward_std": 0.24860429763793945,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.18910102546215057,
      "step": 829
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1804.0,
      "completions/mean_length": 909.609375,
      "completions/mean_terminated_length": 826.0796508789062,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.28334898011436377,
      "grad_norm": 6.0244550704956055,
      "kl": 4.24609375,
      "learning_rate": 9.112636002948949e-07,
      "loss": 0.402,
      "num_tokens": 564290746.0,
      "reward": 0.9921875,
      "reward_std": 0.23310911655426025,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.20437365770339966,
      "step": 830
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1990.0,
      "completions/mean_length": 953.25,
      "completions/mean_terminated_length": 867.9746704101562,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.2836903644277545,
      "grad_norm": 7.924810886383057,
      "kl": 5.46875,
      "learning_rate": 9.109435747983158e-07,
      "loss": 0.4281,
      "num_tokens": 564853514.0,
      "reward": 0.9384765625,
      "reward_std": 0.2691951394081116,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8935546875,
      "rewards/tag_count_reward/std": 0.21929316222667694,
      "step": 831
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1906.0,
      "completions/mean_length": 839.056640625,
      "completions/mean_terminated_length": 779.600341796875,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.28403174874114534,
      "grad_norm": 7.967062950134277,
      "kl": 4.35546875,
      "learning_rate": 9.106230366195859e-07,
      "loss": 0.3342,
      "num_tokens": 565364087.0,
      "reward": 1.08642578125,
      "reward_std": 0.2985227108001709,
      "rewards/accuracy_reward/mean": 0.17291666567325592,
      "rewards/accuracy_reward/std": 0.3785697817802429,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.192215234041214,
      "step": 832
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1995.0,
      "completions/mean_length": 908.55859375,
      "completions/mean_terminated_length": 862.2398071289062,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.28437313305453615,
      "grad_norm": 4.41445255279541,
      "kl": 4.25,
      "learning_rate": 9.103019862139961e-07,
      "loss": 0.3405,
      "num_tokens": 565921557.0,
      "reward": 0.97705078125,
      "reward_std": 0.24522006511688232,
      "rewards/accuracy_reward/mean": 0.05443548411130905,
      "rewards/accuracy_reward/std": 0.2271040678024292,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.19724006950855255,
      "step": 833
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 833.853515625,
      "completions/mean_terminated_length": 771.5256958007812,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.28471451736792697,
      "grad_norm": 4.675474643707275,
      "kl": 4.44140625,
      "learning_rate": 9.099804240375643e-07,
      "loss": 0.3594,
      "num_tokens": 566432074.0,
      "reward": 1.04931640625,
      "reward_std": 0.26661860942840576,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.17949029803276062,
      "step": 834
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 907.27734375,
      "completions/mean_terminated_length": 831.2291870117188,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.2850559016813177,
      "grad_norm": 4.916335105895996,
      "kl": 4.91796875,
      "learning_rate": 9.096583505470359e-07,
      "loss": 0.3797,
      "num_tokens": 566973224.0,
      "reward": 1.04931640625,
      "reward_std": 0.303281307220459,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91064453125,
      "rewards/tag_count_reward/std": 0.21203739941120148,
      "step": 835
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1936.0,
      "completions/mean_length": 847.298828125,
      "completions/mean_terminated_length": 795.945068359375,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.28539728599470854,
      "grad_norm": 3.872030258178711,
      "kl": 3.265625,
      "learning_rate": 9.093357661998817e-07,
      "loss": 0.266,
      "num_tokens": 567485985.0,
      "reward": 1.09716796875,
      "reward_std": 0.2875131070613861,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.18053600192070007,
      "step": 836
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 919.724609375,
      "completions/mean_terminated_length": 864.235595703125,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.28573867030809935,
      "grad_norm": 9.094332695007324,
      "kl": 4.57421875,
      "learning_rate": 9.090126714542989e-07,
      "loss": 0.3969,
      "num_tokens": 568032196.0,
      "reward": 1.04443359375,
      "reward_std": 0.28874391317367554,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.2054828256368637,
      "step": 837
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1976.0,
      "completions/mean_length": 956.232421875,
      "completions/mean_terminated_length": 890.68115234375,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.28608005462149017,
      "grad_norm": 11.085018157958984,
      "kl": 3.46875,
      "learning_rate": 9.086890667692094e-07,
      "loss": 0.3482,
      "num_tokens": 568600363.0,
      "reward": 1.0087890625,
      "reward_std": 0.290497362613678,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.21367871761322021,
      "step": 838
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1887.0,
      "completions/mean_length": 937.859375,
      "completions/mean_terminated_length": 868.7635498046875,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.2864214389348809,
      "grad_norm": 8.503934860229492,
      "kl": 3.41796875,
      "learning_rate": 9.083649526042594e-07,
      "loss": 0.2905,
      "num_tokens": 569151635.0,
      "reward": 1.07373046875,
      "reward_std": 0.28665444254875183,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.20582664012908936,
      "step": 839
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1985.0,
      "completions/mean_length": 903.974609375,
      "completions/mean_terminated_length": 801.7425537109375,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.28676282324827174,
      "grad_norm": 5.045845985412598,
      "kl": 5.7265625,
      "learning_rate": 9.080403294198188e-07,
      "loss": 0.4764,
      "num_tokens": 569688246.0,
      "reward": 0.951171875,
      "reward_std": 0.2592836916446686,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.904296875,
      "rewards/tag_count_reward/std": 0.22090166807174683,
      "step": 840
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1973.0,
      "completions/mean_length": 957.3828125,
      "completions/mean_terminated_length": 859.9234008789062,
      "completions/min_length": 311.0,
      "completions/min_terminated_length": 311.0,
      "epoch": 0.28710420756166255,
      "grad_norm": 4.079229354858398,
      "kl": 5.2734375,
      "learning_rate": 9.077151976769803e-07,
      "loss": 0.4387,
      "num_tokens": 570253098.0,
      "reward": 0.97802734375,
      "reward_std": 0.30761438608169556,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88818359375,
      "rewards/tag_count_reward/std": 0.2373451143503189,
      "step": 841
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1833.0,
      "completions/mean_length": 883.060546875,
      "completions/mean_terminated_length": 776.2537231445312,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.28744559187505336,
      "grad_norm": 6.058124542236328,
      "kl": 6.34765625,
      "learning_rate": 9.073895578375593e-07,
      "loss": 0.516,
      "num_tokens": 570772857.0,
      "reward": 1.0361328125,
      "reward_std": 0.31683483719825745,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8955078125,
      "rewards/tag_count_reward/std": 0.2310728281736374,
      "step": 842
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.130859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1010.8984375,
      "completions/mean_terminated_length": 854.7505493164062,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.2877869761884441,
      "grad_norm": 12.013524055480957,
      "kl": 7.5234375,
      "learning_rate": 9.070634103640927e-07,
      "loss": 0.5451,
      "num_tokens": 571371013.0,
      "reward": 0.98583984375,
      "reward_std": 0.305656760931015,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86083984375,
      "rewards/tag_count_reward/std": 0.2659669816493988,
      "step": 843
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2005.0,
      "completions/mean_length": 982.544921875,
      "completions/mean_terminated_length": 835.7489013671875,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.28812836050183493,
      "grad_norm": 8.356927871704102,
      "kl": 6.375,
      "learning_rate": 9.067367557198384e-07,
      "loss": 0.5076,
      "num_tokens": 571951404.0,
      "reward": 0.99658203125,
      "reward_std": 0.3164166808128357,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88720703125,
      "rewards/tag_count_reward/std": 0.23791208863258362,
      "step": 844
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1870.0,
      "completions/mean_length": 941.095703125,
      "completions/mean_terminated_length": 777.2937622070312,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.28846974481522575,
      "grad_norm": 4.825211048126221,
      "kl": 6.66015625,
      "learning_rate": 9.064095943687747e-07,
      "loss": 0.5743,
      "num_tokens": 572508381.0,
      "reward": 0.95849609375,
      "reward_std": 0.30790483951568604,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87451171875,
      "rewards/tag_count_reward/std": 0.2555638253688812,
      "step": 845
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 888.830078125,
      "completions/mean_terminated_length": 782.55224609375,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.28881112912861656,
      "grad_norm": 4.776530742645264,
      "kl": 4.6328125,
      "learning_rate": 9.060819267755999e-07,
      "loss": 0.4377,
      "num_tokens": 573036518.0,
      "reward": 1.01708984375,
      "reward_std": 0.27943456172943115,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.21231211721897125,
      "step": 846
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.11328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2002.0,
      "completions/mean_length": 982.671875,
      "completions/mean_terminated_length": 846.5726318359375,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.2891525134420073,
      "grad_norm": 8.882272720336914,
      "kl": 6.40625,
      "learning_rate": 9.057537534057311e-07,
      "loss": 0.4843,
      "num_tokens": 573615022.0,
      "reward": 0.9814453125,
      "reward_std": 0.32508599758148193,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8857421875,
      "rewards/tag_count_reward/std": 0.24457286298274994,
      "step": 847
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 991.978515625,
      "completions/mean_terminated_length": 864.88623046875,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.28949389775539813,
      "grad_norm": 5.451161861419678,
      "kl": 5.96875,
      "learning_rate": 9.054250747253037e-07,
      "loss": 0.481,
      "num_tokens": 574206851.0,
      "reward": 0.96240234375,
      "reward_std": 0.3031417727470398,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88818359375,
      "rewards/tag_count_reward/std": 0.24244357645511627,
      "step": 848
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 927.46484375,
      "completions/mean_terminated_length": 822.1154174804688,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.28983528206878895,
      "grad_norm": 6.084855079650879,
      "kl": 5.796875,
      "learning_rate": 9.05095891201171e-07,
      "loss": 0.451,
      "num_tokens": 574757649.0,
      "reward": 1.0439453125,
      "reward_std": 0.2905218005180359,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.21570825576782227,
      "step": 849
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 937.080078125,
      "completions/mean_terminated_length": 830.0321044921875,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.29017666638217976,
      "grad_norm": 5.533233642578125,
      "kl": 6.21875,
      "learning_rate": 9.047662033009035e-07,
      "loss": 0.4752,
      "num_tokens": 575316698.0,
      "reward": 1.02685546875,
      "reward_std": 0.3341251611709595,
      "rewards/accuracy_reward/mean": 0.13104838132858276,
      "rewards/accuracy_reward/std": 0.3377939760684967,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89990234375,
      "rewards/tag_count_reward/std": 0.23691797256469727,
      "step": 850
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1872.0,
      "completions/mean_length": 924.703125,
      "completions/mean_terminated_length": 824.3233642578125,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.2905180506955705,
      "grad_norm": 7.086710453033447,
      "kl": 5.3515625,
      "learning_rate": 9.044360114927879e-07,
      "loss": 0.425,
      "num_tokens": 575869218.0,
      "reward": 0.95849609375,
      "reward_std": 0.23783710598945618,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91162109375,
      "rewards/tag_count_reward/std": 0.21530643105506897,
      "step": 851
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1688.0,
      "completions/mean_length": 946.5703125,
      "completions/mean_terminated_length": 837.8455200195312,
      "completions/min_length": 294.0,
      "completions/min_terminated_length": 294.0,
      "epoch": 0.29085943500896133,
      "grad_norm": 4.266741752624512,
      "kl": 5.33984375,
      "learning_rate": 9.041053162458265e-07,
      "loss": 0.4014,
      "num_tokens": 576435910.0,
      "reward": 1.0234375,
      "reward_std": 0.30263999104499817,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.2266491949558258,
      "step": 852
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1718.0,
      "completions/mean_length": 930.234375,
      "completions/mean_terminated_length": 825.1453247070312,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.29120081932235214,
      "grad_norm": 15.044821739196777,
      "kl": 4.53515625,
      "learning_rate": 9.037741180297375e-07,
      "loss": 0.4134,
      "num_tokens": 576986974.0,
      "reward": 1.0517578125,
      "reward_std": 0.2825441360473633,
      "rewards/accuracy_reward/mean": 0.13709677755832672,
      "rewards/accuracy_reward/std": 0.34429675340652466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9189453125,
      "rewards/tag_count_reward/std": 0.21105100214481354,
      "step": 853
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1834.0,
      "completions/mean_length": 915.306640625,
      "completions/mean_terminated_length": 821.913330078125,
      "completions/min_length": 261.0,
      "completions/min_terminated_length": 261.0,
      "epoch": 0.29154220363574296,
      "grad_norm": 10.788235664367676,
      "kl": 5.875,
      "learning_rate": 9.034424173149522e-07,
      "loss": 0.4766,
      "num_tokens": 577522587.0,
      "reward": 1.02783203125,
      "reward_std": 0.28484830260276794,
      "rewards/accuracy_reward/mean": 0.11491935700178146,
      "rewards/accuracy_reward/std": 0.3192465901374817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.2189328372478485,
      "step": 854
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1789.0,
      "completions/mean_length": 956.994140625,
      "completions/mean_terminated_length": 854.4209594726562,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.2918835879491337,
      "grad_norm": 39.10015106201172,
      "kl": 8.21875,
      "learning_rate": 9.031102145726168e-07,
      "loss": 0.5337,
      "num_tokens": 578087064.0,
      "reward": 0.9736328125,
      "reward_std": 0.28830575942993164,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.226512148976326,
      "step": 855
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1987.0,
      "completions/mean_length": 1003.05078125,
      "completions/mean_terminated_length": 914.4957885742188,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.29222497226252453,
      "grad_norm": 8.92786693572998,
      "kl": 5.12109375,
      "learning_rate": 9.027775102745899e-07,
      "loss": 0.4159,
      "num_tokens": 578679298.0,
      "reward": 1.0390625,
      "reward_std": 0.2574598789215088,
      "rewards/accuracy_reward/mean": 0.12903225421905518,
      "rewards/accuracy_reward/std": 0.33557409048080444,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.21770349144935608,
      "step": 856
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1833.0,
      "completions/mean_length": 1022.564453125,
      "completions/mean_terminated_length": 923.7537231445312,
      "completions/min_length": 347.0,
      "completions/min_terminated_length": 347.0,
      "epoch": 0.29256635657591534,
      "grad_norm": 86.81981658935547,
      "kl": 7.6875,
      "learning_rate": 9.02444304893443e-07,
      "loss": 0.5075,
      "num_tokens": 579287491.0,
      "reward": 1.0546875,
      "reward_std": 0.3531006872653961,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.904296875,
      "rewards/tag_count_reward/std": 0.22637078166007996,
      "step": 857
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1886.0,
      "completions/mean_length": 959.220703125,
      "completions/mean_terminated_length": 884.2108764648438,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.29290774088930616,
      "grad_norm": 17.985790252685547,
      "kl": 4.94921875,
      "learning_rate": 9.021105989024589e-07,
      "loss": 0.4232,
      "num_tokens": 579851348.0,
      "reward": 1.01416015625,
      "reward_std": 0.2654188275337219,
      "rewards/accuracy_reward/mean": 0.0927419364452362,
      "rewards/accuracy_reward/std": 0.2903633117675781,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.20214001834392548,
      "step": 858
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 970.20703125,
      "completions/mean_terminated_length": 843.1310424804688,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "epoch": 0.2932491252026969,
      "grad_norm": 16.842567443847656,
      "kl": 4.84375,
      "learning_rate": 9.017763927756317e-07,
      "loss": 0.4549,
      "num_tokens": 580426782.0,
      "reward": 0.96630859375,
      "reward_std": 0.2677017152309418,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.2359561175107956,
      "step": 859
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1877.0,
      "completions/mean_length": 993.328125,
      "completions/mean_terminated_length": 879.1861572265625,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.2935905095160877,
      "grad_norm": 27.68691635131836,
      "kl": 4.08203125,
      "learning_rate": 9.014416869876658e-07,
      "loss": 0.4259,
      "num_tokens": 581007878.0,
      "reward": 1.0302734375,
      "reward_std": 0.30928128957748413,
      "rewards/accuracy_reward/mean": 0.11895161122083664,
      "rewards/accuracy_reward/std": 0.3240584135055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.22307756543159485,
      "step": 860
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1851.0,
      "completions/mean_length": 977.7578125,
      "completions/mean_terminated_length": 859.35791015625,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.29393189382947854,
      "grad_norm": 23.26854133605957,
      "kl": 3.01171875,
      "learning_rate": 9.011064820139756e-07,
      "loss": 0.382,
      "num_tokens": 581578890.0,
      "reward": 1.05078125,
      "reward_std": 0.3200468122959137,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91015625,
      "rewards/tag_count_reward/std": 0.22280539572238922,
      "step": 861
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1893.0,
      "completions/mean_length": 962.869140625,
      "completions/mean_terminated_length": 842.8221435546875,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.29427327814286935,
      "grad_norm": 18.85279083251953,
      "kl": 3.33203125,
      "learning_rate": 9.007707783306837e-07,
      "loss": 0.3773,
      "num_tokens": 582147911.0,
      "reward": 1.044921875,
      "reward_std": 0.31132763624191284,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.22845487296581268,
      "step": 862
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1932.0,
      "completions/mean_length": 952.11328125,
      "completions/mean_terminated_length": 856.7176513671875,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.2946146624562601,
      "grad_norm": 17.94124984741211,
      "kl": 2.404296875,
      "learning_rate": 9.004345764146223e-07,
      "loss": 0.2795,
      "num_tokens": 582707857.0,
      "reward": 1.08544921875,
      "reward_std": 0.2995716333389282,
      "rewards/accuracy_reward/mean": 0.166015625,
      "rewards/accuracy_reward/std": 0.3724585771560669,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.21439915895462036,
      "step": 863
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.095703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2000.0,
      "completions/mean_length": 978.275390625,
      "completions/mean_terminated_length": 865.0647583007812,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.2949560467696509,
      "grad_norm": 28.643335342407227,
      "kl": 3.513671875,
      "learning_rate": 9.000978767433303e-07,
      "loss": 0.405,
      "num_tokens": 583288622.0,
      "reward": 1.03759765625,
      "reward_std": 0.31883561611175537,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.22240565717220306,
      "step": 864
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 965.3984375,
      "completions/mean_terminated_length": 883.5210571289062,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.29529743108304174,
      "grad_norm": 20.81723403930664,
      "kl": 2.892578125,
      "learning_rate": 8.99760679795054e-07,
      "loss": 0.3238,
      "num_tokens": 583860762.0,
      "reward": 1.02490234375,
      "reward_std": 0.2676134705543518,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92919921875,
      "rewards/tag_count_reward/std": 0.20270176231861115,
      "step": 865
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.103515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1783.0,
      "completions/mean_length": 960.0859375,
      "completions/mean_terminated_length": 834.4661865234375,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.29563881539643255,
      "grad_norm": 13.378107070922852,
      "kl": 5.83984375,
      "learning_rate": 8.994229860487461e-07,
      "loss": 0.4686,
      "num_tokens": 584427414.0,
      "reward": 1.00244140625,
      "reward_std": 0.27250322699546814,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90673828125,
      "rewards/tag_count_reward/std": 0.22658121585845947,
      "step": 866
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.103515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1558.0,
      "completions/mean_length": 963.87890625,
      "completions/mean_terminated_length": 838.6971435546875,
      "completions/min_length": 311.0,
      "completions/min_terminated_length": 311.0,
      "epoch": 0.2959801997098233,
      "grad_norm": 50.89612579345703,
      "kl": 7.640625,
      "learning_rate": 8.990847959840646e-07,
      "loss": 0.5174,
      "num_tokens": 585005864.0,
      "reward": 0.982421875,
      "reward_std": 0.2623264193534851,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.22488853335380554,
      "step": 867
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.134765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1953.0,
      "completions/mean_length": 1023.705078125,
      "completions/mean_terminated_length": 864.164794921875,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.2963215840232141,
      "grad_norm": 27.698413848876953,
      "kl": 7.6796875,
      "learning_rate": 8.987461100813729e-07,
      "loss": 0.5533,
      "num_tokens": 585615153.0,
      "reward": 0.9453125,
      "reward_std": 0.285142183303833,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.880859375,
      "rewards/tag_count_reward/std": 0.25501781702041626,
      "step": 868
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1909.0,
      "completions/mean_length": 1048.205078125,
      "completions/mean_terminated_length": 905.3772583007812,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.29666296833660494,
      "grad_norm": 20.983936309814453,
      "kl": 7.953125,
      "learning_rate": 8.984069288217385e-07,
      "loss": 0.5639,
      "num_tokens": 586228698.0,
      "reward": 0.95361328125,
      "reward_std": 0.2943935692310333,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89111328125,
      "rewards/tag_count_reward/std": 0.25070181488990784,
      "step": 869
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.130859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1952.0,
      "completions/mean_length": 971.814453125,
      "completions/mean_terminated_length": 809.7820434570312,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.29700435264999575,
      "grad_norm": 22.400407791137695,
      "kl": 7.6953125,
      "learning_rate": 8.980672526869323e-07,
      "loss": 0.5867,
      "num_tokens": 586795707.0,
      "reward": 1.06640625,
      "reward_std": 0.3414897620677948,
      "rewards/accuracy_reward/mean": 0.171875,
      "rewards/accuracy_reward/std": 0.3776407241821289,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89453125,
      "rewards/tag_count_reward/std": 0.24652054905891418,
      "step": 870
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.11328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1707.0,
      "completions/mean_length": 989.60546875,
      "completions/mean_terminated_length": 854.3920288085938,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "epoch": 0.2973457369633865,
      "grad_norm": 15.670980453491211,
      "kl": 5.828125,
      "learning_rate": 8.977270821594285e-07,
      "loss": 0.4709,
      "num_tokens": 587380721.0,
      "reward": 0.9560546875,
      "reward_std": 0.270131915807724,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.2323758900165558,
      "step": 871
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1938.0,
      "completions/mean_length": 957.123046875,
      "completions/mean_terminated_length": 869.6687622070312,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.2976871212767773,
      "grad_norm": 27.98681640625,
      "kl": 4.8125,
      "learning_rate": 8.973864177224031e-07,
      "loss": 0.4214,
      "num_tokens": 587948080.0,
      "reward": 1.02978515625,
      "reward_std": 0.2903249263763428,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.2064477950334549,
      "step": 872
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.138671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1681.0,
      "completions/mean_length": 977.541015625,
      "completions/mean_terminated_length": 805.1995849609375,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.29802850559016814,
      "grad_norm": 11.250933647155762,
      "kl": 6.34375,
      "learning_rate": 8.970452598597341e-07,
      "loss": 0.4883,
      "num_tokens": 588525413.0,
      "reward": 1.02685546875,
      "reward_std": 0.3251800537109375,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88818359375,
      "rewards/tag_count_reward/std": 0.25136032700538635,
      "step": 873
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.13671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1030.802734375,
      "completions/mean_terminated_length": 869.7081909179688,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.29836988990355895,
      "grad_norm": 8.957963943481445,
      "kl": 7.34375,
      "learning_rate": 8.967036090560001e-07,
      "loss": 0.5683,
      "num_tokens": 589125728.0,
      "reward": 0.97607421875,
      "reward_std": 0.2756907343864441,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89013671875,
      "rewards/tag_count_reward/std": 0.2483120709657669,
      "step": 874
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.17578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1927.0,
      "completions/mean_length": 1067.927734375,
      "completions/mean_terminated_length": 858.9075927734375,
      "completions/min_length": 268.0,
      "completions/min_terminated_length": 268.0,
      "epoch": 0.2987112742169497,
      "grad_norm": 39.137306213378906,
      "kl": 10.5078125,
      "learning_rate": 8.963614657964798e-07,
      "loss": 0.6851,
      "num_tokens": 589764731.0,
      "reward": 0.94873046875,
      "reward_std": 0.32423490285873413,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85107421875,
      "rewards/tag_count_reward/std": 0.283108651638031,
      "step": 875
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.138671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1663.0,
      "completions/mean_length": 993.515625,
      "completions/mean_terminated_length": 823.7460327148438,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.2990526585303405,
      "grad_norm": 10.723176002502441,
      "kl": 7.2109375,
      "learning_rate": 8.960188305671515e-07,
      "loss": 0.5668,
      "num_tokens": 590346483.0,
      "reward": 1.01171875,
      "reward_std": 0.3036569356918335,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.892578125,
      "rewards/tag_count_reward/std": 0.24317210912704468,
      "step": 876
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1978.0,
      "completions/mean_length": 934.328125,
      "completions/mean_terminated_length": 763.7658081054688,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.29939404284373133,
      "grad_norm": 7.5688252449035645,
      "kl": 7.703125,
      "learning_rate": 8.956757038546925e-07,
      "loss": 0.6007,
      "num_tokens": 590905131.0,
      "reward": 0.97509765625,
      "reward_std": 0.2729474902153015,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89697265625,
      "rewards/tag_count_reward/std": 0.24281376600265503,
      "step": 877
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.138671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1978.0,
      "completions/mean_length": 1039.57421875,
      "completions/mean_terminated_length": 877.219970703125,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.29973542715712215,
      "grad_norm": 6.602210521697998,
      "kl": 6.859375,
      "learning_rate": 8.953320861464777e-07,
      "loss": 0.5231,
      "num_tokens": 591512305.0,
      "reward": 0.9482421875,
      "reward_std": 0.27819323539733887,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8916015625,
      "rewards/tag_count_reward/std": 0.2437431812286377,
      "step": 878
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.189453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1871.0,
      "completions/mean_length": 1073.06640625,
      "completions/mean_terminated_length": 845.1903686523438,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.3000768114705129,
      "grad_norm": 7.395599842071533,
      "kl": 7.3984375,
      "learning_rate": 8.949879779305801e-07,
      "loss": 0.5957,
      "num_tokens": 592149363.0,
      "reward": 0.9736328125,
      "reward_std": 0.3537002503871918,
      "rewards/accuracy_reward/mean": 0.12903225421905518,
      "rewards/accuracy_reward/std": 0.33557409048080444,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8486328125,
      "rewards/tag_count_reward/std": 0.2824586033821106,
      "step": 879
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2001.0,
      "completions/mean_length": 1041.638671875,
      "completions/mean_terminated_length": 860.7719116210938,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.3004181957839037,
      "grad_norm": 6.8136115074157715,
      "kl": 6.75,
      "learning_rate": 8.946433796957683e-07,
      "loss": 0.5432,
      "num_tokens": 592778922.0,
      "reward": 0.95166015625,
      "reward_std": 0.30998027324676514,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88134765625,
      "rewards/tag_count_reward/std": 0.24967442452907562,
      "step": 880
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.158203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1728.0,
      "completions/mean_length": 996.74609375,
      "completions/mean_terminated_length": 799.1786499023438,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.30075958009729453,
      "grad_norm": 6.437531471252441,
      "kl": 7.4375,
      "learning_rate": 8.942982919315083e-07,
      "loss": 0.5882,
      "num_tokens": 593361032.0,
      "reward": 0.9853515625,
      "reward_std": 0.33255141973495483,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8701171875,
      "rewards/tag_count_reward/std": 0.26445597410202026,
      "step": 881
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.189453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1702.0,
      "completions/mean_length": 1078.05078125,
      "completions/mean_terminated_length": 851.3397827148438,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.30110096441068535,
      "grad_norm": 11.650907516479492,
      "kl": 8.78125,
      "learning_rate": 8.939527151279606e-07,
      "loss": 0.6106,
      "num_tokens": 593992706.0,
      "reward": 0.9814453125,
      "reward_std": 0.3728793263435364,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8486328125,
      "rewards/tag_count_reward/std": 0.2833233177661896,
      "step": 882
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.189453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1151.2421875,
      "completions/mean_terminated_length": 941.6385498046875,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.3014423487240761,
      "grad_norm": 7.056835174560547,
      "kl": 8.3515625,
      "learning_rate": 8.9360664977598e-07,
      "loss": 0.5867,
      "num_tokens": 594660958.0,
      "reward": 0.9560546875,
      "reward_std": 0.36406293511390686,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8408203125,
      "rewards/tag_count_reward/std": 0.29017457365989685,
      "step": 883
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.142578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 1051.873046875,
      "completions/mean_terminated_length": 886.2301025390625,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.3017837330374669,
      "grad_norm": 5.1051836013793945,
      "kl": 6.8125,
      "learning_rate": 8.932600963671164e-07,
      "loss": 0.5304,
      "num_tokens": 595277885.0,
      "reward": 0.97705078125,
      "reward_std": 0.32916760444641113,
      "rewards/accuracy_reward/mean": 0.09879032522439957,
      "rewards/accuracy_reward/std": 0.2986815273761749,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88134765625,
      "rewards/tag_count_reward/std": 0.25211191177368164,
      "step": 884
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.177734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1987.0,
      "completions/mean_length": 1134.056640625,
      "completions/mean_terminated_length": 936.5059814453125,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.30212511735085773,
      "grad_norm": 5.304638862609863,
      "kl": 8.671875,
      "learning_rate": 8.92913055393612e-07,
      "loss": 0.6128,
      "num_tokens": 595932746.0,
      "reward": 0.9892578125,
      "reward_std": 0.3918631672859192,
      "rewards/accuracy_reward/mean": 0.1391129046678543,
      "rewards/accuracy_reward/std": 0.3464137017726898,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8544921875,
      "rewards/tag_count_reward/std": 0.27770963311195374,
      "step": 885
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1625.0,
      "completions/mean_length": 999.796875,
      "completions/mean_terminated_length": 860.6548461914062,
      "completions/min_length": 296.0,
      "completions/min_terminated_length": 296.0,
      "epoch": 0.30246650166424854,
      "grad_norm": 7.674163341522217,
      "kl": 7.3515625,
      "learning_rate": 8.925655273484015e-07,
      "loss": 0.53,
      "num_tokens": 596520066.0,
      "reward": 1.0,
      "reward_std": 0.3266477882862091,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.2355148047208786,
      "step": 886
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1925.0,
      "completions/mean_length": 1067.90234375,
      "completions/mean_terminated_length": 917.7973022460938,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.3028078859776393,
      "grad_norm": 13.764772415161133,
      "kl": 8.22265625,
      "learning_rate": 8.922175127251119e-07,
      "loss": 0.545,
      "num_tokens": 597153728.0,
      "reward": 1.02587890625,
      "reward_std": 0.33099833130836487,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88134765625,
      "rewards/tag_count_reward/std": 0.25548529624938965,
      "step": 887
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.169921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1907.0,
      "completions/mean_length": 1131.927734375,
      "completions/mean_terminated_length": 944.40234375,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "epoch": 0.3031492702910301,
      "grad_norm": 8.888741493225098,
      "kl": 8.8359375,
      "learning_rate": 8.918690120180612e-07,
      "loss": 0.6003,
      "num_tokens": 597818955.0,
      "reward": 0.9228515625,
      "reward_std": 0.3350474238395691,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8564453125,
      "rewards/tag_count_reward/std": 0.2774066627025604,
      "step": 888
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 968.130859375,
      "completions/mean_terminated_length": 840.81005859375,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.30349065460442093,
      "grad_norm": 7.578829765319824,
      "kl": 7.375,
      "learning_rate": 8.915200257222579e-07,
      "loss": 0.5343,
      "num_tokens": 598389022.0,
      "reward": 1.03515625,
      "reward_std": 0.2941245138645172,
      "rewards/accuracy_reward/mean": 0.13508065044879913,
      "rewards/accuracy_reward/std": 0.34215477108955383,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.904296875,
      "rewards/tag_count_reward/std": 0.23328903317451477,
      "step": 889
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1958.0,
      "completions/mean_length": 988.88671875,
      "completions/mean_terminated_length": 886.830810546875,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.30383203891781174,
      "grad_norm": 5.319472312927246,
      "kl": 4.80859375,
      "learning_rate": 8.911705543333998e-07,
      "loss": 0.3631,
      "num_tokens": 598966580.0,
      "reward": 1.07568359375,
      "reward_std": 0.2701775133609772,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.22333602607250214,
      "step": 890
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1916.0,
      "completions/mean_length": 1076.03125,
      "completions/mean_terminated_length": 927.1712036132812,
      "completions/min_length": 340.0,
      "completions/min_terminated_length": 340.0,
      "epoch": 0.3041734232312025,
      "grad_norm": 7.011833667755127,
      "kl": 7.03125,
      "learning_rate": 8.908205983478742e-07,
      "loss": 0.4924,
      "num_tokens": 599594580.0,
      "reward": 1.01904296875,
      "reward_std": 0.3448503613471985,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89013671875,
      "rewards/tag_count_reward/std": 0.25027456879615784,
      "step": 891
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.119140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 1101.150390625,
      "completions/mean_terminated_length": 973.084228515625,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.3045148075445933,
      "grad_norm": 5.50002908706665,
      "kl": 5.5390625,
      "learning_rate": 8.904701582627566e-07,
      "loss": 0.4239,
      "num_tokens": 600225505.0,
      "reward": 0.9755859375,
      "reward_std": 0.25669339299201965,
      "rewards/accuracy_reward/mean": 0.08467742055654526,
      "rewards/accuracy_reward/std": 0.278682142496109,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8935546875,
      "rewards/tag_count_reward/std": 0.2451036423444748,
      "step": 892
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.177734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1131.09375,
      "completions/mean_terminated_length": 932.9026489257812,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.3048561918579841,
      "grad_norm": 6.948239803314209,
      "kl": 7.1484375,
      "learning_rate": 8.901192345758098e-07,
      "loss": 0.4985,
      "num_tokens": 600882017.0,
      "reward": 0.9365234375,
      "reward_std": 0.3049319386482239,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8544921875,
      "rewards/tag_count_reward/std": 0.28207945823669434,
      "step": 893
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1987.0,
      "completions/mean_length": 1132.056640625,
      "completions/mean_terminated_length": 1010.4712524414062,
      "completions/min_length": 346.0,
      "completions/min_terminated_length": 346.0,
      "epoch": 0.30519757617137494,
      "grad_norm": 6.720944404602051,
      "kl": 4.55859375,
      "learning_rate": 8.897678277854837e-07,
      "loss": 0.354,
      "num_tokens": 601543358.0,
      "reward": 1.03125,
      "reward_std": 0.33499640226364136,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.904296875,
      "rewards/tag_count_reward/std": 0.23847422003746033,
      "step": 894
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1957.0,
      "completions/mean_length": 1094.490234375,
      "completions/mean_terminated_length": 923.1221313476562,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.3055389604847657,
      "grad_norm": 6.425414085388184,
      "kl": 5.8515625,
      "learning_rate": 8.894159383909151e-07,
      "loss": 0.4299,
      "num_tokens": 602172393.0,
      "reward": 1.0458984375,
      "reward_std": 0.3278510570526123,
      "rewards/accuracy_reward/mean": 0.177734375,
      "rewards/accuracy_reward/std": 0.3826628625392914,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8681640625,
      "rewards/tag_count_reward/std": 0.2667154371738434,
      "step": 895
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2005.0,
      "completions/mean_length": 1080.91015625,
      "completions/mean_terminated_length": 952.535400390625,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.3058803447981565,
      "grad_norm": 7.977920055389404,
      "kl": 5.03125,
      "learning_rate": 8.890635668919249e-07,
      "loss": 0.404,
      "num_tokens": 602798683.0,
      "reward": 0.994140625,
      "reward_std": 0.28986674547195435,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.900390625,
      "rewards/tag_count_reward/std": 0.23164485394954681,
      "step": 896
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1134.1484375,
      "completions/mean_terminated_length": 1021.9210815429688,
      "completions/min_length": 355.0,
      "completions/min_terminated_length": 355.0,
      "epoch": 0.3062217291115473,
      "grad_norm": 6.829026699066162,
      "kl": 4.07421875,
      "learning_rate": 8.887107137890202e-07,
      "loss": 0.3332,
      "num_tokens": 603468791.0,
      "reward": 1.03076171875,
      "reward_std": 0.2743030786514282,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89013671875,
      "rewards/tag_count_reward/std": 0.2408103197813034,
      "step": 897
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 1077.876953125,
      "completions/mean_terminated_length": 968.2108154296875,
      "completions/min_length": 278.0,
      "completions/min_terminated_length": 278.0,
      "epoch": 0.30656311342493814,
      "grad_norm": 5.950887680053711,
      "kl": 5.1484375,
      "learning_rate": 8.883573795833909e-07,
      "loss": 0.4156,
      "num_tokens": 604092952.0,
      "reward": 1.00341796875,
      "reward_std": 0.29253336787223816,
      "rewards/accuracy_reward/mean": 0.1145833358168602,
      "rewards/accuracy_reward/std": 0.3188507556915283,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89599609375,
      "rewards/tag_count_reward/std": 0.24189116060733795,
      "step": 898
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.111328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1992.0,
      "completions/mean_length": 1090.640625,
      "completions/mean_terminated_length": 970.707763671875,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.3069044977383289,
      "grad_norm": 2.589440107345581,
      "kl": 5.0546875,
      "learning_rate": 8.88003564776911e-07,
      "loss": 0.3558,
      "num_tokens": 604727168.0,
      "reward": 0.962890625,
      "reward_std": 0.273385226726532,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.892578125,
      "rewards/tag_count_reward/std": 0.24317210912704468,
      "step": 899
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1961.0,
      "completions/mean_length": 965.03125,
      "completions/mean_terminated_length": 890.4217529296875,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.3072458820517197,
      "grad_norm": 4.575494766235352,
      "kl": 3.7578125,
      "learning_rate": 8.876492698721374e-07,
      "loss": 0.2992,
      "num_tokens": 605291840.0,
      "reward": 0.98388671875,
      "reward_std": 0.23414167761802673,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.20129208266735077,
      "step": 900
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1978.0,
      "completions/mean_length": 1088.13671875,
      "completions/mean_terminated_length": 979.63037109375,
      "completions/min_length": 351.0,
      "completions/min_terminated_length": 351.0,
      "epoch": 0.3075872663651105,
      "grad_norm": 5.628513336181641,
      "kl": 6.2265625,
      "learning_rate": 8.872944953723079e-07,
      "loss": 0.4872,
      "num_tokens": 605934982.0,
      "reward": 0.9248046875,
      "reward_std": 0.2410810887813568,
      "rewards/accuracy_reward/mean": 0.025390625,
      "rewards/accuracy_reward/std": 0.15746226906776428,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8994140625,
      "rewards/tag_count_reward/std": 0.234895259141922,
      "step": 901
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 913.419921875,
      "completions/mean_terminated_length": 830.1697998046875,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.30792865067850134,
      "grad_norm": 4.82847261428833,
      "kl": 5.296875,
      "learning_rate": 8.869392417813427e-07,
      "loss": 0.4128,
      "num_tokens": 606485261.0,
      "reward": 1.01953125,
      "reward_std": 0.285092294216156,
      "rewards/accuracy_reward/mean": 0.11088709533214569,
      "rewards/accuracy_reward/std": 0.3143092691898346,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.21522264182567596,
      "step": 902
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 901.25390625,
      "completions/mean_terminated_length": 837.4144897460938,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.30827003499189215,
      "grad_norm": 3.645758867263794,
      "kl": 4.8515625,
      "learning_rate": 8.865835096038413e-07,
      "loss": 0.3805,
      "num_tokens": 607026607.0,
      "reward": 1.064453125,
      "reward_std": 0.2538946270942688,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.17900052666664124,
      "step": 903
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1933.0,
      "completions/mean_length": 972.806640625,
      "completions/mean_terminated_length": 861.5797119140625,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "epoch": 0.3086114193052829,
      "grad_norm": 134.0551300048828,
      "kl": 9.5390625,
      "learning_rate": 8.862272993450842e-07,
      "loss": 0.5898,
      "num_tokens": 607606652.0,
      "reward": 1.04541015625,
      "reward_std": 0.29250040650367737,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.20940732955932617,
      "step": 904
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1988.0,
      "completions/mean_length": 893.693359375,
      "completions/mean_terminated_length": 851.6336059570312,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.3089528036186737,
      "grad_norm": 2.665830135345459,
      "kl": 3.2421875,
      "learning_rate": 8.858706115110301e-07,
      "loss": 0.2812,
      "num_tokens": 608139119.0,
      "reward": 1.10595703125,
      "reward_std": 0.24411088228225708,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95361328125,
      "rewards/tag_count_reward/std": 0.1561574786901474,
      "step": 905
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1954.0,
      "completions/mean_length": 926.408203125,
      "completions/mean_terminated_length": 846.6296997070312,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.30929418793206453,
      "grad_norm": 5.131568431854248,
      "kl": 5.7890625,
      "learning_rate": 8.855134466083165e-07,
      "loss": 0.4394,
      "num_tokens": 608694144.0,
      "reward": 1.03271484375,
      "reward_std": 0.24678128957748413,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.19716253876686096,
      "step": 906
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1741.0,
      "completions/mean_length": 893.859375,
      "completions/mean_terminated_length": 866.1600341796875,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.30963557224545535,
      "grad_norm": 2.074618339538574,
      "kl": 2.1240234375,
      "learning_rate": 8.851558051442581e-07,
      "loss": 0.183,
      "num_tokens": 609229592.0,
      "reward": 1.08544921875,
      "reward_std": 0.21182072162628174,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.96826171875,
      "rewards/tag_count_reward/std": 0.12932726740837097,
      "step": 907
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1958.0,
      "completions/mean_length": 816.53515625,
      "completions/mean_terminated_length": 771.6640014648438,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.3099769565588461,
      "grad_norm": 3.461775541305542,
      "kl": 3.1337890625,
      "learning_rate": 8.847976876268467e-07,
      "loss": 0.2677,
      "num_tokens": 609724698.0,
      "reward": 1.130859375,
      "reward_std": 0.2693468928337097,
      "rewards/accuracy_reward/mean": 0.181640625,
      "rewards/accuracy_reward/std": 0.38592514395713806,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94921875,
      "rewards/tag_count_reward/std": 0.1613585203886032,
      "step": 908
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1616.0,
      "completions/mean_length": 838.40234375,
      "completions/mean_terminated_length": 799.383056640625,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.3103183408722369,
      "grad_norm": 3.523098945617676,
      "kl": 3.28515625,
      "learning_rate": 8.844390945647507e-07,
      "loss": 0.2595,
      "num_tokens": 610227544.0,
      "reward": 1.07373046875,
      "reward_std": 0.2635180950164795,
      "rewards/accuracy_reward/mean": 0.11895161122083664,
      "rewards/accuracy_reward/std": 0.3240584135055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95849609375,
      "rewards/tag_count_reward/std": 0.15199612081050873,
      "step": 909
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1838.0,
      "completions/mean_length": 872.697265625,
      "completions/mean_terminated_length": 822.4297485351562,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.31065972518562773,
      "grad_norm": 4.324607849121094,
      "kl": 3.888671875,
      "learning_rate": 8.840800264673133e-07,
      "loss": 0.3143,
      "num_tokens": 610748061.0,
      "reward": 1.0703125,
      "reward_std": 0.2996329665184021,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.17694957554340363,
      "step": 910
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1868.0,
      "completions/mean_length": 851.470703125,
      "completions/mean_terminated_length": 807.8724975585938,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.31100110949901855,
      "grad_norm": 26.543291091918945,
      "kl": 3.73828125,
      "learning_rate": 8.837204838445528e-07,
      "loss": 0.2907,
      "num_tokens": 611264558.0,
      "reward": 0.97900390625,
      "reward_std": 0.21171167492866516,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.17468802630901337,
      "step": 911
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1715.0,
      "completions/mean_length": 781.34765625,
      "completions/mean_terminated_length": 745.7389526367188,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.3113424938124093,
      "grad_norm": 4.281364440917969,
      "kl": 3.30859375,
      "learning_rate": 8.833604672071616e-07,
      "loss": 0.2657,
      "num_tokens": 611740080.0,
      "reward": 1.046875,
      "reward_std": 0.1814068853855133,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.16467617452144623,
      "step": 912
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1834.0,
      "completions/mean_length": 763.65234375,
      "completions/mean_terminated_length": 738.0677490234375,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.3116838781258001,
      "grad_norm": 2.2851076126098633,
      "kl": 2.1484375,
      "learning_rate": 8.829999770665051e-07,
      "loss": 0.1891,
      "num_tokens": 612203966.0,
      "reward": 1.06298828125,
      "reward_std": 0.21350131928920746,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.95556640625,
      "rewards/tag_count_reward/std": 0.1527736783027649,
      "step": 913
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1885.0,
      "completions/mean_length": 822.48828125,
      "completions/mean_terminated_length": 770.0733642578125,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.31202526243919093,
      "grad_norm": 2.825894594192505,
      "kl": 4.7421875,
      "learning_rate": 8.826390139346213e-07,
      "loss": 0.3893,
      "num_tokens": 612707832.0,
      "reward": 0.9775390625,
      "reward_std": 0.2177228182554245,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.185324028134346,
      "step": 914
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2004.0,
      "completions/mean_length": 822.037109375,
      "completions/mean_terminated_length": 807.5000610351562,
      "completions/min_length": 249.0,
      "completions/min_terminated_length": 249.0,
      "epoch": 0.31236664675258174,
      "grad_norm": 2.263535737991333,
      "kl": 2.84765625,
      "learning_rate": 8.822775783242204e-07,
      "loss": 0.2351,
      "num_tokens": 613210283.0,
      "reward": 0.99267578125,
      "reward_std": 0.2031371295452118,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.17468802630901337,
      "step": 915
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1963.0,
      "completions/mean_length": 866.1015625,
      "completions/mean_terminated_length": 827.9757690429688,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.3127080310659725,
      "grad_norm": 2.470695972442627,
      "kl": 2.732421875,
      "learning_rate": 8.819156707486831e-07,
      "loss": 0.2505,
      "num_tokens": 613745055.0,
      "reward": 1.02294921875,
      "reward_std": 0.2798839211463928,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.1930980682373047,
      "step": 916
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1954.0,
      "completions/mean_length": 814.6328125,
      "completions/mean_terminated_length": 790.0637817382812,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.3130494153793633,
      "grad_norm": 5.178702354431152,
      "kl": 3.11328125,
      "learning_rate": 8.81553291722061e-07,
      "loss": 0.2328,
      "num_tokens": 614239347.0,
      "reward": 1.0263671875,
      "reward_std": 0.2602751553058624,
      "rewards/accuracy_reward/mean": 0.0947580635547638,
      "rewards/accuracy_reward/std": 0.29317617416381836,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17864517867565155,
      "step": 917
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1734.0,
      "completions/mean_length": 807.880859375,
      "completions/mean_terminated_length": 788.1964721679688,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.31339079969275413,
      "grad_norm": 8.297091484069824,
      "kl": 1.7978515625,
      "learning_rate": 8.811904417590752e-07,
      "loss": 0.1643,
      "num_tokens": 614726774.0,
      "reward": 1.080078125,
      "reward_std": 0.2699255347251892,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.951171875,
      "rewards/tag_count_reward/std": 0.15658599138259888,
      "step": 918
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1902.0,
      "completions/mean_length": 783.92578125,
      "completions/mean_terminated_length": 763.8611450195312,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.31373218400614494,
      "grad_norm": 4.479769706726074,
      "kl": 2.4287109375,
      "learning_rate": 8.808271213751157e-07,
      "loss": 0.2414,
      "num_tokens": 615205120.0,
      "reward": 1.0107421875,
      "reward_std": 0.21461519598960876,
      "rewards/accuracy_reward/mean": 0.08467742055654526,
      "rewards/accuracy_reward/std": 0.278682142496109,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.19670946896076202,
      "step": 919
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1938.0,
      "completions/mean_length": 849.8203125,
      "completions/mean_terminated_length": 823.5130004882812,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.3140735683195357,
      "grad_norm": 6.861300945281982,
      "kl": 3.349609375,
      "learning_rate": 8.804633310862404e-07,
      "loss": 0.334,
      "num_tokens": 615715636.0,
      "reward": 0.99072265625,
      "reward_std": 0.28117692470550537,
      "rewards/accuracy_reward/mean": 0.08870967477560043,
      "rewards/accuracy_reward/std": 0.284611314535141,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.21579405665397644,
      "step": 920
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1997.0,
      "completions/mean_length": 794.62890625,
      "completions/mean_terminated_length": 769.661376953125,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.3144149526329265,
      "grad_norm": 7.27172327041626,
      "kl": 2.513671875,
      "learning_rate": 8.80099071409175e-07,
      "loss": 0.2674,
      "num_tokens": 616203926.0,
      "reward": 1.11669921875,
      "reward_std": 0.2874504327774048,
      "rewards/accuracy_reward/mean": 0.185546875,
      "rewards/accuracy_reward/std": 0.38912075757980347,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.19288021326065063,
      "step": 921
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 865.658203125,
      "completions/mean_terminated_length": 858.6896362304688,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.3147563369463173,
      "grad_norm": 3.9548397064208984,
      "kl": 2.27734375,
      "learning_rate": 8.797343428613121e-07,
      "loss": 0.223,
      "num_tokens": 616731847.0,
      "reward": 1.02587890625,
      "reward_std": 0.2950492799282074,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90087890625,
      "rewards/tag_count_reward/std": 0.217988058924675,
      "step": 922
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1970.0,
      "completions/mean_length": 819.73828125,
      "completions/mean_terminated_length": 787.739501953125,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.31509772125970814,
      "grad_norm": 141.9339599609375,
      "kl": 4.828125,
      "learning_rate": 8.793691459607097e-07,
      "loss": 0.3184,
      "num_tokens": 617229777.0,
      "reward": 0.98486328125,
      "reward_std": 0.2511994540691376,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91064453125,
      "rewards/tag_count_reward/std": 0.21145978569984436,
      "step": 923
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 823.48046875,
      "completions/mean_terminated_length": 796.5947875976562,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.3154391055730989,
      "grad_norm": 3.438264846801758,
      "kl": 2.80078125,
      "learning_rate": 8.790034812260915e-07,
      "loss": 0.2291,
      "num_tokens": 617723815.0,
      "reward": 0.94091796875,
      "reward_std": 0.22740837931632996,
      "rewards/accuracy_reward/mean": 0.04296875,
      "rewards/accuracy_reward/std": 0.2029850035905838,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89794921875,
      "rewards/tag_count_reward/std": 0.22548207640647888,
      "step": 924
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 864.822265625,
      "completions/mean_terminated_length": 831.5601806640625,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.3157804898864897,
      "grad_norm": 5.8524274826049805,
      "kl": 3.36328125,
      "learning_rate": 8.786373491768456e-07,
      "loss": 0.3191,
      "num_tokens": 618239532.0,
      "reward": 0.92138671875,
      "reward_std": 0.2730148136615753,
      "rewards/accuracy_reward/mean": 0.0463709682226181,
      "rewards/accuracy_reward/std": 0.21049949526786804,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87646484375,
      "rewards/tag_count_reward/std": 0.24330125749111176,
      "step": 925
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1933.0,
      "completions/mean_length": 813.607421875,
      "completions/mean_terminated_length": 791.5208129882812,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.3161218741998805,
      "grad_norm": 7.005990982055664,
      "kl": 2.978515625,
      "learning_rate": 8.782707503330235e-07,
      "loss": 0.2882,
      "num_tokens": 618737603.0,
      "reward": 1.03125,
      "reward_std": 0.27408674359321594,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.21501831710338593,
      "step": 926
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 853.650390625,
      "completions/mean_terminated_length": 824.9860229492188,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.31646325851327134,
      "grad_norm": 8.662222862243652,
      "kl": 3.87890625,
      "learning_rate": 8.779036852153406e-07,
      "loss": 0.383,
      "num_tokens": 619260272.0,
      "reward": 0.97021484375,
      "reward_std": 0.3179694414138794,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87255859375,
      "rewards/tag_count_reward/std": 0.2397485226392746,
      "step": 927
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 841.900390625,
      "completions/mean_terminated_length": 800.4788208007812,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.3168046428266621,
      "grad_norm": 3.5595650672912598,
      "kl": 5.01953125,
      "learning_rate": 8.775361543451735e-07,
      "loss": 0.4295,
      "num_tokens": 619773421.0,
      "reward": 0.9375,
      "reward_std": 0.307569682598114,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8671875,
      "rewards/tag_count_reward/std": 0.24766522645950317,
      "step": 928
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 870.712890625,
      "completions/mean_terminated_length": 825.3407592773438,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "epoch": 0.3171460271400529,
      "grad_norm": 5.622350215911865,
      "kl": 5.53125,
      "learning_rate": 8.771681582445612e-07,
      "loss": 0.4481,
      "num_tokens": 620292106.0,
      "reward": 0.9384765625,
      "reward_std": 0.31713542342185974,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8603515625,
      "rewards/tag_count_reward/std": 0.2512790560722351,
      "step": 929
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1979.0,
      "completions/mean_length": 874.041015625,
      "completions/mean_terminated_length": 808.6866455078125,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.3174874114534437,
      "grad_norm": 6.712055683135986,
      "kl": 6.609375,
      "learning_rate": 8.767996974362034e-07,
      "loss": 0.5272,
      "num_tokens": 620815455.0,
      "reward": 0.86083984375,
      "reward_std": 0.271533727645874,
      "rewards/accuracy_reward/mean": 0.024193547666072845,
      "rewards/accuracy_reward/std": 0.15380479395389557,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83740234375,
      "rewards/tag_count_reward/std": 0.27144336700439453,
      "step": 930
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1987.0,
      "completions/mean_length": 820.7421875,
      "completions/mean_terminated_length": 755.08642578125,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.31782879576683454,
      "grad_norm": 6.713479518890381,
      "kl": 6.515625,
      "learning_rate": 8.764307724434592e-07,
      "loss": 0.5543,
      "num_tokens": 621320747.0,
      "reward": 0.95849609375,
      "reward_std": 0.32186347246170044,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86083984375,
      "rewards/tag_count_reward/std": 0.2599199712276459,
      "step": 931
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1986.0,
      "completions/mean_length": 869.896484375,
      "completions/mean_terminated_length": 811.9569091796875,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.3181701800802253,
      "grad_norm": 5.737715721130371,
      "kl": 5.890625,
      "learning_rate": 8.76061383790348e-07,
      "loss": 0.4572,
      "num_tokens": 621841158.0,
      "reward": 0.93359375,
      "reward_std": 0.33846548199653625,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.830078125,
      "rewards/tag_count_reward/std": 0.26713964343070984,
      "step": 932
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1976.0,
      "completions/mean_length": 830.978515625,
      "completions/mean_terminated_length": 763.226806640625,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.3185115643936161,
      "grad_norm": 5.424788951873779,
      "kl": 5.7578125,
      "learning_rate": 8.75691532001547e-07,
      "loss": 0.4405,
      "num_tokens": 622341867.0,
      "reward": 0.90283203125,
      "reward_std": 0.2899892330169678,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83642578125,
      "rewards/tag_count_reward/std": 0.26949673891067505,
      "step": 933
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 897.818359375,
      "completions/mean_terminated_length": 851.06298828125,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.3188529487070069,
      "grad_norm": 3.639519691467285,
      "kl": 4.90234375,
      "learning_rate": 8.753212176023914e-07,
      "loss": 0.3879,
      "num_tokens": 622878574.0,
      "reward": 0.94580078125,
      "reward_std": 0.307527631521225,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84814453125,
      "rewards/tag_count_reward/std": 0.2522141933441162,
      "step": 934
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1870.0,
      "completions/mean_length": 842.275390625,
      "completions/mean_terminated_length": 772.522705078125,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.31919433302039774,
      "grad_norm": 3.956763982772827,
      "kl": 4.8984375,
      "learning_rate": 8.74950441118874e-07,
      "loss": 0.3829,
      "num_tokens": 623395883.0,
      "reward": 0.99072265625,
      "reward_std": 0.3071928322315216,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87548828125,
      "rewards/tag_count_reward/std": 0.2287970632314682,
      "step": 935
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 962.904296875,
      "completions/mean_terminated_length": 858.3447265625,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.3195357173337885,
      "grad_norm": 4.665554523468018,
      "kl": 5.5234375,
      "learning_rate": 8.745792030776433e-07,
      "loss": 0.4261,
      "num_tokens": 623971242.0,
      "reward": 0.85986328125,
      "reward_std": 0.30713027715682983,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.80908203125,
      "rewards/tag_count_reward/std": 0.2709888517856598,
      "step": 936
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1937.0,
      "completions/mean_length": 877.078125,
      "completions/mean_terminated_length": 814.4362182617188,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.3198771016471793,
      "grad_norm": 7.224167823791504,
      "kl": 4.2421875,
      "learning_rate": 8.742075040060037e-07,
      "loss": 0.3629,
      "num_tokens": 624498658.0,
      "reward": 0.9658203125,
      "reward_std": 0.2918092608451843,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8759765625,
      "rewards/tag_count_reward/std": 0.2303936630487442,
      "step": 937
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1932.0,
      "completions/mean_length": 912.990234375,
      "completions/mean_terminated_length": 847.3284912109375,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.3202184859605701,
      "grad_norm": 8.428768157958984,
      "kl": 4.12890625,
      "learning_rate": 8.738353444319146e-07,
      "loss": 0.3452,
      "num_tokens": 625040637.0,
      "reward": 0.96240234375,
      "reward_std": 0.32676878571510315,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86669921875,
      "rewards/tag_count_reward/std": 0.23705102503299713,
      "step": 938
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1986.0,
      "completions/mean_length": 999.67578125,
      "completions/mean_terminated_length": 901.1154174804688,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.32055987027396093,
      "grad_norm": 11.9134521484375,
      "kl": 4.171875,
      "learning_rate": 8.734627248839889e-07,
      "loss": 0.393,
      "num_tokens": 625627031.0,
      "reward": 0.89453125,
      "reward_std": 0.25608599185943604,
      "rewards/accuracy_reward/mean": 0.03125,
      "rewards/accuracy_reward/std": 0.17416280508041382,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86328125,
      "rewards/tag_count_reward/std": 0.23845018446445465,
      "step": 939
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 939.853515625,
      "completions/mean_terminated_length": 838.2537231445312,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.3209012545873517,
      "grad_norm": 6.882454872131348,
      "kl": 4.91796875,
      "learning_rate": 8.730896458914934e-07,
      "loss": 0.424,
      "num_tokens": 626182284.0,
      "reward": 0.94287109375,
      "reward_std": 0.2925563454627991,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.87451171875,
      "rewards/tag_count_reward/std": 0.2314545065164566,
      "step": 940
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1979.0,
      "completions/mean_length": 1052.755859375,
      "completions/mean_terminated_length": 879.2728881835938,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.3212426389007425,
      "grad_norm": 2.9978644847869873,
      "kl": 6.828125,
      "learning_rate": 8.727161079843475e-07,
      "loss": 0.5207,
      "num_tokens": 626796527.0,
      "reward": 0.95849609375,
      "reward_std": 0.34301111102104187,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83935546875,
      "rewards/tag_count_reward/std": 0.25926846265792847,
      "step": 941
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.189453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 1164.68359375,
      "completions/mean_terminated_length": 958.2216796875,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.3215840232141333,
      "grad_norm": 9.706525802612305,
      "kl": 8.328125,
      "learning_rate": 8.723421116931221e-07,
      "loss": 0.5975,
      "num_tokens": 627489837.0,
      "reward": 0.85107421875,
      "reward_std": 0.29063451290130615,
      "rewards/accuracy_reward/mean": 0.03515625,
      "rewards/accuracy_reward/std": 0.1843547374010086,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81591796875,
      "rewards/tag_count_reward/std": 0.27256399393081665,
      "step": 942
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.17578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1932.0,
      "completions/mean_length": 1038.939453125,
      "completions/mean_terminated_length": 823.7369995117188,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.32192540752752413,
      "grad_norm": 4.725491523742676,
      "kl": 9.28125,
      "learning_rate": 8.719676575490393e-07,
      "loss": 0.7163,
      "num_tokens": 628096974.0,
      "reward": 0.94140625,
      "reward_std": 0.35627156496047974,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.826171875,
      "rewards/tag_count_reward/std": 0.27724990248680115,
      "step": 943
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.142578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1034.279296875,
      "completions/mean_terminated_length": 865.7107543945312,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.3222667918409149,
      "grad_norm": 5.5540008544921875,
      "kl": 7.6484375,
      "learning_rate": 8.715927460839717e-07,
      "loss": 0.571,
      "num_tokens": 628702781.0,
      "reward": 0.95068359375,
      "reward_std": 0.3199988305568695,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86083984375,
      "rewards/tag_count_reward/std": 0.2566048800945282,
      "step": 944
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.14453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1024.484375,
      "completions/mean_terminated_length": 851.5615844726562,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.3226081761543057,
      "grad_norm": 7.885499000549316,
      "kl": 6.9453125,
      "learning_rate": 8.712173778304414e-07,
      "loss": 0.4744,
      "num_tokens": 629302245.0,
      "reward": 0.927734375,
      "reward_std": 0.28372901678085327,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.861328125,
      "rewards/tag_count_reward/std": 0.2523055970668793,
      "step": 945
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.126953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1956.0,
      "completions/mean_length": 1021.466796875,
      "completions/mean_terminated_length": 872.1946411132812,
      "completions/min_length": 268.0,
      "completions/min_terminated_length": 268.0,
      "epoch": 0.3229495604676965,
      "grad_norm": 6.5982666015625,
      "kl": 6.265625,
      "learning_rate": 8.708415533216192e-07,
      "loss": 0.5247,
      "num_tokens": 629911940.0,
      "reward": 0.98388671875,
      "reward_std": 0.3080558776855469,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88037109375,
      "rewards/tag_count_reward/std": 0.23661932349205017,
      "step": 946
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1980.0,
      "completions/mean_length": 1080.47265625,
      "completions/mean_terminated_length": 952.039794921875,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.32329094478108733,
      "grad_norm": 7.273067951202393,
      "kl": 7.3125,
      "learning_rate": 8.70465273091324e-07,
      "loss": 0.5307,
      "num_tokens": 630543318.0,
      "reward": 0.99560546875,
      "reward_std": 0.3183760643005371,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88037109375,
      "rewards/tag_count_reward/std": 0.23765088617801666,
      "step": 947
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.130859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1982.0,
      "completions/mean_length": 1075.09765625,
      "completions/mean_terminated_length": 928.61572265625,
      "completions/min_length": 283.0,
      "completions/min_terminated_length": 283.0,
      "epoch": 0.3236323290944781,
      "grad_norm": 5.45756721496582,
      "kl": 6.7421875,
      "learning_rate": 8.700885376740221e-07,
      "loss": 0.4869,
      "num_tokens": 631162984.0,
      "reward": 0.958984375,
      "reward_std": 0.27324575185775757,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.875,
      "rewards/tag_count_reward/std": 0.2387385219335556,
      "step": 948
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1984.0,
      "completions/mean_length": 1043.71875,
      "completions/mean_terminated_length": 905.3511352539062,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.3239737134078689,
      "grad_norm": 4.094376087188721,
      "kl": 5.7109375,
      "learning_rate": 8.697113476048263e-07,
      "loss": 0.4158,
      "num_tokens": 631773736.0,
      "reward": 1.0166015625,
      "reward_std": 0.3208475112915039,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8916015625,
      "rewards/tag_count_reward/std": 0.2238643318414688,
      "step": 949
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 986.486328125,
      "completions/mean_terminated_length": 896.5275268554688,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.3243150977212597,
      "grad_norm": 9.125158309936523,
      "kl": 4.4296875,
      "learning_rate": 8.693337034194952e-07,
      "loss": 0.3925,
      "num_tokens": 632365089.0,
      "reward": 1.03271484375,
      "reward_std": 0.3009680509567261,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.2054828256368637,
      "step": 950
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1981.0,
      "completions/mean_length": 1051.46484375,
      "completions/mean_terminated_length": 960.0980834960938,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.32465648203465053,
      "grad_norm": 8.623359680175781,
      "kl": 4.4453125,
      "learning_rate": 8.689556056544323e-07,
      "loss": 0.3687,
      "num_tokens": 632987359.0,
      "reward": 1.05078125,
      "reward_std": 0.3178989291191101,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.2057807892560959,
      "step": 951
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 1030.28125,
      "completions/mean_terminated_length": 920.1385498046875,
      "completions/min_length": 328.0,
      "completions/min_terminated_length": 328.0,
      "epoch": 0.3249978663480413,
      "grad_norm": 5.050754547119141,
      "kl": 4.203125,
      "learning_rate": 8.685770548466857e-07,
      "loss": 0.3522,
      "num_tokens": 633594399.0,
      "reward": 1.0556640625,
      "reward_std": 0.30803218483924866,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.20474500954151154,
      "step": 952
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1986.0,
      "completions/mean_length": 1040.634765625,
      "completions/mean_terminated_length": 909.4326782226562,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.3253392506614321,
      "grad_norm": 5.704651355743408,
      "kl": 4.69921875,
      "learning_rate": 8.681980515339463e-07,
      "loss": 0.3762,
      "num_tokens": 634207060.0,
      "reward": 0.99658203125,
      "reward_std": 0.29545044898986816,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90087890625,
      "rewards/tag_count_reward/std": 0.21742625534534454,
      "step": 953
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1872.0,
      "completions/mean_length": 1031.1171875,
      "completions/mean_terminated_length": 949.5949096679688,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.3256806349748229,
      "grad_norm": 7.719779968261719,
      "kl": 3.67578125,
      "learning_rate": 8.678185962545486e-07,
      "loss": 0.3183,
      "num_tokens": 634808912.0,
      "reward": 1.01025390625,
      "reward_std": 0.26246875524520874,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.1820801943540573,
      "step": 954
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1958.0,
      "completions/mean_length": 1044.75390625,
      "completions/mean_terminated_length": 911.5796508789062,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.3260220192882137,
      "grad_norm": 9.021772384643555,
      "kl": 6.6875,
      "learning_rate": 8.674386895474688e-07,
      "loss": 0.4649,
      "num_tokens": 635416722.0,
      "reward": 1.04736328125,
      "reward_std": 0.3167871832847595,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90673828125,
      "rewards/tag_count_reward/std": 0.221117302775383,
      "step": 955
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1003.0,
      "completions/mean_terminated_length": 879.7904052734375,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.3263634036016045,
      "grad_norm": 3.2919187545776367,
      "kl": 6.1328125,
      "learning_rate": 8.670583319523236e-07,
      "loss": 0.4859,
      "num_tokens": 636003634.0,
      "reward": 1.04345703125,
      "reward_std": 0.32933372259140015,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.21972574293613434,
      "step": 956
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1005.654296875,
      "completions/mean_terminated_length": 892.8463134765625,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.3267047879149953,
      "grad_norm": 3.2543132305145264,
      "kl": 5.78515625,
      "learning_rate": 8.666775240093711e-07,
      "loss": 0.4701,
      "num_tokens": 636595745.0,
      "reward": 1.01806640625,
      "reward_std": 0.29099416732788086,
      "rewards/accuracy_reward/mean": 0.1088709682226181,
      "rewards/accuracy_reward/std": 0.31179171800613403,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.21054047346115112,
      "step": 957
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1992.0,
      "completions/mean_length": 1010.88671875,
      "completions/mean_terminated_length": 886.0700073242188,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.3270461722283861,
      "grad_norm": 6.471435546875,
      "kl": 6.53125,
      "learning_rate": 8.662962662595088e-07,
      "loss": 0.5,
      "num_tokens": 637189047.0,
      "reward": 1.00537109375,
      "reward_std": 0.26809391379356384,
      "rewards/accuracy_reward/mean": 0.09677419066429138,
      "rewards/accuracy_reward/std": 0.2959485352039337,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91162109375,
      "rewards/tag_count_reward/std": 0.21587374806404114,
      "step": 958
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 997.845703125,
      "completions/mean_terminated_length": 868.87939453125,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.3273875565417769,
      "grad_norm": 6.338634014129639,
      "kl": 6.046875,
      "learning_rate": 8.659145592442727e-07,
      "loss": 0.4275,
      "num_tokens": 637772600.0,
      "reward": 1.02783203125,
      "reward_std": 0.2783639430999756,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.21456845104694366,
      "step": 959
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1860.0,
      "completions/mean_length": 924.716796875,
      "completions/mean_terminated_length": 857.2733154296875,
      "completions/min_length": 324.0,
      "completions/min_terminated_length": 324.0,
      "epoch": 0.3277289408551677,
      "grad_norm": 3.816645622253418,
      "kl": 3.859375,
      "learning_rate": 8.655324035058372e-07,
      "loss": 0.3263,
      "num_tokens": 638323175.0,
      "reward": 1.0966796875,
      "reward_std": 0.2696460485458374,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.17860238254070282,
      "step": 960
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1974.0,
      "completions/mean_length": 1026.986328125,
      "completions/mean_terminated_length": 904.1072387695312,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.3280703251685585,
      "grad_norm": 4.609213829040527,
      "kl": 6.3046875,
      "learning_rate": 8.651497995870145e-07,
      "loss": 0.4766,
      "num_tokens": 638927600.0,
      "reward": 1.0107421875,
      "reward_std": 0.26594099402427673,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.22075238823890686,
      "step": 961
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1978.0,
      "completions/mean_length": 1094.94921875,
      "completions/mean_terminated_length": 963.6400146484375,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.3284117094819493,
      "grad_norm": 9.875836372375488,
      "kl": 7.0703125,
      "learning_rate": 8.647667480312525e-07,
      "loss": 0.4788,
      "num_tokens": 639570486.0,
      "reward": 0.96435546875,
      "reward_std": 0.27260592579841614,
      "rewards/accuracy_reward/mean": 0.07056451588869095,
      "rewards/accuracy_reward/std": 0.25635460019111633,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89599609375,
      "rewards/tag_count_reward/std": 0.23418381810188293,
      "step": 962
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1790.0,
      "completions/mean_length": 988.181640625,
      "completions/mean_terminated_length": 915.1670532226562,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.3287530937953401,
      "grad_norm": 3.0637049674987793,
      "kl": 4.32421875,
      "learning_rate": 8.643832493826357e-07,
      "loss": 0.347,
      "num_tokens": 640159027.0,
      "reward": 1.0615234375,
      "reward_std": 0.26371705532073975,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310528099536896,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.16878816485404968,
      "step": 963
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1943.0,
      "completions/mean_length": 1015.404296875,
      "completions/mean_terminated_length": 911.034423828125,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.3290944781087309,
      "grad_norm": 4.8381876945495605,
      "kl": 5.14453125,
      "learning_rate": 8.639993041858832e-07,
      "loss": 0.3775,
      "num_tokens": 640756290.0,
      "reward": 1.03076171875,
      "reward_std": 0.272873193025589,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.20237624645233154,
      "step": 964
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1987.0,
      "completions/mean_length": 1043.025390625,
      "completions/mean_terminated_length": 934.2619018554688,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.3294358624221217,
      "grad_norm": 3.957658290863037,
      "kl": 5.42578125,
      "learning_rate": 8.636149129863484e-07,
      "loss": 0.3928,
      "num_tokens": 641368735.0,
      "reward": 0.97705078125,
      "reward_std": 0.20857132971286774,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.20321024954319,
      "step": 965
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1791.0,
      "completions/mean_length": 941.623046875,
      "completions/mean_terminated_length": 887.2109985351562,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.3297772467355125,
      "grad_norm": 3.6601791381835938,
      "kl": 3.296875,
      "learning_rate": 8.632300763300187e-07,
      "loss": 0.2518,
      "num_tokens": 641941166.0,
      "reward": 1.005859375,
      "reward_std": 0.21847085654735565,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.17105160653591156,
      "step": 966
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1951.0,
      "completions/mean_length": 937.015625,
      "completions/mean_terminated_length": 875.1670532226562,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.3301186310489033,
      "grad_norm": 5.90120267868042,
      "kl": 3.19140625,
      "learning_rate": 8.628447947635135e-07,
      "loss": 0.2521,
      "num_tokens": 642498966.0,
      "reward": 1.02587890625,
      "reward_std": 0.2575606107711792,
      "rewards/accuracy_reward/mean": 0.08870967477560043,
      "rewards/accuracy_reward/std": 0.284611314535141,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.1718478947877884,
      "step": 967
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1906.0,
      "completions/mean_length": 906.705078125,
      "completions/mean_terminated_length": 848.1170654296875,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.3304600153622941,
      "grad_norm": 7.9917731285095215,
      "kl": 3.01171875,
      "learning_rate": 8.624590688340846e-07,
      "loss": 0.2606,
      "num_tokens": 643037343.0,
      "reward": 1.06982421875,
      "reward_std": 0.24564072489738464,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.16628073155879974,
      "step": 968
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1962.0,
      "completions/mean_length": 863.822265625,
      "completions/mean_terminated_length": 815.6849365234375,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.3308013996756849,
      "grad_norm": 4.488840103149414,
      "kl": 4.3046875,
      "learning_rate": 8.62072899089615e-07,
      "loss": 0.3175,
      "num_tokens": 643554612.0,
      "reward": 1.0673828125,
      "reward_std": 0.26376453042030334,
      "rewards/accuracy_reward/mean": 0.1270161271095276,
      "rewards/accuracy_reward/std": 0.33332720398902893,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.16426658630371094,
      "step": 969
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1881.0,
      "completions/mean_length": 880.435546875,
      "completions/mean_terminated_length": 807.765625,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.3311427839890757,
      "grad_norm": 4.282420635223389,
      "kl": 4.484375,
      "learning_rate": 8.616862860786177e-07,
      "loss": 0.3145,
      "num_tokens": 644086739.0,
      "reward": 1.064453125,
      "reward_std": 0.24224328994750977,
      "rewards/accuracy_reward/mean": 0.1270161271095276,
      "rewards/accuracy_reward/std": 0.33332720398902893,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.17621363699436188,
      "step": 970
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1795.0,
      "completions/mean_length": 939.048828125,
      "completions/mean_terminated_length": 874.8945922851562,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.3314841683024665,
      "grad_norm": 3.5683434009552,
      "kl": 3.62890625,
      "learning_rate": 8.612992303502358e-07,
      "loss": 0.3157,
      "num_tokens": 644658684.0,
      "reward": 1.00439453125,
      "reward_std": 0.22754546999931335,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.16826865077018738,
      "step": 971
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1988.0,
      "completions/mean_length": 960.90625,
      "completions/mean_terminated_length": 895.6356201171875,
      "completions/min_length": 303.0,
      "completions/min_terminated_length": 303.0,
      "epoch": 0.3318255526158573,
      "grad_norm": 5.6443376541137695,
      "kl": 4.2578125,
      "learning_rate": 8.609117324542409e-07,
      "loss": 0.3348,
      "num_tokens": 645225724.0,
      "reward": 1.00390625,
      "reward_std": 0.26830559968948364,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.1972164362668991,
      "step": 972
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2010.0,
      "completions/mean_length": 1006.583984375,
      "completions/mean_terminated_length": 925.463134765625,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.3321669369292481,
      "grad_norm": 4.892645835876465,
      "kl": 5.0703125,
      "learning_rate": 8.605237929410326e-07,
      "loss": 0.375,
      "num_tokens": 645819335.0,
      "reward": 1.05712890625,
      "reward_std": 0.3197452425956726,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.19334039092063904,
      "step": 973
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1869.0,
      "completions/mean_length": 1016.626953125,
      "completions/mean_terminated_length": 924.461669921875,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.3325083212426389,
      "grad_norm": 3.3567278385162354,
      "kl": 5.4453125,
      "learning_rate": 8.601354123616382e-07,
      "loss": 0.4061,
      "num_tokens": 646423496.0,
      "reward": 0.97265625,
      "reward_std": 0.23431171476840973,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.2057807892560959,
      "step": 974
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1932.0,
      "completions/mean_length": 932.431640625,
      "completions/mean_terminated_length": 842.9978637695312,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.3328497055560297,
      "grad_norm": 4.575897216796875,
      "kl": 4.5390625,
      "learning_rate": 8.597465912677112e-07,
      "loss": 0.3606,
      "num_tokens": 646974485.0,
      "reward": 1.0439453125,
      "reward_std": 0.2848871350288391,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.20593629777431488,
      "step": 975
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 984.625,
      "completions/mean_terminated_length": 899.37548828125,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.3331910898694205,
      "grad_norm": 2.637932538986206,
      "kl": 5.04296875,
      "learning_rate": 8.593573302115306e-07,
      "loss": 0.3697,
      "num_tokens": 647559077.0,
      "reward": 1.05322265625,
      "reward_std": 0.3172381818294525,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90869140625,
      "rewards/tag_count_reward/std": 0.2106221467256546,
      "step": 976
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1006.21875,
      "completions/mean_terminated_length": 910.7036743164062,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.3335324741828113,
      "grad_norm": 2.652325391769409,
      "kl": 4.44921875,
      "learning_rate": 8.589676297460005e-07,
      "loss": 0.349,
      "num_tokens": 648146469.0,
      "reward": 1.07373046875,
      "reward_std": 0.30008286237716675,
      "rewards/accuracy_reward/mean": 0.166015625,
      "rewards/accuracy_reward/std": 0.3724585771560669,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.21077634394168854,
      "step": 977
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1918.0,
      "completions/mean_length": 958.44140625,
      "completions/mean_terminated_length": 824.635986328125,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.3338738584962021,
      "grad_norm": 3.1995010375976562,
      "kl": 5.953125,
      "learning_rate": 8.585774904246495e-07,
      "loss": 0.4727,
      "num_tokens": 648717335.0,
      "reward": 0.9658203125,
      "reward_std": 0.2517923414707184,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8955078125,
      "rewards/tag_count_reward/std": 0.2331804633140564,
      "step": 978
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1953.0,
      "completions/mean_length": 986.60546875,
      "completions/mean_terminated_length": 876.8060302734375,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.3342152428095929,
      "grad_norm": 7.902650356292725,
      "kl": 4.76171875,
      "learning_rate": 8.581869128016289e-07,
      "loss": 0.432,
      "num_tokens": 649293549.0,
      "reward": 1.03076171875,
      "reward_std": 0.24770037829875946,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.21874944865703583,
      "step": 979
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.103515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1027.525390625,
      "completions/mean_terminated_length": 909.6928100585938,
      "completions/min_length": 271.0,
      "completions/min_terminated_length": 271.0,
      "epoch": 0.3345566271229837,
      "grad_norm": 4.225567817687988,
      "kl": 5.3515625,
      "learning_rate": 8.577958974317131e-07,
      "loss": 0.4409,
      "num_tokens": 649891498.0,
      "reward": 0.96875,
      "reward_std": 0.2651587724685669,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.888671875,
      "rewards/tag_count_reward/std": 0.22892284393310547,
      "step": 980
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1992.0,
      "completions/mean_length": 977.28515625,
      "completions/mean_terminated_length": 858.8330078125,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.3348980114363745,
      "grad_norm": 2.766495704650879,
      "kl": 5.6796875,
      "learning_rate": 8.57404444870298e-07,
      "loss": 0.4678,
      "num_tokens": 650465948.0,
      "reward": 1.02880859375,
      "reward_std": 0.281044602394104,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.20397058129310608,
      "step": 981
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1993.0,
      "completions/mean_length": 966.51171875,
      "completions/mean_terminated_length": 817.5067138671875,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.3352393957497653,
      "grad_norm": 3.7221031188964844,
      "kl": 6.3671875,
      "learning_rate": 8.570125556734003e-07,
      "loss": 0.4943,
      "num_tokens": 651038546.0,
      "reward": 0.96923828125,
      "reward_std": 0.2601845860481262,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89111328125,
      "rewards/tag_count_reward/std": 0.22769182920455933,
      "step": 982
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.126953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1734.0,
      "completions/mean_length": 1004.232421875,
      "completions/mean_terminated_length": 852.4541625976562,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.3355807800631561,
      "grad_norm": 2.671978712081909,
      "kl": 6.5234375,
      "learning_rate": 8.566202303976576e-07,
      "loss": 0.5166,
      "num_tokens": 651639337.0,
      "reward": 1.01904296875,
      "reward_std": 0.3248867094516754,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89208984375,
      "rewards/tag_count_reward/std": 0.22654324769973755,
      "step": 983
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1925.0,
      "completions/mean_length": 942.626953125,
      "completions/mean_terminated_length": 828.2780151367188,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.3359221643765469,
      "grad_norm": 2.9651739597320557,
      "kl": 5.4453125,
      "learning_rate": 8.562274696003261e-07,
      "loss": 0.4581,
      "num_tokens": 652198922.0,
      "reward": 1.052734375,
      "reward_std": 0.2847357988357544,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91015625,
      "rewards/tag_count_reward/std": 0.21326914429664612,
      "step": 984
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1929.0,
      "completions/mean_length": 1007.3671875,
      "completions/mean_terminated_length": 869.2301025390625,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.3362635486899377,
      "grad_norm": 3.3883941173553467,
      "kl": 7.1015625,
      "learning_rate": 8.55834273839281e-07,
      "loss": 0.5504,
      "num_tokens": 652803526.0,
      "reward": 1.017578125,
      "reward_std": 0.32293081283569336,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.22270244359970093,
      "step": 985
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.16796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1948.0,
      "completions/mean_length": 1074.025390625,
      "completions/mean_terminated_length": 877.4014282226562,
      "completions/min_length": 311.0,
      "completions/min_terminated_length": 311.0,
      "epoch": 0.3366049330033285,
      "grad_norm": 9.992759704589844,
      "kl": 9.5,
      "learning_rate": 8.554406436730153e-07,
      "loss": 0.6645,
      "num_tokens": 653434643.0,
      "reward": 0.90771484375,
      "reward_std": 0.2561982274055481,
      "rewards/accuracy_reward/mean": 0.037109375,
      "rewards/accuracy_reward/std": 0.18921469151973724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87060546875,
      "rewards/tag_count_reward/std": 0.24326589703559875,
      "step": 986
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1768.0,
      "completions/mean_length": 1008.66015625,
      "completions/mean_terminated_length": 827.4907836914062,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.3369463173167193,
      "grad_norm": 9.924880981445312,
      "kl": 8.4453125,
      "learning_rate": 8.550465796606388e-07,
      "loss": 0.5947,
      "num_tokens": 654030501.0,
      "reward": 0.93017578125,
      "reward_std": 0.27210235595703125,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86376953125,
      "rewards/tag_count_reward/std": 0.24554912745952606,
      "step": 987
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.142578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1952.0,
      "completions/mean_length": 1061.1640625,
      "completions/mean_terminated_length": 897.0661010742188,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.33728770163011007,
      "grad_norm": 10.248553276062012,
      "kl": 8.3046875,
      "learning_rate": 8.546520823618782e-07,
      "loss": 0.606,
      "num_tokens": 654650617.0,
      "reward": 0.93505859375,
      "reward_std": 0.281981885433197,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88037109375,
      "rewards/tag_count_reward/std": 0.23139257729053497,
      "step": 988
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.134765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1908.0,
      "completions/mean_length": 1030.5703125,
      "completions/mean_terminated_length": 872.099365234375,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.3376290859435009,
      "grad_norm": 6.171142101287842,
      "kl": 6.890625,
      "learning_rate": 8.542571523370748e-07,
      "loss": 0.5115,
      "num_tokens": 655259789.0,
      "reward": 0.98046875,
      "reward_std": 0.28726279735565186,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88671875,
      "rewards/tag_count_reward/std": 0.22634544968605042,
      "step": 989
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.14453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1015.796875,
      "completions/mean_terminated_length": 841.4063720703125,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.3379704702568917,
      "grad_norm": 5.066564559936523,
      "kl": 7.21875,
      "learning_rate": 8.538617901471849e-07,
      "loss": 0.5477,
      "num_tokens": 655862069.0,
      "reward": 0.923828125,
      "reward_std": 0.27728980779647827,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.873046875,
      "rewards/tag_count_reward/std": 0.2502368688583374,
      "step": 990
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.14453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1895.0,
      "completions/mean_length": 1009.423828125,
      "completions/mean_terminated_length": 833.9566040039062,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.3383118545702825,
      "grad_norm": 5.284512996673584,
      "kl": 5.9296875,
      "learning_rate": 8.534659963537787e-07,
      "loss": 0.4955,
      "num_tokens": 656461598.0,
      "reward": 0.9677734375,
      "reward_std": 0.3076940178871155,
      "rewards/accuracy_reward/mean": 0.08467742055654526,
      "rewards/accuracy_reward/std": 0.278682142496109,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8857421875,
      "rewards/tag_count_reward/std": 0.22747193276882172,
      "step": 991
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1884.0,
      "completions/mean_length": 1027.67578125,
      "completions/mean_terminated_length": 907.3755493164062,
      "completions/min_length": 296.0,
      "completions/min_terminated_length": 296.0,
      "epoch": 0.33865323888367327,
      "grad_norm": 11.802164077758789,
      "kl": 4.40625,
      "learning_rate": 8.530697715190395e-07,
      "loss": 0.4052,
      "num_tokens": 657070072.0,
      "reward": 1.01953125,
      "reward_std": 0.2901967167854309,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.2178088128566742,
      "step": 992
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.13671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1994.0,
      "completions/mean_length": 991.197265625,
      "completions/mean_terminated_length": 823.830322265625,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.3389946231970641,
      "grad_norm": 3.6225745677948,
      "kl": 5.328125,
      "learning_rate": 8.526731162057626e-07,
      "loss": 0.4258,
      "num_tokens": 657655453.0,
      "reward": 0.9619140625,
      "reward_std": 0.26162561774253845,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8916015625,
      "rewards/tag_count_reward/std": 0.22819331288337708,
      "step": 993
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1841.0,
      "completions/mean_length": 976.755859375,
      "completions/mean_terminated_length": 823.7210083007812,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.3393360075104549,
      "grad_norm": 8.34616756439209,
      "kl": 4.796875,
      "learning_rate": 8.522760309773552e-07,
      "loss": 0.4165,
      "num_tokens": 658232096.0,
      "reward": 1.005859375,
      "reward_std": 0.27008605003356934,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.21555092930793762,
      "step": 994
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.138671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1821.0,
      "completions/mean_length": 980.962890625,
      "completions/mean_terminated_length": 809.17236328125,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.3396773918238457,
      "grad_norm": 7.350953578948975,
      "kl": 6.2109375,
      "learning_rate": 8.518785163978343e-07,
      "loss": 0.5384,
      "num_tokens": 658811165.0,
      "reward": 0.9541015625,
      "reward_std": 0.292828232049942,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8837890625,
      "rewards/tag_count_reward/std": 0.23806315660476685,
      "step": 995
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.123046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1983.0,
      "completions/mean_length": 999.31640625,
      "completions/mean_terminated_length": 852.1737670898438,
      "completions/min_length": 313.0,
      "completions/min_terminated_length": 313.0,
      "epoch": 0.34001877613723647,
      "grad_norm": 5.460068702697754,
      "kl": 6.1171875,
      "learning_rate": 8.514805730318278e-07,
      "loss": 0.5094,
      "num_tokens": 659397679.0,
      "reward": 1.00244140625,
      "reward_std": 0.3263393044471741,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89111328125,
      "rewards/tag_count_reward/std": 0.22115187346935272,
      "step": 996
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.181640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1936.0,
      "completions/mean_length": 1049.232421875,
      "completions/mean_terminated_length": 827.5489501953125,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "epoch": 0.3403601604506273,
      "grad_norm": 9.338483810424805,
      "kl": 9.53125,
      "learning_rate": 8.510822014445718e-07,
      "loss": 0.6749,
      "num_tokens": 660013606.0,
      "reward": 1.009765625,
      "reward_std": 0.39365410804748535,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84765625,
      "rewards/tag_count_reward/std": 0.26027679443359375,
      "step": 997
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.216796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1954.0,
      "completions/mean_length": 1081.2734375,
      "completions/mean_terminated_length": 813.6758422851562,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.3407015447640181,
      "grad_norm": 10.63330078125,
      "kl": 10.421875,
      "learning_rate": 8.506834022019114e-07,
      "loss": 0.7504,
      "num_tokens": 660647202.0,
      "reward": 0.92919921875,
      "reward_std": 0.3531253933906555,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82958984375,
      "rewards/tag_count_reward/std": 0.2711474895477295,
      "step": 998
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.21875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1913.0,
      "completions/mean_length": 1067.23828125,
      "completions/mean_terminated_length": 792.625,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.3410429290774089,
      "grad_norm": 25.351045608520508,
      "kl": 11.46875,
      "learning_rate": 8.502841758702982e-07,
      "loss": 0.798,
      "num_tokens": 661265628.0,
      "reward": 0.89697265625,
      "reward_std": 0.33137983083724976,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82666015625,
      "rewards/tag_count_reward/std": 0.2633094787597656,
      "step": 999
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1898.0,
      "completions/mean_length": 1023.267578125,
      "completions/mean_terminated_length": 780.6980590820312,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.34138431339079967,
      "grad_norm": 5.361663818359375,
      "kl": 9.765625,
      "learning_rate": 8.498845230167912e-07,
      "loss": 0.7402,
      "num_tokens": 661868485.0,
      "reward": 0.92041015625,
      "reward_std": 0.30022215843200684,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83447265625,
      "rewards/tag_count_reward/std": 0.2669280767440796,
      "step": 1000
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.197265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1990.0,
      "completions/mean_length": 1037.65625,
      "completions/mean_terminated_length": 789.3722534179688,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.3417256977041905,
      "grad_norm": 5.13283634185791,
      "kl": 9.1875,
      "learning_rate": 8.494844442090552e-07,
      "loss": 0.6795,
      "num_tokens": 662483989.0,
      "reward": 0.98681640625,
      "reward_std": 0.3550630807876587,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84619140625,
      "rewards/tag_count_reward/std": 0.25345006585121155,
      "step": 1001
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1668.0,
      "completions/mean_length": 1030.228515625,
      "completions/mean_terminated_length": 795.3582153320312,
      "completions/min_length": 285.0,
      "completions/min_terminated_length": 285.0,
      "epoch": 0.3420670820175813,
      "grad_norm": 6.057972431182861,
      "kl": 8.6484375,
      "learning_rate": 8.490839400153594e-07,
      "loss": 0.6274,
      "num_tokens": 663093386.0,
      "reward": 0.9345703125,
      "reward_std": 0.3002741038799286,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8388671875,
      "rewards/tag_count_reward/std": 0.2711919844150543,
      "step": 1002
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.193359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1961.0,
      "completions/mean_length": 1033.94140625,
      "completions/mean_terminated_length": 790.8619995117188,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.3424084663309721,
      "grad_norm": 4.031679153442383,
      "kl": 7.8125,
      "learning_rate": 8.486830110045779e-07,
      "loss": 0.6197,
      "num_tokens": 663702748.0,
      "reward": 0.875,
      "reward_std": 0.27105987071990967,
      "rewards/accuracy_reward/mean": 0.03515625,
      "rewards/accuracy_reward/std": 0.1843547374010086,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83984375,
      "rewards/tag_count_reward/std": 0.26447224617004395,
      "step": 1003
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 1053.92578125,
      "completions/mean_terminated_length": 836.1762084960938,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.3427498506443629,
      "grad_norm": 9.7712984085083,
      "kl": 7.7734375,
      "learning_rate": 8.482816577461879e-07,
      "loss": 0.665,
      "num_tokens": 664319206.0,
      "reward": 0.88427734375,
      "reward_std": 0.32227811217308044,
      "rewards/accuracy_reward/mean": 0.05443548411130905,
      "rewards/accuracy_reward/std": 0.227104052901268,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83154296875,
      "rewards/tag_count_reward/std": 0.26783937215805054,
      "step": 1004
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1980.0,
      "completions/mean_length": 952.447265625,
      "completions/mean_terminated_length": 773.1749877929688,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.3430912349577537,
      "grad_norm": 11.618585586547852,
      "kl": 5.796875,
      "learning_rate": 8.478798808102691e-07,
      "loss": 0.5098,
      "num_tokens": 664886891.0,
      "reward": 1.0322265625,
      "reward_std": 0.3323245048522949,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8642578125,
      "rewards/tag_count_reward/std": 0.2572469115257263,
      "step": 1005
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.146484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1948.0,
      "completions/mean_length": 1024.25,
      "completions/mean_terminated_length": 848.5491333007812,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.3434326192711445,
      "grad_norm": 8.186664581298828,
      "kl": 6.2734375,
      "learning_rate": 8.474776807675032e-07,
      "loss": 0.5432,
      "num_tokens": 665482571.0,
      "reward": 0.97998046875,
      "reward_std": 0.3762948513031006,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83935546875,
      "rewards/tag_count_reward/std": 0.26944708824157715,
      "step": 1006
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.177734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1065.953125,
      "completions/mean_terminated_length": 853.6817626953125,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.3437740035845353,
      "grad_norm": 4.170973300933838,
      "kl": 7.5,
      "learning_rate": 8.470750581891728e-07,
      "loss": 0.5832,
      "num_tokens": 666101827.0,
      "reward": 0.88916015625,
      "reward_std": 0.30262479186058044,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83251953125,
      "rewards/tag_count_reward/std": 0.2693619728088379,
      "step": 1007
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1936.0,
      "completions/mean_length": 1077.71484375,
      "completions/mean_terminated_length": 853.8029174804688,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.3441153878979261,
      "grad_norm": 3.9423916339874268,
      "kl": 8.9375,
      "learning_rate": 8.466720136471607e-07,
      "loss": 0.6858,
      "num_tokens": 666732769.0,
      "reward": 0.83984375,
      "reward_std": 0.3145557641983032,
      "rewards/accuracy_reward/mean": 0.025390625,
      "rewards/accuracy_reward/std": 0.15746226906776428,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.814453125,
      "rewards/tag_count_reward/std": 0.28281864523887634,
      "step": 1008
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.154296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 1053.103515625,
      "completions/mean_terminated_length": 871.5866088867188,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.3444567722113169,
      "grad_norm": 2.4373865127563477,
      "kl": 7.953125,
      "learning_rate": 8.462685477139489e-07,
      "loss": 0.6046,
      "num_tokens": 667358262.0,
      "reward": 0.87744140625,
      "reward_std": 0.31072795391082764,
      "rewards/accuracy_reward/mean": 0.05040322616696358,
      "rewards/accuracy_reward/std": 0.21899642050266266,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82861328125,
      "rewards/tag_count_reward/std": 0.2732292711734772,
      "step": 1009
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1855.0,
      "completions/mean_length": 954.486328125,
      "completions/mean_terminated_length": 763.8738403320312,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.3447981565247077,
      "grad_norm": 4.03355073928833,
      "kl": 7.8125,
      "learning_rate": 8.458646609626183e-07,
      "loss": 0.5967,
      "num_tokens": 667923071.0,
      "reward": 0.982421875,
      "reward_std": 0.33473697304725647,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.857421875,
      "rewards/tag_count_reward/std": 0.25254786014556885,
      "step": 1010
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.177734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1936.0,
      "completions/mean_length": 1047.126953125,
      "completions/mean_terminated_length": 830.7862548828125,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.3451395408380985,
      "grad_norm": 4.7540130615234375,
      "kl": 9.234375,
      "learning_rate": 8.45460353966847e-07,
      "loss": 0.6879,
      "num_tokens": 668534624.0,
      "reward": 0.8916015625,
      "reward_std": 0.3210606873035431,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8369140625,
      "rewards/tag_count_reward/std": 0.2640654742717743,
      "step": 1011
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1944.0,
      "completions/mean_length": 950.912109375,
      "completions/mean_terminated_length": 794.185302734375,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.3454809251514893,
      "grad_norm": 7.545724391937256,
      "kl": 7.21875,
      "learning_rate": 8.450556273009104e-07,
      "loss": 0.6112,
      "num_tokens": 669094979.0,
      "reward": 0.92578125,
      "reward_std": 0.2982676923274994,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.861328125,
      "rewards/tag_count_reward/std": 0.24790431559085846,
      "step": 1012
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.150390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1837.0,
      "completions/mean_length": 1024.267578125,
      "completions/mean_terminated_length": 843.05517578125,
      "completions/min_length": 309.0,
      "completions/min_terminated_length": 309.0,
      "epoch": 0.3458223094648801,
      "grad_norm": 4.24454927444458,
      "kl": 8.3359375,
      "learning_rate": 8.4465048153968e-07,
      "loss": 0.647,
      "num_tokens": 669701804.0,
      "reward": 0.9658203125,
      "reward_std": 0.3412587642669678,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8466796875,
      "rewards/tag_count_reward/std": 0.25781089067459106,
      "step": 1013
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1936.0,
      "completions/mean_length": 945.859375,
      "completions/mean_terminated_length": 794.0089111328125,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.3461636937782709,
      "grad_norm": 2.692584276199341,
      "kl": 7.4921875,
      "learning_rate": 8.442449172586224e-07,
      "loss": 0.5694,
      "num_tokens": 670256116.0,
      "reward": 1.0166015625,
      "reward_std": 0.34034305810928345,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8720703125,
      "rewards/tag_count_reward/std": 0.23614485561847687,
      "step": 1014
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.111328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1959.0,
      "completions/mean_length": 973.28515625,
      "completions/mean_terminated_length": 838.6505737304688,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.3465050780916617,
      "grad_norm": 6.587097644805908,
      "kl": 6.359375,
      "learning_rate": 8.438389350337988e-07,
      "loss": 0.5112,
      "num_tokens": 670830838.0,
      "reward": 0.87890625,
      "reward_std": 0.26306241750717163,
      "rewards/accuracy_reward/mean": 0.029296875,
      "rewards/accuracy_reward/std": 0.16880230605602264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.849609375,
      "rewards/tag_count_reward/std": 0.26696789264678955,
      "step": 1015
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1923.0,
      "completions/mean_length": 994.8515625,
      "completions/mean_terminated_length": 878.3427734375,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.3468464624050525,
      "grad_norm": 3.6660964488983154,
      "kl": 6.875,
      "learning_rate": 8.434325354418639e-07,
      "loss": 0.5185,
      "num_tokens": 671413386.0,
      "reward": 0.958984375,
      "reward_std": 0.3116724193096161,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8515625,
      "rewards/tag_count_reward/std": 0.2639225125312805,
      "step": 1016
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1940.0,
      "completions/mean_length": 942.5546875,
      "completions/mean_terminated_length": 812.2183837890625,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.34718784671844327,
      "grad_norm": 6.159041404724121,
      "kl": 7.140625,
      "learning_rate": 8.430257190600653e-07,
      "loss": 0.5789,
      "num_tokens": 671976614.0,
      "reward": 0.94970703125,
      "reward_std": 0.31130433082580566,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84814453125,
      "rewards/tag_count_reward/std": 0.26590588688850403,
      "step": 1017
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 971.140625,
      "completions/mean_terminated_length": 830.8873901367188,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.3475292310318341,
      "grad_norm": 3.7741825580596924,
      "kl": 8.0390625,
      "learning_rate": 8.426184864662426e-07,
      "loss": 0.5909,
      "num_tokens": 672557342.0,
      "reward": 0.93212890625,
      "reward_std": 0.29936298727989197,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86181640625,
      "rewards/tag_count_reward/std": 0.25087326765060425,
      "step": 1018
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 999.513671875,
      "completions/mean_terminated_length": 870.752197265625,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.3478706153452249,
      "grad_norm": 4.3473405838012695,
      "kl": 8.03125,
      "learning_rate": 8.422108382388268e-07,
      "loss": 0.5948,
      "num_tokens": 673140277.0,
      "reward": 0.87744140625,
      "reward_std": 0.2634720504283905,
      "rewards/accuracy_reward/mean": 0.0234375,
      "rewards/accuracy_reward/std": 0.15143637359142303,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85400390625,
      "rewards/tag_count_reward/std": 0.2527705132961273,
      "step": 1019
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1941.0,
      "completions/mean_length": 902.4375,
      "completions/mean_terminated_length": 775.7050170898438,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.3482119996586157,
      "grad_norm": 4.2296600341796875,
      "kl": 7.4921875,
      "learning_rate": 8.418027749568388e-07,
      "loss": 0.5768,
      "num_tokens": 673677285.0,
      "reward": 1.02734375,
      "reward_std": 0.34143146872520447,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.876953125,
      "rewards/tag_count_reward/std": 0.24229030311107635,
      "step": 1020
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 992.162109375,
      "completions/mean_terminated_length": 882.9375,
      "completions/min_length": 261.0,
      "completions/min_terminated_length": 261.0,
      "epoch": 0.34855338397200647,
      "grad_norm": 3.2296805381774902,
      "kl": 8.6953125,
      "learning_rate": 8.413942971998897e-07,
      "loss": 0.6213,
      "num_tokens": 674254360.0,
      "reward": 0.95849609375,
      "reward_std": 0.3326249122619629,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85107421875,
      "rewards/tag_count_reward/std": 0.2634146809577942,
      "step": 1021
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.119140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1026.865234375,
      "completions/mean_terminated_length": 888.7516479492188,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.3488947682853973,
      "grad_norm": 4.401437759399414,
      "kl": 8.5390625,
      "learning_rate": 8.409854055481784e-07,
      "loss": 0.5988,
      "num_tokens": 674852883.0,
      "reward": 0.916015625,
      "reward_std": 0.31277602910995483,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.841796875,
      "rewards/tag_count_reward/std": 0.2683957815170288,
      "step": 1022
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 928.533203125,
      "completions/mean_terminated_length": 838.786865234375,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.3492361525987881,
      "grad_norm": 2.7053239345550537,
      "kl": 7.140625,
      "learning_rate": 8.405761005824927e-07,
      "loss": 0.5257,
      "num_tokens": 675403604.0,
      "reward": 0.97216796875,
      "reward_std": 0.33417749404907227,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85888671875,
      "rewards/tag_count_reward/std": 0.25457483530044556,
      "step": 1023
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2005.0,
      "completions/mean_length": 936.703125,
      "completions/mean_terminated_length": 857.6568603515625,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.3495775369121789,
      "grad_norm": 3.5899410247802734,
      "kl": 7.125,
      "learning_rate": 8.401663828842066e-07,
      "loss": 0.4985,
      "num_tokens": 675948700.0,
      "reward": 1.01611328125,
      "reward_std": 0.3711642026901245,
      "rewards/accuracy_reward/mean": 0.14919355511665344,
      "rewards/accuracy_reward/std": 0.3566388487815857,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87158203125,
      "rewards/tag_count_reward/std": 0.24973182380199432,
      "step": 1024
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 943.154296875,
      "completions/mean_terminated_length": 871.9480590820312,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "epoch": 0.34991892122556967,
      "grad_norm": 2.5891060829162598,
      "kl": 6.71875,
      "learning_rate": 8.39756253035281e-07,
      "loss": 0.4837,
      "num_tokens": 676512299.0,
      "reward": 0.998046875,
      "reward_std": 0.3223692774772644,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.869140625,
      "rewards/tag_count_reward/std": 0.24821248650550842,
      "step": 1025
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1939.0,
      "completions/mean_length": 905.380859375,
      "completions/mean_terminated_length": 844.2530517578125,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.3502603055389605,
      "grad_norm": 8.612765312194824,
      "kl": 6.359375,
      "learning_rate": 8.393457116182619e-07,
      "loss": 0.4515,
      "num_tokens": 677051326.0,
      "reward": 0.9443359375,
      "reward_std": 0.28609099984169006,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8779296875,
      "rewards/tag_count_reward/std": 0.23923231661319733,
      "step": 1026
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1908.0,
      "completions/mean_length": 877.6328125,
      "completions/mean_terminated_length": 849.5440673828125,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.3506016898523513,
      "grad_norm": 4.508106708526611,
      "kl": 5.7890625,
      "learning_rate": 8.389347592162799e-07,
      "loss": 0.3741,
      "num_tokens": 677572402.0,
      "reward": 1.0361328125,
      "reward_std": 0.33224111795425415,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8759765625,
      "rewards/tag_count_reward/std": 0.2438058853149414,
      "step": 1027
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1770.0,
      "completions/mean_length": 882.857421875,
      "completions/mean_terminated_length": 828.05517578125,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.3509430741657421,
      "grad_norm": 4.022824287414551,
      "kl": 5.8515625,
      "learning_rate": 8.385233964130493e-07,
      "loss": 0.3832,
      "num_tokens": 678096601.0,
      "reward": 1.03564453125,
      "reward_std": 0.34572306275367737,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87158203125,
      "rewards/tag_count_reward/std": 0.24478521943092346,
      "step": 1028
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1957.0,
      "completions/mean_length": 897.05859375,
      "completions/mean_terminated_length": 867.0741577148438,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.35128445847913287,
      "grad_norm": 4.801035404205322,
      "kl": 4.69140625,
      "learning_rate": 8.381116237928677e-07,
      "loss": 0.3316,
      "num_tokens": 678629431.0,
      "reward": 0.970703125,
      "reward_std": 0.2831045091152191,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.890625,
      "rewards/tag_count_reward/std": 0.22986425459384918,
      "step": 1029
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1943.0,
      "completions/mean_length": 868.1484375,
      "completions/mean_terminated_length": 844.6454467773438,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.3516258427925237,
      "grad_norm": 5.5516228675842285,
      "kl": 4.25,
      "learning_rate": 8.376994419406141e-07,
      "loss": 0.331,
      "num_tokens": 679158307.0,
      "reward": 1.02783203125,
      "reward_std": 0.32698333263397217,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90283203125,
      "rewards/tag_count_reward/std": 0.2137787640094757,
      "step": 1030
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 847.8671875,
      "completions/mean_terminated_length": 816.6011962890625,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.3519672271059145,
      "grad_norm": 3.7457098960876465,
      "kl": 5.0859375,
      "learning_rate": 8.372868514417496e-07,
      "loss": 0.3782,
      "num_tokens": 679670591.0,
      "reward": 1.02099609375,
      "reward_std": 0.30011674761772156,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.2198561728000641,
      "step": 1031
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 855.859375,
      "completions/mean_terminated_length": 829.6846313476562,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.3523086114193053,
      "grad_norm": 3.989301919937134,
      "kl": 4.046875,
      "learning_rate": 8.368738528823152e-07,
      "loss": 0.2937,
      "num_tokens": 680184503.0,
      "reward": 0.9638671875,
      "reward_std": 0.2415887415409088,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.2075263112783432,
      "step": 1032
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1984.0,
      "completions/mean_length": 898.009765625,
      "completions/mean_terminated_length": 856.1072998046875,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.35264999573269606,
      "grad_norm": 4.103821754455566,
      "kl": 6.1328125,
      "learning_rate": 8.364604468489316e-07,
      "loss": 0.3888,
      "num_tokens": 680720220.0,
      "reward": 0.96923828125,
      "reward_std": 0.29523128271102905,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87939453125,
      "rewards/tag_count_reward/std": 0.23404096066951752,
      "step": 1033
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1959.0,
      "completions/mean_length": 852.36328125,
      "completions/mean_terminated_length": 808.797607421875,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.3529913800460869,
      "grad_norm": 4.786602020263672,
      "kl": 5.65625,
      "learning_rate": 8.360466339287985e-07,
      "loss": 0.39,
      "num_tokens": 681228182.0,
      "reward": 1.033203125,
      "reward_std": 0.31543678045272827,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.22379815578460693,
      "step": 1034
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 905.75390625,
      "completions/mean_terminated_length": 880.6746215820312,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.3533327643594777,
      "grad_norm": 44.86424255371094,
      "kl": 6.5859375,
      "learning_rate": 8.356324147096931e-07,
      "loss": 0.4118,
      "num_tokens": 681770456.0,
      "reward": 0.9501953125,
      "reward_std": 0.26379573345184326,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8916015625,
      "rewards/tag_count_reward/std": 0.22056184709072113,
      "step": 1035
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1800.0,
      "completions/mean_length": 899.765625,
      "completions/mean_terminated_length": 810.3241577148438,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.3536741486728685,
      "grad_norm": 11.403457641601562,
      "kl": 8.484375,
      "learning_rate": 8.352177897799701e-07,
      "loss": 0.5758,
      "num_tokens": 682312688.0,
      "reward": 0.9619140625,
      "reward_std": 0.31183531880378723,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8876953125,
      "rewards/tag_count_reward/std": 0.22412028908729553,
      "step": 1036
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 881.23828125,
      "completions/mean_terminated_length": 843.6007690429688,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.35401553298625926,
      "grad_norm": 3.574113368988037,
      "kl": 5.59375,
      "learning_rate": 8.348027597285601e-07,
      "loss": 0.3732,
      "num_tokens": 682838554.0,
      "reward": 0.931640625,
      "reward_std": 0.24733318388462067,
      "rewards/accuracy_reward/mean": 0.02734375,
      "rewards/accuracy_reward/std": 0.16324250400066376,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.904296875,
      "rewards/tag_count_reward/std": 0.2118576318025589,
      "step": 1037
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1973.0,
      "completions/mean_length": 991.48828125,
      "completions/mean_terminated_length": 937.2526245117188,
      "completions/min_length": 310.0,
      "completions/min_terminated_length": 310.0,
      "epoch": 0.3543569172996501,
      "grad_norm": 3.032055377960205,
      "kl": 6.01953125,
      "learning_rate": 8.343873251449699e-07,
      "loss": 0.4065,
      "num_tokens": 683417316.0,
      "reward": 0.93896484375,
      "reward_std": 0.2611902356147766,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.88037109375,
      "rewards/tag_count_reward/std": 0.2345426082611084,
      "step": 1038
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 871.505859375,
      "completions/mean_terminated_length": 852.8314208984375,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.3546983016130409,
      "grad_norm": 7.762738227844238,
      "kl": 4.37890625,
      "learning_rate": 8.3397148661928e-07,
      "loss": 0.2951,
      "num_tokens": 683936167.0,
      "reward": 1.0302734375,
      "reward_std": 0.2508530914783478,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.19272471964359283,
      "step": 1039
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1925.0,
      "completions/mean_length": 857.955078125,
      "completions/mean_terminated_length": 831.8263549804688,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.3550396859264317,
      "grad_norm": 1.9511668682098389,
      "kl": 3.5,
      "learning_rate": 8.33555244742145e-07,
      "loss": 0.2497,
      "num_tokens": 684448080.0,
      "reward": 1.06103515625,
      "reward_std": 0.2851088047027588,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17669491469860077,
      "step": 1040
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 834.376953125,
      "completions/mean_terminated_length": 795.227783203125,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.35538107023982246,
      "grad_norm": 4.643179893493652,
      "kl": 3.9765625,
      "learning_rate": 8.331386001047927e-07,
      "loss": 0.2798,
      "num_tokens": 684957745.0,
      "reward": 0.99267578125,
      "reward_std": 0.22653181850910187,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.19190676510334015,
      "step": 1041
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2001.0,
      "completions/mean_length": 863.89453125,
      "completions/mean_terminated_length": 820.7490234375,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.3557224545532133,
      "grad_norm": 4.2955851554870605,
      "kl": 3.6875,
      "learning_rate": 8.327215532990221e-07,
      "loss": 0.2524,
      "num_tokens": 685474347.0,
      "reward": 1.0654296875,
      "reward_std": 0.24000626802444458,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.19806493818759918,
      "step": 1042
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 958.12109375,
      "completions/mean_terminated_length": 929.7274780273438,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.3560638388666041,
      "grad_norm": 5.902117729187012,
      "kl": 3.48046875,
      "learning_rate": 8.323041049172048e-07,
      "loss": 0.246,
      "num_tokens": 686051625.0,
      "reward": 0.99560546875,
      "reward_std": 0.2779981195926666,
      "rewards/accuracy_reward/mean": 0.08266129344701767,
      "rewards/accuracy_reward/std": 0.2756475806236267,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.19800402224063873,
      "step": 1043
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 877.81640625,
      "completions/mean_terminated_length": 825.2775268554688,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.3564052231799949,
      "grad_norm": 3.5963375568389893,
      "kl": 4.328125,
      "learning_rate": 8.318862555522816e-07,
      "loss": 0.3361,
      "num_tokens": 686586779.0,
      "reward": 1.0322265625,
      "reward_std": 0.27012765407562256,
      "rewards/accuracy_reward/mean": 0.1088709682226181,
      "rewards/accuracy_reward/std": 0.31179171800613403,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.19028981029987335,
      "step": 1044
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1910.0,
      "completions/mean_length": 847.267578125,
      "completions/mean_terminated_length": 788.2151489257812,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.35674660749338566,
      "grad_norm": 2.5916624069213867,
      "kl": 5.203125,
      "learning_rate": 8.314680057977636e-07,
      "loss": 0.3781,
      "num_tokens": 687104324.0,
      "reward": 1.0283203125,
      "reward_std": 0.26283249258995056,
      "rewards/accuracy_reward/mean": 0.12298387289047241,
      "rewards/accuracy_reward/std": 0.32875028252601624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.20465165376663208,
      "step": 1045
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1971.0,
      "completions/mean_length": 870.857421875,
      "completions/mean_terminated_length": 812.9651489257812,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.3570879918067765,
      "grad_norm": 3.0527377128601074,
      "kl": 4.7890625,
      "learning_rate": 8.3104935624773e-07,
      "loss": 0.3495,
      "num_tokens": 687628155.0,
      "reward": 0.97705078125,
      "reward_std": 0.24015676975250244,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.1931772381067276,
      "step": 1046
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1987.0,
      "completions/mean_length": 851.97265625,
      "completions/mean_terminated_length": 774.8898315429688,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.3574293761201673,
      "grad_norm": 4.23346471786499,
      "kl": 6.6171875,
      "learning_rate": 8.306303074968283e-07,
      "loss": 0.4729,
      "num_tokens": 688145981.0,
      "reward": 1.009765625,
      "reward_std": 0.2975313663482666,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.19913546741008759,
      "step": 1047
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1883.0,
      "completions/mean_length": 828.525390625,
      "completions/mean_terminated_length": 747.2271118164062,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.3577707604335581,
      "grad_norm": 6.394073009490967,
      "kl": 8.0078125,
      "learning_rate": 8.302108601402731e-07,
      "loss": 0.5968,
      "num_tokens": 688654570.0,
      "reward": 1.021484375,
      "reward_std": 0.29417431354522705,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.21215508878231049,
      "step": 1048
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1788.0,
      "completions/mean_length": 855.265625,
      "completions/mean_terminated_length": 765.058837890625,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.35811214474694886,
      "grad_norm": 9.915416717529297,
      "kl": 7.2265625,
      "learning_rate": 8.297910147738446e-07,
      "loss": 0.4981,
      "num_tokens": 689173458.0,
      "reward": 1.06640625,
      "reward_std": 0.33647069334983826,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.2031732052564621,
      "step": 1049
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 867.998046875,
      "completions/mean_terminated_length": 770.7039794921875,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.35845352906033967,
      "grad_norm": 8.002907752990723,
      "kl": 7.453125,
      "learning_rate": 8.293707719938891e-07,
      "loss": 0.5166,
      "num_tokens": 689699649.0,
      "reward": 0.90625,
      "reward_std": 0.22413699328899384,
      "rewards/accuracy_reward/mean": 0.026209676638245583,
      "rewards/accuracy_reward/std": 0.1599196493625641,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.880859375,
      "rewards/tag_count_reward/std": 0.24121521413326263,
      "step": 1050
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1818.0,
      "completions/mean_length": 821.2109375,
      "completions/mean_terminated_length": 752.9154663085938,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.3587949133737305,
      "grad_norm": 2.6896049976348877,
      "kl": 4.71484375,
      "learning_rate": 8.289501323973167e-07,
      "loss": 0.3592,
      "num_tokens": 690194637.0,
      "reward": 1.06689453125,
      "reward_std": 0.2854136824607849,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.1905275583267212,
      "step": 1051
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 872.4296875,
      "completions/mean_terminated_length": 801.8468017578125,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.3591362976871213,
      "grad_norm": 7.166719436645508,
      "kl": 5.109375,
      "learning_rate": 8.285290965816016e-07,
      "loss": 0.4263,
      "num_tokens": 690714537.0,
      "reward": 0.9775390625,
      "reward_std": 0.23442703485488892,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.20515529811382294,
      "step": 1052
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1974.0,
      "completions/mean_length": 857.802734375,
      "completions/mean_terminated_length": 814.4352416992188,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "epoch": 0.35947768200051206,
      "grad_norm": 4.915225982666016,
      "kl": 3.65625,
      "learning_rate": 8.281076651447806e-07,
      "loss": 0.3051,
      "num_tokens": 691234372.0,
      "reward": 1.03271484375,
      "reward_std": 0.24316367506980896,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17433759570121765,
      "step": 1053
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1870.0,
      "completions/mean_length": 865.78515625,
      "completions/mean_terminated_length": 807.6433715820312,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.35981906631390287,
      "grad_norm": 4.675076961517334,
      "kl": 3.66796875,
      "learning_rate": 8.276858386854524e-07,
      "loss": 0.3293,
      "num_tokens": 691763558.0,
      "reward": 1.0087890625,
      "reward_std": 0.2334781140089035,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.1859828382730484,
      "step": 1054
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 853.79296875,
      "completions/mean_terminated_length": 795.0614013671875,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.3601604506272937,
      "grad_norm": 5.457221508026123,
      "kl": 3.8671875,
      "learning_rate": 8.272636178027768e-07,
      "loss": 0.3242,
      "num_tokens": 692275164.0,
      "reward": 1.04296875,
      "reward_std": 0.2660578191280365,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.19890500605106354,
      "step": 1055
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1808.0,
      "completions/mean_length": 901.771484375,
      "completions/mean_terminated_length": 804.6334838867188,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.3605018349406845,
      "grad_norm": 2.8035614490509033,
      "kl": 5.24609375,
      "learning_rate": 8.268410030964739e-07,
      "loss": 0.4161,
      "num_tokens": 692812135.0,
      "reward": 0.970703125,
      "reward_std": 0.25810378789901733,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91015625,
      "rewards/tag_count_reward/std": 0.21154166758060455,
      "step": 1056
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1939.0,
      "completions/mean_length": 863.29296875,
      "completions/mean_terminated_length": 760.1656494140625,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.36084321925407525,
      "grad_norm": 2.4918346405029297,
      "kl": 6.2421875,
      "learning_rate": 8.264179951668234e-07,
      "loss": 0.4906,
      "num_tokens": 693324685.0,
      "reward": 0.9990234375,
      "reward_std": 0.26943477988243103,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.2089213728904724,
      "step": 1057
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 910.142578125,
      "completions/mean_terminated_length": 813.7139892578125,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.36118460356746607,
      "grad_norm": 3.9498162269592285,
      "kl": 6.4765625,
      "learning_rate": 8.259945946146631e-07,
      "loss": 0.507,
      "num_tokens": 693870934.0,
      "reward": 0.98974609375,
      "reward_std": 0.28296419978141785,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90576171875,
      "rewards/tag_count_reward/std": 0.2139485478401184,
      "step": 1058
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1768.0,
      "completions/mean_length": 907.759765625,
      "completions/mean_terminated_length": 759.2516479492188,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.3615259878808569,
      "grad_norm": 6.595268249511719,
      "kl": 9.4609375,
      "learning_rate": 8.255708020413886e-07,
      "loss": 0.6893,
      "num_tokens": 694401995.0,
      "reward": 1.02099609375,
      "reward_std": 0.31800708174705505,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89013671875,
      "rewards/tag_count_reward/std": 0.2256007045507431,
      "step": 1059
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1722.0,
      "completions/mean_length": 884.287109375,
      "completions/mean_terminated_length": 747.080810546875,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.3618673721942477,
      "grad_norm": 7.928231239318848,
      "kl": 8.59375,
      "learning_rate": 8.251466180489526e-07,
      "loss": 0.6105,
      "num_tokens": 694929998.0,
      "reward": 0.98486328125,
      "reward_std": 0.2937811613082886,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89111328125,
      "rewards/tag_count_reward/std": 0.22225522994995117,
      "step": 1060
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1901.0,
      "completions/mean_length": 916.556640625,
      "completions/mean_terminated_length": 769.1942749023438,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.36220875650763845,
      "grad_norm": 8.651107788085938,
      "kl": 8.921875,
      "learning_rate": 8.247220432398635e-07,
      "loss": 0.6441,
      "num_tokens": 695490139.0,
      "reward": 0.9794921875,
      "reward_std": 0.3411746621131897,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8759765625,
      "rewards/tag_count_reward/std": 0.24630144238471985,
      "step": 1061
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.119140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 868.87109375,
      "completions/mean_terminated_length": 709.3880004882812,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.36255014082102927,
      "grad_norm": 4.257208824157715,
      "kl": 8.625,
      "learning_rate": 8.242970782171847e-07,
      "loss": 0.6578,
      "num_tokens": 696008793.0,
      "reward": 0.99365234375,
      "reward_std": 0.3104914128780365,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88623046875,
      "rewards/tag_count_reward/std": 0.23485609889030457,
      "step": 1062
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1557.0,
      "completions/mean_length": 762.447265625,
      "completions/mean_terminated_length": 653.5021362304688,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.3628915251344201,
      "grad_norm": 5.456188678741455,
      "kl": 6.375,
      "learning_rate": 8.238717235845342e-07,
      "loss": 0.4363,
      "num_tokens": 696467502.0,
      "reward": 1.044921875,
      "reward_std": 0.29651883244514465,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.20177629590034485,
      "step": 1063
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1694.0,
      "completions/mean_length": 852.046875,
      "completions/mean_terminated_length": 747.9406127929688,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.3632329094478109,
      "grad_norm": 3.4516074657440186,
      "kl": 5.38671875,
      "learning_rate": 8.234459799460834e-07,
      "loss": 0.4415,
      "num_tokens": 696983414.0,
      "reward": 0.9951171875,
      "reward_std": 0.28641411662101746,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8896484375,
      "rewards/tag_count_reward/std": 0.22454623878002167,
      "step": 1064
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1603.0,
      "completions/mean_length": 885.55859375,
      "completions/mean_terminated_length": 765.3060302734375,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.36357429376120165,
      "grad_norm": 5.238219738006592,
      "kl": 5.59765625,
      "learning_rate": 8.230198479065557e-07,
      "loss": 0.442,
      "num_tokens": 697510948.0,
      "reward": 0.95947265625,
      "reward_std": 0.31128498911857605,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88134765625,
      "rewards/tag_count_reward/std": 0.24472665786743164,
      "step": 1065
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1956.0,
      "completions/mean_length": 832.685546875,
      "completions/mean_terminated_length": 732.4799194335938,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.36391567807459246,
      "grad_norm": 7.5198163986206055,
      "kl": 5.1640625,
      "learning_rate": 8.22593328071227e-07,
      "loss": 0.4354,
      "num_tokens": 698008963.0,
      "reward": 1.0634765625,
      "reward_std": 0.3327295780181885,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9013671875,
      "rewards/tag_count_reward/std": 0.22834400832653046,
      "step": 1066
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1926.0,
      "completions/mean_length": 843.572265625,
      "completions/mean_terminated_length": 752.4811401367188,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.3642570623879833,
      "grad_norm": 9.311989784240723,
      "kl": 6.1640625,
      "learning_rate": 8.221664210459234e-07,
      "loss": 0.5214,
      "num_tokens": 698521080.0,
      "reward": 0.974609375,
      "reward_std": 0.2974643111228943,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.888671875,
      "rewards/tag_count_reward/std": 0.2331579178571701,
      "step": 1067
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1879.0,
      "completions/mean_length": 875.27734375,
      "completions/mean_terminated_length": 775.89404296875,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.3645984467013741,
      "grad_norm": 3.06099796295166,
      "kl": 6.734375,
      "learning_rate": 8.217391274370209e-07,
      "loss": 0.5081,
      "num_tokens": 699046118.0,
      "reward": 0.99462890625,
      "reward_std": 0.31980249285697937,
      "rewards/accuracy_reward/mean": 0.11290322244167328,
      "rewards/accuracy_reward/std": 0.3167939782142639,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88525390625,
      "rewards/tag_count_reward/std": 0.2343795895576477,
      "step": 1068
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1908.0,
      "completions/mean_length": 889.423828125,
      "completions/mean_terminated_length": 788.5711669921875,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.36493983101476485,
      "grad_norm": 3.763425350189209,
      "kl": 7.203125,
      "learning_rate": 8.213114478514453e-07,
      "loss": 0.5424,
      "num_tokens": 699582687.0,
      "reward": 0.91064453125,
      "reward_std": 0.2960495054721832,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86962890625,
      "rewards/tag_count_reward/std": 0.251162588596344,
      "step": 1069
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1761.0,
      "completions/mean_length": 812.064453125,
      "completions/mean_terminated_length": 712.98095703125,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.36528121532815566,
      "grad_norm": 3.755972146987915,
      "kl": 8.65625,
      "learning_rate": 8.208833828966698e-07,
      "loss": 0.6401,
      "num_tokens": 700076960.0,
      "reward": 0.9345703125,
      "reward_std": 0.3185652792453766,
      "rewards/accuracy_reward/mean": 0.06653226166963577,
      "rewards/accuracy_reward/std": 0.2494617998600006,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8701171875,
      "rewards/tag_count_reward/std": 0.25455841422080994,
      "step": 1070
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 931.380859375,
      "completions/mean_terminated_length": 760.3671264648438,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.3656225996415465,
      "grad_norm": 13.6011323928833,
      "kl": 11.875,
      "learning_rate": 8.204549331807157e-07,
      "loss": 0.8274,
      "num_tokens": 700638339.0,
      "reward": 0.93310546875,
      "reward_std": 0.3562435209751129,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83544921875,
      "rewards/tag_count_reward/std": 0.2760820984840393,
      "step": 1071
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1788.0,
      "completions/mean_length": 925.4140625,
      "completions/mean_terminated_length": 779.205322265625,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.3659639839549373,
      "grad_norm": 7.684846878051758,
      "kl": 11.171875,
      "learning_rate": 8.200260993121503e-07,
      "loss": 0.7788,
      "num_tokens": 701189879.0,
      "reward": 0.90087890625,
      "reward_std": 0.3302449882030487,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84033203125,
      "rewards/tag_count_reward/std": 0.2645368278026581,
      "step": 1072
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 823.134765625,
      "completions/mean_terminated_length": 699.3311767578125,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.36630536826832805,
      "grad_norm": 4.033299922943115,
      "kl": 7.6953125,
      "learning_rate": 8.195968819000867e-07,
      "loss": 0.5581,
      "num_tokens": 701692348.0,
      "reward": 0.99267578125,
      "reward_std": 0.32155275344848633,
      "rewards/accuracy_reward/mean": 0.1088709682226181,
      "rewards/accuracy_reward/std": 0.31179171800613403,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88720703125,
      "rewards/tag_count_reward/std": 0.23688167333602905,
      "step": 1073
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1925.0,
      "completions/mean_length": 912.025390625,
      "completions/mean_terminated_length": 743.9215698242188,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.36664675258171886,
      "grad_norm": 6.180331230163574,
      "kl": 10.46875,
      "learning_rate": 8.191672815541827e-07,
      "loss": 0.7542,
      "num_tokens": 702230473.0,
      "reward": 0.96044921875,
      "reward_std": 0.3685113489627838,
      "rewards/accuracy_reward/mean": 0.13306452333927155,
      "rewards/accuracy_reward/std": 0.3399873375892639,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83154296875,
      "rewards/tag_count_reward/std": 0.27946019172668457,
      "step": 1074
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1925.0,
      "completions/mean_length": 860.146484375,
      "completions/mean_terminated_length": 705.4370727539062,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.3669881368951097,
      "grad_norm": 4.411325454711914,
      "kl": 8.0859375,
      "learning_rate": 8.187372988846406e-07,
      "loss": 0.637,
      "num_tokens": 702747828.0,
      "reward": 0.93505859375,
      "reward_std": 0.34748780727386475,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84912109375,
      "rewards/tag_count_reward/std": 0.2705618739128113,
      "step": 1075
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.111328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 859.63671875,
      "completions/mean_terminated_length": 710.764892578125,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.3673295212085005,
      "grad_norm": 5.4574360847473145,
      "kl": 7.21875,
      "learning_rate": 8.183069345022047e-07,
      "loss": 0.5797,
      "num_tokens": 703266330.0,
      "reward": 0.96533203125,
      "reward_std": 0.36942243576049805,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84619140625,
      "rewards/tag_count_reward/std": 0.264778733253479,
      "step": 1076
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.154296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 911.302734375,
      "completions/mean_terminated_length": 703.91455078125,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.36767090552189124,
      "grad_norm": 11.526627540588379,
      "kl": 7.6328125,
      "learning_rate": 8.178761890181624e-07,
      "loss": 0.6923,
      "num_tokens": 703800421.0,
      "reward": 0.92431640625,
      "reward_std": 0.35974210500717163,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82080078125,
      "rewards/tag_count_reward/std": 0.28922587633132935,
      "step": 1077
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1885.0,
      "completions/mean_length": 911.83203125,
      "completions/mean_terminated_length": 755.2933349609375,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.36801228983528206,
      "grad_norm": 16.47621726989746,
      "kl": 6.8984375,
      "learning_rate": 8.174450630443423e-07,
      "loss": 0.6225,
      "num_tokens": 704334607.0,
      "reward": 0.8896484375,
      "reward_std": 0.32641637325286865,
      "rewards/accuracy_reward/mean": 0.04296875,
      "rewards/accuracy_reward/std": 0.2029850035905838,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8466796875,
      "rewards/tag_count_reward/std": 0.27167075872421265,
      "step": 1078
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.154296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1981.0,
      "completions/mean_length": 901.01953125,
      "completions/mean_terminated_length": 691.7551879882812,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.36835367414867287,
      "grad_norm": 6.549627304077148,
      "kl": 7.34375,
      "learning_rate": 8.170135571931125e-07,
      "loss": 0.6046,
      "num_tokens": 704879497.0,
      "reward": 0.9775390625,
      "reward_std": 0.35753077268600464,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8310546875,
      "rewards/tag_count_reward/std": 0.2806939482688904,
      "step": 1079
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.181640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 984.263671875,
      "completions/mean_terminated_length": 748.159912109375,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.3686950584620637,
      "grad_norm": 5.982292652130127,
      "kl": 8.5234375,
      "learning_rate": 8.165816720773819e-07,
      "loss": 0.6862,
      "num_tokens": 705465024.0,
      "reward": 0.90625,
      "reward_std": 0.3280293345451355,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.833984375,
      "rewards/tag_count_reward/std": 0.27542415261268616,
      "step": 1080
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.185546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1559.0,
      "completions/mean_length": 967.390625,
      "completions/mean_terminated_length": 721.2086791992188,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.36903644277545444,
      "grad_norm": 451.319091796875,
      "kl": 20.484375,
      "learning_rate": 8.161494083105976e-07,
      "loss": 1.1782,
      "num_tokens": 706037816.0,
      "reward": 0.8984375,
      "reward_std": 0.33728212118148804,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.837890625,
      "rewards/tag_count_reward/std": 0.2618798613548279,
      "step": 1081
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1837.0,
      "completions/mean_length": 978.1328125,
      "completions/mean_terminated_length": 724.8792114257812,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.36937782708884526,
      "grad_norm": 11.029499053955078,
      "kl": 11.375,
      "learning_rate": 8.157167665067446e-07,
      "loss": 0.8216,
      "num_tokens": 706609404.0,
      "reward": 0.88720703125,
      "reward_std": 0.3291788697242737,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83642578125,
      "rewards/tag_count_reward/std": 0.2667597830295563,
      "step": 1082
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.228515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1951.0,
      "completions/mean_length": 1037.57421875,
      "completions/mean_terminated_length": 738.2835693359375,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.36971921140223607,
      "grad_norm": 14.896235466003418,
      "kl": 12.5,
      "learning_rate": 8.152837472803445e-07,
      "loss": 0.8799,
      "num_tokens": 707219298.0,
      "reward": 0.88037109375,
      "reward_std": 0.31797248125076294,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81396484375,
      "rewards/tag_count_reward/std": 0.28184691071510315,
      "step": 1083
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.150390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1526.0,
      "completions/mean_length": 834.72265625,
      "completions/mean_terminated_length": 619.9586181640625,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.3700605957156269,
      "grad_norm": 6.166479110717773,
      "kl": 10.171875,
      "learning_rate": 8.148503512464555e-07,
      "loss": 0.7846,
      "num_tokens": 707718116.0,
      "reward": 1.01513671875,
      "reward_std": 0.36273396015167236,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88427734375,
      "rewards/tag_count_reward/std": 0.23337452113628387,
      "step": 1084
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.162109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1648.0,
      "completions/mean_length": 936.90234375,
      "completions/mean_terminated_length": 721.9347534179688,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.37040198002901764,
      "grad_norm": 4.932461738586426,
      "kl": 9.6640625,
      "learning_rate": 8.144165790206708e-07,
      "loss": 0.7423,
      "num_tokens": 708275874.0,
      "reward": 0.9462890625,
      "reward_std": 0.31739968061447144,
      "rewards/accuracy_reward/mean": 0.0833333358168602,
      "rewards/accuracy_reward/std": 0.2766737639904022,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8681640625,
      "rewards/tag_count_reward/std": 0.2457110583782196,
      "step": 1085
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1937.0,
      "completions/mean_length": 984.498046875,
      "completions/mean_terminated_length": 751.54052734375,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.37074336434240845,
      "grad_norm": 3.875244379043579,
      "kl": 9.125,
      "learning_rate": 8.139824312191178e-07,
      "loss": 0.6913,
      "num_tokens": 708858097.0,
      "reward": 0.91796875,
      "reward_std": 0.3075498342514038,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.857421875,
      "rewards/tag_count_reward/std": 0.25060316920280457,
      "step": 1086
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.134765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1763.0,
      "completions/mean_length": 929.806640625,
      "completions/mean_terminated_length": 755.64111328125,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.37108474865579927,
      "grad_norm": 7.4983720779418945,
      "kl": 7.28125,
      "learning_rate": 8.135479084584576e-07,
      "loss": 0.6093,
      "num_tokens": 709414302.0,
      "reward": 0.986328125,
      "reward_std": 0.2826131582260132,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.22104869782924652,
      "step": 1087
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.142578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1670.0,
      "completions/mean_length": 972.50390625,
      "completions/mean_terminated_length": 793.6629028320312,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.3714261329691901,
      "grad_norm": 7.247858047485352,
      "kl": 7.03125,
      "learning_rate": 8.131130113558837e-07,
      "loss": 0.5686,
      "num_tokens": 709987392.0,
      "reward": 0.9501953125,
      "reward_std": 0.3110334873199463,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8876953125,
      "rewards/tag_count_reward/std": 0.22575154900550842,
      "step": 1088
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.130859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1877.0,
      "completions/mean_length": 905.70703125,
      "completions/mean_terminated_length": 733.7213745117188,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.37176751728258084,
      "grad_norm": 4.76137638092041,
      "kl": 7.765625,
      "learning_rate": 8.126777405291217e-07,
      "loss": 0.6249,
      "num_tokens": 710527322.0,
      "reward": 0.97314453125,
      "reward_std": 0.27601850032806396,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89697265625,
      "rewards/tag_count_reward/std": 0.21953432261943817,
      "step": 1089
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.166015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1637.0,
      "completions/mean_length": 989.146484375,
      "completions/mean_terminated_length": 778.36767578125,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.37210890159597165,
      "grad_norm": 7.1717305183410645,
      "kl": 10.453125,
      "learning_rate": 8.122420965964274e-07,
      "loss": 0.7534,
      "num_tokens": 711108069.0,
      "reward": 1.00341796875,
      "reward_std": 0.34246936440467834,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85888671875,
      "rewards/tag_count_reward/std": 0.2540939450263977,
      "step": 1090
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.119140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1646.0,
      "completions/mean_length": 926.458984375,
      "completions/mean_terminated_length": 774.7649536132812,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "epoch": 0.37245028590936247,
      "grad_norm": 5.09678316116333,
      "kl": 7.7890625,
      "learning_rate": 8.11806080176587e-07,
      "loss": 0.5947,
      "num_tokens": 711663840.0,
      "reward": 0.9853515625,
      "reward_std": 0.2697702944278717,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9052734375,
      "rewards/tag_count_reward/std": 0.20105281472206116,
      "step": 1091
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 841.29296875,
      "completions/mean_terminated_length": 684.1280517578125,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.3727916702227533,
      "grad_norm": 6.808550834655762,
      "kl": 9.1484375,
      "learning_rate": 8.113696918889159e-07,
      "loss": 0.6749,
      "num_tokens": 712178438.0,
      "reward": 1.00927734375,
      "reward_std": 0.2739403545856476,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.21818961203098297,
      "step": 1092
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.123046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1799.0,
      "completions/mean_length": 913.9765625,
      "completions/mean_terminated_length": 754.8596801757812,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.37313305453614404,
      "grad_norm": 5.173513412475586,
      "kl": 8.1640625,
      "learning_rate": 8.109329323532572e-07,
      "loss": 0.581,
      "num_tokens": 712719818.0,
      "reward": 0.974609375,
      "reward_std": 0.2698734402656555,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.892578125,
      "rewards/tag_count_reward/std": 0.22269386053085327,
      "step": 1093
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 869.73046875,
      "completions/mean_terminated_length": 753.4205932617188,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.37347443884953485,
      "grad_norm": 4.9021124839782715,
      "kl": 5.953125,
      "learning_rate": 8.104958021899817e-07,
      "loss": 0.4568,
      "num_tokens": 713242608.0,
      "reward": 1.001953125,
      "reward_std": 0.2680632770061493,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.20718760788440704,
      "step": 1094
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1928.0,
      "completions/mean_length": 983.716796875,
      "completions/mean_terminated_length": 786.6273193359375,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.37381582316292566,
      "grad_norm": 3.8479092121124268,
      "kl": 9.3515625,
      "learning_rate": 8.100583020199867e-07,
      "loss": 0.6675,
      "num_tokens": 713824191.0,
      "reward": 0.95654296875,
      "reward_std": 0.3160579800605774,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87255859375,
      "rewards/tag_count_reward/std": 0.23666778206825256,
      "step": 1095
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1398.0,
      "completions/mean_length": 871.8359375,
      "completions/mean_terminated_length": 709.7866821289062,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.3741572074763165,
      "grad_norm": 10.697131156921387,
      "kl": 7.203125,
      "learning_rate": 8.096204324646946e-07,
      "loss": 0.5975,
      "num_tokens": 714348363.0,
      "reward": 0.95654296875,
      "reward_std": 0.285021036863327,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88818359375,
      "rewards/tag_count_reward/std": 0.23939752578735352,
      "step": 1096
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.11328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1933.0,
      "completions/mean_length": 903.138671875,
      "completions/mean_terminated_length": 756.8788452148438,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.37449859178970724,
      "grad_norm": 11.861581802368164,
      "kl": 6.46875,
      "learning_rate": 8.091821941460532e-07,
      "loss": 0.5427,
      "num_tokens": 714878242.0,
      "reward": 1.0185546875,
      "reward_std": 0.29605746269226074,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8857421875,
      "rewards/tag_count_reward/std": 0.23643602430820465,
      "step": 1097
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.16015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1975.0,
      "completions/mean_length": 993.1953125,
      "completions/mean_terminated_length": 792.0465087890625,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.37483997610309805,
      "grad_norm": 5.240716934204102,
      "kl": 8.90625,
      "learning_rate": 8.08743587686533e-07,
      "loss": 0.6579,
      "num_tokens": 715463606.0,
      "reward": 0.9208984375,
      "reward_std": 0.3361448645591736,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8408203125,
      "rewards/tag_count_reward/std": 0.2700904309749603,
      "step": 1098
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1874.0,
      "completions/mean_length": 910.236328125,
      "completions/mean_terminated_length": 753.477783203125,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.37518136041648886,
      "grad_norm": 3.259673833847046,
      "kl": 8.578125,
      "learning_rate": 8.083046137091285e-07,
      "loss": 0.6051,
      "num_tokens": 716011503.0,
      "reward": 0.91064453125,
      "reward_std": 0.30505913496017456,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85009765625,
      "rewards/tag_count_reward/std": 0.26425132155418396,
      "step": 1099
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.146484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1915.0,
      "completions/mean_length": 949.265625,
      "completions/mean_terminated_length": 760.6956176757812,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.3755227447298797,
      "grad_norm": 4.003683090209961,
      "kl": 9.96875,
      "learning_rate": 8.078652728373558e-07,
      "loss": 0.7118,
      "num_tokens": 716574839.0,
      "reward": 0.8876953125,
      "reward_std": 0.31696707010269165,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8349609375,
      "rewards/tag_count_reward/std": 0.276454359292984,
      "step": 1100
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.16796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1808.0,
      "completions/mean_length": 940.173828125,
      "completions/mean_terminated_length": 716.5281982421875,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.37586412904327043,
      "grad_norm": 5.373190879821777,
      "kl": 10.734375,
      "learning_rate": 8.07425565695252e-07,
      "loss": 0.737,
      "num_tokens": 717130768.0,
      "reward": 0.90576171875,
      "reward_std": 0.355996310710907,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29178470373153687,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81787109375,
      "rewards/tag_count_reward/std": 0.2924489378929138,
      "step": 1101
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.134765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1899.0,
      "completions/mean_length": 993.9921875,
      "completions/mean_terminated_length": 829.823974609375,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.37620551335666125,
      "grad_norm": 3.4670822620391846,
      "kl": 9.4609375,
      "learning_rate": 8.069854929073746e-07,
      "loss": 0.6363,
      "num_tokens": 717719788.0,
      "reward": 0.88720703125,
      "reward_std": 0.34606945514678955,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83056640625,
      "rewards/tag_count_reward/std": 0.28278782963752747,
      "step": 1102
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.103515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1966.0,
      "completions/mean_length": 839.98046875,
      "completions/mean_terminated_length": 700.4923706054688,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.37654689767005206,
      "grad_norm": 5.100794792175293,
      "kl": 10.140625,
      "learning_rate": 8.065450550988003e-07,
      "loss": 0.7634,
      "num_tokens": 718222626.0,
      "reward": 0.8857421875,
      "reward_std": 0.3373267650604248,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8212890625,
      "rewards/tag_count_reward/std": 0.28548699617385864,
      "step": 1103
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 865.447265625,
      "completions/mean_terminated_length": 748.714599609375,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.3768882819834429,
      "grad_norm": 7.350658416748047,
      "kl": 8.21875,
      "learning_rate": 8.061042528951246e-07,
      "loss": 0.6297,
      "num_tokens": 718745319.0,
      "reward": 0.86865234375,
      "reward_std": 0.3269660174846649,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82763671875,
      "rewards/tag_count_reward/std": 0.28746289014816284,
      "step": 1104
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1925.0,
      "completions/mean_length": 904.81640625,
      "completions/mean_terminated_length": 791.969970703125,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.3772296662968337,
      "grad_norm": 3.2291688919067383,
      "kl": 8.3671875,
      "learning_rate": 8.056630869224602e-07,
      "loss": 0.5834,
      "num_tokens": 719280105.0,
      "reward": 0.87939453125,
      "reward_std": 0.3762778639793396,
      "rewards/accuracy_reward/mean": 0.0786290317773819,
      "rewards/accuracy_reward/std": 0.26943066716194153,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.80322265625,
      "rewards/tag_count_reward/std": 0.2995828092098236,
      "step": 1105
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1900.0,
      "completions/mean_length": 865.216796875,
      "completions/mean_terminated_length": 748.4613647460938,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.37757105061022445,
      "grad_norm": 7.395659923553467,
      "kl": 7.5859375,
      "learning_rate": 8.052215578074369e-07,
      "loss": 0.5442,
      "num_tokens": 719793928.0,
      "reward": 0.890625,
      "reward_std": 0.3740348219871521,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8125,
      "rewards/tag_count_reward/std": 0.296753466129303,
      "step": 1106
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.095703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1988.0,
      "completions/mean_length": 961.396484375,
      "completions/mean_terminated_length": 846.3995361328125,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.37791243492361526,
      "grad_norm": 4.569037914276123,
      "kl": 7.8984375,
      "learning_rate": 8.047796661771999e-07,
      "loss": 0.5551,
      "num_tokens": 720374339.0,
      "reward": 0.84521484375,
      "reward_std": 0.32073554396629333,
      "rewards/accuracy_reward/mean": 0.029296875,
      "rewards/accuracy_reward/std": 0.16880230605602264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.81591796875,
      "rewards/tag_count_reward/std": 0.28312888741493225,
      "step": 1107
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.12109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 902.169921875,
      "completions/mean_terminated_length": 744.2999877929688,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.3782538192370061,
      "grad_norm": 6.202198028564453,
      "kl": 8.6484375,
      "learning_rate": 8.043374126594095e-07,
      "loss": 0.6576,
      "num_tokens": 720911402.0,
      "reward": 0.91650390625,
      "reward_std": 0.3903951644897461,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.80712890625,
      "rewards/tag_count_reward/std": 0.2914015054702759,
      "step": 1108
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 931.578125,
      "completions/mean_terminated_length": 687.0286254882812,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.3785952035503969,
      "grad_norm": 7.712705612182617,
      "kl": 11.3125,
      "learning_rate": 8.038947978822401e-07,
      "loss": 0.8177,
      "num_tokens": 721464274.0,
      "reward": 0.92041015625,
      "reward_std": 0.4082567095756531,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.79345703125,
      "rewards/tag_count_reward/std": 0.2962438762187958,
      "step": 1109
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.19921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1955.0,
      "completions/mean_length": 1026.70703125,
      "completions/mean_terminated_length": 772.6292724609375,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.37893658786378764,
      "grad_norm": 8.70825481414795,
      "kl": 11.125,
      "learning_rate": 8.034518224743791e-07,
      "loss": 0.7986,
      "num_tokens": 722070060.0,
      "reward": 0.85400390625,
      "reward_std": 0.36291998624801636,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.78564453125,
      "rewards/tag_count_reward/std": 0.29687538743019104,
      "step": 1110
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.24609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1817.0,
      "completions/mean_length": 1098.173828125,
      "completions/mean_terminated_length": 788.126953125,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.37927797217717846,
      "grad_norm": 5.598191738128662,
      "kl": 9.875,
      "learning_rate": 8.030084870650261e-07,
      "loss": 0.7457,
      "num_tokens": 722710117.0,
      "reward": 0.86572265625,
      "reward_std": 0.38635337352752686,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.77587890625,
      "rewards/tag_count_reward/std": 0.30518868565559387,
      "step": 1111
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.29296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1639.0,
      "completions/mean_length": 1046.9296875,
      "completions/mean_terminated_length": 632.12158203125,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.37961935649056927,
      "grad_norm": 10.496648788452148,
      "kl": 10.5,
      "learning_rate": 8.025647922838923e-07,
      "loss": 0.8676,
      "num_tokens": 723322417.0,
      "reward": 0.85791015625,
      "reward_std": 0.3202684223651886,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.77392578125,
      "rewards/tag_count_reward/std": 0.29433465003967285,
      "step": 1112
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.330078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1627.0,
      "completions/mean_length": 1136.703125,
      "completions/mean_terminated_length": 687.6968383789062,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.3799607408039601,
      "grad_norm": 5.600003719329834,
      "kl": 11.09375,
      "learning_rate": 8.021207387611991e-07,
      "loss": 0.8709,
      "num_tokens": 723981401.0,
      "reward": 0.85888671875,
      "reward_std": 0.3840753436088562,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.77099609375,
      "rewards/tag_count_reward/std": 0.29414305090904236,
      "step": 1113
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.380859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1939.0,
      "completions/mean_length": 1229.384765625,
      "completions/mean_terminated_length": 725.8201904296875,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.38030212511735084,
      "grad_norm": 10.896602630615234,
      "kl": 13.609375,
      "learning_rate": 8.016763271276776e-07,
      "loss": 0.9434,
      "num_tokens": 724678094.0,
      "reward": 0.828125,
      "reward_std": 0.40060293674468994,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.732421875,
      "rewards/tag_count_reward/std": 0.3083692193031311,
      "step": 1114
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.32421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1997.0,
      "completions/mean_length": 1124.087890625,
      "completions/mean_terminated_length": 680.8236694335938,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.38064350943074166,
      "grad_norm": 7.6408209800720215,
      "kl": 12.453125,
      "learning_rate": 8.012315580145675e-07,
      "loss": 0.9452,
      "num_tokens": 725330251.0,
      "reward": 0.82958984375,
      "reward_std": 0.3632813096046448,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.77099609375,
      "rewards/tag_count_reward/std": 0.2933102548122406,
      "step": 1115
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.322265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1887.0,
      "completions/mean_length": 1106.79296875,
      "completions/mean_terminated_length": 659.2449340820312,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.38098489374413247,
      "grad_norm": 11.412835121154785,
      "kl": 13.1875,
      "learning_rate": 8.00786432053616e-07,
      "loss": 1.0127,
      "num_tokens": 725971345.0,
      "reward": 0.81298828125,
      "reward_std": 0.31443271040916443,
      "rewards/accuracy_reward/mean": 0.037109375,
      "rewards/accuracy_reward/std": 0.18921469151973724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.77587890625,
      "rewards/tag_count_reward/std": 0.2945845425128937,
      "step": 1116
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.294921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1719.0,
      "completions/mean_length": 1110.19921875,
      "completions/mean_terminated_length": 717.9334716796875,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.3813262780575233,
      "grad_norm": 10.525016784667969,
      "kl": 13.125,
      "learning_rate": 8.003409498770777e-07,
      "loss": 0.9543,
      "num_tokens": 726627367.0,
      "reward": 0.82666015625,
      "reward_std": 0.33735811710357666,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.77587890625,
      "rewards/tag_count_reward/std": 0.2958274781703949,
      "step": 1117
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.26171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1848.0,
      "completions/mean_length": 1032.025390625,
      "completions/mean_terminated_length": 671.8650512695312,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.38166766237091404,
      "grad_norm": 12.7598876953125,
      "kl": 13.640625,
      "learning_rate": 7.998951121177129e-07,
      "loss": 0.9398,
      "num_tokens": 727228932.0,
      "reward": 0.8720703125,
      "reward_std": 0.37326380610466003,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.7919921875,
      "rewards/tag_count_reward/std": 0.295422226190567,
      "step": 1118
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.3203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 1146.90625,
      "completions/mean_terminated_length": 722.2528686523438,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.38200904668430485,
      "grad_norm": 14.74610710144043,
      "kl": 14.171875,
      "learning_rate": 7.994489194087868e-07,
      "loss": 0.9658,
      "num_tokens": 727890516.0,
      "reward": 0.814453125,
      "reward_std": 0.3475879430770874,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.767578125,
      "rewards/tag_count_reward/std": 0.3043770492076874,
      "step": 1119
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.232421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1715.0,
      "completions/mean_length": 993.740234375,
      "completions/mean_terminated_length": 674.511474609375,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.38235043099769567,
      "grad_norm": 17.21853256225586,
      "kl": 13.0,
      "learning_rate": 7.990023723840689e-07,
      "loss": 0.9065,
      "num_tokens": 728475791.0,
      "reward": 0.9208984375,
      "reward_std": 0.4287932515144348,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.7880859375,
      "rewards/tag_count_reward/std": 0.29842156171798706,
      "step": 1120
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.208984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1068.126953125,
      "completions/mean_terminated_length": 809.2469482421875,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.3826918153110865,
      "grad_norm": 10.721884727478027,
      "kl": 10.4375,
      "learning_rate": 7.985554716778323e-07,
      "loss": 0.7515,
      "num_tokens": 729104448.0,
      "reward": 0.88525390625,
      "reward_std": 0.3589593768119812,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.80517578125,
      "rewards/tag_count_reward/std": 0.28882914781570435,
      "step": 1121
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.16015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 980.689453125,
      "completions/mean_terminated_length": 777.1558227539062,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "epoch": 0.38303319962447724,
      "grad_norm": 9.72012996673584,
      "kl": 9.03125,
      "learning_rate": 7.981082179248519e-07,
      "loss": 0.6839,
      "num_tokens": 729677777.0,
      "reward": 0.92578125,
      "reward_std": 0.32583460211753845,
      "rewards/accuracy_reward/mean": 0.09879032522439957,
      "rewards/accuracy_reward/std": 0.2986815273761749,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.830078125,
      "rewards/tag_count_reward/std": 0.2721293866634369,
      "step": 1122
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.16015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1981.0,
      "completions/mean_length": 1065.802734375,
      "completions/mean_terminated_length": 878.5,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "epoch": 0.38337458393786805,
      "grad_norm": 13.961073875427246,
      "kl": 9.46875,
      "learning_rate": 7.976606117604041e-07,
      "loss": 0.6746,
      "num_tokens": 730302380.0,
      "reward": 0.83984375,
      "reward_std": 0.33539026975631714,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.787109375,
      "rewards/tag_count_reward/std": 0.289391428232193,
      "step": 1123
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1922.0,
      "completions/mean_length": 926.255859375,
      "completions/mean_terminated_length": 815.5257568359375,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.38371596825125887,
      "grad_norm": 13.550067901611328,
      "kl": 8.0546875,
      "learning_rate": 7.972126538202666e-07,
      "loss": 0.5458,
      "num_tokens": 730846799.0,
      "reward": 0.8974609375,
      "reward_std": 0.3296496868133545,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8251953125,
      "rewards/tag_count_reward/std": 0.2625703811645508,
      "step": 1124
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 904.8359375,
      "completions/mean_terminated_length": 848.6146850585938,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.3840573525646497,
      "grad_norm": 6.750629425048828,
      "kl": 6.359375,
      "learning_rate": 7.967643447407161e-07,
      "loss": 0.4912,
      "num_tokens": 731387659.0,
      "reward": 0.93994140625,
      "reward_std": 0.3083881139755249,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86181640625,
      "rewards/tag_count_reward/std": 0.24193856120109558,
      "step": 1125
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1997.0,
      "completions/mean_length": 923.091796875,
      "completions/mean_terminated_length": 867.7683715820312,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.38439873687804044,
      "grad_norm": 4.424609184265137,
      "kl": 5.0859375,
      "learning_rate": 7.963156851585279e-07,
      "loss": 0.3709,
      "num_tokens": 731929690.0,
      "reward": 0.95947265625,
      "reward_std": 0.2986663281917572,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.87158203125,
      "rewards/tag_count_reward/std": 0.23195762932300568,
      "step": 1126
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1999.0,
      "completions/mean_length": 959.375,
      "completions/mean_terminated_length": 926.5191040039062,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.38474012119143125,
      "grad_norm": 12.789087295532227,
      "kl": 3.37109375,
      "learning_rate": 7.958666757109757e-07,
      "loss": 0.2937,
      "num_tokens": 732502778.0,
      "reward": 1.0625,
      "reward_std": 0.279398113489151,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.900390625,
      "rewards/tag_count_reward/std": 0.20413975417613983,
      "step": 1127
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 947.91796875,
      "completions/mean_terminated_length": 914.7162475585938,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.38508150550482206,
      "grad_norm": 19.45659065246582,
      "kl": 3.0546875,
      "learning_rate": 7.954173170358298e-07,
      "loss": 0.2943,
      "num_tokens": 733064912.0,
      "reward": 0.97509765625,
      "reward_std": 0.2574610114097595,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90869140625,
      "rewards/tag_count_reward/std": 0.19928355515003204,
      "step": 1128
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 906.26953125,
      "completions/mean_terminated_length": 885.8409423828125,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.3854228898182129,
      "grad_norm": 4.332626819610596,
      "kl": 3.232421875,
      "learning_rate": 7.949676097713569e-07,
      "loss": 0.2374,
      "num_tokens": 733598058.0,
      "reward": 0.98046875,
      "reward_std": 0.22441324591636658,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.18112322688102722,
      "step": 1129
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 964.23828125,
      "completions/mean_terminated_length": 938.22802734375,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.38576427413160363,
      "grad_norm": 5.654244422912598,
      "kl": 2.9296875,
      "learning_rate": 7.945175545563182e-07,
      "loss": 0.2452,
      "num_tokens": 734179060.0,
      "reward": 1.03759765625,
      "reward_std": 0.2827211618423462,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.19104842841625214,
      "step": 1130
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 900.505859375,
      "completions/mean_terminated_length": 868.2469482421875,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.38610565844499445,
      "grad_norm": 9.697778701782227,
      "kl": 3.4921875,
      "learning_rate": 7.940671520299697e-07,
      "loss": 0.2896,
      "num_tokens": 734716343.0,
      "reward": 0.9912109375,
      "reward_std": 0.25344809889793396,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8994140625,
      "rewards/tag_count_reward/std": 0.19879689812660217,
      "step": 1131
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 849.005859375,
      "completions/mean_terminated_length": 829.9742431640625,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.38644704275838526,
      "grad_norm": 2.7983529567718506,
      "kl": 2.77734375,
      "learning_rate": 7.936164028320608e-07,
      "loss": 0.1988,
      "num_tokens": 735227178.0,
      "reward": 1.03955078125,
      "reward_std": 0.2647428810596466,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.16524890065193176,
      "step": 1132
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1867.0,
      "completions/mean_length": 892.388671875,
      "completions/mean_terminated_length": 862.2825927734375,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.3867884270717761,
      "grad_norm": 2.7676846981048584,
      "kl": 4.06640625,
      "learning_rate": 7.931653076028325e-07,
      "loss": 0.2835,
      "num_tokens": 735771009.0,
      "reward": 0.994140625,
      "reward_std": 0.2430516928434372,
      "rewards/accuracy_reward/mean": 0.08870967477560043,
      "rewards/accuracy_reward/std": 0.284611314535141,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.19936566054821014,
      "step": 1133
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 832.77734375,
      "completions/mean_terminated_length": 796.1005859375,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.38712981138516683,
      "grad_norm": 2.502657651901245,
      "kl": 3.6494140625,
      "learning_rate": 7.927138669830181e-07,
      "loss": 0.2675,
      "num_tokens": 736276799.0,
      "reward": 1.0517578125,
      "reward_std": 0.26048845052719116,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.19831565022468567,
      "step": 1134
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 892.1484375,
      "completions/mean_terminated_length": 857.2635498046875,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.38747119569855765,
      "grad_norm": 8.417322158813477,
      "kl": 4.125,
      "learning_rate": 7.922620816138412e-07,
      "loss": 0.3387,
      "num_tokens": 736818235.0,
      "reward": 1.0068359375,
      "reward_std": 0.2449808418750763,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.19920024275779724,
      "step": 1135
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1960.0,
      "completions/mean_length": 958.462890625,
      "completions/mean_terminated_length": 897.8082885742188,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.38781258001194846,
      "grad_norm": 4.6951212882995605,
      "kl": 6.53125,
      "learning_rate": 7.918099521370152e-07,
      "loss": 0.447,
      "num_tokens": 737392520.0,
      "reward": 0.958984375,
      "reward_std": 0.3053321838378906,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88671875,
      "rewards/tag_count_reward/std": 0.23221340775489807,
      "step": 1136
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 807.927734375,
      "completions/mean_terminated_length": 767.9253540039062,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.3881539643253393,
      "grad_norm": 4.111581325531006,
      "kl": 4.2578125,
      "learning_rate": 7.913574791947421e-07,
      "loss": 0.3014,
      "num_tokens": 737886003.0,
      "reward": 1.08740234375,
      "reward_std": 0.26663076877593994,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.17428277432918549,
      "step": 1137
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1815.0,
      "completions/mean_length": 896.119140625,
      "completions/mean_terminated_length": 854.1477661132812,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.38849534863873003,
      "grad_norm": 4.895603179931641,
      "kl": 5.9921875,
      "learning_rate": 7.909046634297119e-07,
      "loss": 0.3927,
      "num_tokens": 738420752.0,
      "reward": 1.03125,
      "reward_std": 0.3058784008026123,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.22049468755722046,
      "step": 1138
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 865.619140625,
      "completions/mean_terminated_length": 810.006103515625,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.38883673295212084,
      "grad_norm": 6.48944091796875,
      "kl": 7.0625,
      "learning_rate": 7.904515054851012e-07,
      "loss": 0.4694,
      "num_tokens": 738934493.0,
      "reward": 0.97705078125,
      "reward_std": 0.2511303722858429,
      "rewards/accuracy_reward/mean": 0.060483869165182114,
      "rewards/accuracy_reward/std": 0.2386218160390854,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.19613726437091827,
      "step": 1139
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1992.0,
      "completions/mean_length": 813.705078125,
      "completions/mean_terminated_length": 753.0020141601562,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.38917811726551166,
      "grad_norm": 9.830772399902344,
      "kl": 7.9765625,
      "learning_rate": 7.899980060045732e-07,
      "loss": 0.5002,
      "num_tokens": 739429046.0,
      "reward": 0.98583984375,
      "reward_std": 0.30532723665237427,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.89599609375,
      "rewards/tag_count_reward/std": 0.2223970592021942,
      "step": 1140
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 819.876953125,
      "completions/mean_terminated_length": 762.1124267578125,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.38951950157890247,
      "grad_norm": 2.7417662143707275,
      "kl": 6.7890625,
      "learning_rate": 7.895441656322757e-07,
      "loss": 0.4905,
      "num_tokens": 739924711.0,
      "reward": 0.974609375,
      "reward_std": 0.25067970156669617,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.20675364136695862,
      "step": 1141
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1878.0,
      "completions/mean_length": 830.083984375,
      "completions/mean_terminated_length": 759.6259765625,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.38986088589229323,
      "grad_norm": 3.4753756523132324,
      "kl": 7.1640625,
      "learning_rate": 7.890899850128413e-07,
      "loss": 0.4958,
      "num_tokens": 740421330.0,
      "reward": 0.9931640625,
      "reward_std": 0.3027256727218628,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8974609375,
      "rewards/tag_count_reward/std": 0.22444407641887665,
      "step": 1142
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 828.74609375,
      "completions/mean_terminated_length": 771.3987426757812,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.39020227020568404,
      "grad_norm": 2.9461019039154053,
      "kl": 6.2421875,
      "learning_rate": 7.886354647913851e-07,
      "loss": 0.4587,
      "num_tokens": 740928496.0,
      "reward": 1.07275390625,
      "reward_std": 0.3490486145019531,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.21004973351955414,
      "step": 1143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1995.0,
      "completions/mean_length": 842.294921875,
      "completions/mean_terminated_length": 805.9053955078125,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.39054365451907486,
      "grad_norm": 2.8186049461364746,
      "kl": 6.10546875,
      "learning_rate": 7.881806056135051e-07,
      "loss": 0.4085,
      "num_tokens": 741449127.0,
      "reward": 0.998046875,
      "reward_std": 0.29522985219955444,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89453125,
      "rewards/tag_count_reward/std": 0.22849668562412262,
      "step": 1144
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1838.0,
      "completions/mean_length": 815.560546875,
      "completions/mean_terminated_length": 770.6538696289062,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.39088503883246567,
      "grad_norm": 3.4153337478637695,
      "kl": 5.669921875,
      "learning_rate": 7.877254081252808e-07,
      "loss": 0.3893,
      "num_tokens": 741945014.0,
      "reward": 0.94677734375,
      "reward_std": 0.25482845306396484,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.89990234375,
      "rewards/tag_count_reward/std": 0.21922071278095245,
      "step": 1145
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 850.115234375,
      "completions/mean_terminated_length": 786.0308227539062,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.39122642314585643,
      "grad_norm": 4.803462505340576,
      "kl": 6.1484375,
      "learning_rate": 7.872698729732716e-07,
      "loss": 0.4316,
      "num_tokens": 742462689.0,
      "reward": 0.990234375,
      "reward_std": 0.33957648277282715,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.875,
      "rewards/tag_count_reward/std": 0.2392502874135971,
      "step": 1146
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 799.23828125,
      "completions/mean_terminated_length": 745.8289794921875,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.39156780745924724,
      "grad_norm": 3.566377878189087,
      "kl": 5.38671875,
      "learning_rate": 7.868140008045176e-07,
      "loss": 0.3758,
      "num_tokens": 742944075.0,
      "reward": 0.98046875,
      "reward_std": 0.27180248498916626,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.21555092930793762,
      "step": 1147
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 830.49609375,
      "completions/mean_terminated_length": 773.2310791015625,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.39190919177263805,
      "grad_norm": 4.79673957824707,
      "kl": 5.58203125,
      "learning_rate": 7.863577922665367e-07,
      "loss": 0.4081,
      "num_tokens": 743449129.0,
      "reward": 0.99365234375,
      "reward_std": 0.2952072024345398,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89404296875,
      "rewards/tag_count_reward/std": 0.22202295064926147,
      "step": 1148
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1975.0,
      "completions/mean_length": 848.419921875,
      "completions/mean_terminated_length": 763.0941162109375,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.39225057608602887,
      "grad_norm": 3.0114455223083496,
      "kl": 6.0859375,
      "learning_rate": 7.859012480073244e-07,
      "loss": 0.4538,
      "num_tokens": 743960912.0,
      "reward": 1.07275390625,
      "reward_std": 0.3607943654060364,
      "rewards/accuracy_reward/mean": 0.19140625,
      "rewards/accuracy_reward/std": 0.3937928080558777,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88134765625,
      "rewards/tag_count_reward/std": 0.24018652737140656,
      "step": 1149
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2009.0,
      "completions/mean_length": 798.615234375,
      "completions/mean_terminated_length": 720.8527221679688,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.3925919603994196,
      "grad_norm": 3.434847116470337,
      "kl": 7.3984375,
      "learning_rate": 7.854443686753542e-07,
      "loss": 0.5611,
      "num_tokens": 744442699.0,
      "reward": 0.984375,
      "reward_std": 0.31129807233810425,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.8828125,
      "rewards/tag_count_reward/std": 0.2318510115146637,
      "step": 1150
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 840.9296875,
      "completions/mean_terminated_length": 765.8008422851562,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.39293334471281044,
      "grad_norm": 6.170082092285156,
      "kl": 8.3984375,
      "learning_rate": 7.849871549195745e-07,
      "loss": 0.5741,
      "num_tokens": 744944743.0,
      "reward": 0.96240234375,
      "reward_std": 0.33735060691833496,
      "rewards/accuracy_reward/mean": 0.0927419364452362,
      "rewards/accuracy_reward/std": 0.2903633117675781,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87255859375,
      "rewards/tag_count_reward/std": 0.23666778206825256,
      "step": 1151
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1906.0,
      "completions/mean_length": 823.556640625,
      "completions/mean_terminated_length": 744.6423950195312,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.39327472902620125,
      "grad_norm": 4.138432025909424,
      "kl": 7.7734375,
      "learning_rate": 7.845296073894092e-07,
      "loss": 0.5468,
      "num_tokens": 745449860.0,
      "reward": 0.95068359375,
      "reward_std": 0.31819164752960205,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88037109375,
      "rewards/tag_count_reward/std": 0.238677978515625,
      "step": 1152
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 853.947265625,
      "completions/mean_terminated_length": 733.258056640625,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.39361611333959207,
      "grad_norm": 4.664544105529785,
      "kl": 9.0703125,
      "learning_rate": 7.840717267347559e-07,
      "loss": 0.6875,
      "num_tokens": 745969577.0,
      "reward": 0.97216796875,
      "reward_std": 0.28539618849754333,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88427734375,
      "rewards/tag_count_reward/std": 0.22591814398765564,
      "step": 1153
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1849.0,
      "completions/mean_length": 882.53125,
      "completions/mean_terminated_length": 745.117919921875,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.3939574976529828,
      "grad_norm": 13.123332977294922,
      "kl": 11.046875,
      "learning_rate": 7.836135136059859e-07,
      "loss": 0.6956,
      "num_tokens": 746489721.0,
      "reward": 0.8935546875,
      "reward_std": 0.2952483296394348,
      "rewards/accuracy_reward/mean": 0.05040322616696358,
      "rewards/accuracy_reward/std": 0.21899643540382385,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8447265625,
      "rewards/tag_count_reward/std": 0.2618269622325897,
      "step": 1154
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.119140625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1968.0,
      "completions/mean_length": 862.625,
      "completions/mean_terminated_length": 702.297119140625,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.39429888196637364,
      "grad_norm": 11.421345710754395,
      "kl": 10.390625,
      "learning_rate": 7.831549686539424e-07,
      "loss": 0.6812,
      "num_tokens": 747007449.0,
      "reward": 0.95458984375,
      "reward_std": 0.32081472873687744,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86279296875,
      "rewards/tag_count_reward/std": 0.24500371515750885,
      "step": 1155
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 920.2890625,
      "completions/mean_terminated_length": 711.4537353515625,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.39464026627976445,
      "grad_norm": 11.931161880493164,
      "kl": 10.015625,
      "learning_rate": 7.826960925299398e-07,
      "loss": 0.645,
      "num_tokens": 747559213.0,
      "reward": 0.90087890625,
      "reward_std": 0.27657467126846313,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85400390625,
      "rewards/tag_count_reward/std": 0.2537364363670349,
      "step": 1156
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.154296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1851.0,
      "completions/mean_length": 903.94140625,
      "completions/mean_terminated_length": 695.2101440429688,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.39498165059315526,
      "grad_norm": 9.49743938446045,
      "kl": 8.96875,
      "learning_rate": 7.822368858857632e-07,
      "loss": 0.7157,
      "num_tokens": 748108319.0,
      "reward": 0.94580078125,
      "reward_std": 0.29803571105003357,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86962890625,
      "rewards/tag_count_reward/std": 0.24223853647708893,
      "step": 1157
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1914.0,
      "completions/mean_length": 964.943359375,
      "completions/mean_terminated_length": 688.8701171875,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.395323034906546,
      "grad_norm": 5.749622821807861,
      "kl": 10.859375,
      "learning_rate": 7.817773493736669e-07,
      "loss": 0.844,
      "num_tokens": 748677810.0,
      "reward": 0.8759765625,
      "reward_std": 0.2987990379333496,
      "rewards/accuracy_reward/mean": 0.033203125,
      "rewards/accuracy_reward/std": 0.17934183776378632,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.8408203125,
      "rewards/tag_count_reward/std": 0.2613447606563568,
      "step": 1158
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.173828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1817.0,
      "completions/mean_length": 893.068359375,
      "completions/mean_terminated_length": 650.0685424804688,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.39566441921993684,
      "grad_norm": 5.397251129150391,
      "kl": 9.8671875,
      "learning_rate": 7.813174836463741e-07,
      "loss": 0.7496,
      "num_tokens": 749208293.0,
      "reward": 0.93603515625,
      "reward_std": 0.33763402700424194,
      "rewards/accuracy_reward/mean": 0.08870967477560043,
      "rewards/accuracy_reward/std": 0.284611314535141,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85009765625,
      "rewards/tag_count_reward/std": 0.2557843327522278,
      "step": 1159
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.130859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 920.4296875,
      "completions/mean_terminated_length": 750.6607055664062,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.39600580353332765,
      "grad_norm": 3.3826115131378174,
      "kl": 9.46875,
      "learning_rate": 7.808572893570753e-07,
      "loss": 0.6948,
      "num_tokens": 749763073.0,
      "reward": 0.89892578125,
      "reward_std": 0.31057924032211304,
      "rewards/accuracy_reward/mean": 0.060483869165182114,
      "rewards/accuracy_reward/std": 0.23862183094024658,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84033203125,
      "rewards/tag_count_reward/std": 0.2612803280353546,
      "step": 1160
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.11328125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1894.0,
      "completions/mean_length": 848.728515625,
      "completions/mean_terminated_length": 695.517578125,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.39634718784671846,
      "grad_norm": 3.58677077293396,
      "kl": 9.765625,
      "learning_rate": 7.803967671594277e-07,
      "loss": 0.6828,
      "num_tokens": 750269638.0,
      "reward": 0.96826171875,
      "reward_std": 0.3027687966823578,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87841796875,
      "rewards/tag_count_reward/std": 0.24227403104305267,
      "step": 1161
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2001.0,
      "completions/mean_length": 853.681640625,
      "completions/mean_terminated_length": 771.40087890625,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.3966885721601092,
      "grad_norm": 4.255846977233887,
      "kl": 6.8125,
      "learning_rate": 7.799359177075546e-07,
      "loss": 0.4712,
      "num_tokens": 750788819.0,
      "reward": 0.99609375,
      "reward_std": 0.305789053440094,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.892578125,
      "rewards/tag_count_reward/std": 0.22596518695354462,
      "step": 1162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1938.0,
      "completions/mean_length": 838.93359375,
      "completions/mean_terminated_length": 797.41015625,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.39702995647350003,
      "grad_norm": 3.7747159004211426,
      "kl": 5.8359375,
      "learning_rate": 7.794747416560436e-07,
      "loss": 0.3883,
      "num_tokens": 751293873.0,
      "reward": 1.0263671875,
      "reward_std": 0.3258141875267029,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8916015625,
      "rewards/tag_count_reward/std": 0.2297956496477127,
      "step": 1163
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 758.884765625,
      "completions/mean_terminated_length": 725.3005981445312,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.39737134078689085,
      "grad_norm": 2.5672216415405273,
      "kl": 5.734375,
      "learning_rate": 7.790132396599467e-07,
      "loss": 0.3718,
      "num_tokens": 751759910.0,
      "reward": 1.0029296875,
      "reward_std": 0.28681328892707825,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.193694069981575,
      "step": 1164
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1870.0,
      "completions/mean_length": 788.259765625,
      "completions/mean_terminated_length": 720.8662109375,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.39771272510028166,
      "grad_norm": 3.756817102432251,
      "kl": 6.8125,
      "learning_rate": 7.785514123747784e-07,
      "loss": 0.4482,
      "num_tokens": 752232395.0,
      "reward": 0.9619140625,
      "reward_std": 0.26857221126556396,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8974609375,
      "rewards/tag_count_reward/std": 0.2260729968547821,
      "step": 1165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1778.0,
      "completions/mean_length": 814.90234375,
      "completions/mean_terminated_length": 777.6860961914062,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.3980541094136724,
      "grad_norm": 2.185098886489868,
      "kl": 6.49609375,
      "learning_rate": 7.780892604565158e-07,
      "loss": 0.3951,
      "num_tokens": 752725513.0,
      "reward": 0.94482421875,
      "reward_std": 0.31639647483825684,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88232421875,
      "rewards/tag_count_reward/std": 0.24519863724708557,
      "step": 1166
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 831.220703125,
      "completions/mean_terminated_length": 776.5897827148438,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.39839549372706323,
      "grad_norm": 2.6802446842193604,
      "kl": 6.46875,
      "learning_rate": 7.776267845615964e-07,
      "loss": 0.4411,
      "num_tokens": 753229066.0,
      "reward": 0.96044921875,
      "reward_std": 0.2605874836444855,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88037109375,
      "rewards/tag_count_reward/std": 0.23918987810611725,
      "step": 1167
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1911.0,
      "completions/mean_length": 800.5234375,
      "completions/mean_terminated_length": 775.67333984375,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.39873687804045405,
      "grad_norm": 4.530117988586426,
      "kl": 4.24609375,
      "learning_rate": 7.771639853469186e-07,
      "loss": 0.2849,
      "num_tokens": 753713654.0,
      "reward": 1.02880859375,
      "reward_std": 0.28204211592674255,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.203689306974411,
      "step": 1168
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1804.0,
      "completions/mean_length": 829.73046875,
      "completions/mean_terminated_length": 792.9617309570312,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.39907826235384486,
      "grad_norm": 2.4273905754089355,
      "kl": 5.3515625,
      "learning_rate": 7.767008634698395e-07,
      "loss": 0.3368,
      "num_tokens": 754212524.0,
      "reward": 1.001953125,
      "reward_std": 0.30877771973609924,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89453125,
      "rewards/tag_count_reward/std": 0.23009692132472992,
      "step": 1169
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1913.0,
      "completions/mean_length": 866.51953125,
      "completions/mean_terminated_length": 810.9488525390625,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.3994196466672356,
      "grad_norm": 2.5649712085723877,
      "kl": 6.421875,
      "learning_rate": 7.76237419588175e-07,
      "loss": 0.4086,
      "num_tokens": 754730838.0,
      "reward": 0.9580078125,
      "reward_std": 0.32649922370910645,
      "rewards/accuracy_reward/mean": 0.0927419364452362,
      "rewards/accuracy_reward/std": 0.2903633117675781,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.8662109375,
      "rewards/tag_count_reward/std": 0.25493350625038147,
      "step": 1170
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1867.0,
      "completions/mean_length": 784.474609375,
      "completions/mean_terminated_length": 743.7156982421875,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.39976103098062643,
      "grad_norm": 2.182196617126465,
      "kl": 6.3515625,
      "learning_rate": 7.757736543601977e-07,
      "loss": 0.4287,
      "num_tokens": 755213017.0,
      "reward": 0.9736328125,
      "reward_std": 0.3208127021789551,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8720703125,
      "rewards/tag_count_reward/std": 0.24379020929336548,
      "step": 1171
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 794.353515625,
      "completions/mean_terminated_length": 751.2990112304688,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.40010241529401724,
      "grad_norm": 3.6284797191619873,
      "kl": 6.7578125,
      "learning_rate": 7.753095684446373e-07,
      "loss": 0.4248,
      "num_tokens": 755703022.0,
      "reward": 0.92724609375,
      "reward_std": 0.3194776177406311,
      "rewards/accuracy_reward/mean": 0.07056451588869095,
      "rewards/accuracy_reward/std": 0.25635460019111633,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85888671875,
      "rewards/tag_count_reward/std": 0.25361213088035583,
      "step": 1172
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1997.0,
      "completions/mean_length": 895.427734375,
      "completions/mean_terminated_length": 828.7499389648438,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.40044379960740806,
      "grad_norm": 2.316324472427368,
      "kl": 7.828125,
      "learning_rate": 7.748451625006786e-07,
      "loss": 0.4977,
      "num_tokens": 756242793.0,
      "reward": 0.91064453125,
      "reward_std": 0.3320344090461731,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85009765625,
      "rewards/tag_count_reward/std": 0.26099124550819397,
      "step": 1173
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2010.0,
      "completions/mean_length": 817.05859375,
      "completions/mean_terminated_length": 795.0337524414062,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.4007851839207988,
      "grad_norm": 5.872766971588135,
      "kl": 7.78125,
      "learning_rate": 7.743804371879612e-07,
      "loss": 0.4797,
      "num_tokens": 756733735.0,
      "reward": 0.97119140625,
      "reward_std": 0.3485479950904846,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85595703125,
      "rewards/tag_count_reward/std": 0.25485244393348694,
      "step": 1174
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 804.693359375,
      "completions/mean_terminated_length": 772.3026123046875,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.40112656823418963,
      "grad_norm": 2.7498745918273926,
      "kl": 5.96875,
      "learning_rate": 7.739153931665782e-07,
      "loss": 0.3716,
      "num_tokens": 757220058.0,
      "reward": 0.88720703125,
      "reward_std": 0.27300506830215454,
      "rewards/accuracy_reward/mean": 0.02734375,
      "rewards/accuracy_reward/std": 0.16324250400066376,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85986328125,
      "rewards/tag_count_reward/std": 0.2584489583969116,
      "step": 1175
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 882.146484375,
      "completions/mean_terminated_length": 849.3714599609375,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.40146795254758044,
      "grad_norm": 4.386836051940918,
      "kl": 5.7734375,
      "learning_rate": 7.734500310970753e-07,
      "loss": 0.3415,
      "num_tokens": 757745925.0,
      "reward": 0.892578125,
      "reward_std": 0.3077738285064697,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8515625,
      "rewards/tag_count_reward/std": 0.2587745785713196,
      "step": 1176
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 864.80078125,
      "completions/mean_terminated_length": 841.2310791015625,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.40180933686097126,
      "grad_norm": 5.974264144897461,
      "kl": 5.21875,
      "learning_rate": 7.729843516404501e-07,
      "loss": 0.3371,
      "num_tokens": 758263119.0,
      "reward": 0.90771484375,
      "reward_std": 0.29222816228866577,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84912109375,
      "rewards/tag_count_reward/std": 0.2632296085357666,
      "step": 1177
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2001.0,
      "completions/mean_length": 817.837890625,
      "completions/mean_terminated_length": 800.7861938476562,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.402150721174362,
      "grad_norm": 3.2892820835113525,
      "kl": 4.6953125,
      "learning_rate": 7.725183554581513e-07,
      "loss": 0.2951,
      "num_tokens": 758762028.0,
      "reward": 0.95751953125,
      "reward_std": 0.32326188683509827,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86181640625,
      "rewards/tag_count_reward/std": 0.25808268785476685,
      "step": 1178
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1925.0,
      "completions/mean_length": 821.431640625,
      "completions/mean_terminated_length": 814.202392578125,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.4024921054877528,
      "grad_norm": 4.815431594848633,
      "kl": 4.08984375,
      "learning_rate": 7.720520432120768e-07,
      "loss": 0.2037,
      "num_tokens": 759258105.0,
      "reward": 0.93115234375,
      "reward_std": 0.3200600743293762,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.86865234375,
      "rewards/tag_count_reward/std": 0.2467176616191864,
      "step": 1179
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2010.0,
      "completions/mean_length": 857.03515625,
      "completions/mean_terminated_length": 847.657470703125,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.40283348980114364,
      "grad_norm": 6.9967522621154785,
      "kl": 4.4296875,
      "learning_rate": 7.715854155645739e-07,
      "loss": 0.2963,
      "num_tokens": 759775179.0,
      "reward": 0.93310546875,
      "reward_std": 0.30739641189575195,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86865234375,
      "rewards/tag_count_reward/std": 0.24721291661262512,
      "step": 1180
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 770.66015625,
      "completions/mean_terminated_length": 760.6023559570312,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.40317487411453445,
      "grad_norm": 2.918065071105957,
      "kl": 5.546875,
      "learning_rate": 7.711184731784378e-07,
      "loss": 0.3201,
      "num_tokens": 760239021.0,
      "reward": 0.955078125,
      "reward_std": 0.3410775363445282,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.865234375,
      "rewards/tag_count_reward/std": 0.25200241804122925,
      "step": 1181
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1965.0,
      "completions/mean_length": 785.2578125,
      "completions/mean_terminated_length": 772.8047485351562,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.4035162584279252,
      "grad_norm": 2.6244304180145264,
      "kl": 5.734375,
      "learning_rate": 7.70651216716911e-07,
      "loss": 0.3058,
      "num_tokens": 760717873.0,
      "reward": 0.9072265625,
      "reward_std": 0.31095027923583984,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8544921875,
      "rewards/tag_count_reward/std": 0.2503800094127655,
      "step": 1182
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 781.34375,
      "completions/mean_terminated_length": 776.3765258789062,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.403857642741316,
      "grad_norm": 3.8671646118164062,
      "kl": 5.6640625,
      "learning_rate": 7.70183646843681e-07,
      "loss": 0.2649,
      "num_tokens": 761197313.0,
      "reward": 0.93115234375,
      "reward_std": 0.31549352407455444,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86083984375,
      "rewards/tag_count_reward/std": 0.24984276294708252,
      "step": 1183
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1967.0,
      "completions/mean_length": 787.080078125,
      "completions/mean_terminated_length": 774.6449584960938,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.40419902705470684,
      "grad_norm": 9.735507011413574,
      "kl": 7.703125,
      "learning_rate": 7.697157642228826e-07,
      "loss": 0.3966,
      "num_tokens": 761679658.0,
      "reward": 0.9013671875,
      "reward_std": 0.3861374258995056,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8115234375,
      "rewards/tag_count_reward/std": 0.2843332886695862,
      "step": 1184
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1990.0,
      "completions/mean_length": 795.5703125,
      "completions/mean_terminated_length": 783.2189331054688,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.40454041136809765,
      "grad_norm": 9.291679382324219,
      "kl": 6.5625,
      "learning_rate": 7.692475695190924e-07,
      "loss": 0.3444,
      "num_tokens": 762170590.0,
      "reward": 0.90185546875,
      "reward_std": 0.31567996740341187,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83154296875,
      "rewards/tag_count_reward/std": 0.26829564571380615,
      "step": 1185
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1967.0,
      "completions/mean_length": 752.94921875,
      "completions/mean_terminated_length": 745.3163452148438,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.4048817956814884,
      "grad_norm": 3.5935633182525635,
      "kl": 6.65625,
      "learning_rate": 7.68779063397332e-07,
      "loss": 0.385,
      "num_tokens": 762635092.0,
      "reward": 0.91552734375,
      "reward_std": 0.32506632804870605,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84326171875,
      "rewards/tag_count_reward/std": 0.26305168867111206,
      "step": 1186
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1926.0,
      "completions/mean_length": 739.61328125,
      "completions/mean_terminated_length": 734.482421875,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.4052231799948792,
      "grad_norm": 2.4937756061553955,
      "kl": 5.84375,
      "learning_rate": 7.683102465230648e-07,
      "loss": 0.3251,
      "num_tokens": 763093278.0,
      "reward": 0.93115234375,
      "reward_std": 0.3432146906852722,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84130859375,
      "rewards/tag_count_reward/std": 0.26924487948417664,
      "step": 1187
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 742.21484375,
      "completions/mean_terminated_length": 739.6594848632812,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.40556456430827004,
      "grad_norm": 2.254314661026001,
      "kl": 6.1484375,
      "learning_rate": 7.678411195621953e-07,
      "loss": 0.3242,
      "num_tokens": 763545948.0,
      "reward": 0.8701171875,
      "reward_std": 0.35820671916007996,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.24231401085853577,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8115234375,
      "rewards/tag_count_reward/std": 0.2847631275653839,
      "step": 1188
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1900.0,
      "completions/mean_length": 764.650390625,
      "completions/mean_terminated_length": 762.138916015625,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.40590594862166085,
      "grad_norm": 5.211688041687012,
      "kl": 5.3671875,
      "learning_rate": 7.673716831810688e-07,
      "loss": 0.2997,
      "num_tokens": 764016921.0,
      "reward": 0.93505859375,
      "reward_std": 0.35613590478897095,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.82177734375,
      "rewards/tag_count_reward/std": 0.27732184529304504,
      "step": 1189
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 799.658203125,
      "completions/mean_terminated_length": 797.2152709960938,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.4062473329350516,
      "grad_norm": 3.489217519760132,
      "kl": 5.765625,
      "learning_rate": 7.669019380464703e-07,
      "loss": 0.2956,
      "num_tokens": 764495178.0,
      "reward": 0.92431640625,
      "reward_std": 0.35767507553100586,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83447265625,
      "rewards/tag_count_reward/std": 0.27192169427871704,
      "step": 1190
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1839.0,
      "completions/max_terminated_length": 1839.0,
      "completions/mean_length": 735.388671875,
      "completions/mean_terminated_length": 735.388671875,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.4065887172484424,
      "grad_norm": 1.9683349132537842,
      "kl": 4.83203125,
      "learning_rate": 7.664318848256226e-07,
      "loss": 0.234,
      "num_tokens": 764941937.0,
      "reward": 0.94287109375,
      "reward_std": 0.3618546426296234,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84326171875,
      "rewards/tag_count_reward/std": 0.27174240350723267,
      "step": 1191
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1694.0,
      "completions/mean_length": 766.26953125,
      "completions/mean_terminated_length": 763.76123046875,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.40693010156183324,
      "grad_norm": 1.6535422801971436,
      "kl": 4.8125,
      "learning_rate": 7.659615241861867e-07,
      "loss": 0.2081,
      "num_tokens": 765408235.0,
      "reward": 0.92578125,
      "reward_std": 0.3301663398742676,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83984375,
      "rewards/tag_count_reward/std": 0.268602192401886,
      "step": 1192
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1919.0,
      "completions/mean_length": 746.6015625,
      "completions/mean_terminated_length": 744.0548095703125,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.40727148587522405,
      "grad_norm": 2.5272395610809326,
      "kl": 5.484375,
      "learning_rate": 7.654908567962601e-07,
      "loss": 0.2769,
      "num_tokens": 765864287.0,
      "reward": 0.91845703125,
      "reward_std": 0.3244733214378357,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.83642578125,
      "rewards/tag_count_reward/std": 0.2704029083251953,
      "step": 1193
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1556.0,
      "completions/mean_length": 705.248046875,
      "completions/mean_terminated_length": 699.982421875,
      "completions/min_length": 64.0,
      "completions/min_terminated_length": 64.0,
      "epoch": 0.4076128701886148,
      "grad_norm": 2.885803461074829,
      "kl": 5.3046875,
      "learning_rate": 7.650198833243762e-07,
      "loss": 0.228,
      "num_tokens": 766298030.0,
      "reward": 0.9228515625,
      "reward_std": 0.3407388925552368,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8466796875,
      "rewards/tag_count_reward/std": 0.26111066341400146,
      "step": 1194
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1883.0,
      "completions/mean_length": 764.3984375,
      "completions/mean_terminated_length": 761.886474609375,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.4079542545020056,
      "grad_norm": 3.4445908069610596,
      "kl": 5.921875,
      "learning_rate": 7.645486044395029e-07,
      "loss": 0.266,
      "num_tokens": 766772666.0,
      "reward": 0.8935546875,
      "reward_std": 0.3538340926170349,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8056640625,
      "rewards/tag_count_reward/std": 0.28078925609588623,
      "step": 1195
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1872.0,
      "completions/max_terminated_length": 1872.0,
      "completions/mean_length": 701.73046875,
      "completions/mean_terminated_length": 701.73046875,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.40829563881539643,
      "grad_norm": 1.889304280281067,
      "kl": 4.921875,
      "learning_rate": 7.640770208110419e-07,
      "loss": 0.2358,
      "num_tokens": 767209152.0,
      "reward": 0.95947265625,
      "reward_std": 0.34182602167129517,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86376953125,
      "rewards/tag_count_reward/std": 0.243045836687088,
      "step": 1196
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1954.0,
      "completions/max_terminated_length": 1954.0,
      "completions/mean_length": 750.609375,
      "completions/mean_terminated_length": 750.609375,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.40863702312878725,
      "grad_norm": 2.724968910217285,
      "kl": 4.89453125,
      "learning_rate": 7.636051331088277e-07,
      "loss": 0.2089,
      "num_tokens": 767678664.0,
      "reward": 0.94580078125,
      "reward_std": 0.3378886580467224,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.85205078125,
      "rewards/tag_count_reward/std": 0.2569212019443512,
      "step": 1197
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1903.0,
      "completions/mean_length": 745.890625,
      "completions/mean_terminated_length": 743.3424682617188,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.408978407442178,
      "grad_norm": 2.645230293273926,
      "kl": 4.12890625,
      "learning_rate": 7.63132942003127e-07,
      "loss": 0.1829,
      "num_tokens": 768136224.0,
      "reward": 0.896484375,
      "reward_std": 0.3052387833595276,
      "rewards/accuracy_reward/mean": 0.04435483738780022,
      "rewards/accuracy_reward/std": 0.2060900777578354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.853515625,
      "rewards/tag_count_reward/std": 0.2556166350841522,
      "step": 1198
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1777.0,
      "completions/max_terminated_length": 1777.0,
      "completions/mean_length": 730.513671875,
      "completions/mean_terminated_length": 730.513671875,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.4093197917555688,
      "grad_norm": 1.8920918703079224,
      "kl": 4.171875,
      "learning_rate": 7.626604481646375e-07,
      "loss": 0.1768,
      "num_tokens": 768579703.0,
      "reward": 0.94970703125,
      "reward_std": 0.29629284143447876,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86572265625,
      "rewards/tag_count_reward/std": 0.2380446046590805,
      "step": 1199
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 764.498046875,
      "completions/mean_terminated_length": 759.4647216796875,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.40966117606895963,
      "grad_norm": 1.9259616136550903,
      "kl": 3.3203125,
      "learning_rate": 7.621876522644863e-07,
      "loss": 0.1293,
      "num_tokens": 769051286.0,
      "reward": 0.943359375,
      "reward_std": 0.29152172803878784,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.888671875,
      "rewards/tag_count_reward/std": 0.22623565793037415,
      "step": 1200
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1901.0,
      "completions/max_terminated_length": 1901.0,
      "completions/mean_length": 691.71484375,
      "completions/mean_terminated_length": 691.71484375,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.41000256038235044,
      "grad_norm": 3.8292248249053955,
      "kl": 2.91015625,
      "learning_rate": 7.617145549742302e-07,
      "loss": 0.1257,
      "num_tokens": 769479620.0,
      "reward": 1.02978515625,
      "reward_std": 0.29510825872421265,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89892578125,
      "rewards/tag_count_reward/std": 0.2055107206106186,
      "step": 1201
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1838.0,
      "completions/mean_length": 725.02734375,
      "completions/mean_terminated_length": 722.4383544921875,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.41034394469574126,
      "grad_norm": 1.8830933570861816,
      "kl": 2.30078125,
      "learning_rate": 7.612411569658539e-07,
      "loss": 0.083,
      "num_tokens": 769927122.0,
      "reward": 0.97802734375,
      "reward_std": 0.2674487233161926,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.1895672231912613,
      "step": 1202
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1886.0,
      "completions/mean_length": 807.830078125,
      "completions/mean_terminated_length": 802.9667358398438,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.410685329009132,
      "grad_norm": 2.0479135513305664,
      "kl": 1.978515625,
      "learning_rate": 7.607674589117691e-07,
      "loss": 0.0837,
      "num_tokens": 770422011.0,
      "reward": 0.97412109375,
      "reward_std": 0.24014775454998016,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.19363176822662354,
      "step": 1203
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1753.0,
      "completions/mean_length": 728.642578125,
      "completions/mean_terminated_length": 726.0606689453125,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.41102671332252283,
      "grad_norm": 4.370997905731201,
      "kl": 1.849609375,
      "learning_rate": 7.602934614848135e-07,
      "loss": 0.0781,
      "num_tokens": 770873716.0,
      "reward": 1.0556640625,
      "reward_std": 0.2359110713005066,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.1723288893699646,
      "step": 1204
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1785.0,
      "completions/mean_length": 661.126953125,
      "completions/mean_terminated_length": 658.4129028320312,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.41136809763591364,
      "grad_norm": 1.6642152070999146,
      "kl": 2.88671875,
      "learning_rate": 7.598191653582505e-07,
      "loss": 0.158,
      "num_tokens": 771290517.0,
      "reward": 1.0361328125,
      "reward_std": 0.23599085211753845,
      "rewards/accuracy_reward/mean": 0.11491935700178146,
      "rewards/accuracy_reward/std": 0.3192466199398041,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.18362505733966827,
      "step": 1205
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1818.0,
      "completions/mean_length": 752.44921875,
      "completions/mean_terminated_length": 747.36865234375,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.41170948194930446,
      "grad_norm": 4.010087013244629,
      "kl": 2.75,
      "learning_rate": 7.593445712057676e-07,
      "loss": 0.1477,
      "num_tokens": 771752427.0,
      "reward": 1.0302734375,
      "reward_std": 0.2761410176753998,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.2001573145389557,
      "step": 1206
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1864.0,
      "completions/max_terminated_length": 1864.0,
      "completions/mean_length": 769.9921875,
      "completions/mean_terminated_length": 769.9921875,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.4120508662626952,
      "grad_norm": 2.0366873741149902,
      "kl": 2.6171875,
      "learning_rate": 7.588696797014755e-07,
      "loss": 0.1405,
      "num_tokens": 772225431.0,
      "reward": 0.98974609375,
      "reward_std": 0.26377055048942566,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.18892091512680054,
      "step": 1207
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1827.0,
      "completions/mean_length": 710.583984375,
      "completions/mean_terminated_length": 702.701416015625,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.41239225057608603,
      "grad_norm": 3.1804232597351074,
      "kl": 4.5,
      "learning_rate": 7.583944915199073e-07,
      "loss": 0.2368,
      "num_tokens": 772669426.0,
      "reward": 1.0380859375,
      "reward_std": 0.2954888641834259,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.1984890252351761,
      "step": 1208
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 770.615234375,
      "completions/mean_terminated_length": 768.115478515625,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.41273363488947684,
      "grad_norm": 2.5155560970306396,
      "kl": 3.7421875,
      "learning_rate": 7.579190073360175e-07,
      "loss": 0.1608,
      "num_tokens": 773140637.0,
      "reward": 0.95703125,
      "reward_std": 0.27758684754371643,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.900390625,
      "rewards/tag_count_reward/std": 0.21004575490951538,
      "step": 1209
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1945.0,
      "completions/max_terminated_length": 1945.0,
      "completions/mean_length": 729.69140625,
      "completions/mean_terminated_length": 729.69140625,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.41307501920286765,
      "grad_norm": 4.559638977050781,
      "kl": 3.3125,
      "learning_rate": 7.574432278251813e-07,
      "loss": 0.1399,
      "num_tokens": 773584287.0,
      "reward": 0.9873046875,
      "reward_std": 0.24846667051315308,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.18347929418087006,
      "step": 1210
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1890.0,
      "completions/mean_length": 707.55859375,
      "completions/mean_terminated_length": 704.9354248046875,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.4134164035162584,
      "grad_norm": 5.833067417144775,
      "kl": 4.28125,
      "learning_rate": 7.569671536631928e-07,
      "loss": 0.2186,
      "num_tokens": 774033165.0,
      "reward": 0.970703125,
      "reward_std": 0.26562875509262085,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89453125,
      "rewards/tag_count_reward/std": 0.21469810605049133,
      "step": 1211
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1912.0,
      "completions/mean_length": 716.3515625,
      "completions/mean_terminated_length": 713.74560546875,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.4137577878296492,
      "grad_norm": 3.1062331199645996,
      "kl": 3.93359375,
      "learning_rate": 7.564907855262652e-07,
      "loss": 0.2344,
      "num_tokens": 774478305.0,
      "reward": 0.9931640625,
      "reward_std": 0.2758350968360901,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.20556476712226868,
      "step": 1212
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1821.0,
      "completions/max_terminated_length": 1821.0,
      "completions/mean_length": 676.357421875,
      "completions/mean_terminated_length": 676.357421875,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.41409917214304004,
      "grad_norm": 2.1832549571990967,
      "kl": 3.388671875,
      "learning_rate": 7.560141240910292e-07,
      "loss": 0.1532,
      "num_tokens": 774902280.0,
      "reward": 0.9775390625,
      "reward_std": 0.2534903883934021,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.20254908502101898,
      "step": 1213
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1715.0,
      "completions/max_terminated_length": 1715.0,
      "completions/mean_length": 699.9609375,
      "completions/mean_terminated_length": 699.9609375,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.41444055645643085,
      "grad_norm": 1.6816651821136475,
      "kl": 3.021484375,
      "learning_rate": 7.555371700345314e-07,
      "loss": 0.1595,
      "num_tokens": 775336020.0,
      "reward": 0.984375,
      "reward_std": 0.23822785913944244,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.18783605098724365,
      "step": 1214
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1478.0,
      "completions/mean_length": 635.57421875,
      "completions/mean_terminated_length": 632.8101806640625,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.4147819407698216,
      "grad_norm": 2.663269519805908,
      "kl": 3.0,
      "learning_rate": 7.550599240342348e-07,
      "loss": 0.1569,
      "num_tokens": 775733306.0,
      "reward": 1.06298828125,
      "reward_std": 0.3054298758506775,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91064453125,
      "rewards/tag_count_reward/std": 0.19832709431648254,
      "step": 1215
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1586.0,
      "completions/max_terminated_length": 1586.0,
      "completions/mean_length": 664.2578125,
      "completions/mean_terminated_length": 664.2578125,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.4151233250832124,
      "grad_norm": 3.425699472427368,
      "kl": 2.78125,
      "learning_rate": 7.545823867680172e-07,
      "loss": 0.1455,
      "num_tokens": 776151934.0,
      "reward": 1.0126953125,
      "reward_std": 0.2261040210723877,
      "rewards/accuracy_reward/mean": 0.08669354766607285,
      "rewards/accuracy_reward/std": 0.281669557094574,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.183853879570961,
      "step": 1216
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1526.0,
      "completions/max_terminated_length": 1526.0,
      "completions/mean_length": 670.31640625,
      "completions/mean_terminated_length": 670.31640625,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.41546470939660324,
      "grad_norm": 2.243535280227661,
      "kl": 3.03515625,
      "learning_rate": 7.54104558914169e-07,
      "loss": 0.1405,
      "num_tokens": 776569168.0,
      "reward": 0.9697265625,
      "reward_std": 0.24969938397407532,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.19095149636268616,
      "step": 1217
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1498.0,
      "completions/mean_length": 601.0546875,
      "completions/mean_terminated_length": 598.2230834960938,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.41580609370999405,
      "grad_norm": 4.377151012420654,
      "kl": 4.1015625,
      "learning_rate": 7.536264411513948e-07,
      "loss": 0.2096,
      "num_tokens": 776961980.0,
      "reward": 1.0029296875,
      "reward_std": 0.28715670108795166,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.19600872695446014,
      "step": 1218
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1682.0,
      "completions/max_terminated_length": 1682.0,
      "completions/mean_length": 681.7734375,
      "completions/mean_terminated_length": 681.7734375,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.4161474780233848,
      "grad_norm": 1.8211148977279663,
      "kl": 2.826171875,
      "learning_rate": 7.531480341588101e-07,
      "loss": 0.1257,
      "num_tokens": 777396936.0,
      "reward": 0.9638671875,
      "reward_std": 0.2702760696411133,
      "rewards/accuracy_reward/mean": 0.058467742055654526,
      "rewards/accuracy_reward/std": 0.23486268520355225,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.20734204351902008,
      "step": 1219
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1507.0,
      "completions/mean_length": 701.68359375,
      "completions/mean_terminated_length": 699.0488891601562,
      "completions/min_length": 87.0,
      "completions/min_terminated_length": 87.0,
      "epoch": 0.4164888623367756,
      "grad_norm": 5.5619683265686035,
      "kl": 3.55078125,
      "learning_rate": 7.526693386159411e-07,
      "loss": 0.1408,
      "num_tokens": 777834854.0,
      "reward": 1.0185546875,
      "reward_std": 0.3216370940208435,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9013671875,
      "rewards/tag_count_reward/std": 0.21339233219623566,
      "step": 1220
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1844.0,
      "completions/max_terminated_length": 1844.0,
      "completions/mean_length": 702.060546875,
      "completions/mean_terminated_length": 702.060546875,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.41683024665016644,
      "grad_norm": 2.8141682147979736,
      "kl": 3.26171875,
      "learning_rate": 7.521903552027246e-07,
      "loss": 0.1162,
      "num_tokens": 778271349.0,
      "reward": 0.96044921875,
      "reward_std": 0.27343103289604187,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89013671875,
      "rewards/tag_count_reward/std": 0.21562129259109497,
      "step": 1221
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1760.0,
      "completions/mean_length": 724.310546875,
      "completions/mean_terminated_length": 721.7201538085938,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.41717163096355725,
      "grad_norm": 2.196227788925171,
      "kl": 3.0859375,
      "learning_rate": 7.517110845995055e-07,
      "loss": 0.1794,
      "num_tokens": 778716980.0,
      "reward": 1.00830078125,
      "reward_std": 0.2872357666492462,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90283203125,
      "rewards/tag_count_reward/std": 0.20018774271011353,
      "step": 1222
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1407.0,
      "completions/max_terminated_length": 1407.0,
      "completions/mean_length": 668.353515625,
      "completions/mean_terminated_length": 668.353515625,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.417513015276948,
      "grad_norm": 2.449051856994629,
      "kl": 2.85546875,
      "learning_rate": 7.512315274870371e-07,
      "loss": 0.1275,
      "num_tokens": 779138857.0,
      "reward": 0.9970703125,
      "reward_std": 0.251140296459198,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.19051063060760498,
      "step": 1223
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1727.0,
      "completions/max_terminated_length": 1727.0,
      "completions/mean_length": 693.0859375,
      "completions/mean_terminated_length": 693.0859375,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.4178543995903388,
      "grad_norm": 2.5035128593444824,
      "kl": 2.2265625,
      "learning_rate": 7.507516845464797e-07,
      "loss": 0.1043,
      "num_tokens": 779566517.0,
      "reward": 1.00390625,
      "reward_std": 0.203842431306839,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.16318395733833313,
      "step": 1224
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1440.0,
      "completions/mean_length": 648.873046875,
      "completions/mean_terminated_length": 646.135009765625,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.41819578390372963,
      "grad_norm": 2.15484619140625,
      "kl": 3.29296875,
      "learning_rate": 7.502715564593991e-07,
      "loss": 0.172,
      "num_tokens": 779973780.0,
      "reward": 1.01123046875,
      "reward_std": 0.29037126898765564,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.21251004934310913,
      "step": 1225
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1650.0,
      "completions/max_terminated_length": 1650.0,
      "completions/mean_length": 729.49609375,
      "completions/mean_terminated_length": 729.49609375,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.41853716821712045,
      "grad_norm": 4.40711784362793,
      "kl": 2.796875,
      "learning_rate": 7.497911439077665e-07,
      "loss": 0.1309,
      "num_tokens": 780425618.0,
      "reward": 0.9853515625,
      "reward_std": 0.2513273358345032,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.1833125650882721,
      "step": 1226
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1744.0,
      "completions/mean_length": 725.015625,
      "completions/mean_terminated_length": 717.2180786132812,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.4188785525305112,
      "grad_norm": 2.1675784587860107,
      "kl": 2.79296875,
      "learning_rate": 7.493104475739574e-07,
      "loss": 0.121,
      "num_tokens": 780874186.0,
      "reward": 1.03125,
      "reward_std": 0.2659454643726349,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.17952290177345276,
      "step": 1227
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1692.0,
      "completions/max_terminated_length": 1692.0,
      "completions/mean_length": 706.96875,
      "completions/mean_terminated_length": 706.96875,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.419219936843902,
      "grad_norm": 2.6838104724884033,
      "kl": 3.53515625,
      "learning_rate": 7.488294681407498e-07,
      "loss": 0.1447,
      "num_tokens": 781318362.0,
      "reward": 1.02099609375,
      "reward_std": 0.3166106939315796,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91162109375,
      "rewards/tag_count_reward/std": 0.19876503944396973,
      "step": 1228
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1610.0,
      "completions/max_terminated_length": 1610.0,
      "completions/mean_length": 713.36328125,
      "completions/mean_terminated_length": 713.36328125,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.41956132115729283,
      "grad_norm": 5.827304363250732,
      "kl": 4.6640625,
      "learning_rate": 7.48348206291324e-07,
      "loss": 0.1966,
      "num_tokens": 781763140.0,
      "reward": 1.02099609375,
      "reward_std": 0.31554529070854187,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89794921875,
      "rewards/tag_count_reward/std": 0.21032704412937164,
      "step": 1229
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1536.0,
      "completions/mean_length": 695.64453125,
      "completions/mean_terminated_length": 692.998046875,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.41990270547068365,
      "grad_norm": 1.852268934249878,
      "kl": 3.27734375,
      "learning_rate": 7.478666627092618e-07,
      "loss": 0.1312,
      "num_tokens": 782200414.0,
      "reward": 1.0224609375,
      "reward_std": 0.2842390835285187,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.18948465585708618,
      "step": 1230
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1801.0,
      "completions/max_terminated_length": 1801.0,
      "completions/mean_length": 726.1328125,
      "completions/mean_terminated_length": 726.1328125,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.4202440897840744,
      "grad_norm": 2.6435227394104004,
      "kl": 3.3671875,
      "learning_rate": 7.473848380785448e-07,
      "loss": 0.1375,
      "num_tokens": 782648226.0,
      "reward": 1.03173828125,
      "reward_std": 0.27165985107421875,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91064453125,
      "rewards/tag_count_reward/std": 0.19832709431648254,
      "step": 1231
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1672.0,
      "completions/max_terminated_length": 1672.0,
      "completions/mean_length": 727.642578125,
      "completions/mean_terminated_length": 727.642578125,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.4205854740974652,
      "grad_norm": 3.1454718112945557,
      "kl": 3.6484375,
      "learning_rate": 7.469027330835536e-07,
      "loss": 0.1456,
      "num_tokens": 783111003.0,
      "reward": 1.00732421875,
      "reward_std": 0.28986674547195435,
      "rewards/accuracy_reward/mean": 0.10080645233392715,
      "rewards/accuracy_reward/std": 0.30137622356414795,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.2009500116109848,
      "step": 1232
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2021.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 767.248046875,
      "completions/mean_terminated_length": 767.248046875,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.42092685841085603,
      "grad_norm": 2.5196471214294434,
      "kl": 3.328125,
      "learning_rate": 7.464203484090679e-07,
      "loss": 0.127,
      "num_tokens": 783580218.0,
      "reward": 0.9794921875,
      "reward_std": 0.29774603247642517,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.21025264263153076,
      "step": 1233
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1672.0,
      "completions/mean_length": 738.099609375,
      "completions/mean_terminated_length": 735.5361938476562,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.42126824272424684,
      "grad_norm": 1.862230658531189,
      "kl": 3.16796875,
      "learning_rate": 7.459376847402637e-07,
      "loss": 0.1414,
      "num_tokens": 784031757.0,
      "reward": 0.9765625,
      "reward_std": 0.2748311758041382,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.19689640402793884,
      "step": 1234
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1786.0,
      "completions/mean_length": 707.779296875,
      "completions/mean_terminated_length": 705.1565551757812,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.4216096270376376,
      "grad_norm": 1.280155062675476,
      "kl": 2.275390625,
      "learning_rate": 7.454547427627136e-07,
      "loss": 0.0877,
      "num_tokens": 784478348.0,
      "reward": 0.99169921875,
      "reward_std": 0.23311598598957062,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.1742224544286728,
      "step": 1235
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2030.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 806.701171875,
      "completions/mean_terminated_length": 806.701171875,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.4219510113510284,
      "grad_norm": 2.0891847610473633,
      "kl": 2.15234375,
      "learning_rate": 7.449715231623857e-07,
      "loss": 0.1038,
      "num_tokens": 784985267.0,
      "reward": 1.07177734375,
      "reward_std": 0.3115023374557495,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.19664327800273895,
      "step": 1236
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1628.0,
      "completions/max_terminated_length": 1628.0,
      "completions/mean_length": 717.900390625,
      "completions/mean_terminated_length": 717.900390625,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.42229239566441923,
      "grad_norm": 3.186643123626709,
      "kl": 1.986328125,
      "learning_rate": 7.444880266256425e-07,
      "loss": 0.073,
      "num_tokens": 785429808.0,
      "reward": 1.0400390625,
      "reward_std": 0.2679649293422699,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.18117332458496094,
      "step": 1237
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1809.0,
      "completions/mean_length": 764.6015625,
      "completions/mean_terminated_length": 762.0900268554688,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.42263377997781004,
      "grad_norm": 1.5022865533828735,
      "kl": 2.333984375,
      "learning_rate": 7.440042538392393e-07,
      "loss": 0.0902,
      "num_tokens": 785899860.0,
      "reward": 1.0107421875,
      "reward_std": 0.27494916319847107,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.19645671546459198,
      "step": 1238
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2021.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 751.791015625,
      "completions/mean_terminated_length": 751.791015625,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.4229751642912008,
      "grad_norm": 5.304492950439453,
      "kl": 2.1953125,
      "learning_rate": 7.435202054903244e-07,
      "loss": 0.105,
      "num_tokens": 786360905.0,
      "reward": 0.99560546875,
      "reward_std": 0.2517945468425751,
      "rewards/accuracy_reward/mean": 0.07661290466785431,
      "rewards/accuracy_reward/std": 0.2662447690963745,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.1897486001253128,
      "step": 1239
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1920.0,
      "completions/max_terminated_length": 1920.0,
      "completions/mean_length": 741.369140625,
      "completions/mean_terminated_length": 741.369140625,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.4233165486045916,
      "grad_norm": 2.2809250354766846,
      "kl": 2.19921875,
      "learning_rate": 7.430358822664371e-07,
      "loss": 0.1142,
      "num_tokens": 786820294.0,
      "reward": 0.98779296875,
      "reward_std": 0.2326989322900772,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.18145988881587982,
      "step": 1240
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1903.0,
      "completions/max_terminated_length": 1903.0,
      "completions/mean_length": 791.037109375,
      "completions/mean_terminated_length": 791.037109375,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.4236579329179824,
      "grad_norm": 1.7501929998397827,
      "kl": 2.14453125,
      "learning_rate": 7.425512848555073e-07,
      "loss": 0.0756,
      "num_tokens": 787301737.0,
      "reward": 1.03369140625,
      "reward_std": 0.26344534754753113,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.17090001702308655,
      "step": 1241
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1855.0,
      "completions/max_terminated_length": 1855.0,
      "completions/mean_length": 790.51953125,
      "completions/mean_terminated_length": 790.51953125,
      "completions/min_length": 276.0,
      "completions/min_terminated_length": 276.0,
      "epoch": 0.42399931723137324,
      "grad_norm": 2.1573097705841064,
      "kl": 2.580078125,
      "learning_rate": 7.420664139458546e-07,
      "loss": 0.1082,
      "num_tokens": 787793779.0,
      "reward": 0.990234375,
      "reward_std": 0.29185423254966736,
      "rewards/accuracy_reward/mean": 0.0786290317773819,
      "rewards/accuracy_reward/std": 0.26943066716194153,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.19805769622325897,
      "step": 1242
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1810.0,
      "completions/max_terminated_length": 1810.0,
      "completions/mean_length": 701.197265625,
      "completions/mean_terminated_length": 701.197265625,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.424340701544764,
      "grad_norm": 2.4701790809631348,
      "kl": 2.51171875,
      "learning_rate": 7.415812702261864e-07,
      "loss": 0.0973,
      "num_tokens": 788229560.0,
      "reward": 0.98193359375,
      "reward_std": 0.19726133346557617,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.16570508480072021,
      "step": 1243
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1980.0,
      "completions/mean_length": 812.02734375,
      "completions/mean_terminated_length": 809.6085815429688,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.4246820858581548,
      "grad_norm": 1.3704205751419067,
      "kl": 2.5546875,
      "learning_rate": 7.410958543855983e-07,
      "loss": 0.1239,
      "num_tokens": 788724406.0,
      "reward": 1.0400390625,
      "reward_std": 0.2781640291213989,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.19119153916835785,
      "step": 1244
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1942.0,
      "completions/mean_length": 738.068359375,
      "completions/mean_terminated_length": 732.931396484375,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.4250234701715456,
      "grad_norm": 3.5096609592437744,
      "kl": 3.470703125,
      "learning_rate": 7.406101671135721e-07,
      "loss": 0.1393,
      "num_tokens": 789179113.0,
      "reward": 0.99169921875,
      "reward_std": 0.25856339931488037,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.1951066106557846,
      "step": 1245
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1627.0,
      "completions/mean_length": 749.0625,
      "completions/mean_terminated_length": 746.5205688476562,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.42536485448493644,
      "grad_norm": 2.27182674407959,
      "kl": 3.5078125,
      "learning_rate": 7.40124209099975e-07,
      "loss": 0.1474,
      "num_tokens": 789650649.0,
      "reward": 0.9833984375,
      "reward_std": 0.260844886302948,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9052734375,
      "rewards/tag_count_reward/std": 0.20467032492160797,
      "step": 1246
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 766.7265625,
      "completions/mean_terminated_length": 759.1748657226562,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.4257062387983272,
      "grad_norm": 2.3704638481140137,
      "kl": 3.69140625,
      "learning_rate": 7.396379810350591e-07,
      "loss": 0.19,
      "num_tokens": 790123069.0,
      "reward": 1.0078125,
      "reward_std": 0.2714865505695343,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.904296875,
      "rewards/tag_count_reward/std": 0.20659643411636353,
      "step": 1247
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1753.0,
      "completions/max_terminated_length": 1753.0,
      "completions/mean_length": 736.0546875,
      "completions/mean_terminated_length": 736.0546875,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.426047623111718,
      "grad_norm": 3.7653613090515137,
      "kl": 2.69921875,
      "learning_rate": 7.3915148360946e-07,
      "loss": 0.1059,
      "num_tokens": 790582297.0,
      "reward": 1.00439453125,
      "reward_std": 0.26716482639312744,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.91455078125,
      "rewards/tag_count_reward/std": 0.19065289199352264,
      "step": 1248
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1935.0,
      "completions/max_terminated_length": 1935.0,
      "completions/mean_length": 747.12109375,
      "completions/mean_terminated_length": 747.12109375,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.4263890074251088,
      "grad_norm": 3.4539995193481445,
      "kl": 2.31640625,
      "learning_rate": 7.386647175141955e-07,
      "loss": 0.0822,
      "num_tokens": 791036439.0,
      "reward": 1.0341796875,
      "reward_std": 0.2673919200897217,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.17627599835395813,
      "step": 1249
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1841.0,
      "completions/mean_length": 791.865234375,
      "completions/mean_terminated_length": 789.4070434570312,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.42673039173849964,
      "grad_norm": 1.7899456024169922,
      "kl": 2.18359375,
      "learning_rate": 7.381776834406656e-07,
      "loss": 0.1077,
      "num_tokens": 791514258.0,
      "reward": 1.0263671875,
      "reward_std": 0.24448788166046143,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.17217355966567993,
      "step": 1250
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1845.0,
      "completions/max_terminated_length": 1845.0,
      "completions/mean_length": 811.34765625,
      "completions/mean_terminated_length": 811.34765625,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.4270717760518904,
      "grad_norm": 2.092193365097046,
      "kl": 2.23046875,
      "learning_rate": 7.376903820806507e-07,
      "loss": 0.1074,
      "num_tokens": 792001332.0,
      "reward": 1.0224609375,
      "reward_std": 0.2799791693687439,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.18062397837638855,
      "step": 1251
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1779.0,
      "completions/max_terminated_length": 1779.0,
      "completions/mean_length": 780.32421875,
      "completions/mean_terminated_length": 780.32421875,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.4274131603652812,
      "grad_norm": 3.0212109088897705,
      "kl": 2.6015625,
      "learning_rate": 7.372028141263105e-07,
      "loss": 0.1017,
      "num_tokens": 792472490.0,
      "reward": 1.001953125,
      "reward_std": 0.2717844843864441,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.19352872669696808,
      "step": 1252
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1896.0,
      "completions/mean_length": 789.748046875,
      "completions/mean_terminated_length": 784.8137817382812,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.427754544678672,
      "grad_norm": 3.5705649852752686,
      "kl": 2.552734375,
      "learning_rate": 7.36714980270184e-07,
      "loss": 0.1059,
      "num_tokens": 792958425.0,
      "reward": 1.01513671875,
      "reward_std": 0.2775269150733948,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.1937304437160492,
      "step": 1253
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1764.0,
      "completions/mean_length": 804.99609375,
      "completions/mean_terminated_length": 797.6699829101562,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.42809592899206284,
      "grad_norm": 4.68848991394043,
      "kl": 3.61328125,
      "learning_rate": 7.362268812051872e-07,
      "loss": 0.1806,
      "num_tokens": 793449607.0,
      "reward": 1.0009765625,
      "reward_std": 0.28966033458709717,
      "rewards/accuracy_reward/mean": 0.0927419364452362,
      "rewards/accuracy_reward/std": 0.2903633117675781,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.20129980146884918,
      "step": 1254
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1872.0,
      "completions/mean_length": 787.98828125,
      "completions/mean_terminated_length": 785.5225219726562,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.4284373133054536,
      "grad_norm": 6.400665283203125,
      "kl": 3.84375,
      "learning_rate": 7.357385176246135e-07,
      "loss": 0.167,
      "num_tokens": 793931265.0,
      "reward": 0.998046875,
      "reward_std": 0.28555774688720703,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.2109626978635788,
      "step": 1255
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1891.0,
      "completions/max_terminated_length": 1891.0,
      "completions/mean_length": 751.001953125,
      "completions/mean_terminated_length": 751.001953125,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.4287786976188444,
      "grad_norm": 1.992377519607544,
      "kl": 2.15234375,
      "learning_rate": 7.352498902221315e-07,
      "loss": 0.085,
      "num_tokens": 794389970.0,
      "reward": 1.0068359375,
      "reward_std": 0.23750057816505432,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.1651252657175064,
      "step": 1256
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1840.0,
      "completions/mean_length": 747.642578125,
      "completions/mean_terminated_length": 745.0978393554688,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.4291200819322352,
      "grad_norm": 2.9603893756866455,
      "kl": 2.978515625,
      "learning_rate": 7.347609996917849e-07,
      "loss": 0.1505,
      "num_tokens": 794847083.0,
      "reward": 1.01318359375,
      "reward_std": 0.24392500519752502,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.18116475641727448,
      "step": 1257
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1768.0,
      "completions/mean_length": 791.625,
      "completions/mean_terminated_length": 786.6980590820312,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.42946146624562603,
      "grad_norm": 2.724947214126587,
      "kl": 3.6171875,
      "learning_rate": 7.342718467279908e-07,
      "loss": 0.1886,
      "num_tokens": 795328587.0,
      "reward": 0.9609375,
      "reward_std": 0.27307432889938354,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.896484375,
      "rewards/tag_count_reward/std": 0.21958273649215698,
      "step": 1258
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1948.0,
      "completions/max_terminated_length": 1948.0,
      "completions/mean_length": 760.69140625,
      "completions/mean_terminated_length": 760.69140625,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.4298028505590168,
      "grad_norm": 2.666703462600708,
      "kl": 3.6640625,
      "learning_rate": 7.337824320255394e-07,
      "loss": 0.1743,
      "num_tokens": 795794125.0,
      "reward": 0.95166015625,
      "reward_std": 0.22550147771835327,
      "rewards/accuracy_reward/mean": 0.03125,
      "rewards/accuracy_reward/std": 0.17416280508041382,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.19755955040454865,
      "step": 1259
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1836.0,
      "completions/mean_length": 706.61328125,
      "completions/mean_terminated_length": 701.3529663085938,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.4301442348724076,
      "grad_norm": 3.880563497543335,
      "kl": 3.55078125,
      "learning_rate": 7.33292756279592e-07,
      "loss": 0.2,
      "num_tokens": 796237335.0,
      "reward": 0.99169921875,
      "reward_std": 0.26497775316238403,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.19759339094161987,
      "step": 1260
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1763.0,
      "completions/max_terminated_length": 1763.0,
      "completions/mean_length": 728.67578125,
      "completions/mean_terminated_length": 728.67578125,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.4304856191857984,
      "grad_norm": 1.7961816787719727,
      "kl": 3.0703125,
      "learning_rate": 7.32802820185682e-07,
      "loss": 0.1612,
      "num_tokens": 796684865.0,
      "reward": 0.98388671875,
      "reward_std": 0.23252499103546143,
      "rewards/accuracy_reward/mean": 0.07056451588869095,
      "rewards/accuracy_reward/std": 0.25635457038879395,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.20228178799152374,
      "step": 1261
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1992.0,
      "completions/mean_length": 782.51953125,
      "completions/mean_terminated_length": 777.556884765625,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.43082700349918923,
      "grad_norm": 2.577136278152466,
      "kl": 3.8515625,
      "learning_rate": 7.32312624439711e-07,
      "loss": 0.2034,
      "num_tokens": 797163243.0,
      "reward": 0.98681640625,
      "reward_std": 0.2654762268066406,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.2004214972257614,
      "step": 1262
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1854.0,
      "completions/mean_length": 733.80859375,
      "completions/mean_terminated_length": 726.0628662109375,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.43116838781258,
      "grad_norm": 6.863286972045898,
      "kl": 5.65625,
      "learning_rate": 7.318221697379505e-07,
      "loss": 0.2847,
      "num_tokens": 797611897.0,
      "reward": 0.923828125,
      "reward_std": 0.2940230071544647,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.865234375,
      "rewards/tag_count_reward/std": 0.24660581350326538,
      "step": 1263
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1657.0,
      "completions/max_terminated_length": 1657.0,
      "completions/mean_length": 774.037109375,
      "completions/mean_terminated_length": 774.037109375,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.4315097721259708,
      "grad_norm": 3.185276508331299,
      "kl": 4.37109375,
      "learning_rate": 7.313314567770397e-07,
      "loss": 0.2343,
      "num_tokens": 798094828.0,
      "reward": 0.9013671875,
      "reward_std": 0.2174476981163025,
      "rewards/accuracy_reward/mean": 0.01171875,
      "rewards/accuracy_reward/std": 0.10772226005792618,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8896484375,
      "rewards/tag_count_reward/std": 0.2201455533504486,
      "step": 1264
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1563.0,
      "completions/max_terminated_length": 1563.0,
      "completions/mean_length": 665.466796875,
      "completions/mean_terminated_length": 665.466796875,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.4318511564393616,
      "grad_norm": 3.8278932571411133,
      "kl": 4.890625,
      "learning_rate": 7.308404862539841e-07,
      "loss": 0.2506,
      "num_tokens": 798515579.0,
      "reward": 1.01171875,
      "reward_std": 0.3120690584182739,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.890625,
      "rewards/tag_count_reward/std": 0.22772592306137085,
      "step": 1265
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1911.0,
      "completions/max_terminated_length": 1911.0,
      "completions/mean_length": 702.96875,
      "completions/mean_terminated_length": 702.96875,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.43219254075275243,
      "grad_norm": 3.5347719192504883,
      "kl": 3.5625,
      "learning_rate": 7.303492588661555e-07,
      "loss": 0.2038,
      "num_tokens": 798957163.0,
      "reward": 0.98193359375,
      "reward_std": 0.2749689817428589,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.20919732749462128,
      "step": 1266
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1710.0,
      "completions/max_terminated_length": 1710.0,
      "completions/mean_length": 692.478515625,
      "completions/mean_terminated_length": 692.478515625,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.4325339250661432,
      "grad_norm": 5.8749260902404785,
      "kl": 4.0234375,
      "learning_rate": 7.298577753112905e-07,
      "loss": 0.25,
      "num_tokens": 799397616.0,
      "reward": 0.9833984375,
      "reward_std": 0.30790799856185913,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8818359375,
      "rewards/tag_count_reward/std": 0.23709788918495178,
      "step": 1267
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1809.0,
      "completions/max_terminated_length": 1809.0,
      "completions/mean_length": 685.69921875,
      "completions/mean_terminated_length": 685.69921875,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.432875309379534,
      "grad_norm": 2.666879892349243,
      "kl": 3.8203125,
      "learning_rate": 7.293660362874892e-07,
      "loss": 0.1972,
      "num_tokens": 799826726.0,
      "reward": 1.05419921875,
      "reward_std": 0.2964475750923157,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.2084331214427948,
      "step": 1268
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1562.0,
      "completions/max_terminated_length": 1562.0,
      "completions/mean_length": 734.87109375,
      "completions/mean_terminated_length": 734.87109375,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.4332166936929248,
      "grad_norm": 2.4318792819976807,
      "kl": 3.84765625,
      "learning_rate": 7.288740424932151e-07,
      "loss": 0.1954,
      "num_tokens": 800275684.0,
      "reward": 0.9716796875,
      "reward_std": 0.29261159896850586,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8759765625,
      "rewards/tag_count_reward/std": 0.23822365701198578,
      "step": 1269
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1742.0,
      "completions/mean_length": 725.107421875,
      "completions/mean_terminated_length": 722.5186157226562,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.43355807800631563,
      "grad_norm": 5.8231024742126465,
      "kl": 3.78515625,
      "learning_rate": 7.283817946272933e-07,
      "loss": 0.1913,
      "num_tokens": 800718395.0,
      "reward": 0.9931640625,
      "reward_std": 0.29661667346954346,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8779296875,
      "rewards/tag_count_reward/std": 0.22608990967273712,
      "step": 1270
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1617.0,
      "completions/mean_length": 667.91796875,
      "completions/mean_terminated_length": 665.2172241210938,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.4338994623197064,
      "grad_norm": 5.3429765701293945,
      "kl": 3.8828125,
      "learning_rate": 7.278892933889098e-07,
      "loss": 0.238,
      "num_tokens": 801137633.0,
      "reward": 0.95068359375,
      "reward_std": 0.24944081902503967,
      "rewards/accuracy_reward/mean": 0.052419353276491165,
      "rewards/accuracy_reward/std": 0.22309619188308716,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89990234375,
      "rewards/tag_count_reward/std": 0.21068565547466278,
      "step": 1271
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1576.0,
      "completions/mean_length": 733.552734375,
      "completions/mean_terminated_length": 730.9804077148438,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.4342408466330972,
      "grad_norm": 7.208449840545654,
      "kl": 4.2890625,
      "learning_rate": 7.273965394776105e-07,
      "loss": 0.1718,
      "num_tokens": 801592044.0,
      "reward": 0.96044921875,
      "reward_std": 0.2888133227825165,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87646484375,
      "rewards/tag_count_reward/std": 0.23615851998329163,
      "step": 1272
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1862.0,
      "completions/mean_length": 710.37109375,
      "completions/mean_terminated_length": 702.4872436523438,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.434582230946488,
      "grad_norm": 3.591843843460083,
      "kl": 5.7421875,
      "learning_rate": 7.269035335933e-07,
      "loss": 0.2721,
      "num_tokens": 802027658.0,
      "reward": 0.94287109375,
      "reward_std": 0.3252767324447632,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.84716796875,
      "rewards/tag_count_reward/std": 0.25404128432273865,
      "step": 1273
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1592.0,
      "completions/mean_length": 700.544921875,
      "completions/mean_terminated_length": 695.2608032226562,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.4349236152598788,
      "grad_norm": 6.288658618927002,
      "kl": 4.76953125,
      "learning_rate": 7.264102764362412e-07,
      "loss": 0.2099,
      "num_tokens": 802458145.0,
      "reward": 0.94970703125,
      "reward_std": 0.32947617769241333,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.86376953125,
      "rewards/tag_count_reward/std": 0.24203728139400482,
      "step": 1274
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1849.0,
      "completions/mean_length": 769.71875,
      "completions/mean_terminated_length": 759.653564453125,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.4352649995732696,
      "grad_norm": 4.0882744789123535,
      "kl": 3.73046875,
      "learning_rate": 7.259167687070534e-07,
      "loss": 0.1843,
      "num_tokens": 802920177.0,
      "reward": 0.95556640625,
      "reward_std": 0.26851123571395874,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.88330078125,
      "rewards/tag_count_reward/std": 0.23024585843086243,
      "step": 1275
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1611.0,
      "completions/max_terminated_length": 1611.0,
      "completions/mean_length": 692.216796875,
      "completions/mean_terminated_length": 692.216796875,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.4356063838866604,
      "grad_norm": 4.951401233673096,
      "kl": 3.01171875,
      "learning_rate": 7.254230111067126e-07,
      "loss": 0.1719,
      "num_tokens": 803350624.0,
      "reward": 1.0068359375,
      "reward_std": 0.2870011627674103,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.20069128274917603,
      "step": 1276
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1602.0,
      "completions/max_terminated_length": 1602.0,
      "completions/mean_length": 720.58203125,
      "completions/mean_terminated_length": 720.58203125,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.4359477682000512,
      "grad_norm": 3.016556978225708,
      "kl": 2.84375,
      "learning_rate": 7.249290043365487e-07,
      "loss": 0.1265,
      "num_tokens": 803789002.0,
      "reward": 1.03271484375,
      "reward_std": 0.29467931389808655,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90185546875,
      "rewards/tag_count_reward/std": 0.20869427919387817,
      "step": 1277
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1739.0,
      "completions/max_terminated_length": 1739.0,
      "completions/mean_length": 757.216796875,
      "completions/mean_terminated_length": 757.216796875,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.436289152513442,
      "grad_norm": 3.0540530681610107,
      "kl": 3.203125,
      "learning_rate": 7.244347490982463e-07,
      "loss": 0.1638,
      "num_tokens": 804254473.0,
      "reward": 0.9794921875,
      "reward_std": 0.2800787091255188,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9052734375,
      "rewards/tag_count_reward/std": 0.21798203885555267,
      "step": 1278
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1725.0,
      "completions/mean_length": 771.798828125,
      "completions/mean_terminated_length": 769.3013916015625,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.4366305368268328,
      "grad_norm": 4.37945032119751,
      "kl": 2.75,
      "learning_rate": 7.239402460938427e-07,
      "loss": 0.1498,
      "num_tokens": 804729202.0,
      "reward": 0.994140625,
      "reward_std": 0.2735789716243744,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.904296875,
      "rewards/tag_count_reward/std": 0.2095356285572052,
      "step": 1279
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1572.0,
      "completions/max_terminated_length": 1572.0,
      "completions/mean_length": 762.8359375,
      "completions/mean_terminated_length": 762.8359375,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.4369719211402236,
      "grad_norm": 3.2914984226226807,
      "kl": 2.6953125,
      "learning_rate": 7.234454960257271e-07,
      "loss": 0.133,
      "num_tokens": 805190510.0,
      "reward": 0.96240234375,
      "reward_std": 0.24730157852172852,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.20337004959583282,
      "step": 1280
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1950.0,
      "completions/max_terminated_length": 1950.0,
      "completions/mean_length": 790.53125,
      "completions/mean_terminated_length": 790.53125,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.4373133054536144,
      "grad_norm": 1.8159061670303345,
      "kl": 2.611328125,
      "learning_rate": 7.229504995966393e-07,
      "loss": 0.126,
      "num_tokens": 805682798.0,
      "reward": 1.0,
      "reward_std": 0.26393765211105347,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91015625,
      "rewards/tag_count_reward/std": 0.20979996025562286,
      "step": 1281
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1844.0,
      "completions/max_terminated_length": 1844.0,
      "completions/mean_length": 714.013671875,
      "completions/mean_terminated_length": 714.013671875,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.4376546897670052,
      "grad_norm": 3.124727964401245,
      "kl": 3.44140625,
      "learning_rate": 7.224552575096699e-07,
      "loss": 0.1595,
      "num_tokens": 806122389.0,
      "reward": 0.95849609375,
      "reward_std": 0.25195011496543884,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90185546875,
      "rewards/tag_count_reward/std": 0.21333131194114685,
      "step": 1282
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1808.0,
      "completions/mean_length": 768.068359375,
      "completions/mean_terminated_length": 765.5635986328125,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.437996074080396,
      "grad_norm": 3.7241928577423096,
      "kl": 3.6640625,
      "learning_rate": 7.219597704682572e-07,
      "loss": 0.1596,
      "num_tokens": 806590408.0,
      "reward": 0.93310546875,
      "reward_std": 0.2621708810329437,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87841796875,
      "rewards/tag_count_reward/std": 0.22770023345947266,
      "step": 1283
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1555.0,
      "completions/mean_length": 675.97265625,
      "completions/mean_terminated_length": 673.2876586914062,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.4383374583937868,
      "grad_norm": 2.2340805530548096,
      "kl": 3.7421875,
      "learning_rate": 7.214640391761887e-07,
      "loss": 0.1735,
      "num_tokens": 807026890.0,
      "reward": 0.9765625,
      "reward_std": 0.29601624608039856,
      "rewards/accuracy_reward/mean": 0.07661290466785431,
      "rewards/accuracy_reward/std": 0.2662447690963745,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.21724654734134674,
      "step": 1284
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1592.0,
      "completions/max_terminated_length": 1592.0,
      "completions/mean_length": 761.462890625,
      "completions/mean_terminated_length": 761.462890625,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.4386788427071776,
      "grad_norm": 2.277294635772705,
      "kl": 3.9765625,
      "learning_rate": 7.209680643375978e-07,
      "loss": 0.189,
      "num_tokens": 807488439.0,
      "reward": 0.9296875,
      "reward_std": 0.2788533866405487,
      "rewards/accuracy_reward/mean": 0.060483869165182114,
      "rewards/accuracy_reward/std": 0.2386218160390854,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.87109375,
      "rewards/tag_count_reward/std": 0.2381935715675354,
      "step": 1285
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1658.0,
      "completions/mean_length": 746.6875,
      "completions/mean_terminated_length": 744.140869140625,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.4390202270205684,
      "grad_norm": 4.166876316070557,
      "kl": 4.5859375,
      "learning_rate": 7.204718466569645e-07,
      "loss": 0.1855,
      "num_tokens": 807949959.0,
      "reward": 0.90478515625,
      "reward_std": 0.283225953578949,
      "rewards/accuracy_reward/mean": 0.037109375,
      "rewards/accuracy_reward/std": 0.18921469151973724,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.86572265625,
      "rewards/tag_count_reward/std": 0.24363093078136444,
      "step": 1286
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1724.0,
      "completions/max_terminated_length": 1724.0,
      "completions/mean_length": 681.1953125,
      "completions/mean_terminated_length": 681.1953125,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.4393616113339592,
      "grad_norm": 2.166759490966797,
      "kl": 4.859375,
      "learning_rate": 7.199753868391138e-07,
      "loss": 0.2633,
      "num_tokens": 808374731.0,
      "reward": 0.9580078125,
      "reward_std": 0.2841224670410156,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8935546875,
      "rewards/tag_count_reward/std": 0.2170507311820984,
      "step": 1287
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 663.521484375,
      "completions/mean_terminated_length": 660.8121337890625,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.43970299564735,
      "grad_norm": 1.9397300481796265,
      "kl": 4.40625,
      "learning_rate": 7.194786855892135e-07,
      "loss": 0.2377,
      "num_tokens": 808793734.0,
      "reward": 0.953125,
      "reward_std": 0.2842934727668762,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.888671875,
      "rewards/tag_count_reward/std": 0.22515182197093964,
      "step": 1288
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1617.0,
      "completions/max_terminated_length": 1617.0,
      "completions/mean_length": 742.556640625,
      "completions/mean_terminated_length": 742.556640625,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.4400443799607408,
      "grad_norm": 2.5763185024261475,
      "kl": 3.2265625,
      "learning_rate": 7.18981743612776e-07,
      "loss": 0.1577,
      "num_tokens": 809249779.0,
      "reward": 0.951171875,
      "reward_std": 0.2588649094104767,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.900390625,
      "rewards/tag_count_reward/std": 0.21351096034049988,
      "step": 1289
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1962.0,
      "completions/mean_length": 717.91796875,
      "completions/mean_terminated_length": 712.7020263671875,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.4403857642741316,
      "grad_norm": 3.292499542236328,
      "kl": 3.9296875,
      "learning_rate": 7.184845616156543e-07,
      "loss": 0.2346,
      "num_tokens": 809693129.0,
      "reward": 0.94580078125,
      "reward_std": 0.2573530673980713,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89892578125,
      "rewards/tag_count_reward/std": 0.21368040144443512,
      "step": 1290
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1962.0,
      "completions/mean_length": 749.140625,
      "completions/mean_terminated_length": 746.5988159179688,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.4407271485875224,
      "grad_norm": 2.654452085494995,
      "kl": 3.4453125,
      "learning_rate": 7.17987140304043e-07,
      "loss": 0.203,
      "num_tokens": 810163089.0,
      "reward": 0.9482421875,
      "reward_std": 0.2943015694618225,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8798828125,
      "rewards/tag_count_reward/std": 0.22659650444984436,
      "step": 1291
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1661.0,
      "completions/max_terminated_length": 1661.0,
      "completions/mean_length": 714.982421875,
      "completions/mean_terminated_length": 714.982421875,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.4410685329009132,
      "grad_norm": 2.422903299331665,
      "kl": 3.4296875,
      "learning_rate": 7.174894803844765e-07,
      "loss": 0.1733,
      "num_tokens": 810606440.0,
      "reward": 1.04541015625,
      "reward_std": 0.3446163535118103,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.88525390625,
      "rewards/tag_count_reward/std": 0.22479026019573212,
      "step": 1292
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1592.0,
      "completions/mean_length": 747.083984375,
      "completions/mean_terminated_length": 739.41650390625,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.441409917214304,
      "grad_norm": 3.93560528755188,
      "kl": 4.21484375,
      "learning_rate": 7.169915825638277e-07,
      "loss": 0.2202,
      "num_tokens": 811065699.0,
      "reward": 0.90625,
      "reward_std": 0.2945861220359802,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.849609375,
      "rewards/tag_count_reward/std": 0.24747224152088165,
      "step": 1293
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1797.0,
      "completions/max_terminated_length": 1797.0,
      "completions/mean_length": 689.666015625,
      "completions/mean_terminated_length": 689.666015625,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.4417513015276948,
      "grad_norm": 3.5508759021759033,
      "kl": 3.49609375,
      "learning_rate": 7.164934475493081e-07,
      "loss": 0.1786,
      "num_tokens": 811493544.0,
      "reward": 0.9189453125,
      "reward_std": 0.27675721049308777,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.8759765625,
      "rewards/tag_count_reward/std": 0.2340802550315857,
      "step": 1294
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1607.0,
      "completions/mean_length": 761.806640625,
      "completions/mean_terminated_length": 759.2896118164062,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.4420926858410856,
      "grad_norm": 2.3482491970062256,
      "kl": 3.40234375,
      "learning_rate": 7.159950760484658e-07,
      "loss": 0.1707,
      "num_tokens": 811960005.0,
      "reward": 0.974609375,
      "reward_std": 0.2815355062484741,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.888671875,
      "rewards/tag_count_reward/std": 0.2179754674434662,
      "step": 1295
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1551.0,
      "completions/max_terminated_length": 1551.0,
      "completions/mean_length": 691.8984375,
      "completions/mean_terminated_length": 691.8984375,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.4424340701544764,
      "grad_norm": 2.6762218475341797,
      "kl": 3.3671875,
      "learning_rate": 7.154964687691844e-07,
      "loss": 0.1773,
      "num_tokens": 812392353.0,
      "reward": 0.9609375,
      "reward_std": 0.27421897649765015,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.888671875,
      "rewards/tag_count_reward/std": 0.22731435298919678,
      "step": 1296
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1734.0,
      "completions/mean_length": 706.103515625,
      "completions/mean_terminated_length": 700.8412475585938,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.4427754544678672,
      "grad_norm": 3.3708600997924805,
      "kl": 4.375,
      "learning_rate": 7.149976264196833e-07,
      "loss": 0.2532,
      "num_tokens": 812829606.0,
      "reward": 0.955078125,
      "reward_std": 0.2880450487136841,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.892578125,
      "rewards/tag_count_reward/std": 0.22488003969192505,
      "step": 1297
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1706.0,
      "completions/mean_length": 754.771484375,
      "completions/mean_terminated_length": 752.24072265625,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.443116838781258,
      "grad_norm": 1.8356916904449463,
      "kl": 3.6796875,
      "learning_rate": 7.144985497085148e-07,
      "loss": 0.1997,
      "num_tokens": 813293569.0,
      "reward": 1.01513671875,
      "reward_std": 0.3359909951686859,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.89208984375,
      "rewards/tag_count_reward/std": 0.21660728752613068,
      "step": 1298
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1705.0,
      "completions/mean_length": 717.09375,
      "completions/mean_terminated_length": 714.4892578125,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.4434582230946488,
      "grad_norm": 1.586843729019165,
      "kl": 4.12109375,
      "learning_rate": 7.13999239344565e-07,
      "loss": 0.2246,
      "num_tokens": 813733105.0,
      "reward": 0.9404296875,
      "reward_std": 0.28585097193717957,
      "rewards/accuracy_reward/mean": 0.05443548411130905,
      "rewards/accuracy_reward/std": 0.227104052901268,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.8857421875,
      "rewards/tag_count_reward/std": 0.22312895953655243,
      "step": 1299
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1713.0,
      "completions/max_terminated_length": 1713.0,
      "completions/mean_length": 690.529296875,
      "completions/mean_terminated_length": 690.529296875,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.4437996074080396,
      "grad_norm": 4.408387184143066,
      "kl": 3.734375,
      "learning_rate": 7.13499696037051e-07,
      "loss": 0.2029,
      "num_tokens": 814165520.0,
      "reward": 1.01318359375,
      "reward_std": 0.2975776195526123,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.19194161891937256,
      "step": 1300
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1470.0,
      "completions/mean_length": 758.994140625,
      "completions/mean_terminated_length": 753.9392700195312,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.4441409917214304,
      "grad_norm": 2.2561194896698,
      "kl": 3.73828125,
      "learning_rate": 7.129999204955214e-07,
      "loss": 0.1972,
      "num_tokens": 814640445.0,
      "reward": 0.978515625,
      "reward_std": 0.2816011905670166,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.21211905777454376,
      "step": 1301
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1800.0,
      "completions/max_terminated_length": 1800.0,
      "completions/mean_length": 723.421875,
      "completions/mean_terminated_length": 723.421875,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.4444823760348212,
      "grad_norm": 2.8170838356018066,
      "kl": 3.8671875,
      "learning_rate": 7.124999134298544e-07,
      "loss": 0.2023,
      "num_tokens": 815092533.0,
      "reward": 0.97265625,
      "reward_std": 0.27949732542037964,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.21201092004776,
      "step": 1302
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1710.0,
      "completions/mean_length": 738.4921875,
      "completions/mean_terminated_length": 735.9295654296875,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.444823760348212,
      "grad_norm": 2.1645700931549072,
      "kl": 3.5546875,
      "learning_rate": 7.119996755502572e-07,
      "loss": 0.1779,
      "num_tokens": 815546385.0,
      "reward": 0.9375,
      "reward_std": 0.2515963912010193,
      "rewards/accuracy_reward/mean": 0.0390625,
      "rewards/accuracy_reward/std": 0.1939331740140915,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.896484375,
      "rewards/tag_count_reward/std": 0.2184658795595169,
      "step": 1303
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1701.0,
      "completions/mean_length": 714.59375,
      "completions/mean_terminated_length": 709.36474609375,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.4451651446616028,
      "grad_norm": 2.33807373046875,
      "kl": 3.1875,
      "learning_rate": 7.114992075672648e-07,
      "loss": 0.1557,
      "num_tokens": 815988129.0,
      "reward": 1.02392578125,
      "reward_std": 0.286119282245636,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.19833672046661377,
      "step": 1304
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1702.0,
      "completions/mean_length": 721.060546875,
      "completions/mean_terminated_length": 718.4638061523438,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.4455065289749936,
      "grad_norm": 6.866147994995117,
      "kl": 3.53515625,
      "learning_rate": 7.10998510191739e-07,
      "loss": 0.1699,
      "num_tokens": 816430464.0,
      "reward": 1.0400390625,
      "reward_std": 0.32317155599594116,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9052734375,
      "rewards/tag_count_reward/std": 0.20997978746891022,
      "step": 1305
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1550.0,
      "completions/max_terminated_length": 1550.0,
      "completions/mean_length": 694.80859375,
      "completions/mean_terminated_length": 694.80859375,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.4458479132883844,
      "grad_norm": 3.406233072280884,
      "kl": 2.912109375,
      "learning_rate": 7.104975841348673e-07,
      "loss": 0.1439,
      "num_tokens": 816861246.0,
      "reward": 0.99462890625,
      "reward_std": 0.2748178243637085,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91064453125,
      "rewards/tag_count_reward/std": 0.2001686543226242,
      "step": 1306
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1957.0,
      "completions/mean_length": 753.3046875,
      "completions/mean_terminated_length": 750.7710571289062,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.4461892976017752,
      "grad_norm": 1.5010937452316284,
      "kl": 3.2890625,
      "learning_rate": 7.099964301081621e-07,
      "loss": 0.1465,
      "num_tokens": 817327642.0,
      "reward": 0.9755859375,
      "reward_std": 0.2628176212310791,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.19373352825641632,
      "step": 1307
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1758.0,
      "completions/max_terminated_length": 1758.0,
      "completions/mean_length": 783.052734375,
      "completions/mean_terminated_length": 783.052734375,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.446530681915166,
      "grad_norm": 2.217822790145874,
      "kl": 2.48828125,
      "learning_rate": 7.0949504882346e-07,
      "loss": 0.1096,
      "num_tokens": 817804197.0,
      "reward": 0.998046875,
      "reward_std": 0.23435276746749878,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.18268859386444092,
      "step": 1308
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1688.0,
      "completions/mean_length": 726.181640625,
      "completions/mean_terminated_length": 723.5949096679688,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.4468720662285568,
      "grad_norm": 3.846050262451172,
      "kl": 2.796875,
      "learning_rate": 7.089934409929198e-07,
      "loss": 0.1467,
      "num_tokens": 818250738.0,
      "reward": 1.04052734375,
      "reward_std": 0.26566195487976074,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.18282388150691986,
      "step": 1309
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1909.0,
      "completions/max_terminated_length": 1909.0,
      "completions/mean_length": 701.01953125,
      "completions/mean_terminated_length": 701.01953125,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.4472134505419476,
      "grad_norm": 3.995776653289795,
      "kl": 2.8359375,
      "learning_rate": 7.084916073290223e-07,
      "loss": 0.1289,
      "num_tokens": 818698620.0,
      "reward": 0.94921875,
      "reward_std": 0.21329271793365479,
      "rewards/accuracy_reward/mean": 0.0390625,
      "rewards/accuracy_reward/std": 0.1939331740140915,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91015625,
      "rewards/tag_count_reward/std": 0.20508308708667755,
      "step": 1310
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1960.0,
      "completions/mean_length": 839.27734375,
      "completions/mean_terminated_length": 836.9119262695312,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.4475548348553384,
      "grad_norm": 3.408872127532959,
      "kl": 3.2265625,
      "learning_rate": 7.079895485445694e-07,
      "loss": 0.1588,
      "num_tokens": 819214346.0,
      "reward": 1.0205078125,
      "reward_std": 0.2695790231227875,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.18026389181613922,
      "step": 1311
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1580.0,
      "completions/max_terminated_length": 1580.0,
      "completions/mean_length": 736.931640625,
      "completions/mean_terminated_length": 736.931640625,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.4478962191687292,
      "grad_norm": 1.6791059970855713,
      "kl": 2.33984375,
      "learning_rate": 7.07487265352682e-07,
      "loss": 0.1049,
      "num_tokens": 819674759.0,
      "reward": 1.095703125,
      "reward_std": 0.2654426097869873,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.15873152017593384,
      "step": 1312
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1621.0,
      "completions/mean_length": 681.40625,
      "completions/mean_terminated_length": 676.047119140625,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.44823760348212,
      "grad_norm": 2.032522201538086,
      "kl": 3.36328125,
      "learning_rate": 7.069847584668009e-07,
      "loss": 0.1702,
      "num_tokens": 820095607.0,
      "reward": 0.97998046875,
      "reward_std": 0.25572580099105835,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.1914980411529541,
      "step": 1313
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1733.0,
      "completions/max_terminated_length": 1733.0,
      "completions/mean_length": 704.08984375,
      "completions/mean_terminated_length": 704.08984375,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.4485789877955108,
      "grad_norm": 2.2327351570129395,
      "kl": 2.8125,
      "learning_rate": 7.064820286006832e-07,
      "loss": 0.134,
      "num_tokens": 820535973.0,
      "reward": 1.04443359375,
      "reward_std": 0.27658912539482117,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.17807930707931519,
      "step": 1314
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1911.0,
      "completions/mean_length": 757.623046875,
      "completions/mean_terminated_length": 750.0177001953125,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.4489203721089016,
      "grad_norm": 3.413795232772827,
      "kl": 3.765625,
      "learning_rate": 7.059790764684039e-07,
      "loss": 0.1952,
      "num_tokens": 821013364.0,
      "reward": 0.94970703125,
      "reward_std": 0.2431173026561737,
      "rewards/accuracy_reward/mean": 0.03125,
      "rewards/accuracy_reward/std": 0.17416280508041382,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.19919723272323608,
      "step": 1315
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1646.0,
      "completions/max_terminated_length": 1646.0,
      "completions/mean_length": 732.56640625,
      "completions/mean_terminated_length": 732.56640625,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.4492617564222924,
      "grad_norm": 2.764852523803711,
      "kl": 2.56640625,
      "learning_rate": 7.054759027843532e-07,
      "loss": 0.1017,
      "num_tokens": 821471302.0,
      "reward": 1.0546875,
      "reward_std": 0.2671966254711151,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17270830273628235,
      "step": 1316
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1634.0,
      "completions/max_terminated_length": 1634.0,
      "completions/mean_length": 735.04296875,
      "completions/mean_terminated_length": 735.04296875,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.4496031407356832,
      "grad_norm": 3.533684730529785,
      "kl": 3.29296875,
      "learning_rate": 7.049725082632362e-07,
      "loss": 0.1847,
      "num_tokens": 821920044.0,
      "reward": 1.02490234375,
      "reward_std": 0.2679470181465149,
      "rewards/accuracy_reward/mean": 0.10685484111309052,
      "rewards/accuracy_reward/std": 0.30924052000045776,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.19085827469825745,
      "step": 1317
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1744.0,
      "completions/max_terminated_length": 1744.0,
      "completions/mean_length": 743.291015625,
      "completions/mean_terminated_length": 743.291015625,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.449944525049074,
      "grad_norm": 1.990745186805725,
      "kl": 2.34375,
      "learning_rate": 7.044688936200712e-07,
      "loss": 0.1033,
      "num_tokens": 822373521.0,
      "reward": 0.962890625,
      "reward_std": 0.2034437209367752,
      "rewards/accuracy_reward/mean": 0.029296875,
      "rewards/accuracy_reward/std": 0.16880230605602264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17199864983558655,
      "step": 1318
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1818.0,
      "completions/max_terminated_length": 1818.0,
      "completions/mean_length": 746.63671875,
      "completions/mean_terminated_length": 746.63671875,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.4502859093624648,
      "grad_norm": 2.4520978927612305,
      "kl": 3.078125,
      "learning_rate": 7.039650595701898e-07,
      "loss": 0.1526,
      "num_tokens": 822835383.0,
      "reward": 0.97705078125,
      "reward_std": 0.26465874910354614,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.24230584502220154,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.19718192517757416,
      "step": 1319
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1428.0,
      "completions/max_terminated_length": 1428.0,
      "completions/mean_length": 699.361328125,
      "completions/mean_terminated_length": 699.361328125,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.4506272936758556,
      "grad_norm": 2.0763678550720215,
      "kl": 2.474609375,
      "learning_rate": 7.034610068292349e-07,
      "loss": 0.1058,
      "num_tokens": 823261584.0,
      "reward": 0.98046875,
      "reward_std": 0.24530547857284546,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.1875101923942566,
      "step": 1320
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1751.0,
      "completions/max_terminated_length": 1751.0,
      "completions/mean_length": 670.626953125,
      "completions/mean_terminated_length": 670.626953125,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.4509686779892464,
      "grad_norm": 2.817829132080078,
      "kl": 3.06640625,
      "learning_rate": 7.029567361131601e-07,
      "loss": 0.1736,
      "num_tokens": 823686417.0,
      "reward": 1.03955078125,
      "reward_std": 0.28581804037094116,
      "rewards/accuracy_reward/mean": 0.11693548411130905,
      "rewards/accuracy_reward/std": 0.32166779041290283,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.18783541023731232,
      "step": 1321
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1890.0,
      "completions/max_terminated_length": 1890.0,
      "completions/mean_length": 724.439453125,
      "completions/mean_terminated_length": 724.439453125,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.4513100623026372,
      "grad_norm": 3.7140069007873535,
      "kl": 4.0390625,
      "learning_rate": 7.024522481382284e-07,
      "loss": 0.2222,
      "num_tokens": 824129842.0,
      "reward": 0.93701171875,
      "reward_std": 0.2504616379737854,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.88427734375,
      "rewards/tag_count_reward/std": 0.23126865923404694,
      "step": 1322
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1598.0,
      "completions/mean_length": 697.712890625,
      "completions/mean_terminated_length": 695.0704345703125,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.451651446616028,
      "grad_norm": 3.1952767372131348,
      "kl": 3.453125,
      "learning_rate": 7.019475436210118e-07,
      "loss": 0.1988,
      "num_tokens": 824573167.0,
      "reward": 0.98193359375,
      "reward_std": 0.29698917269706726,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.89599609375,
      "rewards/tag_count_reward/std": 0.22129441797733307,
      "step": 1323
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1451.0,
      "completions/max_terminated_length": 1451.0,
      "completions/mean_length": 675.330078125,
      "completions/mean_terminated_length": 675.330078125,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.4519928309294188,
      "grad_norm": 2.8782715797424316,
      "kl": 3.19140625,
      "learning_rate": 7.014426232783896e-07,
      "loss": 0.1879,
      "num_tokens": 824989912.0,
      "reward": 1.072265625,
      "reward_std": 0.3156305253505707,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.19968174397945404,
      "step": 1324
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1996.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 707.73046875,
      "completions/mean_terminated_length": 707.73046875,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.4523342152428096,
      "grad_norm": 3.448002815246582,
      "kl": 3.0625,
      "learning_rate": 7.009374878275476e-07,
      "loss": 0.1784,
      "num_tokens": 825432526.0,
      "reward": 0.93994140625,
      "reward_std": 0.24009019136428833,
      "rewards/accuracy_reward/mean": 0.032258063554763794,
      "rewards/accuracy_reward/std": 0.17686307430267334,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.2088819146156311,
      "step": 1325
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1852.0,
      "completions/mean_length": 652.580078125,
      "completions/mean_terminated_length": 649.8493041992188,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.4526755995562004,
      "grad_norm": 5.512711524963379,
      "kl": 2.2734375,
      "learning_rate": 7.004321379859774e-07,
      "loss": 0.1281,
      "num_tokens": 825843367.0,
      "reward": 1.07666015625,
      "reward_std": 0.23804612457752228,
      "rewards/accuracy_reward/mean": 0.14516128599643707,
      "rewards/accuracy_reward/std": 0.3526190221309662,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.1704016625881195,
      "step": 1326
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1821.0,
      "completions/max_terminated_length": 1821.0,
      "completions/mean_length": 711.171875,
      "completions/mean_terminated_length": 711.171875,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.4530169838695912,
      "grad_norm": 2.214639186859131,
      "kl": 3.3671875,
      "learning_rate": 6.999265744714747e-07,
      "loss": 0.1561,
      "num_tokens": 826285151.0,
      "reward": 1.02587890625,
      "reward_std": 0.26892101764678955,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.91064453125,
      "rewards/tag_count_reward/std": 0.1964682638645172,
      "step": 1327
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1696.0,
      "completions/max_terminated_length": 1696.0,
      "completions/mean_length": 716.1796875,
      "completions/mean_terminated_length": 716.1796875,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.453358368182982,
      "grad_norm": 3.9541826248168945,
      "kl": 2.466796875,
      "learning_rate": 6.994207980021394e-07,
      "loss": 0.1332,
      "num_tokens": 826735931.0,
      "reward": 1.0224609375,
      "reward_std": 0.25644171237945557,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.1798180788755417,
      "step": 1328
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1726.0,
      "completions/mean_length": 750.740234375,
      "completions/mean_terminated_length": 745.6530151367188,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.4536997524963728,
      "grad_norm": 42.32180404663086,
      "kl": 3.5,
      "learning_rate": 6.989148092963732e-07,
      "loss": 0.1655,
      "num_tokens": 827197446.0,
      "reward": 0.96826171875,
      "reward_std": 0.27005231380462646,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90185546875,
      "rewards/tag_count_reward/std": 0.21390387415885925,
      "step": 1329
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1514.0,
      "completions/max_terminated_length": 1514.0,
      "completions/mean_length": 705.81640625,
      "completions/mean_terminated_length": 705.81640625,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.4540411368097636,
      "grad_norm": 3.038391590118408,
      "kl": 4.1796875,
      "learning_rate": 6.984086090728795e-07,
      "loss": 0.215,
      "num_tokens": 827622936.0,
      "reward": 0.9990234375,
      "reward_std": 0.28966623544692993,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8955078125,
      "rewards/tag_count_reward/std": 0.2099979966878891,
      "step": 1330
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1693.0,
      "completions/max_terminated_length": 1693.0,
      "completions/mean_length": 709.224609375,
      "completions/mean_terminated_length": 709.224609375,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.4543825211231544,
      "grad_norm": 2.636596202850342,
      "kl": 3.8671875,
      "learning_rate": 6.979021980506619e-07,
      "loss": 0.2154,
      "num_tokens": 828068219.0,
      "reward": 1.017578125,
      "reward_std": 0.3015235662460327,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.21154166758060455,
      "step": 1331
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1906.0,
      "completions/mean_length": 740.01953125,
      "completions/mean_terminated_length": 734.8902587890625,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.4547239054365452,
      "grad_norm": 2.719158172607422,
      "kl": 4.546875,
      "learning_rate": 6.973955769490243e-07,
      "loss": 0.248,
      "num_tokens": 828530085.0,
      "reward": 0.91748046875,
      "reward_std": 0.25036895275115967,
      "rewards/accuracy_reward/mean": 0.03515625,
      "rewards/accuracy_reward/std": 0.1843547374010086,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.88232421875,
      "rewards/tag_count_reward/std": 0.22271907329559326,
      "step": 1332
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2013.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 725.271484375,
      "completions/mean_terminated_length": 725.271484375,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.455065289749936,
      "grad_norm": 2.873018980026245,
      "kl": 5.046875,
      "learning_rate": 6.96888746487568e-07,
      "loss": 0.2991,
      "num_tokens": 828984656.0,
      "reward": 0.9521484375,
      "reward_std": 0.30791783332824707,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.8798828125,
      "rewards/tag_count_reward/std": 0.23817551136016846,
      "step": 1333
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1739.0,
      "completions/max_terminated_length": 1739.0,
      "completions/mean_length": 699.87890625,
      "completions/mean_terminated_length": 699.87890625,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.4554066740633268,
      "grad_norm": 4.217231750488281,
      "kl": 4.0390625,
      "learning_rate": 6.963817073861918e-07,
      "loss": 0.2136,
      "num_tokens": 829418450.0,
      "reward": 0.97802734375,
      "reward_std": 0.28467512130737305,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.89208984375,
      "rewards/tag_count_reward/std": 0.21604189276695251,
      "step": 1334
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1819.0,
      "completions/mean_length": 712.607421875,
      "completions/mean_terminated_length": 696.7727661132812,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.4557480583767176,
      "grad_norm": 2.996673345565796,
      "kl": 4.46484375,
      "learning_rate": 6.958744603650916e-07,
      "loss": 0.2481,
      "num_tokens": 829855609.0,
      "reward": 1.0,
      "reward_std": 0.2858024835586548,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.896484375,
      "rewards/tag_count_reward/std": 0.2206939458847046,
      "step": 1335
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1769.0,
      "completions/max_terminated_length": 1769.0,
      "completions/mean_length": 720.28125,
      "completions/mean_terminated_length": 720.28125,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.45608944269010837,
      "grad_norm": 1.891392469406128,
      "kl": 4.13671875,
      "learning_rate": 6.953670061447576e-07,
      "loss": 0.2217,
      "num_tokens": 830307001.0,
      "reward": 0.978515625,
      "reward_std": 0.2753485441207886,
      "rewards/accuracy_reward/mean": 0.08467742055654526,
      "rewards/accuracy_reward/std": 0.278682142496109,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.896484375,
      "rewards/tag_count_reward/std": 0.21336770057678223,
      "step": 1336
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1810.0,
      "completions/max_terminated_length": 1810.0,
      "completions/mean_length": 705.3671875,
      "completions/mean_terminated_length": 705.3671875,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.4564308270034992,
      "grad_norm": 3.3166732788085938,
      "kl": 3.7265625,
      "learning_rate": 6.948593454459752e-07,
      "loss": 0.2075,
      "num_tokens": 830747525.0,
      "reward": 1.00927734375,
      "reward_std": 0.30435097217559814,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.2084423005580902,
      "step": 1337
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 734.3203125,
      "completions/mean_terminated_length": 731.74951171875,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.45677221131689,
      "grad_norm": 1.527887225151062,
      "kl": 3.1953125,
      "learning_rate": 6.943514789898224e-07,
      "loss": 0.1564,
      "num_tokens": 831200217.0,
      "reward": 1.02880859375,
      "reward_std": 0.3165457248687744,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.20045962929725647,
      "step": 1338
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1434.0,
      "completions/max_terminated_length": 1434.0,
      "completions/mean_length": 688.16015625,
      "completions/mean_terminated_length": 688.16015625,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.4571135956302808,
      "grad_norm": 2.426649570465088,
      "kl": 2.5625,
      "learning_rate": 6.938434074976701e-07,
      "loss": 0.1023,
      "num_tokens": 831620699.0,
      "reward": 1.07666015625,
      "reward_std": 0.3229554295539856,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.18523313105106354,
      "step": 1339
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1962.0,
      "completions/max_terminated_length": 1962.0,
      "completions/mean_length": 666.642578125,
      "completions/mean_terminated_length": 666.642578125,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.45745497994367157,
      "grad_norm": 5.0506086349487305,
      "kl": 4.5859375,
      "learning_rate": 6.933351316911798e-07,
      "loss": 0.2509,
      "num_tokens": 832044132.0,
      "reward": 0.98486328125,
      "reward_std": 0.32877469062805176,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.88134765625,
      "rewards/tag_count_reward/std": 0.23659509420394897,
      "step": 1340
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1730.0,
      "completions/mean_length": 707.759765625,
      "completions/mean_terminated_length": 702.5039672851562,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.4577963642570624,
      "grad_norm": 2.1826882362365723,
      "kl": 3.7109375,
      "learning_rate": 6.928266522923035e-07,
      "loss": 0.1971,
      "num_tokens": 832486873.0,
      "reward": 0.958984375,
      "reward_std": 0.21873745322227478,
      "rewards/accuracy_reward/mean": 0.04583333432674408,
      "rewards/accuracy_reward/std": 0.20934167504310608,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.20051266252994537,
      "step": 1341
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1947.0,
      "completions/max_terminated_length": 1947.0,
      "completions/mean_length": 769.08203125,
      "completions/mean_terminated_length": 769.08203125,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.4581377485704532,
      "grad_norm": 1.371950626373291,
      "kl": 2.921875,
      "learning_rate": 6.923179700232826e-07,
      "loss": 0.1335,
      "num_tokens": 832965747.0,
      "reward": 1.03466796875,
      "reward_std": 0.2636609673500061,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.19194161891937256,
      "step": 1342
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 754.505859375,
      "completions/mean_terminated_length": 751.9745483398438,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.458479132883844,
      "grad_norm": 3.490316390991211,
      "kl": 3.93359375,
      "learning_rate": 6.918090856066463e-07,
      "loss": 0.1997,
      "num_tokens": 833425142.0,
      "reward": 0.96728515625,
      "reward_std": 0.3163343071937561,
      "rewards/accuracy_reward/mean": 0.08467742055654526,
      "rewards/accuracy_reward/std": 0.278682142496109,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.88134765625,
      "rewards/tag_count_reward/std": 0.23607757687568665,
      "step": 1343
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1729.0,
      "completions/max_terminated_length": 1729.0,
      "completions/mean_length": 724.1484375,
      "completions/mean_terminated_length": 724.1484375,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.45882051719723477,
      "grad_norm": 2.284849166870117,
      "kl": 3.15234375,
      "learning_rate": 6.91299999765211e-07,
      "loss": 0.1325,
      "num_tokens": 833872818.0,
      "reward": 0.96142578125,
      "reward_std": 0.26088348031044006,
      "rewards/accuracy_reward/mean": 0.060483869165182114,
      "rewards/accuracy_reward/std": 0.2386218160390854,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.89892578125,
      "rewards/tag_count_reward/std": 0.21708759665489197,
      "step": 1344
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2044.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 726.76953125,
      "completions/mean_terminated_length": 726.76953125,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.4591619015106256,
      "grad_norm": 3.049931287765503,
      "kl": 4.2109375,
      "learning_rate": 6.907907132220794e-07,
      "loss": 0.2517,
      "num_tokens": 834315612.0,
      "reward": 0.9921875,
      "reward_std": 0.25062692165374756,
      "rewards/accuracy_reward/mean": 0.09677419066429138,
      "rewards/accuracy_reward/std": 0.2959485352039337,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.21316158771514893,
      "step": 1345
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2044.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 760.76171875,
      "completions/mean_terminated_length": 760.76171875,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.4595032858240164,
      "grad_norm": 1.9266505241394043,
      "kl": 3.79296875,
      "learning_rate": 6.902812267006389e-07,
      "loss": 0.1849,
      "num_tokens": 834777266.0,
      "reward": 0.9560546875,
      "reward_std": 0.2592583894729614,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.8994140625,
      "rewards/tag_count_reward/std": 0.21132247149944305,
      "step": 1346
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1826.0,
      "completions/mean_length": 736.369140625,
      "completions/mean_terminated_length": 728.6385498046875,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.4598446701374072,
      "grad_norm": 2.7474708557128906,
      "kl": 3.765625,
      "learning_rate": 6.897715409245615e-07,
      "loss": 0.2104,
      "num_tokens": 835241903.0,
      "reward": 1.01123046875,
      "reward_std": 0.2824721336364746,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.90576171875,
      "rewards/tag_count_reward/std": 0.2145194560289383,
      "step": 1347
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1666.0,
      "completions/mean_length": 725.9296875,
      "completions/mean_terminated_length": 712.8915405273438,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.46018605445079797,
      "grad_norm": 2.6644017696380615,
      "kl": 4.31640625,
      "learning_rate": 6.892616566178017e-07,
      "loss": 0.2167,
      "num_tokens": 835687291.0,
      "reward": 0.96435546875,
      "reward_std": 0.263368159532547,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.20309264957904816,
      "step": 1348
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1769.0,
      "completions/mean_length": 725.02734375,
      "completions/mean_terminated_length": 722.4383544921875,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.4605274387641888,
      "grad_norm": 1.93429696559906,
      "kl": 2.953125,
      "learning_rate": 6.887515745045963e-07,
      "loss": 0.1259,
      "num_tokens": 836139545.0,
      "reward": 0.98193359375,
      "reward_std": 0.25790125131607056,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.1952926218509674,
      "step": 1349
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1943.0,
      "completions/mean_length": 777.263671875,
      "completions/mean_terminated_length": 774.7769165039062,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.4608688230775796,
      "grad_norm": 1.512467384338379,
      "kl": 3.6640625,
      "learning_rate": 6.882412953094629e-07,
      "loss": 0.1604,
      "num_tokens": 836617552.0,
      "reward": 0.93017578125,
      "reward_std": 0.2594614624977112,
      "rewards/accuracy_reward/mean": 0.03125,
      "rewards/accuracy_reward/std": 0.17416280508041382,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.89501953125,
      "rewards/tag_count_reward/std": 0.21748337149620056,
      "step": 1350
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1827.0,
      "completions/max_terminated_length": 1827.0,
      "completions/mean_length": 743.033203125,
      "completions/mean_terminated_length": 743.033203125,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.4612102073909704,
      "grad_norm": 2.922914743423462,
      "kl": 3.359375,
      "learning_rate": 6.87730819757199e-07,
      "loss": 0.1915,
      "num_tokens": 837073201.0,
      "reward": 1.01123046875,
      "reward_std": 0.29407167434692383,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.20901910960674286,
      "step": 1351
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1744.0,
      "completions/mean_length": 668.71875,
      "completions/mean_terminated_length": 663.309814453125,
      "completions/min_length": 16.0,
      "completions/min_terminated_length": 16.0,
      "epoch": 0.46155159170436116,
      "grad_norm": 2.058774709701538,
      "kl": 3.7734375,
      "learning_rate": 6.872201485728812e-07,
      "loss": 0.1964,
      "num_tokens": 837493073.0,
      "reward": 1.0302734375,
      "reward_std": 0.3157753646373749,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.21141289174556732,
      "step": 1352
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1648.0,
      "completions/mean_length": 776.578125,
      "completions/mean_terminated_length": 761.5020141601562,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.461892976017752,
      "grad_norm": 2.0698978900909424,
      "kl": 3.765625,
      "learning_rate": 6.867092824818639e-07,
      "loss": 0.1831,
      "num_tokens": 837977209.0,
      "reward": 0.96533203125,
      "reward_std": 0.279620885848999,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.89306640625,
      "rewards/tag_count_reward/std": 0.21989093720912933,
      "step": 1353
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1621.0,
      "completions/max_terminated_length": 1621.0,
      "completions/mean_length": 710.08203125,
      "completions/mean_terminated_length": 710.08203125,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.4622343603311428,
      "grad_norm": 4.557255744934082,
      "kl": 3.85546875,
      "learning_rate": 6.861982222097785e-07,
      "loss": 0.2094,
      "num_tokens": 838423587.0,
      "reward": 0.9482421875,
      "reward_std": 0.26066210865974426,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.8876953125,
      "rewards/tag_count_reward/std": 0.22466535866260529,
      "step": 1354
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1514.0,
      "completions/mean_length": 707.169921875,
      "completions/mean_terminated_length": 701.9118041992188,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.4625757446445336,
      "grad_norm": 2.2567248344421387,
      "kl": 3.18359375,
      "learning_rate": 6.856869684825316e-07,
      "loss": 0.1643,
      "num_tokens": 838859626.0,
      "reward": 0.9794921875,
      "reward_std": 0.28309738636016846,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.8955078125,
      "rewards/tag_count_reward/std": 0.21173806488513947,
      "step": 1355
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1696.0,
      "completions/max_terminated_length": 1696.0,
      "completions/mean_length": 667.1015625,
      "completions/mean_terminated_length": 667.1015625,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.46291712895792436,
      "grad_norm": 2.9367079734802246,
      "kl": 2.80859375,
      "learning_rate": 6.851755220263055e-07,
      "loss": 0.1399,
      "num_tokens": 839281630.0,
      "reward": 0.9482421875,
      "reward_std": 0.23327293992042542,
      "rewards/accuracy_reward/mean": 0.037109375,
      "rewards/accuracy_reward/std": 0.18921469151973724,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.20556476712226868,
      "step": 1356
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1647.0,
      "completions/mean_length": 689.73828125,
      "completions/mean_terminated_length": 684.4118041992188,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.4632585132713152,
      "grad_norm": 4.065873146057129,
      "kl": 3.13671875,
      "learning_rate": 6.846638835675554e-07,
      "loss": 0.1874,
      "num_tokens": 839707528.0,
      "reward": 0.9521484375,
      "reward_std": 0.24419720470905304,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9052734375,
      "rewards/tag_count_reward/std": 0.21229693293571472,
      "step": 1357
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1673.0,
      "completions/max_terminated_length": 1673.0,
      "completions/mean_length": 686.5703125,
      "completions/mean_terminated_length": 686.5703125,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.463599897584706,
      "grad_norm": 3.9942829608917236,
      "kl": 2.625,
      "learning_rate": 6.841520538330096e-07,
      "loss": 0.1123,
      "num_tokens": 840143612.0,
      "reward": 1.02734375,
      "reward_std": 0.27238187193870544,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.91015625,
      "rewards/tag_count_reward/std": 0.18633443117141724,
      "step": 1358
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1725.0,
      "completions/mean_length": 666.833984375,
      "completions/mean_terminated_length": 664.131103515625,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.4639412818980968,
      "grad_norm": 4.302802085876465,
      "kl": 2.7890625,
      "learning_rate": 6.836400335496682e-07,
      "loss": 0.158,
      "num_tokens": 840570487.0,
      "reward": 0.95068359375,
      "reward_std": 0.2543538510799408,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.20248952507972717,
      "step": 1359
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1938.0,
      "completions/mean_length": 736.978515625,
      "completions/mean_terminated_length": 734.4129028320312,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.46428266621148756,
      "grad_norm": 3.2396957874298096,
      "kl": 3.73828125,
      "learning_rate": 6.831278234448019e-07,
      "loss": 0.1621,
      "num_tokens": 841048924.0,
      "reward": 0.9365234375,
      "reward_std": 0.256226509809494,
      "rewards/accuracy_reward/mean": 0.029296875,
      "rewards/accuracy_reward/std": 0.16880230605602264,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.8994140625,
      "rewards/tag_count_reward/std": 0.2089945375919342,
      "step": 1360
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1604.0,
      "completions/max_terminated_length": 1604.0,
      "completions/mean_length": 697.76171875,
      "completions/mean_terminated_length": 697.76171875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.4646240505248784,
      "grad_norm": 2.220255136489868,
      "kl": 3.724609375,
      "learning_rate": 6.826154242459507e-07,
      "loss": 0.1693,
      "num_tokens": 841487106.0,
      "reward": 0.98876953125,
      "reward_std": 0.32350149750709534,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.88916015625,
      "rewards/tag_count_reward/std": 0.2173822969198227,
      "step": 1361
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1790.0,
      "completions/mean_length": 768.109375,
      "completions/mean_terminated_length": 729.4808349609375,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.4649654348382692,
      "grad_norm": 2.7237648963928223,
      "kl": 3.77734375,
      "learning_rate": 6.821028366809238e-07,
      "loss": 0.1787,
      "num_tokens": 841964298.0,
      "reward": 0.93896484375,
      "reward_std": 0.2659711241722107,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.88427734375,
      "rewards/tag_count_reward/std": 0.22043779492378235,
      "step": 1362
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1653.0,
      "completions/mean_length": 720.58984375,
      "completions/mean_terminated_length": 717.9921875,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.46530681915166,
      "grad_norm": 2.8945419788360596,
      "kl": 3.1328125,
      "learning_rate": 6.815900614777972e-07,
      "loss": 0.1254,
      "num_tokens": 842414584.0,
      "reward": 0.99560546875,
      "reward_std": 0.27973347902297974,
      "rewards/accuracy_reward/mean": 0.08870967477560043,
      "rewards/accuracy_reward/std": 0.2846112847328186,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.90576171875,
      "rewards/tag_count_reward/std": 0.20036904513835907,
      "step": 1363
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1752.0,
      "completions/mean_length": 746.076171875,
      "completions/mean_terminated_length": 743.5283813476562,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.46564820346505076,
      "grad_norm": 3.7866604328155518,
      "kl": 2.83203125,
      "learning_rate": 6.81077099364914e-07,
      "loss": 0.1399,
      "num_tokens": 842876863.0,
      "reward": 0.95068359375,
      "reward_std": 0.2132580578327179,
      "rewards/accuracy_reward/mean": 0.0234375,
      "rewards/accuracy_reward/std": 0.15143637359142303,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.18584084510803223,
      "step": 1364
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1867.0,
      "completions/mean_length": 774.990234375,
      "completions/mean_terminated_length": 769.9981079101562,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.46598958777844157,
      "grad_norm": 2.5615627765655518,
      "kl": 3.48046875,
      "learning_rate": 6.805639510708826e-07,
      "loss": 0.1689,
      "num_tokens": 843356554.0,
      "reward": 0.9638671875,
      "reward_std": 0.2721315026283264,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.8974609375,
      "rewards/tag_count_reward/std": 0.2178066223859787,
      "step": 1365
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1888.0,
      "completions/mean_length": 760.59765625,
      "completions/mean_terminated_length": 755.549072265625,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.4663309720918324,
      "grad_norm": 3.0792670249938965,
      "kl": 2.7578125,
      "learning_rate": 6.80050617324576e-07,
      "loss": 0.1009,
      "num_tokens": 843820620.0,
      "reward": 0.99609375,
      "reward_std": 0.2847621440887451,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.20392431318759918,
      "step": 1366
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1677.0,
      "completions/mean_length": 714.890625,
      "completions/mean_terminated_length": 707.033447265625,
      "completions/min_length": 46.0,
      "completions/min_terminated_length": 46.0,
      "epoch": 0.4666723564052232,
      "grad_norm": 3.1971635818481445,
      "kl": 2.451171875,
      "learning_rate": 6.795370988551301e-07,
      "loss": 0.1113,
      "num_tokens": 844257060.0,
      "reward": 1.0625,
      "reward_std": 0.2795104384422302,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.18388766050338745,
      "step": 1367
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1576.0,
      "completions/mean_length": 749.931640625,
      "completions/mean_terminated_length": 747.391357421875,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.46701374071861396,
      "grad_norm": 5.762070178985596,
      "kl": 2.91796875,
      "learning_rate": 6.790233963919437e-07,
      "loss": 0.1144,
      "num_tokens": 844713505.0,
      "reward": 0.9443359375,
      "reward_std": 0.2445402294397354,
      "rewards/accuracy_reward/mean": 0.024193547666072845,
      "rewards/accuracy_reward/std": 0.15380479395389557,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.20311442017555237,
      "step": 1368
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1728.0,
      "completions/max_terminated_length": 1728.0,
      "completions/mean_length": 745.609375,
      "completions/mean_terminated_length": 745.609375,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.46735512503200477,
      "grad_norm": 5.123167514801025,
      "kl": 2.2265625,
      "learning_rate": 6.78509510664677e-07,
      "loss": 0.1101,
      "num_tokens": 845172649.0,
      "reward": 0.978515625,
      "reward_std": 0.2383328080177307,
      "rewards/accuracy_reward/mean": 0.052419353276491165,
      "rewards/accuracy_reward/std": 0.22309619188308716,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.18796826899051666,
      "step": 1369
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1742.0,
      "completions/max_terminated_length": 1742.0,
      "completions/mean_length": 777.22265625,
      "completions/mean_terminated_length": 777.22265625,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.4676965093453956,
      "grad_norm": 3.2751119136810303,
      "kl": 2.66796875,
      "learning_rate": 6.779954424032501e-07,
      "loss": 0.1207,
      "num_tokens": 845655211.0,
      "reward": 0.9990234375,
      "reward_std": 0.2641468644142151,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.1879250556230545,
      "step": 1370
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1880.0,
      "completions/max_terminated_length": 1880.0,
      "completions/mean_length": 670.2734375,
      "completions/mean_terminated_length": 670.2734375,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.4680378936587864,
      "grad_norm": 2.82075834274292,
      "kl": 3.09765625,
      "learning_rate": 6.774811923378424e-07,
      "loss": 0.1551,
      "num_tokens": 846068583.0,
      "reward": 1.04931640625,
      "reward_std": 0.2785525918006897,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17600135505199432,
      "step": 1371
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1869.0,
      "completions/max_terminated_length": 1869.0,
      "completions/mean_length": 743.431640625,
      "completions/mean_terminated_length": 743.431640625,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.46837927797217715,
      "grad_norm": 3.61566162109375,
      "kl": 3.6015625,
      "learning_rate": 6.769667611988922e-07,
      "loss": 0.1543,
      "num_tokens": 846517220.0,
      "reward": 0.990234375,
      "reward_std": 0.26061537861824036,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.904296875,
      "rewards/tag_count_reward/std": 0.20361481606960297,
      "step": 1372
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1877.0,
      "completions/max_terminated_length": 1877.0,
      "completions/mean_length": 745.294921875,
      "completions/mean_terminated_length": 745.294921875,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.46872066228556797,
      "grad_norm": 3.1772000789642334,
      "kl": 2.94140625,
      "learning_rate": 6.764521497170938e-07,
      "loss": 0.1313,
      "num_tokens": 846970379.0,
      "reward": 0.998046875,
      "reward_std": 0.2550550401210785,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.18388766050338745,
      "step": 1373
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1797.0,
      "completions/mean_length": 742.609375,
      "completions/mean_terminated_length": 740.0548095703125,
      "completions/min_length": 63.0,
      "completions/min_terminated_length": 63.0,
      "epoch": 0.4690620465989588,
      "grad_norm": 1.9792194366455078,
      "kl": 2.56640625,
      "learning_rate": 6.759373586233988e-07,
      "loss": 0.1079,
      "num_tokens": 847426147.0,
      "reward": 1.04150390625,
      "reward_std": 0.27639952301979065,
      "rewards/accuracy_reward/mean": 0.11088709533214569,
      "rewards/accuracy_reward/std": 0.3143092691898346,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.1785990297794342,
      "step": 1374
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1993.0,
      "completions/max_terminated_length": 1993.0,
      "completions/mean_length": 778.703125,
      "completions/mean_terminated_length": 778.703125,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.4694034309123496,
      "grad_norm": 4.733518123626709,
      "kl": 4.296875,
      "learning_rate": 6.754223886490136e-07,
      "loss": 0.171,
      "num_tokens": 847906075.0,
      "reward": 0.98779296875,
      "reward_std": 0.28858983516693115,
      "rewards/accuracy_reward/mean": 0.09677419066429138,
      "rewards/accuracy_reward/std": 0.2959485352039337,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.89208984375,
      "rewards/tag_count_reward/std": 0.21660728752613068,
      "step": 1375
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1720.0,
      "completions/mean_length": 738.2734375,
      "completions/mean_terminated_length": 733.1372680664062,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.46974481522574035,
      "grad_norm": 3.7451682090759277,
      "kl": 3.41015625,
      "learning_rate": 6.749072405253981e-07,
      "loss": 0.1558,
      "num_tokens": 848361527.0,
      "reward": 1.00830078125,
      "reward_std": 0.2626035809516907,
      "rewards/accuracy_reward/mean": 0.08870967477560043,
      "rewards/accuracy_reward/std": 0.284611314535141,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.19126836955547333,
      "step": 1376
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1886.0,
      "completions/max_terminated_length": 1886.0,
      "completions/mean_length": 706.33203125,
      "completions/mean_terminated_length": 706.33203125,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.47008619953913117,
      "grad_norm": 6.075878143310547,
      "kl": 4.390625,
      "learning_rate": 6.743919149842661e-07,
      "loss": 0.2079,
      "num_tokens": 848796913.0,
      "reward": 0.98828125,
      "reward_std": 0.28618401288986206,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.21373461186885834,
      "step": 1377
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1521.0,
      "completions/max_terminated_length": 1521.0,
      "completions/mean_length": 759.90234375,
      "completions/mean_terminated_length": 759.90234375,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.470427583852522,
      "grad_norm": 1.666942834854126,
      "kl": 3.1953125,
      "learning_rate": 6.738764127575828e-07,
      "loss": 0.1178,
      "num_tokens": 849266783.0,
      "reward": 0.9375,
      "reward_std": 0.21183615922927856,
      "rewards/accuracy_reward/mean": 0.02217741869390011,
      "rewards/accuracy_reward/std": 0.14740893244743347,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.19368666410446167,
      "step": 1378
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1595.0,
      "completions/mean_length": 702.958984375,
      "completions/mean_terminated_length": 700.3267822265625,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.4707689681659128,
      "grad_norm": 2.7315187454223633,
      "kl": 3.3671875,
      "learning_rate": 6.733607345775646e-07,
      "loss": 0.1258,
      "num_tokens": 849701226.0,
      "reward": 0.98486328125,
      "reward_std": 0.25739458203315735,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.19359229505062103,
      "step": 1379
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1798.0,
      "completions/mean_length": 692.083984375,
      "completions/mean_terminated_length": 684.0923461914062,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.47111035247930355,
      "grad_norm": 2.950645923614502,
      "kl": 3.69921875,
      "learning_rate": 6.728448811766776e-07,
      "loss": 0.1873,
      "num_tokens": 850145845.0,
      "reward": 0.99462890625,
      "reward_std": 0.2600945234298706,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.2146575003862381,
      "step": 1380
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1593.0,
      "completions/mean_length": 665.5,
      "completions/mean_terminated_length": 662.7944946289062,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.47145173679269436,
      "grad_norm": 4.174452304840088,
      "kl": 3.7734375,
      "learning_rate": 6.723288532876372e-07,
      "loss": 0.1763,
      "num_tokens": 850571157.0,
      "reward": 1.0146484375,
      "reward_std": 0.26300713419914246,
      "rewards/accuracy_reward/mean": 0.10080645233392715,
      "rewards/accuracy_reward/std": 0.30137622356414795,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.20275656878948212,
      "step": 1381
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1972.0,
      "completions/mean_length": 719.642578125,
      "completions/mean_terminated_length": 714.433349609375,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.4717931211060852,
      "grad_norm": 2.004256248474121,
      "kl": 3.97265625,
      "learning_rate": 6.718126516434065e-07,
      "loss": 0.1597,
      "num_tokens": 851014414.0,
      "reward": 0.9140625,
      "reward_std": 0.2476644217967987,
      "rewards/accuracy_reward/mean": 0.01953125,
      "rewards/accuracy_reward/std": 0.1385180652141571,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.892578125,
      "rewards/tag_count_reward/std": 0.22048601508140564,
      "step": 1382
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1787.0,
      "completions/max_terminated_length": 1787.0,
      "completions/mean_length": 753.98046875,
      "completions/mean_terminated_length": 753.98046875,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.472134505419476,
      "grad_norm": 1.8866486549377441,
      "kl": 3.4375,
      "learning_rate": 6.71296276977195e-07,
      "loss": 0.1761,
      "num_tokens": 851470836.0,
      "reward": 0.9736328125,
      "reward_std": 0.25815194845199585,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.20435261726379395,
      "step": 1383
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1651.0,
      "completions/mean_length": 675.65234375,
      "completions/mean_terminated_length": 667.5639038085938,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.47247588973286675,
      "grad_norm": 3.5500969886779785,
      "kl": 3.697265625,
      "learning_rate": 6.707797300224585e-07,
      "loss": 0.1999,
      "num_tokens": 851891602.0,
      "reward": 1.02001953125,
      "reward_std": 0.28511446714401245,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.20652645826339722,
      "step": 1384
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1508.0,
      "completions/mean_length": 641.888671875,
      "completions/mean_terminated_length": 639.136962890625,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.47281727404625756,
      "grad_norm": 2.781998872756958,
      "kl": 3.4765625,
      "learning_rate": 6.702630115128971e-07,
      "loss": 0.1636,
      "num_tokens": 852305353.0,
      "reward": 0.98876953125,
      "reward_std": 0.28356242179870605,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.21121110022068024,
      "step": 1385
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1897.0,
      "completions/mean_length": 766.630859375,
      "completions/mean_terminated_length": 764.123291015625,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.4731586583596484,
      "grad_norm": 1.7263718843460083,
      "kl": 3.1796875,
      "learning_rate": 6.69746122182455e-07,
      "loss": 0.1213,
      "num_tokens": 852772604.0,
      "reward": 1.0341796875,
      "reward_std": 0.32438021898269653,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9013671875,
      "rewards/tag_count_reward/std": 0.21224290132522583,
      "step": 1386
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1700.0,
      "completions/mean_length": 723.474609375,
      "completions/mean_terminated_length": 720.882568359375,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.4735000426730392,
      "grad_norm": 4.256781578063965,
      "kl": 3.24609375,
      "learning_rate": 6.692290627653186e-07,
      "loss": 0.139,
      "num_tokens": 853221279.0,
      "reward": 0.9765625,
      "reward_std": 0.2756841778755188,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.21215508878231049,
      "step": 1387
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1621.0,
      "completions/mean_length": 682.078125,
      "completions/mean_terminated_length": 679.4050903320312,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.47384142698642995,
      "grad_norm": 2.429532766342163,
      "kl": 3.421875,
      "learning_rate": 6.68711833995916e-07,
      "loss": 0.1801,
      "num_tokens": 853644247.0,
      "reward": 1.0654296875,
      "reward_std": 0.3016743063926697,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.20275656878948212,
      "step": 1388
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1678.0,
      "completions/max_terminated_length": 1678.0,
      "completions/mean_length": 648.642578125,
      "completions/mean_terminated_length": 648.642578125,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.47418281129982076,
      "grad_norm": 2.415675640106201,
      "kl": 2.95703125,
      "learning_rate": 6.681944366089162e-07,
      "loss": 0.1097,
      "num_tokens": 854058800.0,
      "reward": 1.0068359375,
      "reward_std": 0.26265156269073486,
      "rewards/accuracy_reward/mean": 0.09072580933570862,
      "rewards/accuracy_reward/std": 0.2875087857246399,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.19583314657211304,
      "step": 1389
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1775.0,
      "completions/max_terminated_length": 1775.0,
      "completions/mean_length": 702.185546875,
      "completions/mean_terminated_length": 702.185546875,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.4745241956132116,
      "grad_norm": 2.079864025115967,
      "kl": 4.08984375,
      "learning_rate": 6.676768713392272e-07,
      "loss": 0.1965,
      "num_tokens": 854490063.0,
      "reward": 0.986328125,
      "reward_std": 0.2514050006866455,
      "rewards/accuracy_reward/mean": 0.07459677755832672,
      "rewards/accuracy_reward/std": 0.263004869222641,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.20659643411636353,
      "step": 1390
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1699.0,
      "completions/mean_length": 687.373046875,
      "completions/mean_terminated_length": 684.7103881835938,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.4748655799266024,
      "grad_norm": 1.9395735263824463,
      "kl": 3.10546875,
      "learning_rate": 6.67159138921996e-07,
      "loss": 0.1274,
      "num_tokens": 854925390.0,
      "reward": 0.9619140625,
      "reward_std": 0.2960132658481598,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.8994140625,
      "rewards/tag_count_reward/std": 0.21074290573596954,
      "step": 1391
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1664.0,
      "completions/max_terminated_length": 1664.0,
      "completions/mean_length": 708.71484375,
      "completions/mean_terminated_length": 708.71484375,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.47520696423999315,
      "grad_norm": 2.037200689315796,
      "kl": 3.3125,
      "learning_rate": 6.666412400926063e-07,
      "loss": 0.1243,
      "num_tokens": 855367548.0,
      "reward": 0.92626953125,
      "reward_std": 0.22598353028297424,
      "rewards/accuracy_reward/mean": 0.0234375,
      "rewards/accuracy_reward/std": 0.15143637359142303,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.90087890625,
      "rewards/tag_count_reward/std": 0.21230311691761017,
      "step": 1392
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1652.0,
      "completions/mean_length": 731.40234375,
      "completions/mean_terminated_length": 728.8258056640625,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.47554834855338396,
      "grad_norm": 2.616205930709839,
      "kl": 3.171875,
      "learning_rate": 6.66123175586679e-07,
      "loss": 0.1478,
      "num_tokens": 855823706.0,
      "reward": 1.00927734375,
      "reward_std": 0.2902449369430542,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.2008453756570816,
      "step": 1393
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1558.0,
      "completions/max_terminated_length": 1558.0,
      "completions/mean_length": 710.7109375,
      "completions/mean_terminated_length": 710.7109375,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.4758897328667748,
      "grad_norm": 1.856652021408081,
      "kl": 2.8515625,
      "learning_rate": 6.656049461400695e-07,
      "loss": 0.1163,
      "num_tokens": 856261174.0,
      "reward": 1.0458984375,
      "reward_std": 0.3149603307247162,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.19910427927970886,
      "step": 1394
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1893.0,
      "completions/max_terminated_length": 1893.0,
      "completions/mean_length": 733.474609375,
      "completions/mean_terminated_length": 733.474609375,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.4762311171801656,
      "grad_norm": 1.6154507398605347,
      "kl": 2.494140625,
      "learning_rate": 6.65086552488868e-07,
      "loss": 0.0708,
      "num_tokens": 856715961.0,
      "reward": 0.9755859375,
      "reward_std": 0.2549571990966797,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.20371569693088531,
      "step": 1395
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1795.0,
      "completions/max_terminated_length": 1795.0,
      "completions/mean_length": 767.9609375,
      "completions/mean_terminated_length": 767.9609375,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.47657250149355634,
      "grad_norm": 1.6102898120880127,
      "kl": 2.0859375,
      "learning_rate": 6.645679953693981e-07,
      "loss": 0.0859,
      "num_tokens": 857185749.0,
      "reward": 0.97412109375,
      "reward_std": 0.2627238631248474,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.19384385645389557,
      "step": 1396
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1966.0,
      "completions/max_terminated_length": 1966.0,
      "completions/mean_length": 764.26953125,
      "completions/mean_terminated_length": 764.26953125,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.47691388580694716,
      "grad_norm": 3.021604537963867,
      "kl": 1.921875,
      "learning_rate": 6.640492755182152e-07,
      "loss": 0.0734,
      "num_tokens": 857651295.0,
      "reward": 1.01220703125,
      "reward_std": 0.25866368412971497,
      "rewards/accuracy_reward/mean": 0.0786290317773819,
      "rewards/accuracy_reward/std": 0.26943066716194153,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17390406131744385,
      "step": 1397
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1815.0,
      "completions/max_terminated_length": 1815.0,
      "completions/mean_length": 753.896484375,
      "completions/mean_terminated_length": 753.896484375,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.47725527012033797,
      "grad_norm": 1.5214219093322754,
      "kl": 2.76171875,
      "learning_rate": 6.635303936721056e-07,
      "loss": 0.1394,
      "num_tokens": 858108810.0,
      "reward": 1.02099609375,
      "reward_std": 0.3259813189506531,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.210186168551445,
      "step": 1398
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1817.0,
      "completions/mean_length": 788.740234375,
      "completions/mean_terminated_length": 783.802001953125,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.4775966544337288,
      "grad_norm": 3.359818458557129,
      "kl": 2.826171875,
      "learning_rate": 6.630113505680864e-07,
      "loss": 0.1036,
      "num_tokens": 858599637.0,
      "reward": 0.97607421875,
      "reward_std": 0.29234710335731506,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.90185546875,
      "rewards/tag_count_reward/std": 0.20455066859722137,
      "step": 1399
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1809.0,
      "completions/mean_length": 750.138671875,
      "completions/mean_terminated_length": 747.5988159179688,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.47793803874711954,
      "grad_norm": 4.321170806884766,
      "kl": 3.09765625,
      "learning_rate": 6.624921469434035e-07,
      "loss": 0.1712,
      "num_tokens": 859060700.0,
      "reward": 0.9716796875,
      "reward_std": 0.25452613830566406,
      "rewards/accuracy_reward/mean": 0.060483869165182114,
      "rewards/accuracy_reward/std": 0.2386218160390854,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.1973496377468109,
      "step": 1400
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1921.0,
      "completions/mean_length": 732.822265625,
      "completions/mean_terminated_length": 727.6647338867188,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.47827942306051036,
      "grad_norm": 4.255768299102783,
      "kl": 4.58984375,
      "learning_rate": 6.619727835355303e-07,
      "loss": 0.2552,
      "num_tokens": 859511729.0,
      "reward": 0.9423828125,
      "reward_std": 0.22777177393436432,
      "rewards/accuracy_reward/mean": 0.037109375,
      "rewards/accuracy_reward/std": 0.18921469151973724,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9013671875,
      "rewards/tag_count_reward/std": 0.20521119236946106,
      "step": 1401
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1512.0,
      "completions/mean_length": 730.21484375,
      "completions/mean_terminated_length": 727.635986328125,
      "completions/min_length": 83.0,
      "completions/min_terminated_length": 83.0,
      "epoch": 0.47862080737390117,
      "grad_norm": 2.260495901107788,
      "kl": 3.453125,
      "learning_rate": 6.614532610821678e-07,
      "loss": 0.1826,
      "num_tokens": 859968735.0,
      "reward": 0.94580078125,
      "reward_std": 0.23305454850196838,
      "rewards/accuracy_reward/mean": 0.033203125,
      "rewards/accuracy_reward/std": 0.17934183776378632,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.90673828125,
      "rewards/tag_count_reward/std": 0.19837526977062225,
      "step": 1402
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1588.0,
      "completions/mean_length": 760.095703125,
      "completions/mean_terminated_length": 752.5049438476562,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.478962191687292,
      "grad_norm": 3.251796007156372,
      "kl": 3.30859375,
      "learning_rate": 6.609335803212428e-07,
      "loss": 0.1824,
      "num_tokens": 860437824.0,
      "reward": 0.9375,
      "reward_std": 0.23910224437713623,
      "rewards/accuracy_reward/mean": 0.02217741869390011,
      "rewards/accuracy_reward/std": 0.14740893244743347,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.20233432948589325,
      "step": 1403
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1798.0,
      "completions/mean_length": 712.7109375,
      "completions/mean_terminated_length": 707.4745483398438,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.4793035760006828,
      "grad_norm": 2.3958215713500977,
      "kl": 3.8671875,
      "learning_rate": 6.604137419909064e-07,
      "loss": 0.1665,
      "num_tokens": 860872028.0,
      "reward": 0.927734375,
      "reward_std": 0.273823618888855,
      "rewards/accuracy_reward/mean": 0.03629032149910927,
      "rewards/accuracy_reward/std": 0.1872003972530365,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.88671875,
      "rewards/tag_count_reward/std": 0.22087571024894714,
      "step": 1404
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1483.0,
      "completions/max_terminated_length": 1483.0,
      "completions/mean_length": 727.44140625,
      "completions/mean_terminated_length": 727.44140625,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.47964496031407355,
      "grad_norm": 2.9263436794281006,
      "kl": 4.54296875,
      "learning_rate": 6.598937468295344e-07,
      "loss": 0.2373,
      "num_tokens": 861323998.0,
      "reward": 0.95751953125,
      "reward_std": 0.29104703664779663,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.88525390625,
      "rewards/tag_count_reward/std": 0.22315198183059692,
      "step": 1405
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 710.6484375,
      "completions/mean_terminated_length": 705.4039916992188,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.47998634462746437,
      "grad_norm": 4.403470516204834,
      "kl": 4.89453125,
      "learning_rate": 6.593735955757246e-07,
      "loss": 0.2923,
      "num_tokens": 861766714.0,
      "reward": 1.046875,
      "reward_std": 0.31403157114982605,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.896484375,
      "rewards/tag_count_reward/std": 0.21221813559532166,
      "step": 1406
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1874.0,
      "completions/mean_length": 732.236328125,
      "completions/mean_terminated_length": 724.4813842773438,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.4803277289408552,
      "grad_norm": 4.243809700012207,
      "kl": 4.13671875,
      "learning_rate": 6.58853288968297e-07,
      "loss": 0.2057,
      "num_tokens": 862216627.0,
      "reward": 0.94384765625,
      "reward_std": 0.2750888168811798,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.88720703125,
      "rewards/tag_count_reward/std": 0.22084921598434448,
      "step": 1407
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1796.0,
      "completions/mean_length": 666.966796875,
      "completions/mean_terminated_length": 664.26416015625,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.480669113254246,
      "grad_norm": 1.7676359415054321,
      "kl": 3.15234375,
      "learning_rate": 6.583328277462919e-07,
      "loss": 0.1922,
      "num_tokens": 862633954.0,
      "reward": 0.98828125,
      "reward_std": 0.24938128888607025,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.19499453902244568,
      "step": 1408
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1976.0,
      "completions/max_terminated_length": 1976.0,
      "completions/mean_length": 677.7734375,
      "completions/mean_terminated_length": 677.7734375,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.48101049756763675,
      "grad_norm": 3.514169692993164,
      "kl": 3.08203125,
      "learning_rate": 6.578122126489696e-07,
      "loss": 0.1818,
      "num_tokens": 863060126.0,
      "reward": 1.01953125,
      "reward_std": 0.2820933759212494,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.1947886198759079,
      "step": 1409
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1520.0,
      "completions/max_terminated_length": 1520.0,
      "completions/mean_length": 667.751953125,
      "completions/mean_terminated_length": 667.751953125,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.48135188188102757,
      "grad_norm": 2.8376305103302,
      "kl": 3.21484375,
      "learning_rate": 6.572914444158084e-07,
      "loss": 0.1761,
      "num_tokens": 863484991.0,
      "reward": 0.96142578125,
      "reward_std": 0.2653089165687561,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.90283203125,
      "rewards/tag_count_reward/std": 0.20079778134822845,
      "step": 1410
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 720.078125,
      "completions/mean_terminated_length": 717.4794311523438,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.4816932661944184,
      "grad_norm": 2.4625940322875977,
      "kl": 3.59375,
      "learning_rate": 6.567705237865049e-07,
      "loss": 0.2191,
      "num_tokens": 863936791.0,
      "reward": 0.98681640625,
      "reward_std": 0.2922849953174591,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.89697265625,
      "rewards/tag_count_reward/std": 0.21331787109375,
      "step": 1411
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 726.861328125,
      "completions/mean_terminated_length": 719.07470703125,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.4820346505078092,
      "grad_norm": 2.6543076038360596,
      "kl": 2.921875,
      "learning_rate": 6.562494515009715e-07,
      "loss": 0.1735,
      "num_tokens": 864388688.0,
      "reward": 0.9921875,
      "reward_std": 0.29198989272117615,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.1958160698413849,
      "step": 1412
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1742.0,
      "completions/max_terminated_length": 1742.0,
      "completions/mean_length": 669.189453125,
      "completions/mean_terminated_length": 669.189453125,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.48237603482119995,
      "grad_norm": 2.486616849899292,
      "kl": 2.232421875,
      "learning_rate": 6.557282282993363e-07,
      "loss": 0.1008,
      "num_tokens": 864804257.0,
      "reward": 1.0029296875,
      "reward_std": 0.23314526677131653,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.1702537089586258,
      "step": 1413
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1617.0,
      "completions/max_terminated_length": 1617.0,
      "completions/mean_length": 691.57421875,
      "completions/mean_terminated_length": 691.57421875,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.48271741913459076,
      "grad_norm": 2.9065868854522705,
      "kl": 2.689453125,
      "learning_rate": 6.552068549219415e-07,
      "loss": 0.1343,
      "num_tokens": 865235239.0,
      "reward": 0.9453125,
      "reward_std": 0.24875755608081818,
      "rewards/accuracy_reward/mean": 0.033203125,
      "rewards/accuracy_reward/std": 0.17934183776378632,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.20301324129104614,
      "step": 1414
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1515.0,
      "completions/mean_length": 668.033203125,
      "completions/mean_terminated_length": 662.62158203125,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.4830588034479816,
      "grad_norm": 4.7207536697387695,
      "kl": 2.2578125,
      "learning_rate": 6.546853321093429e-07,
      "loss": 0.1539,
      "num_tokens": 865651912.0,
      "reward": 1.0244140625,
      "reward_std": 0.2378767430782318,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.17239542305469513,
      "step": 1415
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1557.0,
      "completions/max_terminated_length": 1557.0,
      "completions/mean_length": 683.82421875,
      "completions/mean_terminated_length": 683.82421875,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.4834001877613724,
      "grad_norm": 2.8659422397613525,
      "kl": 2.05078125,
      "learning_rate": 6.541636606023086e-07,
      "loss": 0.1104,
      "num_tokens": 866081182.0,
      "reward": 1.068359375,
      "reward_std": 0.2919410765171051,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.17615941166877747,
      "step": 1416
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1857.0,
      "completions/mean_length": 719.9140625,
      "completions/mean_terminated_length": 717.3150634765625,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.48374157207476315,
      "grad_norm": 2.661656379699707,
      "kl": 2.29296875,
      "learning_rate": 6.536418411418176e-07,
      "loss": 0.1255,
      "num_tokens": 866524482.0,
      "reward": 1.02587890625,
      "reward_std": 0.2767181992530823,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.91064453125,
      "rewards/tag_count_reward/std": 0.19894284009933472,
      "step": 1417
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1613.0,
      "completions/mean_length": 680.328125,
      "completions/mean_terminated_length": 677.6516723632812,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.48408295638815396,
      "grad_norm": 3.6637697219848633,
      "kl": 2.44921875,
      "learning_rate": 6.531198744690596e-07,
      "loss": 0.1373,
      "num_tokens": 866954074.0,
      "reward": 1.0380859375,
      "reward_std": 0.2919238805770874,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17795921862125397,
      "step": 1418
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1556.0,
      "completions/max_terminated_length": 1556.0,
      "completions/mean_length": 702.30078125,
      "completions/mean_terminated_length": 702.30078125,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.4844243407015448,
      "grad_norm": 2.332885265350342,
      "kl": 2.56640625,
      "learning_rate": 6.525977613254326e-07,
      "loss": 0.1373,
      "num_tokens": 867387348.0,
      "reward": 1.0224609375,
      "reward_std": 0.26636356115341187,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.1879250556230545,
      "step": 1419
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1872.0,
      "completions/max_terminated_length": 1872.0,
      "completions/mean_length": 643.779296875,
      "completions/mean_terminated_length": 643.779296875,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.4847657250149356,
      "grad_norm": 2.5800259113311768,
      "kl": 3.81640625,
      "learning_rate": 6.520755024525431e-07,
      "loss": 0.2089,
      "num_tokens": 867793235.0,
      "reward": 1.0185546875,
      "reward_std": 0.27083826065063477,
      "rewards/accuracy_reward/mean": 0.10080645233392715,
      "rewards/accuracy_reward/std": 0.30137622356414795,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.1914113163948059,
      "step": 1420
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1669.0,
      "completions/mean_length": 649.162109375,
      "completions/mean_terminated_length": 646.4246826171875,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.48510710932832635,
      "grad_norm": 5.582352161407471,
      "kl": 4.46484375,
      "learning_rate": 6.515530985922047e-07,
      "loss": 0.225,
      "num_tokens": 868191910.0,
      "reward": 1.02880859375,
      "reward_std": 0.29447507858276367,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.20726542174816132,
      "step": 1421
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1666.0,
      "completions/max_terminated_length": 1666.0,
      "completions/mean_length": 672.677734375,
      "completions/mean_terminated_length": 672.677734375,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.48544849364171716,
      "grad_norm": 2.7323851585388184,
      "kl": 3.421875,
      "learning_rate": 6.510305504864369e-07,
      "loss": 0.1899,
      "num_tokens": 868613105.0,
      "reward": 0.95751953125,
      "reward_std": 0.2595144808292389,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.90869140625,
      "rewards/tag_count_reward/std": 0.1949400156736374,
      "step": 1422
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1384.0,
      "completions/max_terminated_length": 1384.0,
      "completions/mean_length": 639.861328125,
      "completions/mean_terminated_length": 639.861328125,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.485789877955108,
      "grad_norm": 5.383285045623779,
      "kl": 4.140625,
      "learning_rate": 6.505078588774637e-07,
      "loss": 0.2095,
      "num_tokens": 869012682.0,
      "reward": 0.99560546875,
      "reward_std": 0.2752225995063782,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.19466042518615723,
      "step": 1423
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1605.0,
      "completions/max_terminated_length": 1605.0,
      "completions/mean_length": 685.84375,
      "completions/mean_terminated_length": 685.84375,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.4861312622684988,
      "grad_norm": 7.578466415405273,
      "kl": 3.921875,
      "learning_rate": 6.499850245077135e-07,
      "loss": 0.1856,
      "num_tokens": 869439210.0,
      "reward": 1.01025390625,
      "reward_std": 0.2748653292655945,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.90869140625,
      "rewards/tag_count_reward/std": 0.19368110597133636,
      "step": 1424
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1471.0,
      "completions/max_terminated_length": 1471.0,
      "completions/mean_length": 642.060546875,
      "completions/mean_terminated_length": 642.060546875,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.48647264658188955,
      "grad_norm": 5.208425045013428,
      "kl": 3.5859375,
      "learning_rate": 6.494620481198169e-07,
      "loss": 0.2107,
      "num_tokens": 869841417.0,
      "reward": 1.02099609375,
      "reward_std": 0.28070178627967834,
      "rewards/accuracy_reward/mean": 0.11895161122083664,
      "rewards/accuracy_reward/std": 0.3240584135055542,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.20488207042217255,
      "step": 1425
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1535.0,
      "completions/max_terminated_length": 1535.0,
      "completions/mean_length": 642.255859375,
      "completions/mean_terminated_length": 642.255859375,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.48681403089528036,
      "grad_norm": 2.937472343444824,
      "kl": 3.33984375,
      "learning_rate": 6.489389304566067e-07,
      "loss": 0.1919,
      "num_tokens": 870244876.0,
      "reward": 0.9892578125,
      "reward_std": 0.24509309232234955,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.17922191321849823,
      "step": 1426
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1601.0,
      "completions/max_terminated_length": 1601.0,
      "completions/mean_length": 616.078125,
      "completions/mean_terminated_length": 616.078125,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.48715541520867117,
      "grad_norm": 4.275766849517822,
      "kl": 3.0078125,
      "learning_rate": 6.484156722611161e-07,
      "loss": 0.213,
      "num_tokens": 870640116.0,
      "reward": 0.9794921875,
      "reward_std": 0.22628310322761536,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.1772274672985077,
      "step": 1427
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1525.0,
      "completions/max_terminated_length": 1525.0,
      "completions/mean_length": 660.748046875,
      "completions/mean_terminated_length": 660.748046875,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.487496799522062,
      "grad_norm": 3.146787643432617,
      "kl": 2.54296875,
      "learning_rate": 6.478922742765782e-07,
      "loss": 0.1472,
      "num_tokens": 871055507.0,
      "reward": 0.97998046875,
      "reward_std": 0.2378777414560318,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.1861388236284256,
      "step": 1428
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1694.0,
      "completions/max_terminated_length": 1694.0,
      "completions/mean_length": 635.7890625,
      "completions/mean_terminated_length": 635.7890625,
      "completions/min_length": 58.0,
      "completions/min_terminated_length": 58.0,
      "epoch": 0.48783818383545274,
      "grad_norm": 2.971524953842163,
      "kl": 2.419921875,
      "learning_rate": 6.473687372464243e-07,
      "loss": 0.1315,
      "num_tokens": 871462551.0,
      "reward": 1.01953125,
      "reward_std": 0.24275973439216614,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.1719430834054947,
      "step": 1429
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1387.0,
      "completions/max_terminated_length": 1387.0,
      "completions/mean_length": 659.9140625,
      "completions/mean_terminated_length": 659.9140625,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.48817956814884356,
      "grad_norm": 6.472031116485596,
      "kl": 2.0859375,
      "learning_rate": 6.468450619142831e-07,
      "loss": 0.115,
      "num_tokens": 871880571.0,
      "reward": 1.01416015625,
      "reward_std": 0.26881539821624756,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.1780041754245758,
      "step": 1430
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1564.0,
      "completions/max_terminated_length": 1564.0,
      "completions/mean_length": 648.427734375,
      "completions/mean_terminated_length": 648.427734375,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.48852095246223437,
      "grad_norm": 2.4579715728759766,
      "kl": 2.2109375,
      "learning_rate": 6.463212490239804e-07,
      "loss": 0.1139,
      "num_tokens": 872287446.0,
      "reward": 1.08740234375,
      "reward_std": 0.2898830771446228,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.16781944036483765,
      "step": 1431
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1378.0,
      "completions/mean_length": 657.15625,
      "completions/mean_terminated_length": 651.7020263671875,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.4888623367756252,
      "grad_norm": 6.283302307128906,
      "kl": 2.71484375,
      "learning_rate": 6.457972993195369e-07,
      "loss": 0.1931,
      "num_tokens": 872708886.0,
      "reward": 0.986328125,
      "reward_std": 0.22939418256282806,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.19066354632377625,
      "step": 1432
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1702.0,
      "completions/mean_length": 634.87109375,
      "completions/mean_terminated_length": 629.3294677734375,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.48920372108901594,
      "grad_norm": 2.11894154548645,
      "kl": 2.52734375,
      "learning_rate": 6.452732135451674e-07,
      "loss": 0.1314,
      "num_tokens": 873108260.0,
      "reward": 1.07177734375,
      "reward_std": 0.2627972960472107,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.16120965778827667,
      "step": 1433
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1546.0,
      "completions/mean_length": 662.576171875,
      "completions/mean_terminated_length": 659.864990234375,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.48954510540240675,
      "grad_norm": 2.6592986583709717,
      "kl": 3.5390625,
      "learning_rate": 6.447489924452806e-07,
      "loss": 0.1967,
      "num_tokens": 873523963.0,
      "reward": 0.99462890625,
      "reward_std": 0.24731838703155518,
      "rewards/accuracy_reward/mean": 0.06854838877916336,
      "rewards/accuracy_reward/std": 0.25293970108032227,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18640044331550598,
      "step": 1434
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1362.0,
      "completions/mean_length": 656.595703125,
      "completions/mean_terminated_length": 648.3948974609375,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.48988648971579757,
      "grad_norm": 3.1901962757110596,
      "kl": 3.4765625,
      "learning_rate": 6.442246367644769e-07,
      "loss": 0.1879,
      "num_tokens": 873936044.0,
      "reward": 1.021484375,
      "reward_std": 0.2841264605522156,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.189265176653862,
      "step": 1435
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1961.0,
      "completions/mean_length": 667.998046875,
      "completions/mean_terminated_length": 662.5863037109375,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.4902278740291884,
      "grad_norm": 4.424574851989746,
      "kl": 3.609375,
      "learning_rate": 6.437001472475482e-07,
      "loss": 0.185,
      "num_tokens": 874374731.0,
      "reward": 1.0400390625,
      "reward_std": 0.2838236093521118,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.1772274672985077,
      "step": 1436
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1392.0,
      "completions/mean_length": 685.525390625,
      "completions/mean_terminated_length": 682.8590698242188,
      "completions/min_length": 64.0,
      "completions/min_terminated_length": 64.0,
      "epoch": 0.49056925834257914,
      "grad_norm": 3.477193593978882,
      "kl": 2.783203125,
      "learning_rate": 6.431755246394763e-07,
      "loss": 0.1606,
      "num_tokens": 874805224.0,
      "reward": 1.04443359375,
      "reward_std": 0.23347032070159912,
      "rewards/accuracy_reward/mean": 0.10685484111309052,
      "rewards/accuracy_reward/std": 0.30924052000045776,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.1671748012304306,
      "step": 1437
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 740.4921875,
      "completions/mean_terminated_length": 737.9334716796875,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.49091064265596995,
      "grad_norm": 3.894792079925537,
      "kl": 3.140625,
      "learning_rate": 6.426507696854321e-07,
      "loss": 0.1533,
      "num_tokens": 875261156.0,
      "reward": 1.0,
      "reward_std": 0.2633817195892334,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.19436629116535187,
      "step": 1438
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1813.0,
      "completions/mean_length": 690.013671875,
      "completions/mean_terminated_length": 687.3561401367188,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.49125202696936077,
      "grad_norm": 4.6422834396362305,
      "kl": 2.69140625,
      "learning_rate": 6.421258831307744e-07,
      "loss": 0.122,
      "num_tokens": 875697531.0,
      "reward": 1.09765625,
      "reward_std": 0.30944955348968506,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.1748199313879013,
      "step": 1439
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1704.0,
      "completions/max_terminated_length": 1704.0,
      "completions/mean_length": 689.810546875,
      "completions/mean_terminated_length": 689.810546875,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.4915934112827516,
      "grad_norm": 4.3183698654174805,
      "kl": 2.255859375,
      "learning_rate": 6.416008657210492e-07,
      "loss": 0.1091,
      "num_tokens": 876133482.0,
      "reward": 0.99755859375,
      "reward_std": 0.2176560014486313,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.24230584502220154,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17291219532489777,
      "step": 1440
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1722.0,
      "completions/max_terminated_length": 1722.0,
      "completions/mean_length": 663.212890625,
      "completions/mean_terminated_length": 663.212890625,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.49193479559614234,
      "grad_norm": 2.023632287979126,
      "kl": 2.125,
      "learning_rate": 6.41075718201988e-07,
      "loss": 0.113,
      "num_tokens": 876554807.0,
      "reward": 1.03955078125,
      "reward_std": 0.2606458067893982,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.16826865077018738,
      "step": 1441
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1888.0,
      "completions/mean_length": 682.365234375,
      "completions/mean_terminated_length": 677.0098266601562,
      "completions/min_length": 25.0,
      "completions/min_terminated_length": 25.0,
      "epoch": 0.49227617990953315,
      "grad_norm": 2.9873735904693604,
      "kl": 3.34375,
      "learning_rate": 6.405504413195072e-07,
      "loss": 0.1475,
      "num_tokens": 876982770.0,
      "reward": 1.06005859375,
      "reward_std": 0.2674265503883362,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.17769792675971985,
      "step": 1442
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1546.0,
      "completions/max_terminated_length": 1546.0,
      "completions/mean_length": 712.302734375,
      "completions/mean_terminated_length": 712.302734375,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.49261756422292396,
      "grad_norm": 1.8084334135055542,
      "kl": 3.16015625,
      "learning_rate": 6.400250358197072e-07,
      "loss": 0.1407,
      "num_tokens": 877420269.0,
      "reward": 1.095703125,
      "reward_std": 0.3144042491912842,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.1862010508775711,
      "step": 1443
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1450.0,
      "completions/max_terminated_length": 1450.0,
      "completions/mean_length": 665.076171875,
      "completions/mean_terminated_length": 665.076171875,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.4929589485363148,
      "grad_norm": 1.6828752756118774,
      "kl": 2.341796875,
      "learning_rate": 6.39499502448871e-07,
      "loss": 0.0777,
      "num_tokens": 877833204.0,
      "reward": 1.0166015625,
      "reward_std": 0.24552182853221893,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.16438288986682892,
      "step": 1444
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1804.0,
      "completions/max_terminated_length": 1804.0,
      "completions/mean_length": 706.244140625,
      "completions/mean_terminated_length": 706.244140625,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.49330033284970554,
      "grad_norm": 1.7896771430969238,
      "kl": 2.09765625,
      "learning_rate": 6.389738419534628e-07,
      "loss": 0.1076,
      "num_tokens": 878279425.0,
      "reward": 1.05224609375,
      "reward_std": 0.22195741534233093,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.95068359375,
      "rewards/tag_count_reward/std": 0.15367169678211212,
      "step": 1445
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1694.0,
      "completions/mean_length": 719.84765625,
      "completions/mean_terminated_length": 717.24853515625,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.49364171716309635,
      "grad_norm": 2.7875778675079346,
      "kl": 2.61328125,
      "learning_rate": 6.38448055080128e-07,
      "loss": 0.1502,
      "num_tokens": 878722163.0,
      "reward": 1.0810546875,
      "reward_std": 0.2939624786376953,
      "rewards/accuracy_reward/mean": 0.1391129046678543,
      "rewards/accuracy_reward/std": 0.34641367197036743,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.17451083660125732,
      "step": 1446
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1718.0,
      "completions/max_terminated_length": 1718.0,
      "completions/mean_length": 727.11328125,
      "completions/mean_terminated_length": 727.11328125,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.49398310147648716,
      "grad_norm": 4.331711292266846,
      "kl": 3.35546875,
      "learning_rate": 6.379221425756913e-07,
      "loss": 0.1257,
      "num_tokens": 879169885.0,
      "reward": 0.99951171875,
      "reward_std": 0.2779485583305359,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.19528773427009583,
      "step": 1447
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1764.0,
      "completions/max_terminated_length": 1764.0,
      "completions/mean_length": 635.263671875,
      "completions/mean_terminated_length": 635.263671875,
      "completions/min_length": 77.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.494324485789878,
      "grad_norm": 2.922173261642456,
      "kl": 2.845703125,
      "learning_rate": 6.373961051871552e-07,
      "loss": 0.1321,
      "num_tokens": 879578372.0,
      "reward": 1.03759765625,
      "reward_std": 0.20199885964393616,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.95166015625,
      "rewards/tag_count_reward/std": 0.14328470826148987,
      "step": 1448
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1546.0,
      "completions/mean_length": 694.490234375,
      "completions/mean_terminated_length": 689.182373046875,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.49466587010326873,
      "grad_norm": 3.038449287414551,
      "kl": 3.423828125,
      "learning_rate": 6.368699436617006e-07,
      "loss": 0.1548,
      "num_tokens": 880005503.0,
      "reward": 1.0234375,
      "reward_std": 0.24409040808677673,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.1698969453573227,
      "step": 1449
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1937.0,
      "completions/max_terminated_length": 1937.0,
      "completions/mean_length": 670.849609375,
      "completions/mean_terminated_length": 670.849609375,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.49500725441665955,
      "grad_norm": 3.174421787261963,
      "kl": 2.32421875,
      "learning_rate": 6.363436587466842e-07,
      "loss": 0.1106,
      "num_tokens": 880427170.0,
      "reward": 1.00732421875,
      "reward_std": 0.21429546177387238,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.1671748012304306,
      "step": 1450
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1443.0,
      "completions/max_terminated_length": 1443.0,
      "completions/mean_length": 635.716796875,
      "completions/mean_terminated_length": 635.716796875,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.49534863873005036,
      "grad_norm": 1.7578914165496826,
      "kl": 2.0078125,
      "learning_rate": 6.358172511896381e-07,
      "loss": 0.0854,
      "num_tokens": 880839569.0,
      "reward": 1.04052734375,
      "reward_std": 0.20281007885932922,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.95458984375,
      "rewards/tag_count_reward/std": 0.14167514443397522,
      "step": 1451
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1712.0,
      "completions/mean_length": 694.564453125,
      "completions/mean_terminated_length": 689.2568969726562,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.4956900230434412,
      "grad_norm": 4.483496189117432,
      "kl": 3.23828125,
      "learning_rate": 6.352907217382684e-07,
      "loss": 0.1919,
      "num_tokens": 881275202.0,
      "reward": 1.03271484375,
      "reward_std": 0.257063627243042,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17916527390480042,
      "step": 1452
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1627.0,
      "completions/mean_length": 680.03125,
      "completions/mean_terminated_length": 677.3541870117188,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.49603140735683193,
      "grad_norm": 6.235518455505371,
      "kl": 2.076171875,
      "learning_rate": 6.347640711404545e-07,
      "loss": 0.1026,
      "num_tokens": 881702770.0,
      "reward": 1.09130859375,
      "reward_std": 0.23688587546348572,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.94873046875,
      "rewards/tag_count_reward/std": 0.14979879558086395,
      "step": 1453
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1951.0,
      "completions/max_terminated_length": 1951.0,
      "completions/mean_length": 753.25390625,
      "completions/mean_terminated_length": 753.25390625,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.49637279167022275,
      "grad_norm": 2.465982437133789,
      "kl": 3.2734375,
      "learning_rate": 6.342373001442476e-07,
      "loss": 0.1835,
      "num_tokens": 882165380.0,
      "reward": 0.99365234375,
      "reward_std": 0.23353055119514465,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.18427632749080658,
      "step": 1454
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1541.0,
      "completions/max_terminated_length": 1541.0,
      "completions/mean_length": 677.916015625,
      "completions/mean_terminated_length": 677.916015625,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.49671417598361356,
      "grad_norm": 3.203700065612793,
      "kl": 1.634765625,
      "learning_rate": 6.337104094978705e-07,
      "loss": 0.085,
      "num_tokens": 882587561.0,
      "reward": 1.05712890625,
      "reward_std": 0.19913287460803986,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.95947265625,
      "rewards/tag_count_reward/std": 0.13969184458255768,
      "step": 1455
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1817.0,
      "completions/mean_length": 740.923828125,
      "completions/mean_terminated_length": 733.2200927734375,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.4970555602970044,
      "grad_norm": 2.1927859783172607,
      "kl": 2.927734375,
      "learning_rate": 6.331833999497157e-07,
      "loss": 0.1681,
      "num_tokens": 883043010.0,
      "reward": 0.9970703125,
      "reward_std": 0.20995213091373444,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.1709035038948059,
      "step": 1456
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1907.0,
      "completions/max_terminated_length": 1907.0,
      "completions/mean_length": 712.681640625,
      "completions/mean_terminated_length": 712.681640625,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.49739694461039513,
      "grad_norm": 4.633256912231445,
      "kl": 3.5078125,
      "learning_rate": 6.326562722483442e-07,
      "loss": 0.2041,
      "num_tokens": 883496191.0,
      "reward": 1.0302734375,
      "reward_std": 0.2887267470359802,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.17514485120773315,
      "step": 1457
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1533.0,
      "completions/max_terminated_length": 1533.0,
      "completions/mean_length": 667.42578125,
      "completions/mean_terminated_length": 667.42578125,
      "completions/min_length": 82.0,
      "completions/min_terminated_length": 82.0,
      "epoch": 0.49773832892378594,
      "grad_norm": 2.6285793781280518,
      "kl": 3.3359375,
      "learning_rate": 6.32129027142485e-07,
      "loss": 0.1633,
      "num_tokens": 883927657.0,
      "reward": 1.04248046875,
      "reward_std": 0.28445982933044434,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.18481998145580292,
      "step": 1458
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1791.0,
      "completions/mean_length": 679.318359375,
      "completions/mean_terminated_length": 676.639892578125,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.49807971323717676,
      "grad_norm": 2.5234105587005615,
      "kl": 3.17578125,
      "learning_rate": 6.316016653810344e-07,
      "loss": 0.1659,
      "num_tokens": 884359612.0,
      "reward": 1.0029296875,
      "reward_std": 0.24092786014080048,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.18704843521118164,
      "step": 1459
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1826.0,
      "completions/mean_length": 687.453125,
      "completions/mean_terminated_length": 682.11767578125,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.49842109755056757,
      "grad_norm": 3.5279128551483154,
      "kl": 3.5859375,
      "learning_rate": 6.310741877130537e-07,
      "loss": 0.1742,
      "num_tokens": 884784276.0,
      "reward": 1.02685546875,
      "reward_std": 0.2783900499343872,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.1692369133234024,
      "step": 1460
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1242.0,
      "completions/mean_length": 620.599609375,
      "completions/mean_terminated_length": 617.8062744140625,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.49876248186395833,
      "grad_norm": 4.12233304977417,
      "kl": 3.0859375,
      "learning_rate": 6.305465948877691e-07,
      "loss": 0.153,
      "num_tokens": 885176215.0,
      "reward": 1.01904296875,
      "reward_std": 0.24339976906776428,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.94091796875,
      "rewards/tag_count_reward/std": 0.16344067454338074,
      "step": 1461
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1550.0,
      "completions/mean_length": 675.787109375,
      "completions/mean_terminated_length": 659.5158081054688,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.49910386617734914,
      "grad_norm": 2.21496844291687,
      "kl": 4.2578125,
      "learning_rate": 6.300188876545705e-07,
      "loss": 0.2417,
      "num_tokens": 885608826.0,
      "reward": 1.0068359375,
      "reward_std": 0.26521173119544983,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.1972527801990509,
      "step": 1462
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1610.0,
      "completions/max_terminated_length": 1610.0,
      "completions/mean_length": 658.64453125,
      "completions/mean_terminated_length": 658.64453125,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.49944525049073996,
      "grad_norm": 4.980697154998779,
      "kl": 4.48828125,
      "learning_rate": 6.294910667630099e-07,
      "loss": 0.2304,
      "num_tokens": 886023892.0,
      "reward": 0.998046875,
      "reward_std": 0.28366217017173767,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.1920318305492401,
      "step": 1463
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1629.0,
      "completions/max_terminated_length": 1629.0,
      "completions/mean_length": 619.50390625,
      "completions/mean_terminated_length": 619.50390625,
      "completions/min_length": 82.0,
      "completions/min_terminated_length": 82.0,
      "epoch": 0.49978663480413077,
      "grad_norm": 2.6251678466796875,
      "kl": 3.046875,
      "learning_rate": 6.289631329628014e-07,
      "loss": 0.1529,
      "num_tokens": 886419478.0,
      "reward": 1.03271484375,
      "reward_std": 0.2458207905292511,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.18215365707874298,
      "step": 1464
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 685.33203125,
      "completions/mean_terminated_length": 682.6653442382812,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.5001280191175216,
      "grad_norm": 7.054671287536621,
      "kl": 4.20703125,
      "learning_rate": 6.28435087003819e-07,
      "loss": 0.1922,
      "num_tokens": 886851328.0,
      "reward": 0.99267578125,
      "reward_std": 0.28385084867477417,
      "rewards/accuracy_reward/mean": 0.07056451588869095,
      "rewards/accuracy_reward/std": 0.25635457038879395,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.19168755412101746,
      "step": 1465
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1403.0,
      "completions/mean_length": 671.296875,
      "completions/mean_terminated_length": 668.6027221679688,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.5004694034309124,
      "grad_norm": 5.145280361175537,
      "kl": 2.888671875,
      "learning_rate": 6.279069296360957e-07,
      "loss": 0.1298,
      "num_tokens": 887271336.0,
      "reward": 0.986328125,
      "reward_std": 0.22993148863315582,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.17459021508693695,
      "step": 1466
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1530.0,
      "completions/mean_length": 604.04296875,
      "completions/mean_terminated_length": 601.2172241210938,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.5008107877443031,
      "grad_norm": 2.996569871902466,
      "kl": 2.8515625,
      "learning_rate": 6.273786616098238e-07,
      "loss": 0.1923,
      "num_tokens": 887659070.0,
      "reward": 0.98095703125,
      "reward_std": 0.22018375992774963,
      "rewards/accuracy_reward/mean": 0.04838709533214569,
      "rewards/accuracy_reward/std": 0.2147994488477707,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.17241966724395752,
      "step": 1467
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1361.0,
      "completions/max_terminated_length": 1361.0,
      "completions/mean_length": 647.6328125,
      "completions/mean_terminated_length": 647.6328125,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.5011521720576939,
      "grad_norm": 2.6126527786254883,
      "kl": 1.861328125,
      "learning_rate": 6.268502836753516e-07,
      "loss": 0.0651,
      "num_tokens": 888062802.0,
      "reward": 1.04052734375,
      "reward_std": 0.2941199541091919,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.17876482009887695,
      "step": 1468
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1440.0,
      "completions/max_terminated_length": 1440.0,
      "completions/mean_length": 614.302734375,
      "completions/mean_terminated_length": 614.302734375,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.5014935563710847,
      "grad_norm": 2.461759328842163,
      "kl": 2.767578125,
      "learning_rate": 6.263217965831844e-07,
      "loss": 0.1411,
      "num_tokens": 888446173.0,
      "reward": 0.9736328125,
      "reward_std": 0.2209916114807129,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.18026389181613922,
      "step": 1469
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1975.0,
      "completions/max_terminated_length": 1975.0,
      "completions/mean_length": 664.33984375,
      "completions/mean_terminated_length": 664.33984375,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.5018349406844755,
      "grad_norm": 1.6656148433685303,
      "kl": 2.32421875,
      "learning_rate": 6.25793201083982e-07,
      "loss": 0.1188,
      "num_tokens": 888856459.0,
      "reward": 1.07470703125,
      "reward_std": 0.312046080827713,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.17996348440647125,
      "step": 1470
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1532.0,
      "completions/max_terminated_length": 1532.0,
      "completions/mean_length": 620.650390625,
      "completions/mean_terminated_length": 620.650390625,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.5021763249978664,
      "grad_norm": 1.9301904439926147,
      "kl": 2.3046875,
      "learning_rate": 6.252644979285583e-07,
      "loss": 0.1102,
      "num_tokens": 889255976.0,
      "reward": 1.0556640625,
      "reward_std": 0.23601169884204865,
      "rewards/accuracy_reward/mean": 0.11895161122083664,
      "rewards/accuracy_reward/std": 0.3240584135055542,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.16808471083641052,
      "step": 1471
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1526.0,
      "completions/max_terminated_length": 1526.0,
      "completions/mean_length": 675.171875,
      "completions/mean_terminated_length": 675.171875,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.5025177093112572,
      "grad_norm": 2.869601249694824,
      "kl": 2.052734375,
      "learning_rate": 6.247356878678802e-07,
      "loss": 0.1089,
      "num_tokens": 889677664.0,
      "reward": 0.99755859375,
      "reward_std": 0.2592603266239166,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.16644155979156494,
      "step": 1472
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1557.0,
      "completions/max_terminated_length": 1557.0,
      "completions/mean_length": 640.119140625,
      "completions/mean_terminated_length": 640.119140625,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.502859093624648,
      "grad_norm": 1.681730031967163,
      "kl": 2.201171875,
      "learning_rate": 6.242067716530666e-07,
      "loss": 0.0958,
      "num_tokens": 890078749.0,
      "reward": 1.03076171875,
      "reward_std": 0.27029573917388916,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.16180720925331116,
      "step": 1473
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1487.0,
      "completions/mean_length": 667.126953125,
      "completions/mean_terminated_length": 664.4246826171875,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.5032004779380388,
      "grad_norm": 6.468199253082275,
      "kl": 2.486328125,
      "learning_rate": 6.23677750035387e-07,
      "loss": 0.1734,
      "num_tokens": 890504286.0,
      "reward": 1.02099609375,
      "reward_std": 0.2675877809524536,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.16495952010154724,
      "step": 1474
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1344.0,
      "completions/max_terminated_length": 1344.0,
      "completions/mean_length": 583.81640625,
      "completions/mean_terminated_length": 583.81640625,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.5035418622514295,
      "grad_norm": 3.8578546047210693,
      "kl": 2.193359375,
      "learning_rate": 6.231486237662604e-07,
      "loss": 0.1237,
      "num_tokens": 890890864.0,
      "reward": 1.0087890625,
      "reward_std": 0.20193490386009216,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9462890625,
      "rewards/tag_count_reward/std": 0.1581011861562729,
      "step": 1475
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1983.0,
      "completions/mean_length": 675.978515625,
      "completions/mean_terminated_length": 673.2935180664062,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.5038832465648203,
      "grad_norm": 6.085797309875488,
      "kl": 4.3984375,
      "learning_rate": 6.226193935972549e-07,
      "loss": 0.2663,
      "num_tokens": 891316981.0,
      "reward": 0.98095703125,
      "reward_std": 0.2453998625278473,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.91455078125,
      "rewards/tag_count_reward/std": 0.18936549127101898,
      "step": 1476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1964.0,
      "completions/mean_length": 591.884765625,
      "completions/mean_terminated_length": 589.0352172851562,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.5042246308782111,
      "grad_norm": 3.0584208965301514,
      "kl": 3.125,
      "learning_rate": 6.220900602800858e-07,
      "loss": 0.1769,
      "num_tokens": 891696730.0,
      "reward": 1.04833984375,
      "reward_std": 0.24618935585021973,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.15564262866973877,
      "step": 1477
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1320.0,
      "completions/max_terminated_length": 1320.0,
      "completions/mean_length": 649.302734375,
      "completions/mean_terminated_length": 649.302734375,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.5045660151916019,
      "grad_norm": 4.202577590942383,
      "kl": 3.58203125,
      "learning_rate": 6.215606245666152e-07,
      "loss": 0.159,
      "num_tokens": 892105237.0,
      "reward": 0.9990234375,
      "reward_std": 0.23968106508255005,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.17926456034183502,
      "step": 1478
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 615.537109375,
      "completions/mean_terminated_length": 612.7338256835938,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.5049073995049927,
      "grad_norm": 7.4503374099731445,
      "kl": 3.75390625,
      "learning_rate": 6.210310872088502e-07,
      "loss": 0.183,
      "num_tokens": 892498376.0,
      "reward": 1.0009765625,
      "reward_std": 0.2416778802871704,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.17168447375297546,
      "step": 1479
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1810.0,
      "completions/max_terminated_length": 1810.0,
      "completions/mean_length": 617.552734375,
      "completions/mean_terminated_length": 617.552734375,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.5052487838183836,
      "grad_norm": 2.9471304416656494,
      "kl": 3.45703125,
      "learning_rate": 6.20501448958943e-07,
      "loss": 0.1724,
      "num_tokens": 892892819.0,
      "reward": 0.99951171875,
      "reward_std": 0.25932615995407104,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.18715250492095947,
      "step": 1480
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1615.0,
      "completions/mean_length": 662.658203125,
      "completions/mean_terminated_length": 654.4931640625,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.5055901681317744,
      "grad_norm": 5.1966376304626465,
      "kl": 3.9375,
      "learning_rate": 6.199717105691884e-07,
      "loss": 0.2327,
      "num_tokens": 893306676.0,
      "reward": 0.9609375,
      "reward_std": 0.20596902072429657,
      "rewards/accuracy_reward/mean": 0.033203125,
      "rewards/accuracy_reward/std": 0.17934183776378632,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.18188132345676422,
      "step": 1481
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1225.0,
      "completions/mean_length": 586.810546875,
      "completions/mean_terminated_length": 583.9510498046875,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.5059315524451652,
      "grad_norm": 5.172822952270508,
      "kl": 3.4140625,
      "learning_rate": 6.194418727920238e-07,
      "loss": 0.1734,
      "num_tokens": 893680003.0,
      "reward": 0.97607421875,
      "reward_std": 0.26199817657470703,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.91162109375,
      "rewards/tag_count_reward/std": 0.19377975165843964,
      "step": 1482
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2047.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 662.6171875,
      "completions/mean_terminated_length": 662.6171875,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.5062729367585559,
      "grad_norm": 2.583857774734497,
      "kl": 2.87890625,
      "learning_rate": 6.189119363800277e-07,
      "loss": 0.1525,
      "num_tokens": 894101407.0,
      "reward": 1.06982421875,
      "reward_std": 0.28229930996894836,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.18187542259693146,
      "step": 1483
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2037.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 614.740234375,
      "completions/mean_terminated_length": 614.740234375,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.5066143210719467,
      "grad_norm": 2.175387144088745,
      "kl": 2.99609375,
      "learning_rate": 6.183819020859187e-07,
      "loss": 0.1856,
      "num_tokens": 894490778.0,
      "reward": 0.98876953125,
      "reward_std": 0.23335842788219452,
      "rewards/accuracy_reward/mean": 0.04838709533214569,
      "rewards/accuracy_reward/std": 0.21479946374893188,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.18019695580005646,
      "step": 1484
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1648.0,
      "completions/max_terminated_length": 1648.0,
      "completions/mean_length": 607.95703125,
      "completions/mean_terminated_length": 607.95703125,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.5069557053853375,
      "grad_norm": 4.318722248077393,
      "kl": 1.8984375,
      "learning_rate": 6.178517706625544e-07,
      "loss": 0.1037,
      "num_tokens": 894881476.0,
      "reward": 1.0302734375,
      "reward_std": 0.21671685576438904,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.16057194769382477,
      "step": 1485
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1800.0,
      "completions/mean_length": 636.7578125,
      "completions/mean_terminated_length": 633.99609375,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.5072970896987283,
      "grad_norm": 2.169992685317993,
      "kl": 2.53125,
      "learning_rate": 6.173215428629303e-07,
      "loss": 0.1215,
      "num_tokens": 895295704.0,
      "reward": 1.0078125,
      "reward_std": 0.26474007964134216,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.182897686958313,
      "step": 1486
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1750.0,
      "completions/mean_length": 660.32421875,
      "completions/mean_terminated_length": 652.1453857421875,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.5076384740121191,
      "grad_norm": 3.2754616737365723,
      "kl": 2.517578125,
      "learning_rate": 6.167912194401791e-07,
      "loss": 0.1365,
      "num_tokens": 895708462.0,
      "reward": 0.9677734375,
      "reward_std": 0.24602185189723969,
      "rewards/accuracy_reward/mean": 0.03427419438958168,
      "rewards/accuracy_reward/std": 0.18211629986763,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.18692579865455627,
      "step": 1487
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1363.0,
      "completions/mean_length": 650.39453125,
      "completions/mean_terminated_length": 647.6594848632812,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.50797985832551,
      "grad_norm": 3.8435637950897217,
      "kl": 1.765625,
      "learning_rate": 6.162608011475687e-07,
      "loss": 0.0945,
      "num_tokens": 896120120.0,
      "reward": 1.0595703125,
      "reward_std": 0.2676447033882141,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9501953125,
      "rewards/tag_count_reward/std": 0.14824466407299042,
      "step": 1488
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1589.0,
      "completions/max_terminated_length": 1589.0,
      "completions/mean_length": 584.376953125,
      "completions/mean_terminated_length": 584.376953125,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.5083212426389008,
      "grad_norm": 2.480565309524536,
      "kl": 2.470703125,
      "learning_rate": 6.157302887385028e-07,
      "loss": 0.1452,
      "num_tokens": 896497737.0,
      "reward": 1.083984375,
      "reward_std": 0.24171417951583862,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.955078125,
      "rewards/tag_count_reward/std": 0.143970787525177,
      "step": 1489
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1631.0,
      "completions/mean_length": 669.638671875,
      "completions/mean_terminated_length": 664.2333984375,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.5086626269522916,
      "grad_norm": 2.7596516609191895,
      "kl": 3.109375,
      "learning_rate": 6.151996829665176e-07,
      "loss": 0.1661,
      "num_tokens": 896916752.0,
      "reward": 1.0322265625,
      "reward_std": 0.2379935383796692,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.18715058267116547,
      "step": 1490
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1470.0,
      "completions/max_terminated_length": 1470.0,
      "completions/mean_length": 611.220703125,
      "completions/mean_terminated_length": 611.220703125,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.5090040112656823,
      "grad_norm": 2.4982738494873047,
      "kl": 2.67578125,
      "learning_rate": 6.146689845852825e-07,
      "loss": 0.1347,
      "num_tokens": 897302369.0,
      "reward": 1.0458984375,
      "reward_std": 0.26661649346351624,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.16881079971790314,
      "step": 1491
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1469.0,
      "completions/mean_length": 695.626953125,
      "completions/mean_terminated_length": 690.3235473632812,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.5093453955790731,
      "grad_norm": 1.733497142791748,
      "kl": 3.06640625,
      "learning_rate": 6.141381943485986e-07,
      "loss": 0.1658,
      "num_tokens": 897729986.0,
      "reward": 1.01416015625,
      "reward_std": 0.24004298448562622,
      "rewards/accuracy_reward/mean": 0.0786290317773819,
      "rewards/accuracy_reward/std": 0.26943063735961914,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.16810958087444305,
      "step": 1492
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1871.0,
      "completions/max_terminated_length": 1871.0,
      "completions/mean_length": 648.021484375,
      "completions/mean_terminated_length": 648.021484375,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.5096867798924639,
      "grad_norm": 5.1812238693237305,
      "kl": 3.890625,
      "learning_rate": 6.136073130103972e-07,
      "loss": 0.198,
      "num_tokens": 898136333.0,
      "reward": 1.05029296875,
      "reward_std": 0.28683164715766907,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.17287351191043854,
      "step": 1493
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1826.0,
      "completions/max_terminated_length": 1826.0,
      "completions/mean_length": 673.150390625,
      "completions/mean_terminated_length": 673.150390625,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.5100281642058547,
      "grad_norm": 3.852508783340454,
      "kl": 3.76953125,
      "learning_rate": 6.130763413247388e-07,
      "loss": 0.2057,
      "num_tokens": 898547658.0,
      "reward": 1.04833984375,
      "reward_std": 0.2567264139652252,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.1664358228445053,
      "step": 1494
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1785.0,
      "completions/max_terminated_length": 1785.0,
      "completions/mean_length": 598.8359375,
      "completions/mean_terminated_length": 598.8359375,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.5103695485192455,
      "grad_norm": 2.0584053993225098,
      "kl": 3.38671875,
      "learning_rate": 6.125452800458128e-07,
      "loss": 0.1869,
      "num_tokens": 898935606.0,
      "reward": 1.0498046875,
      "reward_std": 0.2755335867404938,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.16064335405826569,
      "step": 1495
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1943.0,
      "completions/max_terminated_length": 1943.0,
      "completions/mean_length": 612.873046875,
      "completions/mean_terminated_length": 612.873046875,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.5107109328326364,
      "grad_norm": 3.267296075820923,
      "kl": 4.2109375,
      "learning_rate": 6.120141299279355e-07,
      "loss": 0.2608,
      "num_tokens": 899317557.0,
      "reward": 1.05126953125,
      "reward_std": 0.22006458044052124,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.94384765625,
      "rewards/tag_count_reward/std": 0.1629781574010849,
      "step": 1496
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1554.0,
      "completions/max_terminated_length": 1554.0,
      "completions/mean_length": 624.37890625,
      "completions/mean_terminated_length": 624.37890625,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.5110523171460272,
      "grad_norm": 5.56282377243042,
      "kl": 3.28125,
      "learning_rate": 6.114828917255493e-07,
      "loss": 0.1686,
      "num_tokens": 899713943.0,
      "reward": 1.052734375,
      "reward_std": 0.291049599647522,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.16985194385051727,
      "step": 1497
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1951.0,
      "completions/mean_length": 643.279296875,
      "completions/mean_terminated_length": 637.7706298828125,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.511393701459418,
      "grad_norm": 5.571586608886719,
      "kl": 4.2734375,
      "learning_rate": 6.109515661932221e-07,
      "loss": 0.2214,
      "num_tokens": 900128006.0,
      "reward": 1.03955078125,
      "reward_std": 0.2976807951927185,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17600135505199432,
      "step": 1498
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1292.0,
      "completions/mean_length": 587.203125,
      "completions/mean_terminated_length": 584.3444213867188,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.5117350857728087,
      "grad_norm": 3.2270994186401367,
      "kl": 2.85546875,
      "learning_rate": 6.104201540856454e-07,
      "loss": 0.1776,
      "num_tokens": 900506494.0,
      "reward": 1.06298828125,
      "reward_std": 0.24954479932785034,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.94580078125,
      "rewards/tag_count_reward/std": 0.15361572802066803,
      "step": 1499
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1443.0,
      "completions/mean_length": 627.25390625,
      "completions/mean_terminated_length": 621.682373046875,
      "completions/min_length": 57.0,
      "completions/min_terminated_length": 57.0,
      "epoch": 0.5120764700861995,
      "grad_norm": 2.260396718978882,
      "kl": 2.76953125,
      "learning_rate": 6.098886561576336e-07,
      "loss": 0.1301,
      "num_tokens": 900903712.0,
      "reward": 1.0625,
      "reward_std": 0.24853083491325378,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.1537284255027771,
      "step": 1500
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1640.0,
      "completions/mean_length": 583.193359375,
      "completions/mean_terminated_length": 580.3267822265625,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.5124178543995903,
      "grad_norm": 2.694723606109619,
      "kl": 2.7734375,
      "learning_rate": 6.093570731641236e-07,
      "loss": 0.1991,
      "num_tokens": 901276147.0,
      "reward": 1.08984375,
      "reward_std": 0.26263895630836487,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.94921875,
      "rewards/tag_count_reward/std": 0.1495569944381714,
      "step": 1501
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1791.0,
      "completions/max_terminated_length": 1791.0,
      "completions/mean_length": 620.205078125,
      "completions/mean_terminated_length": 620.205078125,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.5127592387129811,
      "grad_norm": 3.6175827980041504,
      "kl": 2.2578125,
      "learning_rate": 6.08825405860173e-07,
      "loss": 0.1411,
      "num_tokens": 901667996.0,
      "reward": 1.04052734375,
      "reward_std": 0.2540562152862549,
      "rewards/accuracy_reward/mean": 0.08669354766607285,
      "rewards/accuracy_reward/std": 0.281669557094574,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.1587548404932022,
      "step": 1502
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2016.0,
      "completions/max_terminated_length": 2016.0,
      "completions/mean_length": 672.44140625,
      "completions/mean_terminated_length": 672.44140625,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.5131006230263719,
      "grad_norm": 1.3615964651107788,
      "kl": 2.4375,
      "learning_rate": 6.082936550009584e-07,
      "loss": 0.094,
      "num_tokens": 902086494.0,
      "reward": 1.013671875,
      "reward_std": 0.21543973684310913,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.16393177211284637,
      "step": 1503
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1257.0,
      "completions/mean_length": 618.232421875,
      "completions/mean_terminated_length": 592.6500854492188,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.5134420073397628,
      "grad_norm": 2.3619580268859863,
      "kl": 3.71484375,
      "learning_rate": 6.077618213417761e-07,
      "loss": 0.223,
      "num_tokens": 902478549.0,
      "reward": 1.00244140625,
      "reward_std": 0.22305136919021606,
      "rewards/accuracy_reward/mean": 0.06854838877916336,
      "rewards/accuracy_reward/std": 0.25293970108032227,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.17677061259746552,
      "step": 1504
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1560.0,
      "completions/mean_length": 661.572265625,
      "completions/mean_terminated_length": 658.8590698242188,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.5137833916531536,
      "grad_norm": 3.8278415203094482,
      "kl": 2.52734375,
      "learning_rate": 6.072299056380392e-07,
      "loss": 0.1647,
      "num_tokens": 902897690.0,
      "reward": 1.04296875,
      "reward_std": 0.24075695872306824,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.15868334472179413,
      "step": 1505
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1631.0,
      "completions/max_terminated_length": 1631.0,
      "completions/mean_length": 685.716796875,
      "completions/mean_terminated_length": 685.716796875,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.5141247759665444,
      "grad_norm": 1.8310338258743286,
      "kl": 2.056640625,
      "learning_rate": 6.066979086452776e-07,
      "loss": 0.0986,
      "num_tokens": 903323961.0,
      "reward": 1.0419921875,
      "reward_std": 0.21650803089141846,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9521484375,
      "rewards/tag_count_reward/std": 0.14556480944156647,
      "step": 1506
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1356.0,
      "completions/max_terminated_length": 1356.0,
      "completions/mean_length": 651.724609375,
      "completions/mean_terminated_length": 651.724609375,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.5144661602799352,
      "grad_norm": 2.043776750564575,
      "kl": 1.888671875,
      "learning_rate": 6.061658311191371e-07,
      "loss": 0.0671,
      "num_tokens": 903726364.0,
      "reward": 1.07763671875,
      "reward_std": 0.2787034809589386,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.16112665832042694,
      "step": 1507
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1573.0,
      "completions/max_terminated_length": 1573.0,
      "completions/mean_length": 642.455078125,
      "completions/mean_terminated_length": 642.455078125,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.5148075445933259,
      "grad_norm": 1.9324742555618286,
      "kl": 1.84765625,
      "learning_rate": 6.056336738153775e-07,
      "loss": 0.0579,
      "num_tokens": 904134389.0,
      "reward": 1.025390625,
      "reward_std": 0.1923532634973526,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.1421540379524231,
      "step": 1508
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1889.0,
      "completions/max_terminated_length": 1889.0,
      "completions/mean_length": 629.1875,
      "completions/mean_terminated_length": 629.1875,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.5151489289067167,
      "grad_norm": 3.028106212615967,
      "kl": 1.689453125,
      "learning_rate": 6.051014374898714e-07,
      "loss": 0.0637,
      "num_tokens": 904529557.0,
      "reward": 0.998046875,
      "reward_std": 0.19787713885307312,
      "rewards/accuracy_reward/mean": 0.029296875,
      "rewards/accuracy_reward/std": 0.16880230605602264,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.95703125,
      "rewards/tag_count_reward/std": 0.13763225078582764,
      "step": 1509
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1866.0,
      "completions/mean_length": 672.52734375,
      "completions/mean_terminated_length": 667.1333618164062,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.5154903132201075,
      "grad_norm": 2.9959349632263184,
      "kl": 1.919921875,
      "learning_rate": 6.045691228986048e-07,
      "loss": 0.128,
      "num_tokens": 904945283.0,
      "reward": 1.05078125,
      "reward_std": 0.22685974836349487,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.94921875,
      "rewards/tag_count_reward/std": 0.1495569944381714,
      "step": 1510
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1363.0,
      "completions/max_terminated_length": 1363.0,
      "completions/mean_length": 645.470703125,
      "completions/mean_terminated_length": 645.470703125,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.5158316975334983,
      "grad_norm": 1.8489620685577393,
      "kl": 2.0703125,
      "learning_rate": 6.040367307976739e-07,
      "loss": 0.0943,
      "num_tokens": 905349668.0,
      "reward": 1.00439453125,
      "reward_std": 0.21467621624469757,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.94580078125,
      "rewards/tag_count_reward/std": 0.15519995987415314,
      "step": 1511
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1677.0,
      "completions/max_terminated_length": 1677.0,
      "completions/mean_length": 650.904296875,
      "completions/mean_terminated_length": 650.904296875,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.5161730818468891,
      "grad_norm": 2.1271045207977295,
      "kl": 2.302734375,
      "learning_rate": 6.035042619432853e-07,
      "loss": 0.1046,
      "num_tokens": 905757235.0,
      "reward": 1.02294921875,
      "reward_std": 0.2402125895023346,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17432114481925964,
      "step": 1512
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1643.0,
      "completions/max_terminated_length": 1643.0,
      "completions/mean_length": 651.849609375,
      "completions/mean_terminated_length": 651.849609375,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.51651446616028,
      "grad_norm": 3.7923452854156494,
      "kl": 2.0625,
      "learning_rate": 6.029717170917549e-07,
      "loss": 0.1166,
      "num_tokens": 906171910.0,
      "reward": 1.07275390625,
      "reward_std": 0.21571412682533264,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.95166015625,
      "rewards/tag_count_reward/std": 0.13982859253883362,
      "step": 1513
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1750.0,
      "completions/max_terminated_length": 1750.0,
      "completions/mean_length": 684.29296875,
      "completions/mean_terminated_length": 684.29296875,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.5168558504736708,
      "grad_norm": 2.008486270904541,
      "kl": 2.017578125,
      "learning_rate": 6.024390969995064e-07,
      "loss": 0.0941,
      "num_tokens": 906593932.0,
      "reward": 1.0595703125,
      "reward_std": 0.2769867479801178,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.16794821619987488,
      "step": 1514
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1542.0,
      "completions/mean_length": 633.9375,
      "completions/mean_terminated_length": 631.1702270507812,
      "completions/min_length": 87.0,
      "completions/min_terminated_length": 87.0,
      "epoch": 0.5171972347870616,
      "grad_norm": 2.8057196140289307,
      "kl": 2.41796875,
      "learning_rate": 6.019064024230697e-07,
      "loss": 0.1181,
      "num_tokens": 906993100.0,
      "reward": 1.029296875,
      "reward_std": 0.2821890413761139,
      "rewards/accuracy_reward/mean": 0.09879032522439957,
      "rewards/accuracy_reward/std": 0.2986815273761749,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.16907380521297455,
      "step": 1515
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1791.0,
      "completions/mean_length": 654.7109375,
      "completions/mean_terminated_length": 651.9843139648438,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.5175386191004523,
      "grad_norm": 3.3453571796417236,
      "kl": 2.453125,
      "learning_rate": 6.013736341190814e-07,
      "loss": 0.1267,
      "num_tokens": 907408616.0,
      "reward": 1.03076171875,
      "reward_std": 0.2842212915420532,
      "rewards/accuracy_reward/mean": 0.10483870655298233,
      "rewards/accuracy_reward/std": 0.30665475130081177,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.16976682841777802,
      "step": 1516
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1456.0,
      "completions/mean_length": 628.134765625,
      "completions/mean_terminated_length": 625.3561401367188,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.5178800034138431,
      "grad_norm": 2.1664962768554688,
      "kl": 2.7421875,
      "learning_rate": 6.008407928442829e-07,
      "loss": 0.1568,
      "num_tokens": 907806877.0,
      "reward": 0.955078125,
      "reward_std": 0.18627232313156128,
      "rewards/accuracy_reward/mean": 0.025390625,
      "rewards/accuracy_reward/std": 0.15746226906776428,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.17667937278747559,
      "step": 1517
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2032.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 601.3359375,
      "completions/mean_terminated_length": 601.3359375,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.5182213877272339,
      "grad_norm": 2.062126636505127,
      "kl": 2.275390625,
      "learning_rate": 6.003078793555181e-07,
      "loss": 0.1439,
      "num_tokens": 908192681.0,
      "reward": 0.984375,
      "reward_std": 0.20142188668251038,
      "rewards/accuracy_reward/mean": 0.0463709682226181,
      "rewards/accuracy_reward/std": 0.21049949526786804,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.16328932344913483,
      "step": 1518
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1614.0,
      "completions/max_terminated_length": 1614.0,
      "completions/mean_length": 622.44921875,
      "completions/mean_terminated_length": 622.44921875,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.5185627720406247,
      "grad_norm": 5.56535005569458,
      "kl": 2.501953125,
      "learning_rate": 5.99774894409735e-07,
      "loss": 0.1179,
      "num_tokens": 908593983.0,
      "reward": 1.0556640625,
      "reward_std": 0.27925539016723633,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.1741819977760315,
      "step": 1519
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1566.0,
      "completions/max_terminated_length": 1566.0,
      "completions/mean_length": 663.119140625,
      "completions/mean_terminated_length": 663.119140625,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.5189041563540155,
      "grad_norm": 3.0676090717315674,
      "kl": 3.271484375,
      "learning_rate": 5.992418387639816e-07,
      "loss": 0.1499,
      "num_tokens": 909011324.0,
      "reward": 1.01025390625,
      "reward_std": 0.2641974687576294,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.91455078125,
      "rewards/tag_count_reward/std": 0.18806926906108856,
      "step": 1520
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1511.0,
      "completions/max_terminated_length": 1511.0,
      "completions/mean_length": 608.865234375,
      "completions/mean_terminated_length": 608.865234375,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.5192455406674064,
      "grad_norm": 2.0117838382720947,
      "kl": 2.69140625,
      "learning_rate": 5.987087131754073e-07,
      "loss": 0.1487,
      "num_tokens": 909400039.0,
      "reward": 0.98046875,
      "reward_std": 0.23321151733398438,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.17247577011585236,
      "step": 1521
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1425.0,
      "completions/max_terminated_length": 1425.0,
      "completions/mean_length": 606.58203125,
      "completions/mean_terminated_length": 606.58203125,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.5195869249807972,
      "grad_norm": 1.9403918981552124,
      "kl": 3.015625,
      "learning_rate": 5.981755184012607e-07,
      "loss": 0.1952,
      "num_tokens": 909782225.0,
      "reward": 1.01611328125,
      "reward_std": 0.24976907670497894,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.1784866452217102,
      "step": 1522
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1337.0,
      "completions/mean_length": 568.267578125,
      "completions/mean_terminated_length": 565.371826171875,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.519928309294188,
      "grad_norm": 2.2290732860565186,
      "kl": 2.74609375,
      "learning_rate": 5.976422551988885e-07,
      "loss": 0.1422,
      "num_tokens": 910151962.0,
      "reward": 1.07177734375,
      "reward_std": 0.29213404655456543,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.16266712546348572,
      "step": 1523
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1491.0,
      "completions/max_terminated_length": 1491.0,
      "completions/mean_length": 597.623046875,
      "completions/mean_terminated_length": 597.623046875,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.5202696936075787,
      "grad_norm": 2.628721237182617,
      "kl": 3.2578125,
      "learning_rate": 5.971089243257346e-07,
      "loss": 0.1891,
      "num_tokens": 910527945.0,
      "reward": 0.982421875,
      "reward_std": 0.22860752046108246,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.16148874163627625,
      "step": 1524
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1469.0,
      "completions/mean_length": 605.771484375,
      "completions/mean_terminated_length": 597.2711181640625,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.5206110779209695,
      "grad_norm": 2.0782299041748047,
      "kl": 2.404296875,
      "learning_rate": 5.965755265393389e-07,
      "loss": 0.1361,
      "num_tokens": 910916836.0,
      "reward": 0.99658203125,
      "reward_std": 0.21859559416770935,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.1730337291955948,
      "step": 1525
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1441.0,
      "completions/mean_length": 605.486328125,
      "completions/mean_terminated_length": 602.6633911132812,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.5209524622343603,
      "grad_norm": 1.7351100444793701,
      "kl": 2.8125,
      "learning_rate": 5.960420625973368e-07,
      "loss": 0.168,
      "num_tokens": 911306989.0,
      "reward": 1.0244140625,
      "reward_std": 0.2828201353549957,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.17582006752490997,
      "step": 1526
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1429.0,
      "completions/max_terminated_length": 1429.0,
      "completions/mean_length": 631.916015625,
      "completions/mean_terminated_length": 631.916015625,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.5212938465477511,
      "grad_norm": 3.1766157150268555,
      "kl": 3.22265625,
      "learning_rate": 5.955085332574572e-07,
      "loss": 0.198,
      "num_tokens": 911705154.0,
      "reward": 1.00927734375,
      "reward_std": 0.26710960268974304,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.18566079437732697,
      "step": 1527
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1934.0,
      "completions/max_terminated_length": 1934.0,
      "completions/mean_length": 601.8046875,
      "completions/mean_terminated_length": 601.8046875,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.5216352308611419,
      "grad_norm": 3.5937228202819824,
      "kl": 2.771484375,
      "learning_rate": 5.949749392775221e-07,
      "loss": 0.1973,
      "num_tokens": 912085870.0,
      "reward": 1.04248046875,
      "reward_std": 0.24215394258499146,
      "rewards/accuracy_reward/mean": 0.10483870655298233,
      "rewards/accuracy_reward/std": 0.30665475130081177,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.1678479015827179,
      "step": 1528
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1401.0,
      "completions/mean_length": 634.060546875,
      "completions/mean_terminated_length": 631.2935180664062,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.5219766151745328,
      "grad_norm": 4.153964996337891,
      "kl": 3.6484375,
      "learning_rate": 5.944412814154454e-07,
      "loss": 0.2237,
      "num_tokens": 912492877.0,
      "reward": 0.99169921875,
      "reward_std": 0.25971394777297974,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.18451987206935883,
      "step": 1529
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1884.0,
      "completions/mean_length": 628.384765625,
      "completions/mean_terminated_length": 622.8176879882812,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.5223179994879236,
      "grad_norm": 3.7868857383728027,
      "kl": 4.08984375,
      "learning_rate": 5.939075604292317e-07,
      "loss": 0.2528,
      "num_tokens": 912895410.0,
      "reward": 1.02490234375,
      "reward_std": 0.29657381772994995,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.91162109375,
      "rewards/tag_count_reward/std": 0.19314755499362946,
      "step": 1530
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1721.0,
      "completions/max_terminated_length": 1721.0,
      "completions/mean_length": 596.970703125,
      "completions/mean_terminated_length": 596.970703125,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.5226593838013144,
      "grad_norm": 3.0284104347229004,
      "kl": 3.55859375,
      "learning_rate": 5.933737770769746e-07,
      "loss": 0.231,
      "num_tokens": 913274339.0,
      "reward": 1.052734375,
      "reward_std": 0.2362092286348343,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.17459021508693695,
      "step": 1531
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1877.0,
      "completions/max_terminated_length": 1877.0,
      "completions/mean_length": 605.32421875,
      "completions/mean_terminated_length": 605.32421875,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.5230007681147051,
      "grad_norm": 3.1990652084350586,
      "kl": 3.48828125,
      "learning_rate": 5.928399321168575e-07,
      "loss": 0.1873,
      "num_tokens": 913661817.0,
      "reward": 0.97705078125,
      "reward_std": 0.24768967926502228,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.17594705522060394,
      "step": 1532
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1878.0,
      "completions/mean_length": 691.36328125,
      "completions/mean_terminated_length": 688.7084350585938,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.5233421524280959,
      "grad_norm": 6.105926513671875,
      "kl": 3.7109375,
      "learning_rate": 5.923060263071503e-07,
      "loss": 0.1926,
      "num_tokens": 914090355.0,
      "reward": 1.00537109375,
      "reward_std": 0.2940458655357361,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.89599609375,
      "rewards/tag_count_reward/std": 0.20819459855556488,
      "step": 1533
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 690.802734375,
      "completions/mean_terminated_length": 677.4181518554688,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.5236835367414867,
      "grad_norm": 2.300762176513672,
      "kl": 2.90234375,
      "learning_rate": 5.917720604062098e-07,
      "loss": 0.2004,
      "num_tokens": 914527950.0,
      "reward": 1.04443359375,
      "reward_std": 0.29708701372146606,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.1908532679080963,
      "step": 1534
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1696.0,
      "completions/mean_length": 658.732421875,
      "completions/mean_terminated_length": 653.2843627929688,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.5240249210548775,
      "grad_norm": 3.5259087085723877,
      "kl": 2.861328125,
      "learning_rate": 5.912380351724782e-07,
      "loss": 0.1767,
      "num_tokens": 914954453.0,
      "reward": 1.1044921875,
      "reward_std": 0.2828883230686188,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.15756843984127045,
      "step": 1535
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1611.0,
      "completions/mean_length": 620.984375,
      "completions/mean_terminated_length": 615.3882446289062,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.5243663053682683,
      "grad_norm": 3.0589449405670166,
      "kl": 3.87109375,
      "learning_rate": 5.907039513644817e-07,
      "loss": 0.236,
      "num_tokens": 915350973.0,
      "reward": 0.99658203125,
      "reward_std": 0.2699403762817383,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.17870602011680603,
      "step": 1536
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1775.0,
      "completions/mean_length": 686.19140625,
      "completions/mean_terminated_length": 680.8510131835938,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.5247076896816592,
      "grad_norm": 3.1424612998962402,
      "kl": 2.095703125,
      "learning_rate": 5.901698097408299e-07,
      "loss": 0.1122,
      "num_tokens": 915781743.0,
      "reward": 1.0087890625,
      "reward_std": 0.23096433281898499,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.16588735580444336,
      "step": 1537
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1904.0,
      "completions/mean_length": 650.544921875,
      "completions/mean_terminated_length": 647.8101806640625,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.52504907399505,
      "grad_norm": 3.1720972061157227,
      "kl": 3.26953125,
      "learning_rate": 5.896356110602143e-07,
      "loss": 0.1886,
      "num_tokens": 916190326.0,
      "reward": 1.07958984375,
      "reward_std": 0.3388897776603699,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.1808057427406311,
      "step": 1538
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1995.0,
      "completions/max_terminated_length": 1995.0,
      "completions/mean_length": 660.455078125,
      "completions/mean_terminated_length": 660.455078125,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.5253904583084408,
      "grad_norm": 2.8052926063537598,
      "kl": 2.939453125,
      "learning_rate": 5.891013560814078e-07,
      "loss": 0.1494,
      "num_tokens": 916604591.0,
      "reward": 1.03662109375,
      "reward_std": 0.2868598699569702,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.18092724680900574,
      "step": 1539
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1921.0,
      "completions/mean_length": 632.130859375,
      "completions/mean_terminated_length": 629.3600463867188,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.5257318426218315,
      "grad_norm": 2.220705270767212,
      "kl": 3.30859375,
      "learning_rate": 5.885670455632628e-07,
      "loss": 0.1765,
      "num_tokens": 917005890.0,
      "reward": 1.05859375,
      "reward_std": 0.28806042671203613,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.17398715019226074,
      "step": 1540
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1923.0,
      "completions/mean_length": 699.5,
      "completions/mean_terminated_length": 696.8610229492188,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.5260732269352223,
      "grad_norm": 2.4582996368408203,
      "kl": 2.91015625,
      "learning_rate": 5.88032680264711e-07,
      "loss": 0.1533,
      "num_tokens": 917436994.0,
      "reward": 1.0478515625,
      "reward_std": 0.29794150590896606,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310528099536896,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.1879250556230545,
      "step": 1541
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1700.0,
      "completions/mean_length": 623.375,
      "completions/mean_terminated_length": 620.5870971679688,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.5264146112486131,
      "grad_norm": 2.449199676513672,
      "kl": 3.17578125,
      "learning_rate": 5.874982609447618e-07,
      "loss": 0.1839,
      "num_tokens": 917830274.0,
      "reward": 0.99072265625,
      "reward_std": 0.2553071677684784,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.1798519492149353,
      "step": 1542
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1668.0,
      "completions/mean_length": 687.986328125,
      "completions/mean_terminated_length": 663.6520385742188,
      "completions/min_length": 36.0,
      "completions/min_terminated_length": 36.0,
      "epoch": 0.5267559955620039,
      "grad_norm": 2.059253215789795,
      "kl": 4.11328125,
      "learning_rate": 5.869637883625013e-07,
      "loss": 0.3064,
      "num_tokens": 918270011.0,
      "reward": 0.97412109375,
      "reward_std": 0.2899189591407776,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.89599609375,
      "rewards/tag_count_reward/std": 0.21907246112823486,
      "step": 1543
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 671.509765625,
      "completions/mean_terminated_length": 666.11181640625,
      "completions/min_length": 60.0,
      "completions/min_terminated_length": 60.0,
      "epoch": 0.5270973798753947,
      "grad_norm": 4.8275465965271,
      "kl": 3.26171875,
      "learning_rate": 5.864292632770911e-07,
      "loss": 0.1745,
      "num_tokens": 918692224.0,
      "reward": 0.9765625,
      "reward_std": 0.23069053888320923,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.17999069392681122,
      "step": 1544
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 647.107421875,
      "completions/mean_terminated_length": 641.61376953125,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.5274387641887855,
      "grad_norm": 7.4420037269592285,
      "kl": 4.16015625,
      "learning_rate": 5.858946864477675e-07,
      "loss": 0.2589,
      "num_tokens": 919108295.0,
      "reward": 0.974609375,
      "reward_std": 0.25603586435317993,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.19091396033763885,
      "step": 1545
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1836.0,
      "completions/mean_length": 691.767578125,
      "completions/mean_terminated_length": 683.7741088867188,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.5277801485021764,
      "grad_norm": 4.548550605773926,
      "kl": 3.6484375,
      "learning_rate": 5.853600586338406e-07,
      "loss": 0.1979,
      "num_tokens": 919538768.0,
      "reward": 1.0107421875,
      "reward_std": 0.28472375869750977,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.24231401085853577,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.18428993225097656,
      "step": 1546
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1721.0,
      "completions/mean_length": 731.806640625,
      "completions/mean_terminated_length": 729.2308959960938,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.5281215328155672,
      "grad_norm": 17.49198341369629,
      "kl": 3.734375,
      "learning_rate": 5.848253805946924e-07,
      "loss": 0.1958,
      "num_tokens": 919993885.0,
      "reward": 0.98291015625,
      "reward_std": 0.2726157009601593,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.90869140625,
      "rewards/tag_count_reward/std": 0.2059241086244583,
      "step": 1547
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1970.0,
      "completions/mean_length": 656.03515625,
      "completions/mean_terminated_length": 653.3111572265625,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.5284629171289579,
      "grad_norm": 4.080907821655273,
      "kl": 2.689453125,
      "learning_rate": 5.842906530897763e-07,
      "loss": 0.1151,
      "num_tokens": 920412319.0,
      "reward": 1.02197265625,
      "reward_std": 0.26531165838241577,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.17812223732471466,
      "step": 1548
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1916.0,
      "completions/mean_length": 659.072265625,
      "completions/mean_terminated_length": 650.8860473632812,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.5288043014423487,
      "grad_norm": 2.370020866394043,
      "kl": 3.7890625,
      "learning_rate": 5.837558768786166e-07,
      "loss": 0.2119,
      "num_tokens": 920827284.0,
      "reward": 1.0224609375,
      "reward_std": 0.3238842189311981,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.20076745748519897,
      "step": 1549
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1992.0,
      "completions/mean_length": 674.91796875,
      "completions/mean_terminated_length": 672.2308959960938,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.5291456857557395,
      "grad_norm": 6.898661136627197,
      "kl": 2.802734375,
      "learning_rate": 5.832210527208059e-07,
      "loss": 0.1634,
      "num_tokens": 921257130.0,
      "reward": 0.99169921875,
      "reward_std": 0.2672974467277527,
      "rewards/accuracy_reward/mean": 0.07056451588869095,
      "rewards/accuracy_reward/std": 0.25635457038879395,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.20408765971660614,
      "step": 1550
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1890.0,
      "completions/max_terminated_length": 1890.0,
      "completions/mean_length": 682.130859375,
      "completions/mean_terminated_length": 682.130859375,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.5294870700691303,
      "grad_norm": 3.389392375946045,
      "kl": 2.28125,
      "learning_rate": 5.826861813760056e-07,
      "loss": 0.1314,
      "num_tokens": 921689037.0,
      "reward": 1.00732421875,
      "reward_std": 0.250784307718277,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.19182707369327545,
      "step": 1551
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1705.0,
      "completions/max_terminated_length": 1705.0,
      "completions/mean_length": 664.36328125,
      "completions/mean_terminated_length": 664.36328125,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.5298284543825211,
      "grad_norm": 2.228701591491699,
      "kl": 1.732421875,
      "learning_rate": 5.821512636039437e-07,
      "loss": 0.057,
      "num_tokens": 922098967.0,
      "reward": 1.06494140625,
      "reward_std": 0.264367938041687,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.94970703125,
      "rewards/tag_count_reward/std": 0.15013012290000916,
      "step": 1552
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1531.0,
      "completions/mean_length": 663.96484375,
      "completions/mean_terminated_length": 658.5372924804688,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.5301698386959119,
      "grad_norm": 2.460380792617798,
      "kl": 2.2578125,
      "learning_rate": 5.816163001644143e-07,
      "loss": 0.1275,
      "num_tokens": 922522693.0,
      "reward": 1.0,
      "reward_std": 0.2462298572063446,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.16101467609405518,
      "step": 1553
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1961.0,
      "completions/max_terminated_length": 1961.0,
      "completions/mean_length": 712.27734375,
      "completions/mean_terminated_length": 712.27734375,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.5305112230093028,
      "grad_norm": 4.10263204574585,
      "kl": 2.498046875,
      "learning_rate": 5.810812918172764e-07,
      "loss": 0.1645,
      "num_tokens": 922968483.0,
      "reward": 1.0078125,
      "reward_std": 0.25087910890579224,
      "rewards/accuracy_reward/mean": 0.07661290466785431,
      "rewards/accuracy_reward/std": 0.2662447690963745,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.180202916264534,
      "step": 1554
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1714.0,
      "completions/max_terminated_length": 1714.0,
      "completions/mean_length": 665.583984375,
      "completions/mean_terminated_length": 665.583984375,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.5308526073226936,
      "grad_norm": 1.5180892944335938,
      "kl": 2.013671875,
      "learning_rate": 5.805462393224526e-07,
      "loss": 0.1041,
      "num_tokens": 923385710.0,
      "reward": 1.033203125,
      "reward_std": 0.24109819531440735,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.17345911264419556,
      "step": 1555
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1777.0,
      "completions/mean_length": 725.052734375,
      "completions/mean_terminated_length": 714.6358032226562,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.5311939916360843,
      "grad_norm": 1.8202368021011353,
      "kl": 2.1796875,
      "learning_rate": 5.800111434399285e-07,
      "loss": 0.0826,
      "num_tokens": 923830105.0,
      "reward": 1.0849609375,
      "reward_std": 0.2806433439254761,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.1598801612854004,
      "step": 1556
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1812.0,
      "completions/max_terminated_length": 1812.0,
      "completions/mean_length": 707.529296875,
      "completions/mean_terminated_length": 707.529296875,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.5315353759494751,
      "grad_norm": 4.547028064727783,
      "kl": 2.20703125,
      "learning_rate": 5.794760049297511e-07,
      "loss": 0.1632,
      "num_tokens": 924272856.0,
      "reward": 1.02783203125,
      "reward_std": 0.25383156538009644,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.94970703125,
      "rewards/tag_count_reward/std": 0.1549411565065384,
      "step": 1557
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1894.0,
      "completions/mean_length": 744.09765625,
      "completions/mean_terminated_length": 728.6364135742188,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.5318767602628659,
      "grad_norm": 3.3136181831359863,
      "kl": 2.71484375,
      "learning_rate": 5.78940824552028e-07,
      "loss": 0.1346,
      "num_tokens": 924734314.0,
      "reward": 1.06298828125,
      "reward_std": 0.3048211336135864,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.17677061259746552,
      "step": 1558
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1924.0,
      "completions/mean_length": 725.783203125,
      "completions/mean_terminated_length": 723.1956787109375,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.5322181445762567,
      "grad_norm": 2.5662450790405273,
      "kl": 2.802734375,
      "learning_rate": 5.784056030669264e-07,
      "loss": 0.127,
      "num_tokens": 925175787.0,
      "reward": 1.02587890625,
      "reward_std": 0.2736976146697998,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.17731572687625885,
      "step": 1559
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1735.0,
      "completions/max_terminated_length": 1735.0,
      "completions/mean_length": 679.6328125,
      "completions/mean_terminated_length": 679.6328125,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.5325595288896475,
      "grad_norm": 2.3434205055236816,
      "kl": 3.35546875,
      "learning_rate": 5.778703412346717e-07,
      "loss": 0.1737,
      "num_tokens": 925606559.0,
      "reward": 1.04052734375,
      "reward_std": 0.28256556391716003,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.18665657937526703,
      "step": 1560
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1918.0,
      "completions/max_terminated_length": 1918.0,
      "completions/mean_length": 745.27734375,
      "completions/mean_terminated_length": 745.27734375,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.5329009132030383,
      "grad_norm": 3.3408772945404053,
      "kl": 2.96875,
      "learning_rate": 5.773350398155467e-07,
      "loss": 0.1257,
      "num_tokens": 926077053.0,
      "reward": 0.97705078125,
      "reward_std": 0.23241698741912842,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.1820959448814392,
      "step": 1561
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1672.0,
      "completions/max_terminated_length": 1672.0,
      "completions/mean_length": 633.19140625,
      "completions/mean_terminated_length": 633.19140625,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.5332422975164292,
      "grad_norm": 4.252152442932129,
      "kl": 2.640625,
      "learning_rate": 5.767996995698904e-07,
      "loss": 0.1328,
      "num_tokens": 926474031.0,
      "reward": 1.11767578125,
      "reward_std": 0.29964667558670044,
      "rewards/accuracy_reward/mean": 0.1552419364452362,
      "rewards/accuracy_reward/std": 0.36250078678131104,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.95947265625,
      "rewards/tag_count_reward/std": 0.13064312934875488,
      "step": 1562
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1756.0,
      "completions/mean_length": 676.919921875,
      "completions/mean_terminated_length": 674.2367553710938,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.53358368182982,
      "grad_norm": 3.494696617126465,
      "kl": 3.48828125,
      "learning_rate": 5.762643212580971e-07,
      "loss": 0.2076,
      "num_tokens": 926896054.0,
      "reward": 1.0078125,
      "reward_std": 0.23257681727409363,
      "rewards/accuracy_reward/mean": 0.058467742055654526,
      "rewards/accuracy_reward/std": 0.23486268520355225,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.1609196960926056,
      "step": 1563
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1802.0,
      "completions/mean_length": 696.3125,
      "completions/mean_terminated_length": 691.0117797851562,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.5339250661432107,
      "grad_norm": 2.29425048828125,
      "kl": 3.615234375,
      "learning_rate": 5.757289056406148e-07,
      "loss": 0.197,
      "num_tokens": 927336358.0,
      "reward": 1.0400390625,
      "reward_std": 0.22682341933250427,
      "rewards/accuracy_reward/mean": 0.09879032522439957,
      "rewards/accuracy_reward/std": 0.2986815273761749,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17166221141815186,
      "step": 1564
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1920.0,
      "completions/mean_length": 676.64453125,
      "completions/mean_terminated_length": 673.9608764648438,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.5342664504566015,
      "grad_norm": 1.938565969467163,
      "kl": 2.9765625,
      "learning_rate": 5.751934534779448e-07,
      "loss": 0.1761,
      "num_tokens": 927763456.0,
      "reward": 1.02197265625,
      "reward_std": 0.21964076161384583,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.94580078125,
      "rewards/tag_count_reward/std": 0.15120825171470642,
      "step": 1565
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1565.0,
      "completions/mean_length": 668.9921875,
      "completions/mean_terminated_length": 666.2935180664062,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.5346078347699923,
      "grad_norm": 2.2944107055664062,
      "kl": 3.90625,
      "learning_rate": 5.746579655306403e-07,
      "loss": 0.2228,
      "num_tokens": 928182780.0,
      "reward": 0.9931640625,
      "reward_std": 0.230872243642807,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.1809411197900772,
      "step": 1566
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1737.0,
      "completions/mean_length": 694.568359375,
      "completions/mean_terminated_length": 691.9197387695312,
      "completions/min_length": 62.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.5349492190833831,
      "grad_norm": 3.3008804321289062,
      "kl": 4.78125,
      "learning_rate": 5.741224425593052e-07,
      "loss": 0.2639,
      "num_tokens": 928620431.0,
      "reward": 1.0048828125,
      "reward_std": 0.29044726490974426,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.1922282725572586,
      "step": 1567
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1793.0,
      "completions/mean_length": 631.501953125,
      "completions/mean_terminated_length": 628.7299194335938,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.5352906033967739,
      "grad_norm": 2.251715660095215,
      "kl": 3.39453125,
      "learning_rate": 5.735868853245934e-07,
      "loss": 0.1711,
      "num_tokens": 929018752.0,
      "reward": 1.08203125,
      "reward_std": 0.25112995505332947,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.15868334472179413,
      "step": 1568
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1619.0,
      "completions/mean_length": 632.630859375,
      "completions/mean_terminated_length": 627.0804443359375,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.5356319877101647,
      "grad_norm": 3.9713985919952393,
      "kl": 3.5625,
      "learning_rate": 5.73051294587207e-07,
      "loss": 0.219,
      "num_tokens": 929411907.0,
      "reward": 1.0361328125,
      "reward_std": 0.27317631244659424,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.16808471083641052,
      "step": 1569
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1326.0,
      "completions/mean_length": 640.427734375,
      "completions/mean_terminated_length": 637.6731567382812,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.5359733720235555,
      "grad_norm": 1.646174430847168,
      "kl": 2.400390625,
      "learning_rate": 5.725156711078961e-07,
      "loss": 0.1073,
      "num_tokens": 929816558.0,
      "reward": 1.0400390625,
      "reward_std": 0.24709290266036987,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.17521031200885773,
      "step": 1570
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1695.0,
      "completions/mean_length": 671.77734375,
      "completions/mean_terminated_length": 660.94091796875,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.5363147563369464,
      "grad_norm": 3.056997776031494,
      "kl": 2.83984375,
      "learning_rate": 5.71980015647457e-07,
      "loss": 0.1345,
      "num_tokens": 930239436.0,
      "reward": 1.10791015625,
      "reward_std": 0.32693377137184143,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.1689939647912979,
      "step": 1571
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1857.0,
      "completions/mean_length": 618.6640625,
      "completions/mean_terminated_length": 615.866943359375,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.5366561406503371,
      "grad_norm": 4.347153186798096,
      "kl": 2.822265625,
      "learning_rate": 5.714443289667318e-07,
      "loss": 0.1825,
      "num_tokens": 930632384.0,
      "reward": 1.033203125,
      "reward_std": 0.26346203684806824,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.18010744452476501,
      "step": 1572
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1662.0,
      "completions/mean_length": 700.412109375,
      "completions/mean_terminated_length": 692.4695434570312,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.5369975249637279,
      "grad_norm": 3.6437830924987793,
      "kl": 1.94921875,
      "learning_rate": 5.709086118266069e-07,
      "loss": 0.1119,
      "num_tokens": 931060931.0,
      "reward": 1.01611328125,
      "reward_std": 0.22769811749458313,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.94189453125,
      "rewards/tag_count_reward/std": 0.1600138396024704,
      "step": 1573
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1870.0,
      "completions/mean_length": 680.13671875,
      "completions/mean_terminated_length": 672.07470703125,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.5373389092771187,
      "grad_norm": 1.8281835317611694,
      "kl": 2.421875,
      "learning_rate": 5.703728649880113e-07,
      "loss": 0.1352,
      "num_tokens": 931486761.0,
      "reward": 1.0400390625,
      "reward_std": 0.2658703923225403,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.15593473613262177,
      "step": 1574
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1710.0,
      "completions/mean_length": 672.015625,
      "completions/mean_terminated_length": 666.61962890625,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.5376802935905095,
      "grad_norm": 2.4716744422912598,
      "kl": 2.361328125,
      "learning_rate": 5.698370892119171e-07,
      "loss": 0.1364,
      "num_tokens": 931905809.0,
      "reward": 1.02880859375,
      "reward_std": 0.2446683943271637,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.1736346036195755,
      "step": 1575
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1673.0,
      "completions/max_terminated_length": 1673.0,
      "completions/mean_length": 657.873046875,
      "completions/mean_terminated_length": 657.873046875,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.5380216779039003,
      "grad_norm": 3.619882345199585,
      "kl": 2.109375,
      "learning_rate": 5.693012852593369e-07,
      "loss": 0.1756,
      "num_tokens": 932324832.0,
      "reward": 0.96728515625,
      "reward_std": 0.2092210203409195,
      "rewards/accuracy_reward/mean": 0.025390625,
      "rewards/accuracy_reward/std": 0.15746226906776428,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.18353331089019775,
      "step": 1576
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1892.0,
      "completions/mean_length": 667.80078125,
      "completions/mean_terminated_length": 665.0997924804688,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.5383630622172911,
      "grad_norm": 2.964077949523926,
      "kl": 2.154296875,
      "learning_rate": 5.687654538913238e-07,
      "loss": 0.134,
      "num_tokens": 932736874.0,
      "reward": 1.08056640625,
      "reward_std": 0.2898910343647003,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.171859011054039,
      "step": 1577
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1748.0,
      "completions/mean_length": 673.638671875,
      "completions/mean_terminated_length": 665.538330078125,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.538704446530682,
      "grad_norm": 4.497527122497559,
      "kl": 2.55078125,
      "learning_rate": 5.682295958689691e-07,
      "loss": 0.1784,
      "num_tokens": 933159105.0,
      "reward": 1.0068359375,
      "reward_std": 0.2176477611064911,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.1702537089586258,
      "step": 1578
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1962.0,
      "completions/mean_length": 651.271484375,
      "completions/mean_terminated_length": 645.7941284179688,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.5390458308440728,
      "grad_norm": 2.422194719314575,
      "kl": 3.2578125,
      "learning_rate": 5.676937119534027e-07,
      "loss": 0.1685,
      "num_tokens": 933573276.0,
      "reward": 0.9892578125,
      "reward_std": 0.25339266657829285,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.1872730702161789,
      "step": 1579
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1862.0,
      "completions/mean_length": 670.515625,
      "completions/mean_terminated_length": 667.8199462890625,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.5393872151574635,
      "grad_norm": 1.8832250833511353,
      "kl": 3.607421875,
      "learning_rate": 5.67157802905791e-07,
      "loss": 0.2155,
      "num_tokens": 934004804.0,
      "reward": 0.99267578125,
      "reward_std": 0.24724173545837402,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.1766246110200882,
      "step": 1580
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1693.0,
      "completions/max_terminated_length": 1693.0,
      "completions/mean_length": 657.982421875,
      "completions/mean_terminated_length": 657.982421875,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.5397285994708543,
      "grad_norm": 3.1322691440582275,
      "kl": 3.453125,
      "learning_rate": 5.666218694873359e-07,
      "loss": 0.1815,
      "num_tokens": 934426651.0,
      "reward": 1.0498046875,
      "reward_std": 0.29360878467559814,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17023125290870667,
      "step": 1581
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1405.0,
      "completions/mean_length": 614.40625,
      "completions/mean_terminated_length": 608.7843627929688,
      "completions/min_length": 20.0,
      "completions/min_terminated_length": 20.0,
      "epoch": 0.5400699837842451,
      "grad_norm": 2.205714702606201,
      "kl": 2.830078125,
      "learning_rate": 5.660859124592744e-07,
      "loss": 0.1742,
      "num_tokens": 934825051.0,
      "reward": 1.0947265625,
      "reward_std": 0.33375608921051025,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.17776581645011902,
      "step": 1582
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1512.0,
      "completions/max_terminated_length": 1512.0,
      "completions/mean_length": 625.884765625,
      "completions/mean_terminated_length": 625.884765625,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.5404113680976359,
      "grad_norm": 5.821282386779785,
      "kl": 3.55859375,
      "learning_rate": 5.655499325828763e-07,
      "loss": 0.1766,
      "num_tokens": 935211760.0,
      "reward": 1.001953125,
      "reward_std": 0.2657081186771393,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.17862646281719208,
      "step": 1583
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1801.0,
      "completions/max_terminated_length": 1801.0,
      "completions/mean_length": 626.85546875,
      "completions/mean_terminated_length": 626.85546875,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.5407527524110267,
      "grad_norm": 3.5651533603668213,
      "kl": 3.34375,
      "learning_rate": 5.650139306194448e-07,
      "loss": 0.1696,
      "num_tokens": 935607590.0,
      "reward": 1.03564453125,
      "reward_std": 0.2358933985233307,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.17041848599910736,
      "step": 1584
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1509.0,
      "completions/mean_length": 589.11328125,
      "completions/mean_terminated_length": 583.3922119140625,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.5410941367244175,
      "grad_norm": 4.280489444732666,
      "kl": 3.0,
      "learning_rate": 5.644779073303136e-07,
      "loss": 0.2015,
      "num_tokens": 935996368.0,
      "reward": 1.05859375,
      "reward_std": 0.25045138597488403,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.15132275223731995,
      "step": 1585
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1463.0,
      "completions/max_terminated_length": 1463.0,
      "completions/mean_length": 569.9296875,
      "completions/mean_terminated_length": 569.9296875,
      "completions/min_length": 51.0,
      "completions/min_terminated_length": 51.0,
      "epoch": 0.5414355210378083,
      "grad_norm": 4.351285934448242,
      "kl": 3.173828125,
      "learning_rate": 5.639418634768474e-07,
      "loss": 0.1394,
      "num_tokens": 936367356.0,
      "reward": 1.0302734375,
      "reward_std": 0.2381097376346588,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.162770614027977,
      "step": 1586
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1689.0,
      "completions/max_terminated_length": 1689.0,
      "completions/mean_length": 596.37890625,
      "completions/mean_terminated_length": 596.37890625,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.5417769053511992,
      "grad_norm": 4.0819220542907715,
      "kl": 2.69921875,
      "learning_rate": 5.634057998204392e-07,
      "loss": 0.1478,
      "num_tokens": 936756462.0,
      "reward": 1.0498046875,
      "reward_std": 0.22694355249404907,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.1693984717130661,
      "step": 1587
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1833.0,
      "completions/mean_length": 610.421875,
      "completions/mean_terminated_length": 599.1023559570312,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.5421182896645899,
      "grad_norm": 3.5612952709198,
      "kl": 4.578125,
      "learning_rate": 5.628697171225113e-07,
      "loss": 0.275,
      "num_tokens": 937148598.0,
      "reward": 1.01904296875,
      "reward_std": 0.2345481663942337,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.94091796875,
      "rewards/tag_count_reward/std": 0.1678706705570221,
      "step": 1588
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1729.0,
      "completions/max_terminated_length": 1729.0,
      "completions/mean_length": 628.037109375,
      "completions/mean_terminated_length": 628.037109375,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.5424596739779807,
      "grad_norm": 3.1354148387908936,
      "kl": 2.61328125,
      "learning_rate": 5.623336161445123e-07,
      "loss": 0.1498,
      "num_tokens": 937545609.0,
      "reward": 1.02685546875,
      "reward_std": 0.2647894024848938,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.1686147004365921,
      "step": 1589
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1760.0,
      "completions/mean_length": 671.560546875,
      "completions/mean_terminated_length": 663.4479370117188,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.5428010582913715,
      "grad_norm": 2.8441548347473145,
      "kl": 2.458984375,
      "learning_rate": 5.617974976479163e-07,
      "loss": 0.1586,
      "num_tokens": 937964728.0,
      "reward": 1.0673828125,
      "reward_std": 0.24446213245391846,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.15908929705619812,
      "step": 1590
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 616.31640625,
      "completions/mean_terminated_length": 610.7020263671875,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.5431424426047623,
      "grad_norm": 4.353187561035156,
      "kl": 3.30859375,
      "learning_rate": 5.612613623942238e-07,
      "loss": 0.2417,
      "num_tokens": 938357834.0,
      "reward": 1.01708984375,
      "reward_std": 0.22368595004081726,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.16396017372608185,
      "step": 1591
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1519.0,
      "completions/mean_length": 655.404296875,
      "completions/mean_terminated_length": 652.6790771484375,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.5434838269181531,
      "grad_norm": 10.148595809936523,
      "kl": 2.796875,
      "learning_rate": 5.607252111449578e-07,
      "loss": 0.206,
      "num_tokens": 938776617.0,
      "reward": 1.03076171875,
      "reward_std": 0.29847821593284607,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.1981005072593689,
      "step": 1592
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1884.0,
      "completions/mean_length": 644.275390625,
      "completions/mean_terminated_length": 638.7706298828125,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.5438252112315439,
      "grad_norm": 5.837143898010254,
      "kl": 2.388671875,
      "learning_rate": 5.601890446616641e-07,
      "loss": 0.1723,
      "num_tokens": 939183702.0,
      "reward": 1.05517578125,
      "reward_std": 0.2509949803352356,
      "rewards/accuracy_reward/mean": 0.11693548411130905,
      "rewards/accuracy_reward/std": 0.3216678202152252,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.1696992814540863,
      "step": 1593
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1744.0,
      "completions/max_terminated_length": 1744.0,
      "completions/mean_length": 636.806640625,
      "completions/mean_terminated_length": 636.806640625,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.5441665955449347,
      "grad_norm": 4.291261196136475,
      "kl": 2.58984375,
      "learning_rate": 5.596528637059109e-07,
      "loss": 0.148,
      "num_tokens": 939590243.0,
      "reward": 1.044921875,
      "reward_std": 0.21930867433547974,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.16327762603759766,
      "step": 1594
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1916.0,
      "completions/mean_length": 642.603515625,
      "completions/mean_terminated_length": 639.8532104492188,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.5445079798583256,
      "grad_norm": 3.9532883167266846,
      "kl": 3.7109375,
      "learning_rate": 5.591166690392863e-07,
      "loss": 0.2039,
      "num_tokens": 939999656.0,
      "reward": 1.01416015625,
      "reward_std": 0.2936437726020813,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.17593075335025787,
      "step": 1595
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2040.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 598.783203125,
      "completions/mean_terminated_length": 598.783203125,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.5448493641717163,
      "grad_norm": 2.306550979614258,
      "kl": 3.36328125,
      "learning_rate": 5.585804614233981e-07,
      "loss": 0.2171,
      "num_tokens": 940392185.0,
      "reward": 1.02978515625,
      "reward_std": 0.2356104552745819,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.94580078125,
      "rewards/tag_count_reward/std": 0.16438506543636322,
      "step": 1596
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1727.0,
      "completions/max_terminated_length": 1727.0,
      "completions/mean_length": 631.453125,
      "completions/mean_terminated_length": 631.453125,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.5451907484851071,
      "grad_norm": 2.2762372493743896,
      "kl": 3.6015625,
      "learning_rate": 5.580442416198725e-07,
      "loss": 0.238,
      "num_tokens": 940793249.0,
      "reward": 1.01904296875,
      "reward_std": 0.27855026721954346,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.17281270027160645,
      "step": 1597
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1770.0,
      "completions/max_terminated_length": 1770.0,
      "completions/mean_length": 563.125,
      "completions/mean_terminated_length": 563.125,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.5455321327984979,
      "grad_norm": 1.781742811203003,
      "kl": 2.734375,
      "learning_rate": 5.575080103903531e-07,
      "loss": 0.1486,
      "num_tokens": 941163505.0,
      "reward": 0.9833984375,
      "reward_std": 0.20317822694778442,
      "rewards/accuracy_reward/mean": 0.037109375,
      "rewards/accuracy_reward/std": 0.18921469151973724,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.16050052642822266,
      "step": 1598
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1870.0,
      "completions/mean_length": 618.916015625,
      "completions/mean_terminated_length": 610.4931640625,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.5458735171118887,
      "grad_norm": 3.427180051803589,
      "kl": 4.1484375,
      "learning_rate": 5.569717684964992e-07,
      "loss": 0.2369,
      "num_tokens": 941556310.0,
      "reward": 1.05126953125,
      "reward_std": 0.3021742105484009,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.17523416876792908,
      "step": 1599
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1612.0,
      "completions/max_terminated_length": 1612.0,
      "completions/mean_length": 626.498046875,
      "completions/mean_terminated_length": 626.498046875,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.5462149014252795,
      "grad_norm": 1.9331140518188477,
      "kl": 3.1015625,
      "learning_rate": 5.564355166999862e-07,
      "loss": 0.1831,
      "num_tokens": 941948101.0,
      "reward": 1.01513671875,
      "reward_std": 0.25616538524627686,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.92919921875,
      "rewards/tag_count_reward/std": 0.18304325640201569,
      "step": 1600
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1891.0,
      "completions/max_terminated_length": 1891.0,
      "completions/mean_length": 617.056640625,
      "completions/mean_terminated_length": 617.056640625,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.5465562857386703,
      "grad_norm": 1.7783819437026978,
      "kl": 4.33984375,
      "learning_rate": 5.558992557625028e-07,
      "loss": 0.2827,
      "num_tokens": 942341170.0,
      "reward": 0.97998046875,
      "reward_std": 0.21821710467338562,
      "rewards/accuracy_reward/mean": 0.04435483738780022,
      "rewards/accuracy_reward/std": 0.2060900777578354,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.1783849000930786,
      "step": 1601
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1564.0,
      "completions/mean_length": 605.259765625,
      "completions/mean_terminated_length": 602.4364013671875,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.5468976700520611,
      "grad_norm": 1.6121258735656738,
      "kl": 2.1640625,
      "learning_rate": 5.553629864457507e-07,
      "loss": 0.139,
      "num_tokens": 942726151.0,
      "reward": 1.0244140625,
      "reward_std": 0.22393229603767395,
      "rewards/accuracy_reward/mean": 0.06653226166963577,
      "rewards/accuracy_reward/std": 0.2494617998600006,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9580078125,
      "rewards/tag_count_reward/std": 0.13434022665023804,
      "step": 1602
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1547.0,
      "completions/mean_length": 609.107421875,
      "completions/mean_terminated_length": 603.4647216796875,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.547239054365452,
      "grad_norm": 4.072652816772461,
      "kl": 3.55859375,
      "learning_rate": 5.54826709511444e-07,
      "loss": 0.2032,
      "num_tokens": 943116782.0,
      "reward": 1.03662109375,
      "reward_std": 0.27624383568763733,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.16338804364204407,
      "step": 1603
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1995.0,
      "completions/mean_length": 621.376953125,
      "completions/mean_terminated_length": 618.5851440429688,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.5475804386788428,
      "grad_norm": 5.0337090492248535,
      "kl": 3.515625,
      "learning_rate": 5.542904257213072e-07,
      "loss": 0.2045,
      "num_tokens": 943517439.0,
      "reward": 1.05712890625,
      "reward_std": 0.262310266494751,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.16754020750522614,
      "step": 1604
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1600.0,
      "completions/max_terminated_length": 1600.0,
      "completions/mean_length": 582.892578125,
      "completions/mean_terminated_length": 582.892578125,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.5479218229922335,
      "grad_norm": 2.89163875579834,
      "kl": 2.51953125,
      "learning_rate": 5.537541358370747e-07,
      "loss": 0.1341,
      "num_tokens": 943887720.0,
      "reward": 1.0263671875,
      "reward_std": 0.20927375555038452,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9521484375,
      "rewards/tag_count_reward/std": 0.15213829278945923,
      "step": 1605
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1844.0,
      "completions/mean_length": 593.525390625,
      "completions/mean_terminated_length": 579.1814575195312,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.5482632073056243,
      "grad_norm": 2.9822580814361572,
      "kl": 4.0625,
      "learning_rate": 5.532178406204895e-07,
      "loss": 0.2773,
      "num_tokens": 944262293.0,
      "reward": 1.1015625,
      "reward_std": 0.2619627118110657,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.935546875,
      "rewards/tag_count_reward/std": 0.1734480857849121,
      "step": 1606
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1924.0,
      "completions/mean_length": 626.947265625,
      "completions/mean_terminated_length": 624.1663208007812,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.5486045916190151,
      "grad_norm": 1.8393330574035645,
      "kl": 2.400390625,
      "learning_rate": 5.526815408333023e-07,
      "loss": 0.1412,
      "num_tokens": 944653850.0,
      "reward": 0.990234375,
      "reward_std": 0.17443135380744934,
      "rewards/accuracy_reward/mean": 0.029296875,
      "rewards/accuracy_reward/std": 0.16880230605602264,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.95703125,
      "rewards/tag_count_reward/std": 0.14200608432292938,
      "step": 1607
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1556.0,
      "completions/mean_length": 633.533203125,
      "completions/mean_terminated_length": 630.76513671875,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.5489459759324059,
      "grad_norm": 3.6546730995178223,
      "kl": 2.828125,
      "learning_rate": 5.521452372372701e-07,
      "loss": 0.1662,
      "num_tokens": 945051019.0,
      "reward": 1.02978515625,
      "reward_std": 0.26207971572875977,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.1675231009721756,
      "step": 1608
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1992.0,
      "completions/mean_length": 677.3203125,
      "completions/mean_terminated_length": 669.24169921875,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.5492873602457967,
      "grad_norm": 3.4890480041503906,
      "kl": 2.48046875,
      "learning_rate": 5.516089305941553e-07,
      "loss": 0.1693,
      "num_tokens": 945475711.0,
      "reward": 1.04443359375,
      "reward_std": 0.24629496037960052,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.1641349196434021,
      "step": 1609
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1539.0,
      "completions/max_terminated_length": 1539.0,
      "completions/mean_length": 681.67578125,
      "completions/mean_terminated_length": 681.67578125,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.5496287445591875,
      "grad_norm": 2.4688189029693604,
      "kl": 2.798828125,
      "learning_rate": 5.510726216657251e-07,
      "loss": 0.1415,
      "num_tokens": 945899465.0,
      "reward": 1.0234375,
      "reward_std": 0.23604212701320648,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.15868334472179413,
      "step": 1610
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1789.0,
      "completions/mean_length": 678.822265625,
      "completions/mean_terminated_length": 673.4530029296875,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.5499701288725783,
      "grad_norm": 2.9937500953674316,
      "kl": 3.5,
      "learning_rate": 5.505363112137493e-07,
      "loss": 0.2034,
      "num_tokens": 946323422.0,
      "reward": 0.98193359375,
      "reward_std": 0.19657066464424133,
      "rewards/accuracy_reward/mean": 0.02734375,
      "rewards/accuracy_reward/std": 0.16324250400066376,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.95068359375,
      "rewards/tag_count_reward/std": 0.14881962537765503,
      "step": 1611
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1707.0,
      "completions/mean_length": 618.55859375,
      "completions/mean_terminated_length": 615.76123046875,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.5503115131859692,
      "grad_norm": 2.427215576171875,
      "kl": 3.7734375,
      "learning_rate": 5.5e-07,
      "loss": 0.2059,
      "num_tokens": 946713628.0,
      "reward": 1.037109375,
      "reward_std": 0.2587704658508301,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.17133069038391113,
      "step": 1612
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 649.265625,
      "completions/mean_terminated_length": 643.7804565429688,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.5506528974993599,
      "grad_norm": 2.0092036724090576,
      "kl": 3.306640625,
      "learning_rate": 5.494636887862507e-07,
      "loss": 0.1843,
      "num_tokens": 947120724.0,
      "reward": 1.033203125,
      "reward_std": 0.20708541572093964,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.1607295721769333,
      "step": 1613
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 712.0390625,
      "completions/mean_terminated_length": 709.4246826171875,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.5509942818127507,
      "grad_norm": 4.856078624725342,
      "kl": 3.12890625,
      "learning_rate": 5.489273783342749e-07,
      "loss": 0.1278,
      "num_tokens": 947561688.0,
      "reward": 1.09326171875,
      "reward_std": 0.2850106656551361,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.16321250796318054,
      "step": 1614
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 705.41796875,
      "completions/mean_terminated_length": 700.1529541015625,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.5513356661261415,
      "grad_norm": 5.00110387802124,
      "kl": 3.640625,
      "learning_rate": 5.483910694058445e-07,
      "loss": 0.2306,
      "num_tokens": 947997278.0,
      "reward": 0.98583984375,
      "reward_std": 0.22858084738254547,
      "rewards/accuracy_reward/mean": 0.04838709533214569,
      "rewards/accuracy_reward/std": 0.21479946374893188,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.17631596326828003,
      "step": 1615
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1712.0,
      "completions/mean_length": 776.853515625,
      "completions/mean_terminated_length": 771.86865234375,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.5516770504395323,
      "grad_norm": 2.439131498336792,
      "kl": 2.576171875,
      "learning_rate": 5.4785476276273e-07,
      "loss": 0.1324,
      "num_tokens": 948469555.0,
      "reward": 1.02099609375,
      "reward_std": 0.218895822763443,
      "rewards/accuracy_reward/mean": 0.08870967477560043,
      "rewards/accuracy_reward/std": 0.2846112847328186,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.17631596326828003,
      "step": 1616
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1466.0,
      "completions/mean_length": 709.802734375,
      "completions/mean_terminated_length": 688.5615234375,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.5520184347529231,
      "grad_norm": 1.7288684844970703,
      "kl": 4.1171875,
      "learning_rate": 5.473184591666978e-07,
      "loss": 0.2585,
      "num_tokens": 948912478.0,
      "reward": 0.9970703125,
      "reward_std": 0.2309703379869461,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.16363714635372162,
      "step": 1617
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1940.0,
      "completions/mean_length": 665.990234375,
      "completions/mean_terminated_length": 663.2857055664062,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.5523598190663139,
      "grad_norm": 3.8421480655670166,
      "kl": 3.13671875,
      "learning_rate": 5.467821593795105e-07,
      "loss": 0.1676,
      "num_tokens": 949334441.0,
      "reward": 1.00732421875,
      "reward_std": 0.2161152958869934,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.15710307657718658,
      "step": 1618
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1655.0,
      "completions/mean_length": 758.25,
      "completions/mean_terminated_length": 742.95654296875,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.5527012033797047,
      "grad_norm": 2.9555060863494873,
      "kl": 3.32421875,
      "learning_rate": 5.462458641629253e-07,
      "loss": 0.1783,
      "num_tokens": 949795337.0,
      "reward": 1.03564453125,
      "reward_std": 0.27600812911987305,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.1792825609445572,
      "step": 1619
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1561.0,
      "completions/mean_length": 714.625,
      "completions/mean_terminated_length": 704.1259765625,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.5530425876930956,
      "grad_norm": 4.922884464263916,
      "kl": 3.1328125,
      "learning_rate": 5.457095742786929e-07,
      "loss": 0.1903,
      "num_tokens": 950235193.0,
      "reward": 1.064453125,
      "reward_std": 0.24485132098197937,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.15868334472179413,
      "step": 1620
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 727.765625,
      "completions/mean_terminated_length": 722.5882568359375,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.5533839720064863,
      "grad_norm": 3.3051609992980957,
      "kl": 3.1171875,
      "learning_rate": 5.45173290488556e-07,
      "loss": 0.1704,
      "num_tokens": 950681329.0,
      "reward": 1.01123046875,
      "reward_std": 0.22558684647083282,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.1541435420513153,
      "step": 1621
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1540.0,
      "completions/mean_length": 700.935546875,
      "completions/mean_terminated_length": 695.6529541015625,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.5537253563198771,
      "grad_norm": 1.9526646137237549,
      "kl": 3.529296875,
      "learning_rate": 5.446370135542494e-07,
      "loss": 0.1913,
      "num_tokens": 951116896.0,
      "reward": 1.037109375,
      "reward_std": 0.26890334486961365,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.19246920943260193,
      "step": 1622
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1512.0,
      "completions/mean_length": 707.09765625,
      "completions/mean_terminated_length": 704.4735717773438,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.5540667406332679,
      "grad_norm": 2.6690735816955566,
      "kl": 2.529296875,
      "learning_rate": 5.441007442374973e-07,
      "loss": 0.1136,
      "num_tokens": 951555202.0,
      "reward": 1.080078125,
      "reward_std": 0.2462228238582611,
      "rewards/accuracy_reward/mean": 0.11895161122083664,
      "rewards/accuracy_reward/std": 0.3240584135055542,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.953125,
      "rewards/tag_count_reward/std": 0.16026519238948822,
      "step": 1623
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1776.0,
      "completions/mean_length": 720.267578125,
      "completions/mean_terminated_length": 707.173583984375,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.5544081249466587,
      "grad_norm": 4.445178985595703,
      "kl": 3.09765625,
      "learning_rate": 5.435644833000138e-07,
      "loss": 0.188,
      "num_tokens": 951996571.0,
      "reward": 0.984375,
      "reward_std": 0.19075095653533936,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.17411890625953674,
      "step": 1624
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1780.0,
      "completions/mean_length": 712.953125,
      "completions/mean_terminated_length": 702.44091796875,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.5547495092600495,
      "grad_norm": 2.121750831604004,
      "kl": 2.533203125,
      "learning_rate": 5.430282315035007e-07,
      "loss": 0.139,
      "num_tokens": 952432739.0,
      "reward": 1.09033203125,
      "reward_std": 0.2788330018520355,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.166073739528656,
      "step": 1625
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1901.0,
      "completions/mean_length": 731.849609375,
      "completions/mean_terminated_length": 721.4862060546875,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.5550908935734403,
      "grad_norm": 3.8825016021728516,
      "kl": 3.55859375,
      "learning_rate": 5.42491989609647e-07,
      "loss": 0.2577,
      "num_tokens": 952882294.0,
      "reward": 1.1015625,
      "reward_std": 0.3052609860897064,
      "rewards/accuracy_reward/mean": 0.16532258689403534,
      "rewards/accuracy_reward/std": 0.37184643745422363,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.17476527392864227,
      "step": 1626
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1768.0,
      "completions/mean_length": 745.51171875,
      "completions/mean_terminated_length": 732.6666870117188,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.5554322778868311,
      "grad_norm": 6.176815509796143,
      "kl": 2.40625,
      "learning_rate": 5.419557583801274e-07,
      "loss": 0.1573,
      "num_tokens": 953346044.0,
      "reward": 1.01416015625,
      "reward_std": 0.24248671531677246,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.1793731451034546,
      "step": 1627
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1937.0,
      "completions/mean_length": 714.87109375,
      "completions/mean_terminated_length": 709.6431884765625,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.555773662200222,
      "grad_norm": 4.175749778747559,
      "kl": 2.8125,
      "learning_rate": 5.41419538576602e-07,
      "loss": 0.1744,
      "num_tokens": 953798330.0,
      "reward": 1.072265625,
      "reward_std": 0.2861534357070923,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.935546875,
      "rewards/tag_count_reward/std": 0.1783159226179123,
      "step": 1628
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1708.0,
      "completions/max_terminated_length": 1708.0,
      "completions/mean_length": 678.978515625,
      "completions/mean_terminated_length": 678.978515625,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.5561150465136127,
      "grad_norm": 1.7773770093917847,
      "kl": 2.26171875,
      "learning_rate": 5.408833309607137e-07,
      "loss": 0.1096,
      "num_tokens": 954219983.0,
      "reward": 1.10595703125,
      "reward_std": 0.27551087737083435,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.95166015625,
      "rewards/tag_count_reward/std": 0.14665940403938293,
      "step": 1629
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1474.0,
      "completions/mean_length": 677.689453125,
      "completions/mean_terminated_length": 672.3157348632812,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.5564564308270035,
      "grad_norm": 2.833087921142578,
      "kl": 3.7265625,
      "learning_rate": 5.403471362940891e-07,
      "loss": 0.1979,
      "num_tokens": 954638656.0,
      "reward": 1.0478515625,
      "reward_std": 0.2628737688064575,
      "rewards/accuracy_reward/mean": 0.11491935700178146,
      "rewards/accuracy_reward/std": 0.3192465901374817,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.1812576949596405,
      "step": 1630
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1783.0,
      "completions/mean_length": 768.42578125,
      "completions/mean_terminated_length": 765.9216918945312,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.5567978151403943,
      "grad_norm": 2.5279579162597656,
      "kl": 3.19140625,
      "learning_rate": 5.398109553383359e-07,
      "loss": 0.1445,
      "num_tokens": 955120282.0,
      "reward": 0.9912109375,
      "reward_std": 0.23996403813362122,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.1743793785572052,
      "step": 1631
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1864.0,
      "completions/max_terminated_length": 1864.0,
      "completions/mean_length": 704.80859375,
      "completions/mean_terminated_length": 704.80859375,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.5571391994537851,
      "grad_norm": 3.8299880027770996,
      "kl": 2.84375,
      "learning_rate": 5.392747888550423e-07,
      "loss": 0.1718,
      "num_tokens": 955561400.0,
      "reward": 1.00830078125,
      "reward_std": 0.2315167635679245,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.94384765625,
      "rewards/tag_count_reward/std": 0.16147024929523468,
      "step": 1632
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1598.0,
      "completions/mean_length": 698.076171875,
      "completions/mean_terminated_length": 695.4344482421875,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.5574805837671759,
      "grad_norm": 3.1295650005340576,
      "kl": 2.958984375,
      "learning_rate": 5.387386376057759e-07,
      "loss": 0.1481,
      "num_tokens": 955989919.0,
      "reward": 1.03564453125,
      "reward_std": 0.2552622854709625,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.1696992814540863,
      "step": 1633
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1809.0,
      "completions/max_terminated_length": 1809.0,
      "completions/mean_length": 646.27734375,
      "completions/mean_terminated_length": 646.27734375,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.5578219680805667,
      "grad_norm": 1.8711708784103394,
      "kl": 2.4921875,
      "learning_rate": 5.382025023520835e-07,
      "loss": 0.1455,
      "num_tokens": 956401005.0,
      "reward": 1.12255859375,
      "reward_std": 0.2865196466445923,
      "rewards/accuracy_reward/mean": 0.173828125,
      "rewards/accuracy_reward/std": 0.3793322443962097,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.15787968039512634,
      "step": 1634
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1637.0,
      "completions/max_terminated_length": 1637.0,
      "completions/mean_length": 710.873046875,
      "completions/mean_terminated_length": 710.873046875,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.5581633523939575,
      "grad_norm": 2.4275922775268555,
      "kl": 2.701171875,
      "learning_rate": 5.376663838554878e-07,
      "loss": 0.144,
      "num_tokens": 956841964.0,
      "reward": 1.0166015625,
      "reward_std": 0.2830686569213867,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17378656566143036,
      "step": 1635
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1872.0,
      "completions/mean_length": 717.259765625,
      "completions/mean_terminated_length": 712.0411987304688,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.5585047367073483,
      "grad_norm": 3.242382526397705,
      "kl": 3.2734375,
      "learning_rate": 5.371302828774886e-07,
      "loss": 0.1992,
      "num_tokens": 957290497.0,
      "reward": 1.00341796875,
      "reward_std": 0.2538776397705078,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.18294404447078705,
      "step": 1636
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1609.0,
      "completions/max_terminated_length": 1609.0,
      "completions/mean_length": 755.041015625,
      "completions/mean_terminated_length": 755.041015625,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.558846121020739,
      "grad_norm": 2.9401183128356934,
      "kl": 2.6875,
      "learning_rate": 5.365942001795606e-07,
      "loss": 0.144,
      "num_tokens": 957763830.0,
      "reward": 1.013671875,
      "reward_std": 0.23237158358097076,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.16772332787513733,
      "step": 1637
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1787.0,
      "completions/mean_length": 725.423828125,
      "completions/mean_terminated_length": 712.3806762695312,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.5591875053341299,
      "grad_norm": 1.9118342399597168,
      "kl": 4.64453125,
      "learning_rate": 5.360581365231528e-07,
      "loss": 0.3103,
      "num_tokens": 958216527.0,
      "reward": 0.9951171875,
      "reward_std": 0.25297701358795166,
      "rewards/accuracy_reward/mean": 0.08266129344701767,
      "rewards/accuracy_reward/std": 0.2756475806236267,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.2019064873456955,
      "step": 1638
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1772.0,
      "completions/max_terminated_length": 1772.0,
      "completions/mean_length": 625.45703125,
      "completions/mean_terminated_length": 625.45703125,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.5595288896475207,
      "grad_norm": 4.299546718597412,
      "kl": 3.34375,
      "learning_rate": 5.355220926696863e-07,
      "loss": 0.1656,
      "num_tokens": 958605289.0,
      "reward": 1.0869140625,
      "reward_std": 0.32027533650398254,
      "rewards/accuracy_reward/mean": 0.1391129046678543,
      "rewards/accuracy_reward/std": 0.3464137017726898,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.17729215323925018,
      "step": 1639
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1503.0,
      "completions/max_terminated_length": 1503.0,
      "completions/mean_length": 733.197265625,
      "completions/mean_terminated_length": 733.197265625,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.5598702739609115,
      "grad_norm": 2.5128886699676514,
      "kl": 2.6484375,
      "learning_rate": 5.349860693805552e-07,
      "loss": 0.144,
      "num_tokens": 959054622.0,
      "reward": 1.01806640625,
      "reward_std": 0.2745065689086914,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.16533562541007996,
      "step": 1640
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1891.0,
      "completions/max_terminated_length": 1891.0,
      "completions/mean_length": 725.36328125,
      "completions/mean_terminated_length": 725.36328125,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.5602116582743023,
      "grad_norm": 2.316086530685425,
      "kl": 2.5546875,
      "learning_rate": 5.344500674171237e-07,
      "loss": 0.1181,
      "num_tokens": 959504632.0,
      "reward": 1.0673828125,
      "reward_std": 0.30224400758743286,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.16953378915786743,
      "step": 1641
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1787.0,
      "completions/mean_length": 732.130859375,
      "completions/mean_terminated_length": 724.375244140625,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.5605530425876931,
      "grad_norm": 2.683919906616211,
      "kl": 3.421875,
      "learning_rate": 5.339140875407257e-07,
      "loss": 0.2086,
      "num_tokens": 959956939.0,
      "reward": 1.03955078125,
      "reward_std": 0.25402867794036865,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.18388700485229492,
      "step": 1642
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1428.0,
      "completions/mean_length": 684.48828125,
      "completions/mean_terminated_length": 681.8199462890625,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.5608944269010839,
      "grad_norm": 1.6999034881591797,
      "kl": 2.9921875,
      "learning_rate": 5.33378130512664e-07,
      "loss": 0.1461,
      "num_tokens": 960387605.0,
      "reward": 1.0302734375,
      "reward_std": 0.2597278654575348,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.17696848511695862,
      "step": 1643
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1784.0,
      "completions/max_terminated_length": 1784.0,
      "completions/mean_length": 734.4375,
      "completions/mean_terminated_length": 734.4375,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.5612358112144747,
      "grad_norm": 4.630004405975342,
      "kl": 3.47265625,
      "learning_rate": 5.328421970942091e-07,
      "loss": 0.1936,
      "num_tokens": 960846309.0,
      "reward": 0.98193359375,
      "reward_std": 0.2521049678325653,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.17793437838554382,
      "step": 1644
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 675.552734375,
      "completions/mean_terminated_length": 672.866943359375,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.5615771955278654,
      "grad_norm": 5.781026840209961,
      "kl": 3.6875,
      "learning_rate": 5.323062880465972e-07,
      "loss": 0.1936,
      "num_tokens": 961276608.0,
      "reward": 1.076171875,
      "reward_std": 0.3023701608181,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.17999069392681122,
      "step": 1645
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1716.0,
      "completions/mean_length": 700.80859375,
      "completions/mean_terminated_length": 690.2008056640625,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.5619185798412563,
      "grad_norm": 2.192715644836426,
      "kl": 3.828125,
      "learning_rate": 5.31770404131031e-07,
      "loss": 0.2394,
      "num_tokens": 961706062.0,
      "reward": 0.970703125,
      "reward_std": 0.26937031745910645,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.900390625,
      "rewards/tag_count_reward/std": 0.20829153060913086,
      "step": 1646
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1717.0,
      "completions/mean_length": 747.90625,
      "completions/mean_terminated_length": 740.24365234375,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.5622599641546471,
      "grad_norm": 2.9099481105804443,
      "kl": 3.48046875,
      "learning_rate": 5.312345461086763e-07,
      "loss": 0.2057,
      "num_tokens": 962161486.0,
      "reward": 1.01708984375,
      "reward_std": 0.32222145795822144,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.20428422093391418,
      "step": 1647
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1797.0,
      "completions/mean_length": 721.6796875,
      "completions/mean_terminated_length": 711.2362060546875,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.5626013484680379,
      "grad_norm": 2.831590175628662,
      "kl": 4.02734375,
      "learning_rate": 5.306987147406629e-07,
      "loss": 0.2246,
      "num_tokens": 962609162.0,
      "reward": 1.0859375,
      "reward_std": 0.3347628712654114,
      "rewards/accuracy_reward/mean": 0.169921875,
      "rewards/accuracy_reward/std": 0.3759314715862274,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.2103821337223053,
      "step": 1648
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1799.0,
      "completions/mean_length": 739.5234375,
      "completions/mean_terminated_length": 734.3922119140625,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.5629427327814287,
      "grad_norm": 1.9423184394836426,
      "kl": 3.03125,
      "learning_rate": 5.301629107880827e-07,
      "loss": 0.1773,
      "num_tokens": 963061142.0,
      "reward": 1.01806640625,
      "reward_std": 0.2861826419830322,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.19232456386089325,
      "step": 1649
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1902.0,
      "completions/mean_length": 681.060546875,
      "completions/mean_terminated_length": 678.385498046875,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.5632841170948195,
      "grad_norm": 1.760202169418335,
      "kl": 3.46484375,
      "learning_rate": 5.296271350119887e-07,
      "loss": 0.2037,
      "num_tokens": 963483093.0,
      "reward": 1.03369140625,
      "reward_std": 0.2839530110359192,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18705546855926514,
      "step": 1650
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1678.0,
      "completions/mean_length": 692.193359375,
      "completions/mean_terminated_length": 681.5177001953125,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.5636255014082103,
      "grad_norm": 2.400151014328003,
      "kl": 4.48828125,
      "learning_rate": 5.290913881733931e-07,
      "loss": 0.2607,
      "num_tokens": 963907368.0,
      "reward": 1.02734375,
      "reward_std": 0.3126910328865051,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.900390625,
      "rewards/tag_count_reward/std": 0.2129373401403427,
      "step": 1651
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1810.0,
      "completions/max_terminated_length": 1810.0,
      "completions/mean_length": 727.75,
      "completions/mean_terminated_length": 727.75,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.5639668857216011,
      "grad_norm": 1.8302973508834839,
      "kl": 3.328125,
      "learning_rate": 5.285556710332681e-07,
      "loss": 0.2013,
      "num_tokens": 964360376.0,
      "reward": 1.0205078125,
      "reward_std": 0.29737502336502075,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.19744645059108734,
      "step": 1652
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1890.0,
      "completions/mean_length": 714.77734375,
      "completions/mean_terminated_length": 704.279541015625,
      "completions/min_length": 79.0,
      "completions/min_terminated_length": 79.0,
      "epoch": 0.5643082700349918,
      "grad_norm": 6.870009422302246,
      "kl": 3.5859375,
      "learning_rate": 5.280199843525429e-07,
      "loss": 0.2239,
      "num_tokens": 964803174.0,
      "reward": 0.98974609375,
      "reward_std": 0.22651655972003937,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.18584084510803223,
      "step": 1653
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1916.0,
      "completions/mean_length": 674.29296875,
      "completions/mean_terminated_length": 671.6046752929688,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.5646496543483827,
      "grad_norm": 4.450105667114258,
      "kl": 3.328125,
      "learning_rate": 5.27484328892104e-07,
      "loss": 0.1532,
      "num_tokens": 965226988.0,
      "reward": 0.99853515625,
      "reward_std": 0.2641572058200836,
      "rewards/accuracy_reward/mean": 0.06451612710952759,
      "rewards/accuracy_reward/std": 0.2459181249141693,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.18950672447681427,
      "step": 1654
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1864.0,
      "completions/mean_length": 745.22265625,
      "completions/mean_terminated_length": 737.5442504882812,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.5649910386617735,
      "grad_norm": 1.9903414249420166,
      "kl": 2.892578125,
      "learning_rate": 5.26948705412793e-07,
      "loss": 0.1669,
      "num_tokens": 965681566.0,
      "reward": 1.001953125,
      "reward_std": 0.2866523265838623,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.19297493994235992,
      "step": 1655
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1959.0,
      "completions/mean_length": 701.244140625,
      "completions/mean_terminated_length": 695.9627685546875,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.5653324229751643,
      "grad_norm": 2.3789944648742676,
      "kl": 2.9140625,
      "learning_rate": 5.264131146754067e-07,
      "loss": 0.1592,
      "num_tokens": 966116027.0,
      "reward": 1.02001953125,
      "reward_std": 0.23278766870498657,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.1780041754245758,
      "step": 1656
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 703.81640625,
      "completions/mean_terminated_length": 698.545166015625,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.5656738072885551,
      "grad_norm": 2.7921977043151855,
      "kl": 3.26953125,
      "learning_rate": 5.258775574406948e-07,
      "loss": 0.2053,
      "num_tokens": 966549101.0,
      "reward": 1.0712890625,
      "reward_std": 0.2655341923236847,
      "rewards/accuracy_reward/mean": 0.13104838132858276,
      "rewards/accuracy_reward/std": 0.3377939760684967,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.17653599381446838,
      "step": 1657
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1824.0,
      "completions/mean_length": 690.478515625,
      "completions/mean_terminated_length": 685.1549682617188,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.5660151916019459,
      "grad_norm": 1.870984435081482,
      "kl": 3.5234375,
      "learning_rate": 5.253420344693598e-07,
      "loss": 0.2072,
      "num_tokens": 966984466.0,
      "reward": 1.00390625,
      "reward_std": 0.2924517095088959,
      "rewards/accuracy_reward/mean": 0.08467742055654526,
      "rewards/accuracy_reward/std": 0.278682142496109,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.91015625,
      "rewards/tag_count_reward/std": 0.20388682186603546,
      "step": 1658
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1985.0,
      "completions/mean_length": 731.7578125,
      "completions/mean_terminated_length": 724.0,
      "completions/min_length": 250.0,
      "completions/min_terminated_length": 250.0,
      "epoch": 0.5663565759153367,
      "grad_norm": 2.058933973312378,
      "kl": 3.1875,
      "learning_rate": 5.248065465220552e-07,
      "loss": 0.17,
      "num_tokens": 967439558.0,
      "reward": 0.9775390625,
      "reward_std": 0.25868144631385803,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.19395042955875397,
      "step": 1659
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1970.0,
      "completions/mean_length": 738.7265625,
      "completions/mean_terminated_length": 733.5922241210938,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.5666979602287275,
      "grad_norm": 2.0712203979492188,
      "kl": 2.94921875,
      "learning_rate": 5.242710943593852e-07,
      "loss": 0.1711,
      "num_tokens": 967891274.0,
      "reward": 0.9794921875,
      "reward_std": 0.17697089910507202,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.17971175909042358,
      "step": 1660
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1823.0,
      "completions/max_terminated_length": 1823.0,
      "completions/mean_length": 671.28515625,
      "completions/mean_terminated_length": 671.28515625,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.5670393445421182,
      "grad_norm": 3.5400679111480713,
      "kl": 2.34375,
      "learning_rate": 5.237356787419028e-07,
      "loss": 0.1438,
      "num_tokens": 968316892.0,
      "reward": 1.0859375,
      "reward_std": 0.2900366187095642,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.18752038478851318,
      "step": 1661
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1854.0,
      "completions/mean_length": 698.6875,
      "completions/mean_terminated_length": 688.06298828125,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.567380728855509,
      "grad_norm": 2.1293344497680664,
      "kl": 2.890625,
      "learning_rate": 5.232003004301095e-07,
      "loss": 0.16,
      "num_tokens": 968749420.0,
      "reward": 1.02392578125,
      "reward_std": 0.2279701828956604,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.1780739426612854,
      "step": 1662
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1738.0,
      "completions/max_terminated_length": 1738.0,
      "completions/mean_length": 737.484375,
      "completions/mean_terminated_length": 737.484375,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.5677221131688999,
      "grad_norm": 4.0087785720825195,
      "kl": 3.02734375,
      "learning_rate": 5.226649601844531e-07,
      "loss": 0.1405,
      "num_tokens": 969208836.0,
      "reward": 1.06787109375,
      "reward_std": 0.2967276871204376,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17642973363399506,
      "step": 1663
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 684.5,
      "completions/mean_terminated_length": 668.33203125,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.5680634974822907,
      "grad_norm": 3.6469993591308594,
      "kl": 3.40234375,
      "learning_rate": 5.221296587653282e-07,
      "loss": 0.2495,
      "num_tokens": 969646116.0,
      "reward": 1.091796875,
      "reward_std": 0.3583020567893982,
      "rewards/accuracy_reward/mean": 0.17578125,
      "rewards/accuracy_reward/std": 0.3810062110424042,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.1964396834373474,
      "step": 1664
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1534.0,
      "completions/mean_length": 683.466796875,
      "completions/mean_terminated_length": 680.7964477539062,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.5684048817956815,
      "grad_norm": 2.857988119125366,
      "kl": 2.748046875,
      "learning_rate": 5.215943969330735e-07,
      "loss": 0.1201,
      "num_tokens": 970062131.0,
      "reward": 1.04345703125,
      "reward_std": 0.28884726762771606,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.1779128909111023,
      "step": 1665
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1853.0,
      "completions/mean_length": 736.939453125,
      "completions/mean_terminated_length": 729.2122192382812,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.5687462661090723,
      "grad_norm": 4.449905872344971,
      "kl": 3.67578125,
      "learning_rate": 5.210591754479718e-07,
      "loss": 0.1914,
      "num_tokens": 970514084.0,
      "reward": 0.9990234375,
      "reward_std": 0.2619768977165222,
      "rewards/accuracy_reward/mean": 0.060483869165182114,
      "rewards/accuracy_reward/std": 0.2386218160390854,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.19321990013122559,
      "step": 1666
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1919.0,
      "completions/mean_length": 722.7109375,
      "completions/mean_terminated_length": 701.6746215820312,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.5690876504224631,
      "grad_norm": 3.718538761138916,
      "kl": 3.23828125,
      "learning_rate": 5.205239950702488e-07,
      "loss": 0.2077,
      "num_tokens": 970958496.0,
      "reward": 1.05712890625,
      "reward_std": 0.2981846034526825,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.1766246110200882,
      "step": 1667
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1924.0,
      "completions/max_terminated_length": 1924.0,
      "completions/mean_length": 704.0703125,
      "completions/mean_terminated_length": 704.0703125,
      "completions/min_length": 92.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.5694290347358539,
      "grad_norm": 4.298553466796875,
      "kl": 2.466796875,
      "learning_rate": 5.199888565600715e-07,
      "loss": 0.1147,
      "num_tokens": 971405268.0,
      "reward": 1.03173828125,
      "reward_std": 0.27260592579841614,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.94189453125,
      "rewards/tag_count_reward/std": 0.16821186244487762,
      "step": 1668
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1735.0,
      "completions/mean_length": 678.70703125,
      "completions/mean_terminated_length": 676.0274047851562,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.5697704190492446,
      "grad_norm": 3.9969301223754883,
      "kl": 3.41796875,
      "learning_rate": 5.194537606775473e-07,
      "loss": 0.2078,
      "num_tokens": 971824734.0,
      "reward": 1.08984375,
      "reward_std": 0.30127280950546265,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.16547498106956482,
      "step": 1669
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1901.0,
      "completions/mean_length": 776.201171875,
      "completions/mean_terminated_length": 758.5723266601562,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.5701118033626354,
      "grad_norm": 4.4810967445373535,
      "kl": 3.6328125,
      "learning_rate": 5.189187081827237e-07,
      "loss": 0.2389,
      "num_tokens": 972301397.0,
      "reward": 1.04150390625,
      "reward_std": 0.2942211329936981,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.19531220197677612,
      "step": 1670
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1761.0,
      "completions/max_terminated_length": 1761.0,
      "completions/mean_length": 683.1484375,
      "completions/mean_terminated_length": 683.1484375,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.5704531876760263,
      "grad_norm": 2.4237821102142334,
      "kl": 2.83984375,
      "learning_rate": 5.183836998355857e-07,
      "loss": 0.1296,
      "num_tokens": 972728785.0,
      "reward": 1.04736328125,
      "reward_std": 0.2979637384414673,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17106766998767853,
      "step": 1671
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1897.0,
      "completions/mean_length": 723.416015625,
      "completions/mean_terminated_length": 691.6260375976562,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.5707945719894171,
      "grad_norm": 2.645691394805908,
      "kl": 3.9296875,
      "learning_rate": 5.178487363960563e-07,
      "loss": 0.252,
      "num_tokens": 973179350.0,
      "reward": 0.9921875,
      "reward_std": 0.26792672276496887,
      "rewards/accuracy_reward/mean": 0.06854838877916336,
      "rewards/accuracy_reward/std": 0.25293973088264465,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.19604040682315826,
      "step": 1672
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1806.0,
      "completions/max_terminated_length": 1806.0,
      "completions/mean_length": 712.76953125,
      "completions/mean_terminated_length": 712.76953125,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.5711359563028079,
      "grad_norm": 2.53078556060791,
      "kl": 2.48046875,
      "learning_rate": 5.173138186239943e-07,
      "loss": 0.138,
      "num_tokens": 973627200.0,
      "reward": 1.0751953125,
      "reward_std": 0.2726728916168213,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.1628410518169403,
      "step": 1673
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1805.0,
      "completions/mean_length": 701.83203125,
      "completions/mean_terminated_length": 696.552978515625,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.5714773406161987,
      "grad_norm": 2.060983657836914,
      "kl": 3.14453125,
      "learning_rate": 5.167789472791942e-07,
      "loss": 0.1736,
      "num_tokens": 974061946.0,
      "reward": 1.005859375,
      "reward_std": 0.26487523317337036,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.18718376755714417,
      "step": 1674
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2006.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 709.5703125,
      "completions/mean_terminated_length": 709.5703125,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.5718187249295895,
      "grad_norm": 4.357063293457031,
      "kl": 2.55859375,
      "learning_rate": 5.162441231213834e-07,
      "loss": 0.1463,
      "num_tokens": 974504734.0,
      "reward": 1.04443359375,
      "reward_std": 0.24250677227973938,
      "rewards/accuracy_reward/mean": 0.1041666641831398,
      "rewards/accuracy_reward/std": 0.3057953417301178,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.1663554310798645,
      "step": 1675
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1907.0,
      "completions/mean_length": 693.94921875,
      "completions/mean_terminated_length": 685.9685668945312,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.5721601092429803,
      "grad_norm": 2.776296615600586,
      "kl": 3.671875,
      "learning_rate": 5.157093469102236e-07,
      "loss": 0.223,
      "num_tokens": 974941428.0,
      "reward": 0.9970703125,
      "reward_std": 0.2664055824279785,
      "rewards/accuracy_reward/mean": 0.060483869165182114,
      "rewards/accuracy_reward/std": 0.2386218160390854,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.18964596092700958,
      "step": 1676
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2023.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 677.474609375,
      "completions/mean_terminated_length": 677.474609375,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.572501493556371,
      "grad_norm": 2.1158411502838135,
      "kl": 2.7109375,
      "learning_rate": 5.151746194053077e-07,
      "loss": 0.1791,
      "num_tokens": 975363031.0,
      "reward": 1.09912109375,
      "reward_std": 0.29495304822921753,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.95068359375,
      "rewards/tag_count_reward/std": 0.1568230390548706,
      "step": 1677
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1929.0,
      "completions/mean_length": 702.82421875,
      "completions/mean_terminated_length": 697.549072265625,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.5728428778697618,
      "grad_norm": 1.5915335416793823,
      "kl": 3.359375,
      "learning_rate": 5.146399413661595e-07,
      "loss": 0.1959,
      "num_tokens": 975797133.0,
      "reward": 1.0087890625,
      "reward_std": 0.26261550188064575,
      "rewards/accuracy_reward/mean": 0.07661290466785431,
      "rewards/accuracy_reward/std": 0.2662447690963745,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.18546834588050842,
      "step": 1678
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1789.0,
      "completions/mean_length": 712.98828125,
      "completions/mean_terminated_length": 707.7529907226562,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.5731842621831527,
      "grad_norm": 3.040320873260498,
      "kl": 2.703125,
      "learning_rate": 5.141053135522324e-07,
      "loss": 0.1546,
      "num_tokens": 976247271.0,
      "reward": 1.01904296875,
      "reward_std": 0.23498836159706116,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.169349804520607,
      "step": 1679
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1756.0,
      "completions/mean_length": 729.466796875,
      "completions/mean_terminated_length": 724.296142578125,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.5735256464965435,
      "grad_norm": 5.291203498840332,
      "kl": 2.734375,
      "learning_rate": 5.13570736722909e-07,
      "loss": 0.1791,
      "num_tokens": 976695190.0,
      "reward": 1.02099609375,
      "reward_std": 0.25781625509262085,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.15952341258525848,
      "step": 1680
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1991.0,
      "completions/mean_length": 724.75,
      "completions/mean_terminated_length": 716.950927734375,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.5738670308099343,
      "grad_norm": 2.1247153282165527,
      "kl": 2.56640625,
      "learning_rate": 5.130362116374989e-07,
      "loss": 0.1758,
      "num_tokens": 977150582.0,
      "reward": 1.0576171875,
      "reward_std": 0.27043211460113525,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.17023125290870667,
      "step": 1681
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1902.0,
      "completions/mean_length": 770.732421875,
      "completions/mean_terminated_length": 763.204345703125,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.5742084151233251,
      "grad_norm": 3.666898250579834,
      "kl": 3.15234375,
      "learning_rate": 5.125017390552383e-07,
      "loss": 0.1993,
      "num_tokens": 977619965.0,
      "reward": 1.0322265625,
      "reward_std": 0.2963072955608368,
      "rewards/accuracy_reward/mean": 0.08669354766607285,
      "rewards/accuracy_reward/std": 0.281669557094574,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17588526010513306,
      "step": 1682
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1745.0,
      "completions/mean_length": 715.56640625,
      "completions/mean_terminated_length": 707.7131958007812,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.5745497994367159,
      "grad_norm": 5.406630039215088,
      "kl": 3.10546875,
      "learning_rate": 5.11967319735289e-07,
      "loss": 0.2202,
      "num_tokens": 978061999.0,
      "reward": 0.9951171875,
      "reward_std": 0.23086810111999512,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.16953378915786743,
      "step": 1683
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1909.0,
      "completions/mean_length": 742.46875,
      "completions/mean_terminated_length": 734.7741088867188,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.5748911837501067,
      "grad_norm": 3.937920331954956,
      "kl": 3.56640625,
      "learning_rate": 5.114329544367374e-07,
      "loss": 0.2379,
      "num_tokens": 978514079.0,
      "reward": 1.076171875,
      "reward_std": 0.28781288862228394,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.18652920424938202,
      "step": 1684
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1969.0,
      "completions/mean_length": 651.0546875,
      "completions/mean_terminated_length": 645.5765380859375,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.5752325680634974,
      "grad_norm": 1.7381266355514526,
      "kl": 2.435546875,
      "learning_rate": 5.108986439185923e-07,
      "loss": 0.168,
      "num_tokens": 978921131.0,
      "reward": 1.1142578125,
      "reward_std": 0.2523620128631592,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9521484375,
      "rewards/tag_count_reward/std": 0.15213829278945923,
      "step": 1685
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1629.0,
      "completions/mean_length": 661.560546875,
      "completions/mean_terminated_length": 658.8473510742188,
      "completions/min_length": 8.0,
      "completions/min_terminated_length": 8.0,
      "epoch": 0.5755739523768882,
      "grad_norm": 6.371468544006348,
      "kl": 3.48828125,
      "learning_rate": 5.103643889397858e-07,
      "loss": 0.1871,
      "num_tokens": 979335690.0,
      "reward": 1.0849609375,
      "reward_std": 0.30169448256492615,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.17239542305469513,
      "step": 1686
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 707.240234375,
      "completions/mean_terminated_length": 704.616455078125,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.5759153366902791,
      "grad_norm": 3.417599678039551,
      "kl": 4.484375,
      "learning_rate": 5.098301902591703e-07,
      "loss": 0.2944,
      "num_tokens": 979777237.0,
      "reward": 1.02734375,
      "reward_std": 0.2443060427904129,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.16771192848682404,
      "step": 1687
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1778.0,
      "completions/mean_length": 707.6953125,
      "completions/mean_terminated_length": 702.4392700195312,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.5762567210036699,
      "grad_norm": 2.682257652282715,
      "kl": 3.2412109375,
      "learning_rate": 5.092960486355183e-07,
      "loss": 0.1709,
      "num_tokens": 980232121.0,
      "reward": 1.0068359375,
      "reward_std": 0.21877656877040863,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.16201746463775635,
      "step": 1688
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1994.0,
      "completions/mean_length": 715.8046875,
      "completions/mean_terminated_length": 697.338623046875,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.5765981053170607,
      "grad_norm": 6.733412742614746,
      "kl": 5.1328125,
      "learning_rate": 5.087619648275217e-07,
      "loss": 0.2863,
      "num_tokens": 980679941.0,
      "reward": 1.056640625,
      "reward_std": 0.32496365904808044,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.1840227097272873,
      "step": 1689
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1896.0,
      "completions/mean_length": 789.392578125,
      "completions/mean_terminated_length": 784.4569091796875,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.5769394896304515,
      "grad_norm": 2.947176218032837,
      "kl": 3.984375,
      "learning_rate": 5.082279395937903e-07,
      "loss": 0.2323,
      "num_tokens": 981156574.0,
      "reward": 1.01318359375,
      "reward_std": 0.27712419629096985,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.18807943165302277,
      "step": 1690
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1965.0,
      "completions/mean_length": 703.67578125,
      "completions/mean_terminated_length": 695.7525024414062,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.5772808739438423,
      "grad_norm": 3.084765911102295,
      "kl": 3.92578125,
      "learning_rate": 5.076939736928497e-07,
      "loss": 0.2381,
      "num_tokens": 981592888.0,
      "reward": 1.03759765625,
      "reward_std": 0.2766039967536926,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.184763103723526,
      "step": 1691
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1759.0,
      "completions/mean_length": 694.015625,
      "completions/mean_terminated_length": 688.7059326171875,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.5776222582572331,
      "grad_norm": 2.7203426361083984,
      "kl": 3.5234375,
      "learning_rate": 5.071600678831427e-07,
      "loss": 0.2209,
      "num_tokens": 982018880.0,
      "reward": 1.037109375,
      "reward_std": 0.2785555124282837,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.1847999542951584,
      "step": 1692
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1873.0,
      "completions/mean_length": 663.845703125,
      "completions/mean_terminated_length": 655.6876220703125,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.5779636425706238,
      "grad_norm": 2.53839373588562,
      "kl": 2.47265625,
      "learning_rate": 5.066262229230254e-07,
      "loss": 0.1453,
      "num_tokens": 982432129.0,
      "reward": 1.0986328125,
      "reward_std": 0.22677066922187805,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.16655419766902924,
      "step": 1693
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2002.0,
      "completions/mean_length": 717.2265625,
      "completions/mean_terminated_length": 704.1026000976562,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.5783050268840146,
      "grad_norm": 2.3313944339752197,
      "kl": 4.12109375,
      "learning_rate": 5.060924395707685e-07,
      "loss": 0.2619,
      "num_tokens": 982884453.0,
      "reward": 1.02392578125,
      "reward_std": 0.24411720037460327,
      "rewards/accuracy_reward/mean": 0.08669354766607285,
      "rewards/accuracy_reward/std": 0.281669557094574,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.17731572687625885,
      "step": 1694
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1831.0,
      "completions/mean_length": 743.892578125,
      "completions/mean_terminated_length": 741.3405151367188,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.5786464111974055,
      "grad_norm": 2.4283440113067627,
      "kl": 1.935546875,
      "learning_rate": 5.055587185845545e-07,
      "loss": 0.1197,
      "num_tokens": 983343422.0,
      "reward": 1.01318359375,
      "reward_std": 0.1927071213722229,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.95849609375,
      "rewards/tag_count_reward/std": 0.13494610786437988,
      "step": 1695
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1856.0,
      "completions/mean_length": 647.02734375,
      "completions/mean_terminated_length": 641.5333862304688,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.5789877955107963,
      "grad_norm": 6.847288608551025,
      "kl": 2.84765625,
      "learning_rate": 5.05025060722478e-07,
      "loss": 0.2125,
      "num_tokens": 983745356.0,
      "reward": 1.03662109375,
      "reward_std": 0.2541506886482239,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.1729232519865036,
      "step": 1696
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1871.0,
      "completions/max_terminated_length": 1871.0,
      "completions/mean_length": 723.41796875,
      "completions/mean_terminated_length": 723.41796875,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.5793291798241871,
      "grad_norm": 2.8784735202789307,
      "kl": 1.892578125,
      "learning_rate": 5.044914667425427e-07,
      "loss": 0.1116,
      "num_tokens": 984200450.0,
      "reward": 1.0419921875,
      "reward_std": 0.2304690033197403,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.1709705889225006,
      "step": 1697
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1797.0,
      "completions/mean_length": 719.849609375,
      "completions/mean_terminated_length": 712.0216064453125,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.5796705641375779,
      "grad_norm": 2.2479898929595947,
      "kl": 2.49609375,
      "learning_rate": 5.039579374026633e-07,
      "loss": 0.1552,
      "num_tokens": 984648677.0,
      "reward": 1.04150390625,
      "reward_std": 0.2523299753665924,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.94384765625,
      "rewards/tag_count_reward/std": 0.15763740241527557,
      "step": 1698
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1852.0,
      "completions/mean_length": 728.03125,
      "completions/mean_terminated_length": 725.4481201171875,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.5800119484509687,
      "grad_norm": 5.775050640106201,
      "kl": 2.51953125,
      "learning_rate": 5.034244734606612e-07,
      "loss": 0.1779,
      "num_tokens": 985089717.0,
      "reward": 1.10693359375,
      "reward_std": 0.29803240299224854,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.16338804364204407,
      "step": 1699
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 722.53515625,
      "completions/mean_terminated_length": 714.7230224609375,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.5803533327643595,
      "grad_norm": 3.4308431148529053,
      "kl": 3.125,
      "learning_rate": 5.028910756742655e-07,
      "loss": 0.2067,
      "num_tokens": 985548263.0,
      "reward": 1.0634765625,
      "reward_std": 0.27786415815353394,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17448893189430237,
      "step": 1700
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1972.0,
      "completions/max_terminated_length": 1972.0,
      "completions/mean_length": 724.4921875,
      "completions/mean_terminated_length": 724.4921875,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.5806947170777502,
      "grad_norm": 3.092909574508667,
      "kl": 2.15234375,
      "learning_rate": 5.023577448011116e-07,
      "loss": 0.0926,
      "num_tokens": 985994899.0,
      "reward": 1.01806640625,
      "reward_std": 0.22545407712459564,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.94775390625,
      "rewards/tag_count_reward/std": 0.15349750220775604,
      "step": 1701
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1974.0,
      "completions/mean_length": 732.69921875,
      "completions/mean_terminated_length": 730.125244140625,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.581036101391141,
      "grad_norm": 2.8426170349121094,
      "kl": 3.0703125,
      "learning_rate": 5.018244815987395e-07,
      "loss": 0.1599,
      "num_tokens": 986440425.0,
      "reward": 1.05224609375,
      "reward_std": 0.27782613039016724,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.1588330715894699,
      "step": 1702
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1726.0,
      "completions/mean_length": 714.419921875,
      "completions/mean_terminated_length": 709.1902465820312,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.5813774857045318,
      "grad_norm": 6.054725646972656,
      "kl": 3.40234375,
      "learning_rate": 5.012912868245927e-07,
      "loss": 0.131,
      "num_tokens": 986882688.0,
      "reward": 1.07421875,
      "reward_std": 0.3116151690483093,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.1774672269821167,
      "step": 1703
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1681.0,
      "completions/max_terminated_length": 1681.0,
      "completions/mean_length": 712.48046875,
      "completions/mean_terminated_length": 712.48046875,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.5817188700179227,
      "grad_norm": 2.780832290649414,
      "kl": 2.255859375,
      "learning_rate": 5.007581612360185e-07,
      "loss": 0.1205,
      "num_tokens": 987320406.0,
      "reward": 1.0771484375,
      "reward_std": 0.2293703705072403,
      "rewards/accuracy_reward/mean": 0.11491935700178146,
      "rewards/accuracy_reward/std": 0.3192465901374817,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9541015625,
      "rewards/tag_count_reward/std": 0.14280793070793152,
      "step": 1704
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1924.0,
      "completions/max_terminated_length": 1924.0,
      "completions/mean_length": 651.3203125,
      "completions/mean_terminated_length": 651.3203125,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.5820602543313135,
      "grad_norm": 2.2586894035339355,
      "kl": 2.5,
      "learning_rate": 5.002251055902651e-07,
      "loss": 0.1504,
      "num_tokens": 987729466.0,
      "reward": 1.20263671875,
      "reward_std": 0.31580495834350586,
      "rewards/accuracy_reward/mean": 0.244140625,
      "rewards/accuracy_reward/std": 0.42999663949012756,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.95068359375,
      "rewards/tag_count_reward/std": 0.15207155048847198,
      "step": 1705
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1902.0,
      "completions/max_terminated_length": 1902.0,
      "completions/mean_length": 686.26953125,
      "completions/mean_terminated_length": 686.26953125,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.5824016386447043,
      "grad_norm": 3.3260016441345215,
      "kl": 2.6328125,
      "learning_rate": 4.996921206444818e-07,
      "loss": 0.1547,
      "num_tokens": 988160548.0,
      "reward": 1.04541015625,
      "reward_std": 0.2555238604545593,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.1793731451034546,
      "step": 1706
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 686.24609375,
      "completions/mean_terminated_length": 683.5812377929688,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.5827430229580951,
      "grad_norm": 5.524597644805908,
      "kl": 3.505859375,
      "learning_rate": 4.991592071557171e-07,
      "loss": 0.1994,
      "num_tokens": 988591106.0,
      "reward": 1.0751953125,
      "reward_std": 0.28985828161239624,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.021484375,
      "rewards/format_reward/std": 0.14513419568538666,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.1723288893699646,
      "step": 1707
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1413.0,
      "completions/mean_length": 669.099609375,
      "completions/mean_terminated_length": 663.6921997070312,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.5830844072714859,
      "grad_norm": 1.578294038772583,
      "kl": 2.748046875,
      "learning_rate": 4.986263658809185e-07,
      "loss": 0.1673,
      "num_tokens": 989015909.0,
      "reward": 1.11279296875,
      "reward_std": 0.24973051249980927,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.95849609375,
      "rewards/tag_count_reward/std": 0.14114809036254883,
      "step": 1708
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2012.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 694.37890625,
      "completions/mean_terminated_length": 694.37890625,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.5834257915848767,
      "grad_norm": 5.183916091918945,
      "kl": 2.78515625,
      "learning_rate": 4.980935975769303e-07,
      "loss": 0.1157,
      "num_tokens": 989454823.0,
      "reward": 1.005859375,
      "reward_std": 0.22932368516921997,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.16025325655937195,
      "step": 1709
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1880.0,
      "completions/mean_length": 683.53125,
      "completions/mean_terminated_length": 680.8610229492188,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.5837671758982674,
      "grad_norm": 1.4123501777648926,
      "kl": 3.05859375,
      "learning_rate": 4.975609030004938e-07,
      "loss": 0.1359,
      "num_tokens": 989881543.0,
      "reward": 1.064453125,
      "reward_std": 0.2676643133163452,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.17942707240581512,
      "step": 1710
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1857.0,
      "completions/mean_length": 680.91796875,
      "completions/mean_terminated_length": 678.24267578125,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.5841085602116582,
      "grad_norm": 6.666347026824951,
      "kl": 2.64453125,
      "learning_rate": 4.97028282908245e-07,
      "loss": 0.2017,
      "num_tokens": 990307165.0,
      "reward": 1.0205078125,
      "reward_std": 0.24870701134204865,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.16440613567829132,
      "step": 1711
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1882.0,
      "completions/mean_length": 708.55859375,
      "completions/mean_terminated_length": 705.9373779296875,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.5844499445250491,
      "grad_norm": 1.9692797660827637,
      "kl": 2.984375,
      "learning_rate": 4.964957380567146e-07,
      "loss": 0.1781,
      "num_tokens": 990740555.0,
      "reward": 1.02880859375,
      "reward_std": 0.2653002142906189,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.19021636247634888,
      "step": 1712
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1934.0,
      "completions/mean_length": 679.177734375,
      "completions/mean_terminated_length": 673.809814453125,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.5847913288384399,
      "grad_norm": 4.167803764343262,
      "kl": 3.28125,
      "learning_rate": 4.959632692023262e-07,
      "loss": 0.2214,
      "num_tokens": 991172598.0,
      "reward": 1.06884765625,
      "reward_std": 0.29546090960502625,
      "rewards/accuracy_reward/mean": 0.12903225421905518,
      "rewards/accuracy_reward/std": 0.33557409048080444,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.1847475916147232,
      "step": 1713
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1511.0,
      "completions/mean_length": 690.537109375,
      "completions/mean_terminated_length": 679.8484497070312,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.5851327131518307,
      "grad_norm": 4.968861103057861,
      "kl": 2.708984375,
      "learning_rate": 4.954308771013954e-07,
      "loss": 0.1861,
      "num_tokens": 991604665.0,
      "reward": 1.13623046875,
      "reward_std": 0.29561829566955566,
      "rewards/accuracy_reward/mean": 0.1796875,
      "rewards/accuracy_reward/std": 0.38430243730545044,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.15710307657718658,
      "step": 1714
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2042.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 659.2890625,
      "completions/mean_terminated_length": 659.2890625,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.5854740974652215,
      "grad_norm": 3.05635666847229,
      "kl": 1.857421875,
      "learning_rate": 4.948985625101287e-07,
      "loss": 0.1103,
      "num_tokens": 992014605.0,
      "reward": 1.02783203125,
      "reward_std": 0.22893986105918884,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.95556640625,
      "rewards/tag_count_reward/std": 0.14284388720989227,
      "step": 1715
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1804.0,
      "completions/mean_length": 744.759765625,
      "completions/mean_terminated_length": 742.2094116210938,
      "completions/min_length": 64.0,
      "completions/min_terminated_length": 64.0,
      "epoch": 0.5858154817786123,
      "grad_norm": 3.31899356842041,
      "kl": 2.75390625,
      "learning_rate": 4.943663261846227e-07,
      "loss": 0.1712,
      "num_tokens": 992471506.0,
      "reward": 1.01513671875,
      "reward_std": 0.24060595035552979,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.92919921875,
      "rewards/tag_count_reward/std": 0.17761725187301636,
      "step": 1716
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1824.0,
      "completions/max_terminated_length": 1824.0,
      "completions/mean_length": 692.4765625,
      "completions/mean_terminated_length": 692.4765625,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.5861568660920031,
      "grad_norm": 3.3546416759490967,
      "kl": 2.349609375,
      "learning_rate": 4.938341688808628e-07,
      "loss": 0.0916,
      "num_tokens": 992904022.0,
      "reward": 1.11083984375,
      "reward_std": 0.32329094409942627,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.021484375,
      "rewards/format_reward/std": 0.14513419568538666,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17149166762828827,
      "step": 1717
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1929.0,
      "completions/max_terminated_length": 1929.0,
      "completions/mean_length": 675.7734375,
      "completions/mean_terminated_length": 675.7734375,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.5864982504053938,
      "grad_norm": 2.7836081981658936,
      "kl": 2.890625,
      "learning_rate": 4.933020913547223e-07,
      "loss": 0.1658,
      "num_tokens": 993324562.0,
      "reward": 1.0576171875,
      "reward_std": 0.24416905641555786,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.16050052642822266,
      "step": 1718
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1853.0,
      "completions/max_terminated_length": 1853.0,
      "completions/mean_length": 707.736328125,
      "completions/mean_terminated_length": 707.736328125,
      "completions/min_length": 49.0,
      "completions/min_terminated_length": 49.0,
      "epoch": 0.5868396347187846,
      "grad_norm": 2.291926145553589,
      "kl": 2.9765625,
      "learning_rate": 4.927700943619609e-07,
      "loss": 0.1772,
      "num_tokens": 993761419.0,
      "reward": 1.04296875,
      "reward_std": 0.2785525918006897,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.19499453902244568,
      "step": 1719
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1883.0,
      "completions/max_terminated_length": 1883.0,
      "completions/mean_length": 628.4296875,
      "completions/mean_terminated_length": 628.4296875,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.5871810190321755,
      "grad_norm": 2.281153678894043,
      "kl": 2.37109375,
      "learning_rate": 4.922381786582241e-07,
      "loss": 0.133,
      "num_tokens": 994156055.0,
      "reward": 1.06591796875,
      "reward_std": 0.25389882922172546,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.95654296875,
      "rewards/tag_count_reward/std": 0.14142537117004395,
      "step": 1720
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1748.0,
      "completions/mean_length": 683.44921875,
      "completions/mean_terminated_length": 680.7788696289062,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.5875224033455663,
      "grad_norm": 2.4694714546203613,
      "kl": 2.57421875,
      "learning_rate": 4.917063449990416e-07,
      "loss": 0.1405,
      "num_tokens": 994578173.0,
      "reward": 1.07763671875,
      "reward_std": 0.2936060428619385,
      "rewards/accuracy_reward/mean": 0.13306452333927155,
      "rewards/accuracy_reward/std": 0.3399873375892639,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.17912793159484863,
      "step": 1721
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1858.0,
      "completions/mean_length": 679.0,
      "completions/mean_terminated_length": 668.220458984375,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.5878637876589571,
      "grad_norm": 140.36610412597656,
      "kl": 4.19921875,
      "learning_rate": 4.91174594139827e-07,
      "loss": 0.2362,
      "num_tokens": 995005021.0,
      "reward": 1.048828125,
      "reward_std": 0.2565409243106842,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.935546875,
      "rewards/tag_count_reward/std": 0.16843964159488678,
      "step": 1722
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 707.935546875,
      "completions/mean_terminated_length": 702.680419921875,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.5882051719723479,
      "grad_norm": 2.950345516204834,
      "kl": 3.0078125,
      "learning_rate": 4.906429268358762e-07,
      "loss": 0.2013,
      "num_tokens": 995454924.0,
      "reward": 1.04248046875,
      "reward_std": 0.25885578989982605,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17292876541614532,
      "step": 1723
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1922.0,
      "completions/mean_length": 682.8515625,
      "completions/mean_terminated_length": 677.4981079101562,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.5885465562857387,
      "grad_norm": 2.735339879989624,
      "kl": 3.26953125,
      "learning_rate": 4.901113438423664e-07,
      "loss": 0.1833,
      "num_tokens": 995887920.0,
      "reward": 0.96533203125,
      "reward_std": 0.2332734763622284,
      "rewards/accuracy_reward/mean": 0.02734375,
      "rewards/accuracy_reward/std": 0.16324250400066376,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.18756051361560822,
      "step": 1724
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1627.0,
      "completions/max_terminated_length": 1627.0,
      "completions/mean_length": 682.0859375,
      "completions/mean_terminated_length": 682.0859375,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.5888879405991295,
      "grad_norm": 3.4718093872070312,
      "kl": 3.1015625,
      "learning_rate": 4.895798459143548e-07,
      "loss": 0.1544,
      "num_tokens": 996307692.0,
      "reward": 0.962890625,
      "reward_std": 0.2180371880531311,
      "rewards/accuracy_reward/mean": 0.026209676638245583,
      "rewards/accuracy_reward/std": 0.1599196344614029,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.18468615412712097,
      "step": 1725
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1890.0,
      "completions/mean_length": 696.72265625,
      "completions/mean_terminated_length": 694.0782470703125,
      "completions/min_length": 76.0,
      "completions/min_terminated_length": 76.0,
      "epoch": 0.5892293249125202,
      "grad_norm": 2.1736018657684326,
      "kl": 3.0234375,
      "learning_rate": 4.890484338067781e-07,
      "loss": 0.1775,
      "num_tokens": 996741886.0,
      "reward": 1.0595703125,
      "reward_std": 0.3137122392654419,
      "rewards/accuracy_reward/mean": 0.13508065044879913,
      "rewards/accuracy_reward/std": 0.3421548008918762,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.18546834588050842,
      "step": 1726
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1894.0,
      "completions/mean_length": 691.771484375,
      "completions/mean_terminated_length": 683.7780151367188,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.589570709225911,
      "grad_norm": 5.512001991271973,
      "kl": 3.154296875,
      "learning_rate": 4.885171082744506e-07,
      "loss": 0.1753,
      "num_tokens": 997175721.0,
      "reward": 1.03173828125,
      "reward_std": 0.2452293187379837,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.16898830235004425,
      "step": 1727
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1866.0,
      "completions/mean_length": 642.1953125,
      "completions/mean_terminated_length": 639.4442138671875,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.5899120935393019,
      "grad_norm": 3.7306766510009766,
      "kl": 3.03125,
      "learning_rate": 4.879858700720645e-07,
      "loss": 0.2189,
      "num_tokens": 997573661.0,
      "reward": 1.02490234375,
      "reward_std": 0.23586505651474,
      "rewards/accuracy_reward/mean": 0.07661290466785431,
      "rewards/accuracy_reward/std": 0.2662447690963745,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.1588330715894699,
      "step": 1728
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1856.0,
      "completions/mean_length": 682.791015625,
      "completions/mean_terminated_length": 666.602783203125,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.5902534778526927,
      "grad_norm": 2.172267198562622,
      "kl": 3.90234375,
      "learning_rate": 4.874547199541871e-07,
      "loss": 0.2491,
      "num_tokens": 998012242.0,
      "reward": 1.05810546875,
      "reward_std": 0.29296067357063293,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310528099536896,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.1923096626996994,
      "step": 1729
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1800.0,
      "completions/mean_length": 675.595703125,
      "completions/mean_terminated_length": 670.2137451171875,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.5905948621660835,
      "grad_norm": 3.394458770751953,
      "kl": 2.349609375,
      "learning_rate": 4.869236586752612e-07,
      "loss": 0.1408,
      "num_tokens": 998436659.0,
      "reward": 1.037109375,
      "reward_std": 0.20615383982658386,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.953125,
      "rewards/tag_count_reward/std": 0.14162877202033997,
      "step": 1730
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1950.0,
      "completions/mean_length": 736.423828125,
      "completions/mean_terminated_length": 718.2435913085938,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.5909362464794743,
      "grad_norm": 4.250203609466553,
      "kl": 3.189453125,
      "learning_rate": 4.863926869896029e-07,
      "loss": 0.219,
      "num_tokens": 998889452.0,
      "reward": 1.0283203125,
      "reward_std": 0.2300959974527359,
      "rewards/accuracy_reward/mean": 0.0927419364452362,
      "rewards/accuracy_reward/std": 0.2903633117675781,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.17776581645011902,
      "step": 1731
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1895.0,
      "completions/mean_length": 684.0390625,
      "completions/mean_terminated_length": 681.369873046875,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.5912776307928651,
      "grad_norm": 3.9215407371520996,
      "kl": 2.921875,
      "learning_rate": 4.858618056514016e-07,
      "loss": 0.1392,
      "num_tokens": 999319440.0,
      "reward": 1.08837890625,
      "reward_std": 0.2949296236038208,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.17115144431591034,
      "step": 1732
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1886.0,
      "completions/mean_length": 728.724609375,
      "completions/mean_terminated_length": 718.3366088867188,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.5916190151062559,
      "grad_norm": 2.9033477306365967,
      "kl": 3.57421875,
      "learning_rate": 4.853310154147176e-07,
      "loss": 0.1964,
      "num_tokens": 999767955.0,
      "reward": 0.984375,
      "reward_std": 0.22362488508224487,
      "rewards/accuracy_reward/mean": 0.04233871027827263,
      "rewards/accuracy_reward/std": 0.2015640139579773,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.1719430834054947,
      "step": 1733
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1966.0,
      "completions/max_terminated_length": 1966.0,
      "completions/mean_length": 693.205078125,
      "completions/mean_terminated_length": 693.205078125,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.5919603994196466,
      "grad_norm": 4.697007179260254,
      "kl": 2.73046875,
      "learning_rate": 4.848003170334826e-07,
      "loss": 0.17,
      "num_tokens": 1000201980.0,
      "reward": 1.03662109375,
      "reward_std": 0.21143919229507446,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.95068359375,
      "rewards/tag_count_reward/std": 0.14633327722549438,
      "step": 1734
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1748.0,
      "completions/mean_length": 681.6875,
      "completions/mean_terminated_length": 676.3294677734375,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.5923017837330374,
      "grad_norm": 4.053927898406982,
      "kl": 3.00390625,
      "learning_rate": 4.842697112614972e-07,
      "loss": 0.2205,
      "num_tokens": 1000622252.0,
      "reward": 1.00634765625,
      "reward_std": 0.22415204346179962,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.94384765625,
      "rewards/tag_count_reward/std": 0.1666882485151291,
      "step": 1735
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1723.0,
      "completions/mean_length": 724.05078125,
      "completions/mean_terminated_length": 721.4598999023438,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.5926431680464282,
      "grad_norm": 1.5162237882614136,
      "kl": 2.455078125,
      "learning_rate": 4.837391988524313e-07,
      "loss": 0.1733,
      "num_tokens": 1001066902.0,
      "reward": 1.015625,
      "reward_std": 0.2540043294429779,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17690637707710266,
      "step": 1736
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1921.0,
      "completions/mean_length": 707.630859375,
      "completions/mean_terminated_length": 705.0078125,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.5929845523598191,
      "grad_norm": 3.6893367767333984,
      "kl": 2.74609375,
      "learning_rate": 4.83208780559821e-07,
      "loss": 0.1906,
      "num_tokens": 1001499625.0,
      "reward": 1.0341796875,
      "reward_std": 0.2518423795700073,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.0,
      "rewards/format_reward/std": 0.0,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17378656566143036,
      "step": 1737
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1991.0,
      "completions/mean_length": 712.94140625,
      "completions/mean_terminated_length": 705.0726928710938,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.5933259366732099,
      "grad_norm": 3.1321589946746826,
      "kl": 2.28125,
      "learning_rate": 4.826784571370698e-07,
      "loss": 0.1501,
      "num_tokens": 1001939419.0,
      "reward": 1.06396484375,
      "reward_std": 0.24559524655342102,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.94873046875,
      "rewards/tag_count_reward/std": 0.15382707118988037,
      "step": 1738
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1792.0,
      "completions/mean_length": 691.447265625,
      "completions/mean_terminated_length": 688.7925415039062,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.5936673209866007,
      "grad_norm": 2.446129322052002,
      "kl": 1.958984375,
      "learning_rate": 4.821482293374457e-07,
      "loss": 0.1254,
      "num_tokens": 1002368048.0,
      "reward": 1.04833984375,
      "reward_std": 0.2228967845439911,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.95654296875,
      "rewards/tag_count_reward/std": 0.14142537117004395,
      "step": 1739
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1960.0,
      "completions/mean_length": 666.48046875,
      "completions/mean_terminated_length": 661.0628051757812,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.5940087052999915,
      "grad_norm": 2.8640072345733643,
      "kl": 2.33203125,
      "learning_rate": 4.816180979140815e-07,
      "loss": 0.1512,
      "num_tokens": 1002787286.0,
      "reward": 1.09033203125,
      "reward_std": 0.2300066202878952,
      "rewards/accuracy_reward/mean": 0.12298387289047241,
      "rewards/accuracy_reward/std": 0.32875028252601624,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.96337890625,
      "rewards/tag_count_reward/std": 0.13086237013339996,
      "step": 1740
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1630.0,
      "completions/mean_length": 676.17578125,
      "completions/mean_terminated_length": 668.0903930664062,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.5943500896133823,
      "grad_norm": 2.2872042655944824,
      "kl": 3.1171875,
      "learning_rate": 4.810880636199724e-07,
      "loss": 0.1959,
      "num_tokens": 1003210336.0,
      "reward": 1.07861328125,
      "reward_std": 0.28277212381362915,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.94970703125,
      "rewards/tag_count_reward/std": 0.15960724651813507,
      "step": 1741
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1944.0,
      "completions/mean_length": 779.900390625,
      "completions/mean_terminated_length": 772.4263305664062,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.594691473926773,
      "grad_norm": 6.595098972320557,
      "kl": 4.22265625,
      "learning_rate": 4.805581272079764e-07,
      "loss": 0.2315,
      "num_tokens": 1003688733.0,
      "reward": 0.99853515625,
      "reward_std": 0.258689820766449,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.17453479766845703,
      "step": 1742
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1675.0,
      "completions/max_terminated_length": 1675.0,
      "completions/mean_length": 696.111328125,
      "completions/mean_terminated_length": 696.111328125,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.5950328582401638,
      "grad_norm": 1.806591510772705,
      "kl": 2.623046875,
      "learning_rate": 4.800282894308116e-07,
      "loss": 0.1643,
      "num_tokens": 1004112022.0,
      "reward": 1.09375,
      "reward_std": 0.26406821608543396,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.001953125,
      "rewards/format_reward/std": 0.04419417306780815,
      "rewards/tag_count_reward/mean": 0.955078125,
      "rewards/tag_count_reward/std": 0.15382784605026245,
      "step": 1743
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1631.0,
      "completions/max_terminated_length": 1631.0,
      "completions/mean_length": 682.31640625,
      "completions/mean_terminated_length": 682.31640625,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.5953742425535546,
      "grad_norm": 2.5042014122009277,
      "kl": 2.193359375,
      "learning_rate": 4.794985510410569e-07,
      "loss": 0.1227,
      "num_tokens": 1004538344.0,
      "reward": 1.01025390625,
      "reward_std": 0.18221446871757507,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.95361328125,
      "rewards/tag_count_reward/std": 0.14561976492404938,
      "step": 1744
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 770.05078125,
      "completions/mean_terminated_length": 757.44775390625,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.5957156268669455,
      "grad_norm": 3.8201491832733154,
      "kl": 4.00390625,
      "learning_rate": 4.789689127911498e-07,
      "loss": 0.2523,
      "num_tokens": 1005012498.0,
      "reward": 1.015625,
      "reward_std": 0.30323147773742676,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.17694957554340363,
      "step": 1745
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1864.0,
      "completions/mean_length": 801.185546875,
      "completions/mean_terminated_length": 798.74560546875,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.5960570111803363,
      "grad_norm": 3.829974889755249,
      "kl": 3.123046875,
      "learning_rate": 4.784393754333849e-07,
      "loss": 0.1536,
      "num_tokens": 1005498817.0,
      "reward": 1.02001953125,
      "reward_std": 0.2365279495716095,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.94384765625,
      "rewards/tag_count_reward/std": 0.15994812548160553,
      "step": 1746
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1989.0,
      "completions/mean_length": 741.919921875,
      "completions/mean_terminated_length": 739.364013671875,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.5963983954937271,
      "grad_norm": 6.226439476013184,
      "kl": 3.015625,
      "learning_rate": 4.779099397199142e-07,
      "loss": 0.1408,
      "num_tokens": 1005957944.0,
      "reward": 1.0556640625,
      "reward_std": 0.27483633160591125,
      "rewards/accuracy_reward/mean": 0.10282257944345474,
      "rewards/accuracy_reward/std": 0.30403366684913635,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.1598801612854004,
      "step": 1747
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1760.0,
      "completions/mean_length": 705.189453125,
      "completions/mean_terminated_length": 702.5616455078125,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.5967397798071179,
      "grad_norm": 2.1409924030303955,
      "kl": 2.63671875,
      "learning_rate": 4.77380606402745e-07,
      "loss": 0.1517,
      "num_tokens": 1006394953.0,
      "reward": 1.1142578125,
      "reward_std": 0.25171735882759094,
      "rewards/accuracy_reward/mean": 0.15927419066429138,
      "rewards/accuracy_reward/std": 0.366301029920578,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9482421875,
      "rewards/tag_count_reward/std": 0.15406061708927155,
      "step": 1748
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1771.0,
      "completions/mean_length": 698.529296875,
      "completions/mean_terminated_length": 695.888427734375,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.5970811641205087,
      "grad_norm": 3.9644875526428223,
      "kl": 2.90625,
      "learning_rate": 4.768513762337396e-07,
      "loss": 0.1355,
      "num_tokens": 1006825736.0,
      "reward": 1.017578125,
      "reward_std": 0.20936693251132965,
      "rewards/accuracy_reward/mean": 0.058467742055654526,
      "rewards/accuracy_reward/std": 0.23486268520355225,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.951171875,
      "rewards/tag_count_reward/std": 0.14691409468650818,
      "step": 1749
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1785.0,
      "completions/mean_length": 716.73046875,
      "completions/mean_terminated_length": 711.5098266601562,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.5974225484338994,
      "grad_norm": 2.5164918899536133,
      "kl": 2.666015625,
      "learning_rate": 4.763222499646129e-07,
      "loss": 0.1269,
      "num_tokens": 1007265598.0,
      "reward": 1.0556640625,
      "reward_std": 0.26374131441116333,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9462890625,
      "rewards/tag_count_reward/std": 0.16267666220664978,
      "step": 1750
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1766.0,
      "completions/max_terminated_length": 1766.0,
      "completions/mean_length": 707.34765625,
      "completions/mean_terminated_length": 707.34765625,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.5977639327472902,
      "grad_norm": 2.287261724472046,
      "kl": 1.5546875,
      "learning_rate": 4.757932283469334e-07,
      "loss": 0.072,
      "num_tokens": 1007700368.0,
      "reward": 1.16943359375,
      "reward_std": 0.2524051368236542,
      "rewards/accuracy_reward/mean": 0.18359375,
      "rewards/accuracy_reward/std": 0.3875311613082886,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.97021484375,
      "rewards/tag_count_reward/std": 0.11044542491436005,
      "step": 1751
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1736.0,
      "completions/max_terminated_length": 1736.0,
      "completions/mean_length": 734.8671875,
      "completions/mean_terminated_length": 734.8671875,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.598105317060681,
      "grad_norm": 2.722154378890991,
      "kl": 1.8916015625,
      "learning_rate": 4.7526431213211973e-07,
      "loss": 0.1033,
      "num_tokens": 1008148156.0,
      "reward": 1.11865234375,
      "reward_std": 0.266380250453949,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.96826171875,
      "rewards/tag_count_reward/std": 0.11949627846479416,
      "step": 1752
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1920.0,
      "completions/mean_length": 721.396484375,
      "completions/mean_terminated_length": 716.1941528320312,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.5984467013740719,
      "grad_norm": 3.9714505672454834,
      "kl": 2.609375,
      "learning_rate": 4.7473550207144174e-07,
      "loss": 0.1468,
      "num_tokens": 1008598599.0,
      "reward": 1.05712890625,
      "reward_std": 0.2545734941959381,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.94580078125,
      "rewards/tag_count_reward/std": 0.15754644572734833,
      "step": 1753
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1983.0,
      "completions/max_terminated_length": 1983.0,
      "completions/mean_length": 777.484375,
      "completions/mean_terminated_length": 777.484375,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.5987880856874627,
      "grad_norm": 3.222487449645996,
      "kl": 1.912109375,
      "learning_rate": 4.74206798916018e-07,
      "loss": 0.1269,
      "num_tokens": 1009068079.0,
      "reward": 1.05712890625,
      "reward_std": 0.2246779501438141,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.95166015625,
      "rewards/tag_count_reward/std": 0.14995817840099335,
      "step": 1754
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1714.0,
      "completions/mean_length": 734.046875,
      "completions/mean_terminated_length": 721.0887451171875,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.5991294700008535,
      "grad_norm": 2.475099802017212,
      "kl": 2.82421875,
      "learning_rate": 4.7367820341681563e-07,
      "loss": 0.1863,
      "num_tokens": 1009526743.0,
      "reward": 1.1630859375,
      "reward_std": 0.2831161320209503,
      "rewards/accuracy_reward/mean": 0.193359375,
      "rewards/accuracy_reward/std": 0.39531853795051575,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.9560546875,
      "rewards/tag_count_reward/std": 0.14511774480342865,
      "step": 1755
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1806.0,
      "completions/mean_length": 811.884765625,
      "completions/mean_terminated_length": 804.5992431640625,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.5994708543142443,
      "grad_norm": 3.2170121669769287,
      "kl": 2.50390625,
      "learning_rate": 4.731497163246482e-07,
      "loss": 0.137,
      "num_tokens": 1010023212.0,
      "reward": 1.0634765625,
      "reward_std": 0.2751937806606293,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.9462890625,
      "rewards/tag_count_reward/std": 0.15654632449150085,
      "step": 1756
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 757.19921875,
      "completions/mean_terminated_length": 754.6731567382812,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.5998122386276351,
      "grad_norm": 1.6145522594451904,
      "kl": 2.25390625,
      "learning_rate": 4.7262133839017624e-07,
      "loss": 0.1158,
      "num_tokens": 1010495170.0,
      "reward": 1.064453125,
      "reward_std": 0.23234979808330536,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.95703125,
      "rewards/tag_count_reward/std": 0.14371834695339203,
      "step": 1757
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 739.642578125,
      "completions/mean_terminated_length": 737.0822143554688,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.6001536229410258,
      "grad_norm": 4.367508888244629,
      "kl": 2.59375,
      "learning_rate": 4.720930703639041e-07,
      "loss": 0.1272,
      "num_tokens": 1010951995.0,
      "reward": 1.0595703125,
      "reward_std": 0.29212260246276855,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.17168447375297546,
      "step": 1758
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1916.0,
      "completions/mean_length": 725.37109375,
      "completions/mean_terminated_length": 720.184326171875,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.6004950072544166,
      "grad_norm": 4.212222576141357,
      "kl": 2.9296875,
      "learning_rate": 4.7156491299618105e-07,
      "loss": 0.1705,
      "num_tokens": 1011392825.0,
      "reward": 1.078125,
      "reward_std": 0.27235230803489685,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.16402500867843628,
      "step": 1759
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1803.0,
      "completions/mean_length": 774.53125,
      "completions/mean_terminated_length": 759.4308471679688,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.6008363915678074,
      "grad_norm": 1.740332007408142,
      "kl": 3.107421875,
      "learning_rate": 4.710368670371985e-07,
      "loss": 0.2019,
      "num_tokens": 1011869817.0,
      "reward": 1.14404296875,
      "reward_std": 0.34377244114875793,
      "rewards/accuracy_reward/mean": 0.19140625,
      "rewards/accuracy_reward/std": 0.3937928080558777,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.1845095157623291,
      "step": 1760
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1807.0,
      "completions/mean_length": 733.302734375,
      "completions/mean_terminated_length": 728.1470947265625,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.6011777758811983,
      "grad_norm": 4.355317115783691,
      "kl": 2.74609375,
      "learning_rate": 4.705089332369901e-07,
      "loss": 0.1454,
      "num_tokens": 1012321188.0,
      "reward": 1.07177734375,
      "reward_std": 0.25991693139076233,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.16104954481124878,
      "step": 1761
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1677.0,
      "completions/mean_length": 771.171875,
      "completions/mean_terminated_length": 756.0316772460938,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.6015191601945891,
      "grad_norm": 2.1956727504730225,
      "kl": 2.44921875,
      "learning_rate": 4.699811123454295e-07,
      "loss": 0.1379,
      "num_tokens": 1012791020.0,
      "reward": 1.072265625,
      "reward_std": 0.2925443947315216,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.16767774522304535,
      "step": 1762
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1994.0,
      "completions/mean_length": 729.283203125,
      "completions/mean_terminated_length": 711.0039672851562,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.6018605445079799,
      "grad_norm": 3.447355270385742,
      "kl": 3.71875,
      "learning_rate": 4.69453405112231e-07,
      "loss": 0.2491,
      "num_tokens": 1013235085.0,
      "reward": 1.08544921875,
      "reward_std": 0.28955644369125366,
      "rewards/accuracy_reward/mean": 0.13306452333927155,
      "rewards/accuracy_reward/std": 0.3399873673915863,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.16405922174453735,
      "step": 1763
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1659.0,
      "completions/mean_length": 709.8125,
      "completions/mean_terminated_length": 704.5647583007812,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.6022019288213707,
      "grad_norm": 2.0475871562957764,
      "kl": 2.287109375,
      "learning_rate": 4.689258122869463e-07,
      "loss": 0.145,
      "num_tokens": 1013680237.0,
      "reward": 1.10693359375,
      "reward_std": 0.26224619150161743,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.95849609375,
      "rewards/tag_count_reward/std": 0.131270632147789,
      "step": 1764
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1915.0,
      "completions/max_terminated_length": 1915.0,
      "completions/mean_length": 721.408203125,
      "completions/mean_terminated_length": 721.408203125,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.6025433131347615,
      "grad_norm": 6.5366435050964355,
      "kl": 2.6171875,
      "learning_rate": 4.683983346189656e-07,
      "loss": 0.1781,
      "num_tokens": 1014126526.0,
      "reward": 1.0556640625,
      "reward_std": 0.23004157841205597,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.9501953125,
      "rewards/tag_count_reward/std": 0.1570582091808319,
      "step": 1765
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1730.0,
      "completions/mean_length": 720.806640625,
      "completions/mean_terminated_length": 712.9843139648438,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.6028846974481522,
      "grad_norm": 2.583763360977173,
      "kl": 3.494140625,
      "learning_rate": 4.6787097285751487e-07,
      "loss": 0.1885,
      "num_tokens": 1014570251.0,
      "reward": 1.08349609375,
      "reward_std": 0.2778605818748474,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.00390625,
      "rewards/format_reward/std": 0.06243881583213806,
      "rewards/tag_count_reward/mean": 0.94873046875,
      "rewards/tag_count_reward/std": 0.15142296254634857,
      "step": 1766
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1967.0,
      "completions/mean_length": 728.986328125,
      "completions/mean_terminated_length": 723.8137817382812,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.603226081761543,
      "grad_norm": 2.0975725650787354,
      "kl": 3.8203125,
      "learning_rate": 4.673437277516559e-07,
      "loss": 0.2293,
      "num_tokens": 1015022276.0,
      "reward": 1.0146484375,
      "reward_std": 0.26882147789001465,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.1898675262928009,
      "step": 1767
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1488.0,
      "completions/mean_length": 663.76953125,
      "completions/mean_terminated_length": 661.0606689453125,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.6035674660749338,
      "grad_norm": 4.848918437957764,
      "kl": 3.8203125,
      "learning_rate": 4.668166000502842e-07,
      "loss": 0.171,
      "num_tokens": 1015440190.0,
      "reward": 1.07373046875,
      "reward_std": 0.24046632647514343,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.95263671875,
      "rewards/tag_count_reward/std": 0.1444602608680725,
      "step": 1768
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1724.0,
      "completions/mean_length": 672.0546875,
      "completions/mean_terminated_length": 666.6588745117188,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "epoch": 0.6039088503883246,
      "grad_norm": 1.7236839532852173,
      "kl": 4.12109375,
      "learning_rate": 4.6628959050212936e-07,
      "loss": 0.2199,
      "num_tokens": 1015856266.0,
      "reward": 1.09765625,
      "reward_std": 0.27422866225242615,
      "rewards/accuracy_reward/mean": 0.14717741310596466,
      "rewards/accuracy_reward/std": 0.354640394449234,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.1647689789533615,
      "step": 1769
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1780.0,
      "completions/mean_length": 676.41015625,
      "completions/mean_terminated_length": 673.7260131835938,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.6042502347017155,
      "grad_norm": 10.14164924621582,
      "kl": 4.3828125,
      "learning_rate": 4.657626998557522e-07,
      "loss": 0.2248,
      "num_tokens": 1016275692.0,
      "reward": 0.9912109375,
      "reward_std": 0.24511289596557617,
      "rewards/accuracy_reward/mean": 0.04233871027827263,
      "rewards/accuracy_reward/std": 0.2015640139579773,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.17226234078407288,
      "step": 1770
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1815.0,
      "completions/mean_length": 698.900390625,
      "completions/mean_terminated_length": 696.26025390625,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.6045916190151063,
      "grad_norm": 4.63817834854126,
      "kl": 4.0234375,
      "learning_rate": 4.6523592885954553e-07,
      "loss": 0.2464,
      "num_tokens": 1016715289.0,
      "reward": 1.04296875,
      "reward_std": 0.2594906687736511,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.170570507645607,
      "step": 1771
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 724.939453125,
      "completions/mean_terminated_length": 722.3502807617188,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.6049330033284971,
      "grad_norm": 2.2953732013702393,
      "kl": 3.63671875,
      "learning_rate": 4.6470927826173155e-07,
      "loss": 0.2088,
      "num_tokens": 1017162650.0,
      "reward": 1.013671875,
      "reward_std": 0.272574245929718,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.16624696552753448,
      "step": 1772
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2019.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 723.96875,
      "completions/mean_terminated_length": 723.96875,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.6052743876418879,
      "grad_norm": 3.4601573944091797,
      "kl": 3.2109375,
      "learning_rate": 4.641827488103619e-07,
      "loss": 0.1665,
      "num_tokens": 1017614074.0,
      "reward": 1.03271484375,
      "reward_std": 0.286705881357193,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17503775656223297,
      "step": 1773
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1930.0,
      "completions/mean_length": 735.119140625,
      "completions/mean_terminated_length": 729.9706420898438,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.6056157719552786,
      "grad_norm": 4.324336051940918,
      "kl": 3.8515625,
      "learning_rate": 4.6365634125331566e-07,
      "loss": 0.2169,
      "num_tokens": 1018068807.0,
      "reward": 1.04150390625,
      "reward_std": 0.28216075897216797,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.17113468050956726,
      "step": 1774
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1787.0,
      "completions/mean_length": 714.685546875,
      "completions/mean_terminated_length": 709.4569091796875,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.6059571562686694,
      "grad_norm": 2.312756299972534,
      "kl": 3.185546875,
      "learning_rate": 4.631300563382994e-07,
      "loss": 0.1781,
      "num_tokens": 1018514822.0,
      "reward": 1.02685546875,
      "reward_std": 0.27983659505844116,
      "rewards/accuracy_reward/mean": 0.08870967477560043,
      "rewards/accuracy_reward/std": 0.2846112847328186,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.19102340936660767,
      "step": 1775
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1800.0,
      "completions/mean_length": 704.3828125,
      "completions/mean_terminated_length": 699.11376953125,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.6062985405820602,
      "grad_norm": 2.4387314319610596,
      "kl": 3.03515625,
      "learning_rate": 4.626038948128448e-07,
      "loss": 0.1833,
      "num_tokens": 1018952634.0,
      "reward": 1.05908203125,
      "reward_std": 0.25380903482437134,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.94384765625,
      "rewards/tag_count_reward/std": 0.15763740241527557,
      "step": 1776
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 733.876953125,
      "completions/mean_terminated_length": 731.3052978515625,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.606639924895451,
      "grad_norm": 6.01278829574585,
      "kl": 1.82421875,
      "learning_rate": 4.6207785742430895e-07,
      "loss": 0.1036,
      "num_tokens": 1019400491.0,
      "reward": 1.0712890625,
      "reward_std": 0.25445666909217834,
      "rewards/accuracy_reward/mean": 0.12298387289047241,
      "rewards/accuracy_reward/std": 0.32875028252601624,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.16588735580444336,
      "step": 1777
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 715.544921875,
      "completions/mean_terminated_length": 707.6915893554688,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.6069813092088419,
      "grad_norm": 1.677288293838501,
      "kl": 2.98828125,
      "learning_rate": 4.615519449198719e-07,
      "loss": 0.2031,
      "num_tokens": 1019843298.0,
      "reward": 1.0029296875,
      "reward_std": 0.234297513961792,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.18000927567481995,
      "step": 1778
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1846.0,
      "completions/mean_length": 743.66015625,
      "completions/mean_terminated_length": 741.1076049804688,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.6073226935222327,
      "grad_norm": 4.2561516761779785,
      "kl": 2.01953125,
      "learning_rate": 4.6102615804653724e-07,
      "loss": 0.0626,
      "num_tokens": 1020298532.0,
      "reward": 1.07177734375,
      "reward_std": 0.2906448245048523,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.15787968039512634,
      "step": 1779
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 798.525390625,
      "completions/mean_terminated_length": 796.0802001953125,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.6076640778356235,
      "grad_norm": 1.9754955768585205,
      "kl": 1.96875,
      "learning_rate": 4.6050049755112906e-07,
      "loss": 0.1122,
      "num_tokens": 1020789697.0,
      "reward": 1.03515625,
      "reward_std": 0.2722569704055786,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.17345911264419556,
      "step": 1780
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1748.0,
      "completions/mean_length": 710.72265625,
      "completions/mean_terminated_length": 700.1929321289062,
      "completions/min_length": 68.0,
      "completions/min_terminated_length": 68.0,
      "epoch": 0.6080054621490143,
      "grad_norm": 6.035069942474365,
      "kl": 2.59375,
      "learning_rate": 4.599749641802928e-07,
      "loss": 0.2463,
      "num_tokens": 1021229171.0,
      "reward": 1.046875,
      "reward_std": 0.23933148384094238,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.953125,
      "rewards/tag_count_reward/std": 0.14755012094974518,
      "step": 1781
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1812.0,
      "completions/mean_length": 736.779296875,
      "completions/mean_terminated_length": 726.4547119140625,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "epoch": 0.608346846462405,
      "grad_norm": 5.188677787780762,
      "kl": 2.197265625,
      "learning_rate": 4.5944955868049276e-07,
      "loss": 0.1452,
      "num_tokens": 1021676978.0,
      "reward": 1.0986328125,
      "reward_std": 0.3167649507522583,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.17083640396595,
      "step": 1782
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 786.251953125,
      "completions/mean_terminated_length": 776.3169555664062,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "epoch": 0.6086882307757958,
      "grad_norm": 1.9753355979919434,
      "kl": 2.0859375,
      "learning_rate": 4.5892428179801213e-07,
      "loss": 0.1149,
      "num_tokens": 1022157619.0,
      "reward": 1.03369140625,
      "reward_std": 0.23831097781658173,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.94384765625,
      "rewards/tag_count_reward/std": 0.16887517273426056,
      "step": 1783
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 803.28515625,
      "completions/mean_terminated_length": 793.4842529296875,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.6090296150891866,
      "grad_norm": 3.008613348007202,
      "kl": 2.6015625,
      "learning_rate": 4.5839913427895083e-07,
      "loss": 0.1611,
      "num_tokens": 1022655909.0,
      "reward": 1.005859375,
      "reward_std": 0.2187550961971283,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.17270830273628235,
      "step": 1784
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 754.59375,
      "completions/mean_terminated_length": 744.409423828125,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.6093709994025774,
      "grad_norm": 5.499574661254883,
      "kl": 3.171875,
      "learning_rate": 4.578741168692256e-07,
      "loss": 0.1854,
      "num_tokens": 1023119925.0,
      "reward": 1.06005859375,
      "reward_std": 0.27437031269073486,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.18187542259693146,
      "step": 1785
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1988.0,
      "completions/mean_length": 739.7265625,
      "completions/mean_terminated_length": 732.0157470703125,
      "completions/min_length": 13.0,
      "completions/min_terminated_length": 13.0,
      "epoch": 0.6097123837159683,
      "grad_norm": 4.903466701507568,
      "kl": 2.9921875,
      "learning_rate": 4.5734923031456783e-07,
      "loss": 0.1803,
      "num_tokens": 1023577337.0,
      "reward": 0.994140625,
      "reward_std": 0.2194230556488037,
      "rewards/accuracy_reward/mean": 0.0390625,
      "rewards/accuracy_reward/std": 0.1939331740140915,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.16840559244155884,
      "step": 1786
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1922.0,
      "completions/mean_length": 783.1953125,
      "completions/mean_terminated_length": 775.74072265625,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.6100537680293591,
      "grad_norm": 3.9970672130584717,
      "kl": 4.25,
      "learning_rate": 4.568244753605237e-07,
      "loss": 0.2438,
      "num_tokens": 1024058829.0,
      "reward": 1.07861328125,
      "reward_std": 0.28232330083847046,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.021484375,
      "rewards/format_reward/std": 0.14513419568538666,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.17111793160438538,
      "step": 1787
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1930.0,
      "completions/mean_length": 782.5,
      "completions/mean_terminated_length": 780.0234985351562,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.6103951523427499,
      "grad_norm": 1.9265402555465698,
      "kl": 3.02734375,
      "learning_rate": 4.5629985275245174e-07,
      "loss": 0.1676,
      "num_tokens": 1024537965.0,
      "reward": 1.06884765625,
      "reward_std": 0.30155232548713684,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310528099536896,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.17324896156787872,
      "step": 1788
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1517.0,
      "completions/mean_length": 771.45703125,
      "completions/mean_terminated_length": 766.4510498046875,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.6107365366561407,
      "grad_norm": 2.423401117324829,
      "kl": 2.548828125,
      "learning_rate": 4.557753632355231e-07,
      "loss": 0.1423,
      "num_tokens": 1025009127.0,
      "reward": 1.05712890625,
      "reward_std": 0.2346060425043106,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.94580078125,
      "rewards/tag_count_reward/std": 0.160621777176857,
      "step": 1789
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1980.0,
      "completions/mean_length": 810.84375,
      "completions/mean_terminated_length": 801.1023559570312,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.6110779209695314,
      "grad_norm": 1.7359230518341064,
      "kl": 3.4296875,
      "learning_rate": 4.5525100755471934e-07,
      "loss": 0.1985,
      "num_tokens": 1025508311.0,
      "reward": 1.060546875,
      "reward_std": 0.2512783408164978,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.16840559244155884,
      "step": 1790
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 758.826171875,
      "completions/mean_terminated_length": 751.2279052734375,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.6114193052829222,
      "grad_norm": 4.741996765136719,
      "kl": 2.685546875,
      "learning_rate": 4.5472678645483264e-07,
      "loss": 0.1593,
      "num_tokens": 1025972894.0,
      "reward": 1.04541015625,
      "reward_std": 0.2292695790529251,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.95751953125,
      "rewards/tag_count_reward/std": 0.14172235131263733,
      "step": 1791
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1929.0,
      "completions/mean_length": 720.42578125,
      "completions/mean_terminated_length": 712.6011962890625,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.611760689596313,
      "grad_norm": 2.515331745147705,
      "kl": 3.34765625,
      "learning_rate": 4.5420270068046315e-07,
      "loss": 0.1812,
      "num_tokens": 1026410488.0,
      "reward": 1.08447265625,
      "reward_std": 0.29895588755607605,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.94970703125,
      "rewards/tag_count_reward/std": 0.16037173569202423,
      "step": 1792
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 790.01953125,
      "completions/mean_terminated_length": 782.6051635742188,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.6121020739097038,
      "grad_norm": 3.2399539947509766,
      "kl": 2.69140625,
      "learning_rate": 4.536787509760196e-07,
      "loss": 0.1414,
      "num_tokens": 1026894082.0,
      "reward": 1.02734375,
      "reward_std": 0.24196061491966248,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.1523297280073166,
      "step": 1793
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1664.0,
      "completions/mean_length": 783.7890625,
      "completions/mean_terminated_length": 776.3379516601562,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.6124434582230946,
      "grad_norm": 2.166257858276367,
      "kl": 3.046875,
      "learning_rate": 4.531549380857168e-07,
      "loss": 0.1788,
      "num_tokens": 1027376006.0,
      "reward": 1.0302734375,
      "reward_std": 0.2507689595222473,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.9462890625,
      "rewards/tag_count_reward/std": 0.16192306578159332,
      "step": 1794
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1891.0,
      "completions/mean_length": 738.693359375,
      "completions/mean_terminated_length": 736.131103515625,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.6127848425364855,
      "grad_norm": 7.018588542938232,
      "kl": 3.56640625,
      "learning_rate": 4.5263126275357575e-07,
      "loss": 0.1786,
      "num_tokens": 1027842825.0,
      "reward": 1.10546875,
      "reward_std": 0.3067556619644165,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17341503500938416,
      "step": 1795
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1579.0,
      "completions/max_terminated_length": 1579.0,
      "completions/mean_length": 746.927734375,
      "completions/mean_terminated_length": 746.927734375,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.6131262268498763,
      "grad_norm": 1.7091294527053833,
      "kl": 1.48046875,
      "learning_rate": 4.521077257234217e-07,
      "loss": 0.0607,
      "num_tokens": 1028307396.0,
      "reward": 1.0498046875,
      "reward_std": 0.2198580652475357,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9638671875,
      "rewards/tag_count_reward/std": 0.13053062558174133,
      "step": 1796
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1827.0,
      "completions/mean_length": 743.974609375,
      "completions/mean_terminated_length": 733.7066650390625,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.6134676111632671,
      "grad_norm": 5.36768913269043,
      "kl": 2.41015625,
      "learning_rate": 4.515843277388839e-07,
      "loss": 0.1004,
      "num_tokens": 1028765527.0,
      "reward": 1.044921875,
      "reward_std": 0.24271979928016663,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.025390625,
      "rewards/format_reward/std": 0.15746226906776428,
      "rewards/tag_count_reward/mean": 0.955078125,
      "rewards/tag_count_reward/std": 0.1422615498304367,
      "step": 1797
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2005.0,
      "completions/mean_length": 798.8671875,
      "completions/mean_terminated_length": 796.4226684570312,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.6138089954766578,
      "grad_norm": 2.0743041038513184,
      "kl": 3.09375,
      "learning_rate": 4.5106106954339327e-07,
      "loss": 0.1669,
      "num_tokens": 1029265379.0,
      "reward": 1.0107421875,
      "reward_std": 0.2517067492008209,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.17660093307495117,
      "step": 1798
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1918.0,
      "completions/mean_length": 800.849609375,
      "completions/mean_terminated_length": 786.061279296875,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.6141503797900486,
      "grad_norm": 3.665811061859131,
      "kl": 3.015625,
      "learning_rate": 4.5053795188018316e-07,
      "loss": 0.2191,
      "num_tokens": 1029752166.0,
      "reward": 1.0166015625,
      "reward_std": 0.2390669882297516,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17727059125900269,
      "step": 1799
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1679.0,
      "completions/mean_length": 721.693359375,
      "completions/mean_terminated_length": 719.0978393554688,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.6144917641034394,
      "grad_norm": 4.459508895874023,
      "kl": 1.3291015625,
      "learning_rate": 4.5001497549228653e-07,
      "loss": 0.0465,
      "num_tokens": 1030202585.0,
      "reward": 1.0693359375,
      "reward_std": 0.21111838519573212,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9677734375,
      "rewards/tag_count_reward/std": 0.12190000712871552,
      "step": 1800
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2004.0,
      "completions/mean_length": 737.447265625,
      "completions/mean_terminated_length": 732.307861328125,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.6148331484168302,
      "grad_norm": 2.111485719680786,
      "kl": 1.927734375,
      "learning_rate": 4.494921411225363e-07,
      "loss": 0.094,
      "num_tokens": 1030649406.0,
      "reward": 1.08642578125,
      "reward_std": 0.2624194025993347,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.96337890625,
      "rewards/tag_count_reward/std": 0.13271848857402802,
      "step": 1801
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2000.0,
      "completions/mean_length": 698.75390625,
      "completions/mean_terminated_length": 696.113525390625,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.615174532730221,
      "grad_norm": 7.498244762420654,
      "kl": 1.900390625,
      "learning_rate": 4.4896944951356295e-07,
      "loss": 0.1191,
      "num_tokens": 1031080928.0,
      "reward": 1.1865234375,
      "reward_std": 0.3081634044647217,
      "rewards/accuracy_reward/mean": 0.212890625,
      "rewards/accuracy_reward/std": 0.409751296043396,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.9560546875,
      "rewards/tag_count_reward/std": 0.14511774480342865,
      "step": 1802
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1885.0,
      "completions/mean_length": 767.427734375,
      "completions/mean_terminated_length": 764.9216918945312,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.6155159170436119,
      "grad_norm": 4.030727386474609,
      "kl": 1.4384765625,
      "learning_rate": 4.484469014077953e-07,
      "loss": 0.0726,
      "num_tokens": 1031544395.0,
      "reward": 1.04345703125,
      "reward_std": 0.22301135957241058,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.95751953125,
      "rewards/tag_count_reward/std": 0.1484660655260086,
      "step": 1803
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1747.0,
      "completions/mean_length": 709.197265625,
      "completions/mean_terminated_length": 706.5772705078125,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.6158573013570027,
      "grad_norm": 3.7080092430114746,
      "kl": 1.3154296875,
      "learning_rate": 4.479244975474569e-07,
      "loss": 0.0729,
      "num_tokens": 1031990192.0,
      "reward": 1.04248046875,
      "reward_std": 0.18790854513645172,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.96435546875,
      "rewards/tag_count_reward/std": 0.1320616751909256,
      "step": 1804
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1892.0,
      "completions/mean_length": 752.2421875,
      "completions/mean_terminated_length": 747.1608276367188,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.6161986856703935,
      "grad_norm": 2.501222848892212,
      "kl": 1.84375,
      "learning_rate": 4.4740223867456737e-07,
      "loss": 0.1341,
      "num_tokens": 1032448748.0,
      "reward": 1.109375,
      "reward_std": 0.2864750027656555,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.955078125,
      "rewards/tag_count_reward/std": 0.15303067862987518,
      "step": 1805
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1723.0,
      "completions/mean_length": 707.9609375,
      "completions/mean_terminated_length": 697.409423828125,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.6165400699837843,
      "grad_norm": 10.757259368896484,
      "kl": 2.1181640625,
      "learning_rate": 4.4688012553094033e-07,
      "loss": 0.1948,
      "num_tokens": 1032892728.0,
      "reward": 1.07470703125,
      "reward_std": 0.1719028353691101,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.96142578125,
      "rewards/tag_count_reward/std": 0.13760361075401306,
      "step": 1806
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1758.0,
      "completions/mean_length": 784.080078125,
      "completions/mean_terminated_length": 774.1279296875,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.616881454297175,
      "grad_norm": 8.736144065856934,
      "kl": 2.15625,
      "learning_rate": 4.463581588581823e-07,
      "loss": 0.1598,
      "num_tokens": 1033378897.0,
      "reward": 1.08154296875,
      "reward_std": 0.28288325667381287,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.95263671875,
      "rewards/tag_count_reward/std": 0.15188921988010406,
      "step": 1807
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 804.943359375,
      "completions/mean_terminated_length": 795.155517578125,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.6172228386105658,
      "grad_norm": 4.6284589767456055,
      "kl": 2.91796875,
      "learning_rate": 4.4583633939769127e-07,
      "loss": 0.2051,
      "num_tokens": 1033873844.0,
      "reward": 1.04638671875,
      "reward_std": 0.3237868547439575,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.19132331013679504,
      "step": 1808
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 725.69140625,
      "completions/mean_terminated_length": 717.8978881835938,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.6175642229239566,
      "grad_norm": 3.884291172027588,
      "kl": 3.6328125,
      "learning_rate": 4.453146678906571e-07,
      "loss": 0.2772,
      "num_tokens": 1034317766.0,
      "reward": 1.01904296875,
      "reward_std": 0.24419891834259033,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0078125,
      "rewards/format_reward/std": 0.08812850713729858,
      "rewards/tag_count_reward/mean": 0.92919921875,
      "rewards/tag_count_reward/std": 0.1856968253850937,
      "step": 1809
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1912.0,
      "completions/max_terminated_length": 1912.0,
      "completions/mean_length": 709.3359375,
      "completions/mean_terminated_length": 709.3359375,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.6179056072373474,
      "grad_norm": 5.181492805480957,
      "kl": 3.8203125,
      "learning_rate": 4.4479314507805856e-07,
      "loss": 0.2254,
      "num_tokens": 1034758786.0,
      "reward": 1.11181640625,
      "reward_std": 0.32107028365135193,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.1682516187429428,
      "step": 1810
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1847.0,
      "completions/mean_length": 685.404296875,
      "completions/mean_terminated_length": 671.9664916992188,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.6182469915507383,
      "grad_norm": 6.824659824371338,
      "kl": 3.77734375,
      "learning_rate": 4.4427177170066387e-07,
      "loss": 0.221,
      "num_tokens": 1035186673.0,
      "reward": 1.01904296875,
      "reward_std": 0.20885957777500153,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.95068359375,
      "rewards/tag_count_reward/std": 0.15287372469902039,
      "step": 1811
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1990.0,
      "completions/mean_length": 704.556640625,
      "completions/mean_terminated_length": 701.9276123046875,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.6185883758641291,
      "grad_norm": 4.8679046630859375,
      "kl": 2.96875,
      "learning_rate": 4.4375054849902847e-07,
      "loss": 0.1695,
      "num_tokens": 1035618702.0,
      "reward": 1.04638671875,
      "reward_std": 0.21819032728672028,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.95458984375,
      "rewards/tag_count_reward/std": 0.1399378776550293,
      "step": 1812
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1696.0,
      "completions/mean_length": 679.759765625,
      "completions/mean_terminated_length": 671.6954956054688,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.6189297601775199,
      "grad_norm": 2.781749963760376,
      "kl": 3.62109375,
      "learning_rate": 4.4322947621349517e-07,
      "loss": 0.2388,
      "num_tokens": 1036039427.0,
      "reward": 1.0126953125,
      "reward_std": 0.22760999202728271,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.15896911919116974,
      "step": 1813
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1904.0,
      "completions/mean_length": 739.45703125,
      "completions/mean_terminated_length": 729.153564453125,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.6192711444909107,
      "grad_norm": 5.976024150848389,
      "kl": 4.419921875,
      "learning_rate": 4.427085555841915e-07,
      "loss": 0.2495,
      "num_tokens": 1036494541.0,
      "reward": 0.9853515625,
      "reward_std": 0.2786972224712372,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.19306157529354095,
      "step": 1814
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 748.955078125,
      "completions/mean_terminated_length": 738.7263793945312,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.6196125288043014,
      "grad_norm": 3.3548057079315186,
      "kl": 4.15234375,
      "learning_rate": 4.4218778735103045e-07,
      "loss": 0.2734,
      "num_tokens": 1036957046.0,
      "reward": 1.04345703125,
      "reward_std": 0.32334092259407043,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.18053071200847626,
      "step": 1815
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1751.0,
      "completions/mean_length": 701.875,
      "completions/mean_terminated_length": 699.24072265625,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.6199539131176922,
      "grad_norm": 5.221735000610352,
      "kl": 3.61328125,
      "learning_rate": 4.416671722537081e-07,
      "loss": 0.2002,
      "num_tokens": 1037390822.0,
      "reward": 1.1005859375,
      "reward_std": 0.31636473536491394,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.005859375,
      "rewards/format_reward/std": 0.07639661431312561,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.16208821535110474,
      "step": 1816
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 706.587890625,
      "completions/mean_terminated_length": 693.3590087890625,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.620295297431083,
      "grad_norm": 3.937330961227417,
      "kl": 4.12890625,
      "learning_rate": 4.411467110317031e-07,
      "loss": 0.2508,
      "num_tokens": 1037837235.0,
      "reward": 0.98828125,
      "reward_std": 0.24135613441467285,
      "rewards/accuracy_reward/mean": 0.03515625,
      "rewards/accuracy_reward/std": 0.1843547374010086,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.1684509813785553,
      "step": 1817
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 670.060546875,
      "completions/mean_terminated_length": 659.2106323242188,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.6206366817444738,
      "grad_norm": 3.414802312850952,
      "kl": 3.91796875,
      "learning_rate": 4.4062640442427534e-07,
      "loss": 0.233,
      "num_tokens": 1038264626.0,
      "reward": 1.078125,
      "reward_std": 0.2918456196784973,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.021484375,
      "rewards/format_reward/std": 0.14513419568538666,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.17486365139484406,
      "step": 1818
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 727.689453125,
      "completions/mean_terminated_length": 725.1056518554688,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.6209780660578647,
      "grad_norm": 3.517559766769409,
      "kl": 2.4765625,
      "learning_rate": 4.401062531704658e-07,
      "loss": 0.1416,
      "num_tokens": 1038718979.0,
      "reward": 1.05615234375,
      "reward_std": 0.25288447737693787,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.95849609375,
      "rewards/tag_count_reward/std": 0.1385241001844406,
      "step": 1819
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1812.0,
      "completions/mean_length": 742.3515625,
      "completions/mean_terminated_length": 734.6561889648438,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.6213194503712555,
      "grad_norm": 3.004946231842041,
      "kl": 3.15625,
      "learning_rate": 4.3958625800909365e-07,
      "loss": 0.2226,
      "num_tokens": 1039175287.0,
      "reward": 1.07666015625,
      "reward_std": 0.3101526200771332,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.0234375,
      "rewards/format_reward/std": 0.15143637359142303,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.17868997156620026,
      "step": 1820
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1995.0,
      "completions/mean_length": 760.146484375,
      "completions/mean_terminated_length": 742.2950439453125,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.6216608346846463,
      "grad_norm": 5.341542720794678,
      "kl": 2.9765625,
      "learning_rate": 4.3906641967875747e-07,
      "loss": 0.2179,
      "num_tokens": 1039650338.0,
      "reward": 1.02197265625,
      "reward_std": 0.2661270499229431,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0234375,
      "rewards/format_reward/std": 0.15143637359142303,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.17398646473884583,
      "step": 1821
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1868.0,
      "completions/mean_length": 781.55078125,
      "completions/mean_terminated_length": 779.0723876953125,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.6220022189980371,
      "grad_norm": 1.6218445301055908,
      "kl": 2.03515625,
      "learning_rate": 4.3854673891783224e-07,
      "loss": 0.1122,
      "num_tokens": 1040130940.0,
      "reward": 1.0263671875,
      "reward_std": 0.24079710245132446,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.9501953125,
      "rewards/tag_count_reward/std": 0.15470431745052338,
      "step": 1822
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1891.0,
      "completions/mean_length": 714.837890625,
      "completions/mean_terminated_length": 704.340576171875,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.6223436033114278,
      "grad_norm": 6.91715145111084,
      "kl": 2.544921875,
      "learning_rate": 4.3802721646446985e-07,
      "loss": 0.1802,
      "num_tokens": 1040576409.0,
      "reward": 1.08349609375,
      "reward_std": 0.3270333409309387,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.01171875,
      "rewards/format_reward/std": 0.10772226005792618,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.16999182105064392,
      "step": 1823
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1917.0,
      "completions/max_terminated_length": 1917.0,
      "completions/mean_length": 723.931640625,
      "completions/mean_terminated_length": 723.931640625,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.6226849876248186,
      "grad_norm": 2.1370882987976074,
      "kl": 1.375,
      "learning_rate": 4.375078530565967e-07,
      "loss": 0.0735,
      "num_tokens": 1041021814.0,
      "reward": 1.072265625,
      "reward_std": 0.27255967259407043,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.021484375,
      "rewards/format_reward/std": 0.14513419568538666,
      "rewards/tag_count_reward/mean": 0.9609375,
      "rewards/tag_count_reward/std": 0.13701993227005005,
      "step": 1824
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1839.0,
      "completions/mean_length": 686.6875,
      "completions/mean_terminated_length": 684.0234985351562,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.6230263719382094,
      "grad_norm": 3.462764263153076,
      "kl": 1.99609375,
      "learning_rate": 4.369886494319137e-07,
      "loss": 0.1253,
      "num_tokens": 1041444246.0,
      "reward": 1.08203125,
      "reward_std": 0.27302008867263794,
      "rewards/accuracy_reward/mean": 0.11895161122083664,
      "rewards/accuracy_reward/std": 0.3240584135055542,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.95703125,
      "rewards/tag_count_reward/std": 0.13493992388248444,
      "step": 1825
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1965.0,
      "completions/mean_length": 766.158203125,
      "completions/mean_terminated_length": 758.6031494140625,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.6233677562516002,
      "grad_norm": 5.409436225891113,
      "kl": 2.724609375,
      "learning_rate": 4.3646960632789444e-07,
      "loss": 0.183,
      "num_tokens": 1041912983.0,
      "reward": 1.125,
      "reward_std": 0.3496522903442383,
      "rewards/accuracy_reward/mean": 0.169921875,
      "rewards/accuracy_reward/std": 0.3759314715862274,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.935546875,
      "rewards/tag_count_reward/std": 0.17693878710269928,
      "step": 1826
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1775.0,
      "completions/mean_length": 751.421875,
      "completions/mean_terminated_length": 741.2125854492188,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.623709140564991,
      "grad_norm": 3.115943193435669,
      "kl": 2.564453125,
      "learning_rate": 4.3595072448178505e-07,
      "loss": 0.1921,
      "num_tokens": 1042372463.0,
      "reward": 1.0478515625,
      "reward_std": 0.27128899097442627,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.009765625,
      "rewards/format_reward/std": 0.09843364357948303,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.17378656566143036,
      "step": 1827
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1984.0,
      "completions/mean_length": 765.251953125,
      "completions/mean_terminated_length": 760.2216186523438,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.6240505248783819,
      "grad_norm": 6.244734764099121,
      "kl": 2.486328125,
      "learning_rate": 4.3543200463060183e-07,
      "loss": 0.1403,
      "num_tokens": 1042845856.0,
      "reward": 1.09375,
      "reward_std": 0.25592657923698425,
      "rewards/accuracy_reward/mean": 0.11491935700178146,
      "rewards/accuracy_reward/std": 0.3192465901374817,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.953125,
      "rewards/tag_count_reward/std": 0.1467188447713852,
      "step": 1828
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1667.0,
      "completions/mean_length": 741.560546875,
      "completions/mean_terminated_length": 736.4373168945312,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.6243919091917727,
      "grad_norm": 2.166569232940674,
      "kl": 2.05078125,
      "learning_rate": 4.349134475111319e-07,
      "loss": 0.095,
      "num_tokens": 1043301151.0,
      "reward": 0.99951171875,
      "reward_std": 0.2247733622789383,
      "rewards/accuracy_reward/mean": 0.03125,
      "rewards/accuracy_reward/std": 0.17416280508041382,
      "rewards/format_reward/mean": 0.021484375,
      "rewards/format_reward/std": 0.14513419568538666,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.16170679032802582,
      "step": 1829
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1948.0,
      "completions/mean_length": 725.310546875,
      "completions/mean_terminated_length": 722.7221069335938,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.6247332935051635,
      "grad_norm": 3.723933458328247,
      "kl": 2.40234375,
      "learning_rate": 4.343950538599305e-07,
      "loss": 0.1616,
      "num_tokens": 1043749246.0,
      "reward": 1.09619140625,
      "reward_std": 0.2847236394882202,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.0234375,
      "rewards/format_reward/std": 0.15143637359142303,
      "rewards/tag_count_reward/mean": 0.95556640625,
      "rewards/tag_count_reward/std": 0.14789213240146637,
      "step": 1830
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1678.0,
      "completions/mean_length": 713.478515625,
      "completions/mean_terminated_length": 708.2451171875,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.6250746778185542,
      "grad_norm": 2.8965001106262207,
      "kl": 2.599609375,
      "learning_rate": 4.338768244133212e-07,
      "loss": 0.165,
      "num_tokens": 1044197683.0,
      "reward": 1.14453125,
      "reward_std": 0.31257838010787964,
      "rewards/accuracy_reward/mean": 0.181640625,
      "rewards/accuracy_reward/std": 0.38592514395713806,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.9453125,
      "rewards/tag_count_reward/std": 0.16385014355182648,
      "step": 1831
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 789.892578125,
      "completions/mean_terminated_length": 779.9862060546875,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.625416062131945,
      "grad_norm": 4.079098224639893,
      "kl": 3.57421875,
      "learning_rate": 4.333587599073937e-07,
      "loss": 0.2137,
      "num_tokens": 1044685084.0,
      "reward": 1.04931640625,
      "reward_std": 0.28461208939552307,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.1788075864315033,
      "step": 1832
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1891.0,
      "completions/mean_length": 731.41015625,
      "completions/mean_terminated_length": 723.6503295898438,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.6257574464453358,
      "grad_norm": 4.378573417663574,
      "kl": 4.1640625,
      "learning_rate": 4.328408610780041e-07,
      "loss": 0.2409,
      "num_tokens": 1045139118.0,
      "reward": 1.0654296875,
      "reward_std": 0.3101952075958252,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.1889999359846115,
      "step": 1833
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 772.3671875,
      "completions/mean_terminated_length": 759.7869873046875,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.6260988307587266,
      "grad_norm": 3.3213179111480713,
      "kl": 3.4296875,
      "learning_rate": 4.323231286607727e-07,
      "loss": 0.2083,
      "num_tokens": 1045612394.0,
      "reward": 1.0009765625,
      "reward_std": 0.2565445303916931,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17864517867565155,
      "step": 1834
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 789.412109375,
      "completions/mean_terminated_length": 779.501953125,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.6264402150721174,
      "grad_norm": 6.338538646697998,
      "kl": 4.953125,
      "learning_rate": 4.3180556339108385e-07,
      "loss": 0.3012,
      "num_tokens": 1046094013.0,
      "reward": 1.0537109375,
      "reward_std": 0.3417166769504547,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.19093148410320282,
      "step": 1835
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1988.0,
      "completions/max_terminated_length": 1988.0,
      "completions/mean_length": 743.64453125,
      "completions/mean_terminated_length": 743.64453125,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.6267815993855083,
      "grad_norm": 4.289685249328613,
      "kl": 2.587890625,
      "learning_rate": 4.3128816600408393e-07,
      "loss": 0.1294,
      "num_tokens": 1046560407.0,
      "reward": 1.05224609375,
      "reward_std": 0.24506792426109314,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.03125,
      "rewards/format_reward/std": 0.17416280508041382,
      "rewards/tag_count_reward/mean": 0.95654296875,
      "rewards/tag_count_reward/std": 0.1456853747367859,
      "step": 1836
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1961.0,
      "completions/mean_length": 772.03515625,
      "completions/mean_terminated_length": 769.5381469726562,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.6271229836988991,
      "grad_norm": 3.7972774505615234,
      "kl": 3.54296875,
      "learning_rate": 4.307709372346816e-07,
      "loss": 0.1951,
      "num_tokens": 1047028297.0,
      "reward": 1.01904296875,
      "reward_std": 0.30611443519592285,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0234375,
      "rewards/format_reward/std": 0.15143637359142303,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.19357748329639435,
      "step": 1837
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1657.0,
      "completions/mean_length": 758.759765625,
      "completions/mean_terminated_length": 748.6082763671875,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.6274643680122899,
      "grad_norm": 2.0366618633270264,
      "kl": 3.2109375,
      "learning_rate": 4.302538778175452e-07,
      "loss": 0.2163,
      "num_tokens": 1047491710.0,
      "reward": 1.0625,
      "reward_std": 0.28369539976119995,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.03125,
      "rewards/format_reward/std": 0.17416280508041382,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.1607295721769333,
      "step": 1838
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1965.0,
      "completions/max_terminated_length": 1965.0,
      "completions/mean_length": 751.966796875,
      "completions/mean_terminated_length": 751.966796875,
      "completions/min_length": 71.0,
      "completions/min_terminated_length": 71.0,
      "epoch": 0.6278057523256806,
      "grad_norm": 6.083302974700928,
      "kl": 1.662109375,
      "learning_rate": 4.2973698848710293e-07,
      "loss": 0.0744,
      "num_tokens": 1047953325.0,
      "reward": 1.1044921875,
      "reward_std": 0.272316575050354,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.9638671875,
      "rewards/tag_count_reward/std": 0.1286429464817047,
      "step": 1839
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1805.0,
      "completions/mean_length": 733.283203125,
      "completions/mean_terminated_length": 725.534423828125,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.6281471366390714,
      "grad_norm": 4.441151142120361,
      "kl": 2.404296875,
      "learning_rate": 4.2922026997754156e-07,
      "loss": 0.1194,
      "num_tokens": 1048398238.0,
      "reward": 1.0546875,
      "reward_std": 0.2719019949436188,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0234375,
      "rewards/format_reward/std": 0.15143637359142303,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.16393177211284637,
      "step": 1840
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 756.84765625,
      "completions/mean_terminated_length": 754.3209228515625,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.6284885209524622,
      "grad_norm": 3.5273263454437256,
      "kl": 2.5546875,
      "learning_rate": 4.28703723022805e-07,
      "loss": 0.1617,
      "num_tokens": 1048866784.0,
      "reward": 1.0771484375,
      "reward_std": 0.3079281449317932,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.16951124370098114,
      "step": 1841
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1969.0,
      "completions/mean_length": 826.09375,
      "completions/mean_terminated_length": 823.7025146484375,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "epoch": 0.628829905265853,
      "grad_norm": 5.309321403503418,
      "kl": 2.126953125,
      "learning_rate": 4.2818734835659355e-07,
      "loss": 0.1128,
      "num_tokens": 1049366592.0,
      "reward": 1.076171875,
      "reward_std": 0.31113630533218384,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.18369008600711823,
      "step": 1842
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1779.0,
      "completions/max_terminated_length": 1779.0,
      "completions/mean_length": 787.052734375,
      "completions/mean_terminated_length": 787.052734375,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.6291712895792438,
      "grad_norm": 2.3830864429473877,
      "kl": 1.587890625,
      "learning_rate": 4.276711467123628e-07,
      "loss": 0.0955,
      "num_tokens": 1049837291.0,
      "reward": 1.08837890625,
      "reward_std": 0.2593773305416107,
      "rewards/accuracy_reward/mean": 0.0927419364452362,
      "rewards/accuracy_reward/std": 0.2903633117675781,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.96337890625,
      "rewards/tag_count_reward/std": 0.13179369270801544,
      "step": 1843
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1984.0,
      "completions/mean_length": 718.642578125,
      "completions/mean_terminated_length": 716.0410766601562,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.6295126738926347,
      "grad_norm": 3.440014123916626,
      "kl": 2.0625,
      "learning_rate": 4.271551188233224e-07,
      "loss": 0.0945,
      "num_tokens": 1050281220.0,
      "reward": 1.1240234375,
      "reward_std": 0.284148246049881,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.9638671875,
      "rewards/tag_count_reward/std": 0.13146430253982544,
      "step": 1844
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1828.0,
      "completions/mean_length": 733.169921875,
      "completions/mean_terminated_length": 730.5968627929688,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.6298540582060255,
      "grad_norm": 6.286828994750977,
      "kl": 1.501953125,
      "learning_rate": 4.2663926542243555e-07,
      "loss": 0.098,
      "num_tokens": 1050728539.0,
      "reward": 1.07568359375,
      "reward_std": 0.2769525647163391,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0234375,
      "rewards/format_reward/std": 0.15143637359142303,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.16691738367080688,
      "step": 1845
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 801.595703125,
      "completions/mean_terminated_length": 799.1565551757812,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.6301954425194163,
      "grad_norm": 3.196523666381836,
      "kl": 2.423828125,
      "learning_rate": 4.261235872424173e-07,
      "loss": 0.1337,
      "num_tokens": 1051219916.0,
      "reward": 1.1005859375,
      "reward_std": 0.31296324729919434,
      "rewards/accuracy_reward/mean": 0.1270161271095276,
      "rewards/accuracy_reward/std": 0.3333272337913513,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.9482421875,
      "rewards/tag_count_reward/std": 0.1548524796962738,
      "step": 1846
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1994.0,
      "completions/mean_length": 754.048828125,
      "completions/mean_terminated_length": 748.9745483398438,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.630536826832807,
      "grad_norm": 2.4521005153656006,
      "kl": 1.791015625,
      "learning_rate": 4.2560808501573395e-07,
      "loss": 0.0724,
      "num_tokens": 1051677877.0,
      "reward": 1.076171875,
      "reward_std": 0.29641374945640564,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.021484375,
      "rewards/format_reward/std": 0.14513419568538666,
      "rewards/tag_count_reward/mean": 0.955078125,
      "rewards/tag_count_reward/std": 0.14979958534240723,
      "step": 1847
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1663.0,
      "completions/max_terminated_length": 1663.0,
      "completions/mean_length": 738.46875,
      "completions/mean_terminated_length": 738.46875,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.6308782111461978,
      "grad_norm": 1.9718989133834839,
      "kl": 1.6494140625,
      "learning_rate": 4.250927594746018e-07,
      "loss": 0.0816,
      "num_tokens": 1052129413.0,
      "reward": 1.04443359375,
      "reward_std": 0.28246134519577026,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.95068359375,
      "rewards/tag_count_reward/std": 0.15446557104587555,
      "step": 1848
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 808.255859375,
      "completions/mean_terminated_length": 793.5553588867188,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.6312195954595886,
      "grad_norm": 5.427484512329102,
      "kl": 2.71484375,
      "learning_rate": 4.2457761135098644e-07,
      "loss": 0.1676,
      "num_tokens": 1052622344.0,
      "reward": 1.041015625,
      "reward_std": 0.31342387199401855,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.189265176653862,
      "step": 1849
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1991.0,
      "completions/max_terminated_length": 1991.0,
      "completions/mean_length": 756.81640625,
      "completions/mean_terminated_length": 756.81640625,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.6315609797729794,
      "grad_norm": 2.435065984725952,
      "kl": 1.845703125,
      "learning_rate": 4.2406264137660106e-07,
      "loss": 0.0788,
      "num_tokens": 1053105450.0,
      "reward": 1.06103515625,
      "reward_std": 0.2741588056087494,
      "rewards/accuracy_reward/mean": 0.08064515888690948,
      "rewards/accuracy_reward/std": 0.2725643217563629,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.94970703125,
      "rewards/tag_count_reward/std": 0.15806719660758972,
      "step": 1850
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1981.0,
      "completions/mean_length": 766.275390625,
      "completions/mean_terminated_length": 758.7210693359375,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.6319023640863702,
      "grad_norm": 2.4755587577819824,
      "kl": 2.18359375,
      "learning_rate": 4.235478502829062e-07,
      "loss": 0.1645,
      "num_tokens": 1053575767.0,
      "reward": 1.1064453125,
      "reward_std": 0.34935909509658813,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.021484375,
      "rewards/format_reward/std": 0.14513419568538666,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.17521031200885773,
      "step": 1851
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 822.345703125,
      "completions/mean_terminated_length": 815.121826171875,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.632243748399761,
      "grad_norm": 4.414604187011719,
      "kl": 2.36328125,
      "learning_rate": 4.23033238801108e-07,
      "loss": 0.1116,
      "num_tokens": 1054072584.0,
      "reward": 1.08203125,
      "reward_std": 0.2705024480819702,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.951171875,
      "rewards/tag_count_reward/std": 0.15182708203792572,
      "step": 1852
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1836.0,
      "completions/mean_length": 774.818359375,
      "completions/mean_terminated_length": 767.3143920898438,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.6325851327131519,
      "grad_norm": 2.869246006011963,
      "kl": 3.03125,
      "learning_rate": 4.2251880766215764e-07,
      "loss": 0.2154,
      "num_tokens": 1054559307.0,
      "reward": 1.005859375,
      "reward_std": 0.2485184371471405,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.1698969453573227,
      "step": 1853
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1885.0,
      "completions/mean_length": 834.44140625,
      "completions/mean_terminated_length": 827.288818359375,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.6329265170265427,
      "grad_norm": 2.5125839710235596,
      "kl": 2.43359375,
      "learning_rate": 4.220045575967499e-07,
      "loss": 0.1682,
      "num_tokens": 1055060925.0,
      "reward": 1.0732421875,
      "reward_std": 0.2804592251777649,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.9501953125,
      "rewards/tag_count_reward/std": 0.15069948136806488,
      "step": 1854
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1717.0,
      "completions/mean_length": 730.72265625,
      "completions/mean_terminated_length": 725.556884765625,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.6332679013399334,
      "grad_norm": 2.4686412811279297,
      "kl": 3.24609375,
      "learning_rate": 4.2149048933532306e-07,
      "loss": 0.2033,
      "num_tokens": 1055512271.0,
      "reward": 1.0146484375,
      "reward_std": 0.24637790024280548,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.17660093307495117,
      "step": 1855
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1752.0,
      "completions/mean_length": 752.13671875,
      "completions/mean_terminated_length": 747.054931640625,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "epoch": 0.6336092856533242,
      "grad_norm": 6.214570999145508,
      "kl": 4.00390625,
      "learning_rate": 4.209766036080562e-07,
      "loss": 0.2067,
      "num_tokens": 1055972021.0,
      "reward": 1.037109375,
      "reward_std": 0.30608439445495605,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.021484375,
      "rewards/format_reward/std": 0.14513419568538666,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.18652920424938202,
      "step": 1856
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 722.705078125,
      "completions/mean_terminated_length": 714.8939208984375,
      "completions/min_length": 88.0,
      "completions/min_terminated_length": 88.0,
      "epoch": 0.633950669966715,
      "grad_norm": 11.045815467834473,
      "kl": 4.73828125,
      "learning_rate": 4.2046290114486993e-07,
      "loss": 0.2426,
      "num_tokens": 1056423070.0,
      "reward": 1.052734375,
      "reward_std": 0.3256292939186096,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.1910640448331833,
      "step": 1857
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1987.0,
      "completions/mean_length": 769.69921875,
      "completions/mean_terminated_length": 751.980224609375,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.6342920542801058,
      "grad_norm": 3.6696245670318604,
      "kl": 4.578125,
      "learning_rate": 4.19949382675424e-07,
      "loss": 0.2662,
      "num_tokens": 1056893508.0,
      "reward": 1.0439453125,
      "reward_std": 0.30018579959869385,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.17913658916950226,
      "step": 1858
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1900.0,
      "completions/mean_length": 669.791015625,
      "completions/mean_terminated_length": 658.93896484375,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.6346334385934966,
      "grad_norm": 2.9222052097320557,
      "kl": 3.73828125,
      "learning_rate": 4.1943604892911744e-07,
      "loss": 0.2572,
      "num_tokens": 1057311801.0,
      "reward": 1.06982421875,
      "reward_std": 0.2826596200466156,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.16028828918933868,
      "step": 1859
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1731.0,
      "completions/mean_length": 764.890625,
      "completions/mean_terminated_length": 754.7874145507812,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.6349748229068874,
      "grad_norm": 9.997632026672363,
      "kl": 3.25390625,
      "learning_rate": 4.1892290063508596e-07,
      "loss": 0.1433,
      "num_tokens": 1057784801.0,
      "reward": 1.09033203125,
      "reward_std": 0.3576526641845703,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.16897699236869812,
      "step": 1860
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2043.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 763.3046875,
      "completions/mean_terminated_length": 763.3046875,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.6353162072202783,
      "grad_norm": 5.027781963348389,
      "kl": 2.533203125,
      "learning_rate": 4.1840993852220284e-07,
      "loss": 0.1987,
      "num_tokens": 1058263469.0,
      "reward": 1.02197265625,
      "reward_std": 0.19869840145111084,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.96142578125,
      "rewards/tag_count_reward/std": 0.12648846209049225,
      "step": 1861
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1910.0,
      "completions/mean_length": 787.03125,
      "completions/mean_terminated_length": 784.5635986328125,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.6356575915336691,
      "grad_norm": 1.810512661933899,
      "kl": 2.578125,
      "learning_rate": 4.178971633190762e-07,
      "loss": 0.151,
      "num_tokens": 1058741565.0,
      "reward": 1.07666015625,
      "reward_std": 0.2865458130836487,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0234375,
      "rewards/format_reward/std": 0.15143637359142303,
      "rewards/tag_count_reward/mean": 0.94189453125,
      "rewards/tag_count_reward/std": 0.16077639162540436,
      "step": 1862
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1911.0,
      "completions/mean_length": 710.56640625,
      "completions/mean_terminated_length": 705.3215942382812,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.6359989758470598,
      "grad_norm": 3.8119871616363525,
      "kl": 3.1953125,
      "learning_rate": 4.173845757540493e-07,
      "loss": 0.1931,
      "num_tokens": 1059182367.0,
      "reward": 1.1201171875,
      "reward_std": 0.35426056385040283,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.1702537089586258,
      "step": 1863
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1772.0,
      "completions/mean_length": 781.9453125,
      "completions/mean_terminated_length": 779.4677124023438,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.6363403601604506,
      "grad_norm": 3.6843318939208984,
      "kl": 2.814453125,
      "learning_rate": 4.1687217655519813e-07,
      "loss": 0.1615,
      "num_tokens": 1059660035.0,
      "reward": 1.12939453125,
      "reward_std": 0.357856810092926,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.94189453125,
      "rewards/tag_count_reward/std": 0.1615353375673294,
      "step": 1864
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2016.0,
      "completions/mean_length": 760.0703125,
      "completions/mean_terminated_length": 752.4793701171875,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.6366817444738414,
      "grad_norm": 5.010125160217285,
      "kl": 2.537109375,
      "learning_rate": 4.163599664503319e-07,
      "loss": 0.1691,
      "num_tokens": 1060135479.0,
      "reward": 1.0888671875,
      "reward_std": 0.3207041621208191,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.1765792965888977,
      "step": 1865
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1982.0,
      "completions/mean_length": 716.484375,
      "completions/mean_terminated_length": 713.878662109375,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.6370231287872322,
      "grad_norm": 2.8067944049835205,
      "kl": 2.197265625,
      "learning_rate": 4.158479461669905e-07,
      "loss": 0.1318,
      "num_tokens": 1060577023.0,
      "reward": 1.0625,
      "reward_std": 0.28924068808555603,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.94921875,
      "rewards/tag_count_reward/std": 0.15596230328083038,
      "step": 1866
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1901.0,
      "completions/mean_length": 683.732421875,
      "completions/mean_terminated_length": 675.6915893554688,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.637364513100623,
      "grad_norm": 5.638597011566162,
      "kl": 2.3671875,
      "learning_rate": 4.1533611643244484e-07,
      "loss": 0.1841,
      "num_tokens": 1061003110.0,
      "reward": 1.09130859375,
      "reward_std": 0.2875339388847351,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.025390625,
      "rewards/format_reward/std": 0.15746226906776428,
      "rewards/tag_count_reward/mean": 0.95263671875,
      "rewards/tag_count_reward/std": 0.15188921988010406,
      "step": 1867
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 767.98046875,
      "completions/mean_terminated_length": 762.9608154296875,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.6377058974140138,
      "grad_norm": 5.758982181549072,
      "kl": 3.06640625,
      "learning_rate": 4.148244779736946e-07,
      "loss": 0.1665,
      "num_tokens": 1061470828.0,
      "reward": 1.1572265625,
      "reward_std": 0.3125010132789612,
      "rewards/accuracy_reward/mean": 0.18359375,
      "rewards/accuracy_reward/std": 0.3875311613082886,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.18003050982952118,
      "step": 1868
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1727.0,
      "completions/mean_length": 740.34375,
      "completions/mean_terminated_length": 732.6365966796875,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.6380472817274047,
      "grad_norm": 4.374019145965576,
      "kl": 2.48046875,
      "learning_rate": 4.143130315174683e-07,
      "loss": 0.1259,
      "num_tokens": 1061927948.0,
      "reward": 1.13818359375,
      "reward_std": 0.31949272751808167,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.94873046875,
      "rewards/tag_count_reward/std": 0.16082392632961273,
      "step": 1869
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1759.0,
      "completions/mean_length": 746.935546875,
      "completions/mean_terminated_length": 736.69091796875,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.6383886660407955,
      "grad_norm": 4.042114734649658,
      "kl": 1.990234375,
      "learning_rate": 4.138017777902214e-07,
      "loss": 0.1029,
      "num_tokens": 1062402107.0,
      "reward": 1.07421875,
      "reward_std": 0.31056299805641174,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.025390625,
      "rewards/format_reward/std": 0.15746226906776428,
      "rewards/tag_count_reward/mean": 0.953125,
      "rewards/tag_count_reward/std": 0.15163815021514893,
      "step": 1870
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1997.0,
      "completions/mean_length": 734.103515625,
      "completions/mean_terminated_length": 728.9510498046875,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.6387300503541862,
      "grad_norm": 2.9361367225646973,
      "kl": 2.072265625,
      "learning_rate": 4.1329071751813606e-07,
      "loss": 0.1065,
      "num_tokens": 1062858928.0,
      "reward": 1.14208984375,
      "reward_std": 0.3141011595726013,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.0234375,
      "rewards/format_reward/std": 0.15143637359142303,
      "rewards/tag_count_reward/mean": 0.95458984375,
      "rewards/tag_count_reward/std": 0.14592784643173218,
      "step": 1871
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 714.966796875,
      "completions/mean_terminated_length": 709.7392578125,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.639071434667577,
      "grad_norm": 6.739040851593018,
      "kl": 2.357421875,
      "learning_rate": 4.127798514271187e-07,
      "loss": 0.1246,
      "num_tokens": 1063299615.0,
      "reward": 1.0751953125,
      "reward_std": 0.27408266067504883,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.9501953125,
      "rewards/tag_count_reward/std": 0.1570582091808319,
      "step": 1872
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1951.0,
      "completions/mean_length": 751.359375,
      "completions/mean_terminated_length": 746.2745361328125,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.6394128189809678,
      "grad_norm": 2.6407740116119385,
      "kl": 2.4140625,
      "learning_rate": 4.122691802428011e-07,
      "loss": 0.1392,
      "num_tokens": 1063754487.0,
      "reward": 1.125,
      "reward_std": 0.33741819858551025,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.16762074828147888,
      "step": 1873
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1943.0,
      "completions/mean_length": 758.544921875,
      "completions/mean_terminated_length": 753.48828125,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.6397542032943586,
      "grad_norm": 2.9055283069610596,
      "kl": 2.29296875,
      "learning_rate": 4.117587046905372e-07,
      "loss": 0.1628,
      "num_tokens": 1064222382.0,
      "reward": 0.99755859375,
      "reward_std": 0.25872889161109924,
      "rewards/accuracy_reward/mean": 0.03629032149910927,
      "rewards/accuracy_reward/std": 0.1872003972530365,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17502138018608093,
      "step": 1874
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 729.14453125,
      "completions/mean_terminated_length": 708.2103881835938,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.6400955876077494,
      "grad_norm": 2.852483034133911,
      "kl": 3.47265625,
      "learning_rate": 4.112484254954038e-07,
      "loss": 0.2315,
      "num_tokens": 1064681720.0,
      "reward": 1.044921875,
      "reward_std": 0.2961057424545288,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.1720430850982666,
      "step": 1875
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1879.0,
      "completions/max_terminated_length": 1879.0,
      "completions/mean_length": 704.23828125,
      "completions/mean_terminated_length": 704.23828125,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.6404369719211402,
      "grad_norm": 6.543737888336182,
      "kl": 1.83984375,
      "learning_rate": 4.1073834338219827e-07,
      "loss": 0.1258,
      "num_tokens": 1065112818.0,
      "reward": 1.064453125,
      "reward_std": 0.28870296478271484,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.025390625,
      "rewards/format_reward/std": 0.15746226906776428,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.16299647092819214,
      "step": 1876
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 825.724609375,
      "completions/mean_terminated_length": 813.6705932617188,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.640778356234531,
      "grad_norm": 6.474228858947754,
      "kl": 3.39453125,
      "learning_rate": 4.1022845907543835e-07,
      "loss": 0.2233,
      "num_tokens": 1065612037.0,
      "reward": 1.0458984375,
      "reward_std": 0.3379908800125122,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.9189453125,
      "rewards/tag_count_reward/std": 0.20034818351268768,
      "step": 1877
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1969.0,
      "completions/mean_length": 715.380859375,
      "completions/mean_terminated_length": 710.1549682617188,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.6411197405479219,
      "grad_norm": 3.2534339427948,
      "kl": 2.259765625,
      "learning_rate": 4.097187732993611e-07,
      "loss": 0.1321,
      "num_tokens": 1066054872.0,
      "reward": 1.0419921875,
      "reward_std": 0.2746192514896393,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.9541015625,
      "rewards/tag_count_reward/std": 0.1445106863975525,
      "step": 1878
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1893.0,
      "completions/mean_length": 747.1640625,
      "completions/mean_terminated_length": 739.4970703125,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.6414611248613126,
      "grad_norm": 4.012604236602783,
      "kl": 2.330078125,
      "learning_rate": 4.0920928677792067e-07,
      "loss": 0.1503,
      "num_tokens": 1066505420.0,
      "reward": 1.03466796875,
      "reward_std": 0.2672814726829529,
      "rewards/accuracy_reward/mean": 0.08064515888690948,
      "rewards/accuracy_reward/std": 0.2725643217563629,
      "rewards/format_reward/mean": 0.013671875,
      "rewards/format_reward/std": 0.1162383034825325,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.1588330715894699,
      "step": 1879
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1987.0,
      "completions/mean_length": 753.23828125,
      "completions/mean_terminated_length": 740.4694213867188,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.6418025091747034,
      "grad_norm": 5.674792289733887,
      "kl": 2.80859375,
      "learning_rate": 4.08700000234789e-07,
      "loss": 0.1879,
      "num_tokens": 1066976502.0,
      "reward": 1.1240234375,
      "reward_std": 0.2948102355003357,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.025390625,
      "rewards/format_reward/std": 0.15746226906776428,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.16648533940315247,
      "step": 1880
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1805.0,
      "completions/mean_length": 733.0703125,
      "completions/mean_terminated_length": 725.3202514648438,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.6421438934880942,
      "grad_norm": 2.302811622619629,
      "kl": 2.1650390625,
      "learning_rate": 4.081909143933536e-07,
      "loss": 0.1217,
      "num_tokens": 1067428762.0,
      "reward": 1.04296875,
      "reward_std": 0.25573617219924927,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.16840559244155884,
      "step": 1881
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1732.0,
      "completions/mean_length": 733.962890625,
      "completions/mean_terminated_length": 728.8098754882812,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.642485277801485,
      "grad_norm": 5.937273025512695,
      "kl": 2.890625,
      "learning_rate": 4.076820299767173e-07,
      "loss": 0.1737,
      "num_tokens": 1067885591.0,
      "reward": 1.1005859375,
      "reward_std": 0.3303375542163849,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.9501953125,
      "rewards/tag_count_reward/std": 0.155492901802063,
      "step": 1882
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1917.0,
      "completions/mean_length": 753.779296875,
      "completions/mean_terminated_length": 743.5885620117188,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.6428266621148758,
      "grad_norm": 3.903597593307495,
      "kl": 2.572265625,
      "learning_rate": 4.0717334770769627e-07,
      "loss": 0.1822,
      "num_tokens": 1068352918.0,
      "reward": 1.08544921875,
      "reward_std": 0.3102695643901825,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.17221449315547943,
      "step": 1883
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1980.0,
      "completions/mean_length": 788.97265625,
      "completions/mean_terminated_length": 779.05908203125,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.6431680464282666,
      "grad_norm": 3.0366134643554688,
      "kl": 2.525390625,
      "learning_rate": 4.066648683088203e-07,
      "loss": 0.1695,
      "num_tokens": 1068834744.0,
      "reward": 1.11669921875,
      "reward_std": 0.29594817757606506,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.025390625,
      "rewards/format_reward/std": 0.15746226906776428,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.16628073155879974,
      "step": 1884
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 798.880859375,
      "completions/mean_terminated_length": 793.982421875,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.6435094307416575,
      "grad_norm": 4.649672985076904,
      "kl": 3.259765625,
      "learning_rate": 4.0615659250232993e-07,
      "loss": 0.2115,
      "num_tokens": 1069325483.0,
      "reward": 1.021484375,
      "reward_std": 0.24730777740478516,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0234375,
      "rewards/format_reward/std": 0.15143637359142303,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.18037252128124237,
      "step": 1885
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1985.0,
      "completions/mean_length": 748.326171875,
      "completions/mean_terminated_length": 735.5089111328125,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.6438508150550483,
      "grad_norm": 2.148470163345337,
      "kl": 2.80078125,
      "learning_rate": 4.0564852101017754e-07,
      "loss": 0.1861,
      "num_tokens": 1069784898.0,
      "reward": 1.16015625,
      "reward_std": 0.29293882846832275,
      "rewards/accuracy_reward/mean": 0.181640625,
      "rewards/accuracy_reward/std": 0.38592514395713806,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.951171875,
      "rewards/tag_count_reward/std": 0.15658599138259888,
      "step": 1886
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1739.0,
      "completions/mean_length": 767.845703125,
      "completions/mean_terminated_length": 755.220947265625,
      "completions/min_length": 87.0,
      "completions/min_terminated_length": 87.0,
      "epoch": 0.644192199368439,
      "grad_norm": 2.846689462661743,
      "kl": 2.341796875,
      "learning_rate": 4.051406545540248e-07,
      "loss": 0.1499,
      "num_tokens": 1070262227.0,
      "reward": 1.07861328125,
      "reward_std": 0.2663132846355438,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.021484375,
      "rewards/format_reward/std": 0.14513419568538666,
      "rewards/tag_count_reward/mean": 0.94970703125,
      "rewards/tag_count_reward/std": 0.15414974093437195,
      "step": 1887
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1855.0,
      "completions/mean_length": 726.455078125,
      "completions/mean_terminated_length": 716.0491943359375,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.6445335836818298,
      "grad_norm": 5.727444171905518,
      "kl": 3.158203125,
      "learning_rate": 4.046329938552424e-07,
      "loss": 0.1719,
      "num_tokens": 1070707996.0,
      "reward": 1.0341796875,
      "reward_std": 0.2779213786125183,
      "rewards/accuracy_reward/mean": 0.04296875,
      "rewards/accuracy_reward/std": 0.2029850035905838,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.1672869324684143,
      "step": 1888
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1870.0,
      "completions/mean_length": 707.712890625,
      "completions/mean_terminated_length": 702.4569091796875,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.6448749679952206,
      "grad_norm": 6.767913341522217,
      "kl": 2.8046875,
      "learning_rate": 4.041255396349085e-07,
      "loss": 0.1232,
      "num_tokens": 1071148057.0,
      "reward": 1.015625,
      "reward_std": 0.24684959650039673,
      "rewards/accuracy_reward/mean": 0.04296875,
      "rewards/accuracy_reward/std": 0.2029850035905838,
      "rewards/format_reward/mean": 0.025390625,
      "rewards/format_reward/std": 0.15746226906776428,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.15920037031173706,
      "step": 1889
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 737.830078125,
      "completions/mean_terminated_length": 732.6921997070312,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.6452163523086114,
      "grad_norm": 5.358652114868164,
      "kl": 3.078125,
      "learning_rate": 4.036182926138082e-07,
      "loss": 0.1542,
      "num_tokens": 1071596626.0,
      "reward": 1.07275390625,
      "reward_std": 0.2963595986366272,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.94384765625,
      "rewards/tag_count_reward/std": 0.16521421074867249,
      "step": 1890
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1989.0,
      "completions/mean_length": 776.578125,
      "completions/mean_terminated_length": 774.0900268554688,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.6455577366220022,
      "grad_norm": 15.217375755310059,
      "kl": 3.2109375,
      "learning_rate": 4.03111253512432e-07,
      "loss": 0.1232,
      "num_tokens": 1072072058.0,
      "reward": 1.08203125,
      "reward_std": 0.3244349956512451,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.16523228585720062,
      "step": 1891
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1979.0,
      "completions/mean_length": 815.859375,
      "completions/mean_terminated_length": 808.5972900390625,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.645899120935393,
      "grad_norm": 3.4547815322875977,
      "kl": 2.580078125,
      "learning_rate": 4.0260442305097574e-07,
      "loss": 0.1687,
      "num_tokens": 1072568066.0,
      "reward": 1.0244140625,
      "reward_std": 0.27615582942962646,
      "rewards/accuracy_reward/mean": 0.05645161122083664,
      "rewards/accuracy_reward/std": 0.23102474212646484,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.17237325012683868,
      "step": 1892
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1971.0,
      "completions/max_terminated_length": 1971.0,
      "completions/mean_length": 744.0625,
      "completions/mean_terminated_length": 744.0625,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.6462405052487838,
      "grad_norm": 7.716210842132568,
      "kl": 2.43359375,
      "learning_rate": 4.0209780194933796e-07,
      "loss": 0.197,
      "num_tokens": 1073032274.0,
      "reward": 1.07666015625,
      "reward_std": 0.2412114441394806,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.015625,
      "rewards/format_reward/std": 0.12414088100194931,
      "rewards/tag_count_reward/mean": 0.95361328125,
      "rewards/tag_count_reward/std": 0.14729003608226776,
      "step": 1893
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1798.0,
      "completions/mean_length": 772.779296875,
      "completions/mean_terminated_length": 767.7785034179688,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.6465818895621747,
      "grad_norm": 2.5311384201049805,
      "kl": 2.1484375,
      "learning_rate": 4.015913909271207e-07,
      "loss": 0.1087,
      "num_tokens": 1073501217.0,
      "reward": 1.07470703125,
      "reward_std": 0.29827556014060974,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.94189453125,
      "rewards/tag_count_reward/std": 0.16601619124412537,
      "step": 1894
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1956.0,
      "completions/mean_length": 828.41015625,
      "completions/mean_terminated_length": 816.3826293945312,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.6469232738755654,
      "grad_norm": 2.1754817962646484,
      "kl": 2.38671875,
      "learning_rate": 4.010851907036268e-07,
      "loss": 0.1485,
      "num_tokens": 1074006211.0,
      "reward": 1.146484375,
      "reward_std": 0.28077906370162964,
      "rewards/accuracy_reward/mean": 0.166015625,
      "rewards/accuracy_reward/std": 0.3724585771560669,
      "rewards/format_reward/mean": 0.0234375,
      "rewards/format_reward/std": 0.15143637359142303,
      "rewards/tag_count_reward/mean": 0.95703125,
      "rewards/tag_count_reward/std": 0.14200608432292938,
      "step": 1895
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1962.0,
      "completions/mean_length": 759.87109375,
      "completions/mean_terminated_length": 754.8196411132812,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.6472646581889562,
      "grad_norm": 2.0289859771728516,
      "kl": 2.078125,
      "learning_rate": 4.005792019978607e-07,
      "loss": 0.1013,
      "num_tokens": 1074481233.0,
      "reward": 1.150390625,
      "reward_std": 0.336341917514801,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.95703125,
      "rewards/tag_count_reward/std": 0.14791233837604523,
      "step": 1896
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1936.0,
      "completions/mean_length": 776.498046875,
      "completions/mean_terminated_length": 761.4209594726562,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.647606042502347,
      "grad_norm": 2.9222843647003174,
      "kl": 2.359375,
      "learning_rate": 4.000734255285252e-07,
      "loss": 0.1657,
      "num_tokens": 1074956624.0,
      "reward": 1.07568359375,
      "reward_std": 0.30586332082748413,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0234375,
      "rewards/format_reward/std": 0.15143637359142303,
      "rewards/tag_count_reward/mean": 0.94873046875,
      "rewards/tag_count_reward/std": 0.15697528421878815,
      "step": 1897
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1833.0,
      "completions/mean_length": 722.1875,
      "completions/mean_terminated_length": 716.98828125,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.6479474268157378,
      "grad_norm": 5.153934478759766,
      "kl": 2.10546875,
      "learning_rate": 3.995678620140227e-07,
      "loss": 0.1346,
      "num_tokens": 1075401504.0,
      "reward": 1.0634765625,
      "reward_std": 0.2519616484642029,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.9619140625,
      "rewards/tag_count_reward/std": 0.12997308373451233,
      "step": 1898
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1911.0,
      "completions/mean_length": 794.666015625,
      "completions/mean_terminated_length": 787.2789916992188,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.6482888111291286,
      "grad_norm": 2.8712620735168457,
      "kl": 2.03125,
      "learning_rate": 3.9906251217245234e-07,
      "loss": 0.1056,
      "num_tokens": 1075885077.0,
      "reward": 1.04736328125,
      "reward_std": 0.27815550565719604,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.94970703125,
      "rewards/tag_count_reward/std": 0.1549411565065384,
      "step": 1899
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1859.0,
      "completions/mean_length": 724.427734375,
      "completions/mean_terminated_length": 721.8375854492188,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.6486301954425194,
      "grad_norm": 2.0019853115081787,
      "kl": 2.72265625,
      "learning_rate": 3.985573767216104e-07,
      "loss": 0.1637,
      "num_tokens": 1076336512.0,
      "reward": 1.11083984375,
      "reward_std": 0.300670862197876,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.16018691658973694,
      "step": 1900
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1886.0,
      "completions/mean_length": 774.89453125,
      "completions/mean_terminated_length": 759.7984619140625,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.6489715797559102,
      "grad_norm": 1.9455697536468506,
      "kl": 3.20703125,
      "learning_rate": 3.980524563789881e-07,
      "loss": 0.1804,
      "num_tokens": 1076809114.0,
      "reward": 1.0556640625,
      "reward_std": 0.30967390537261963,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.17590700089931488,
      "step": 1901
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 777.01953125,
      "completions/mean_terminated_length": 772.0353393554688,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.6493129640693011,
      "grad_norm": 4.026853084564209,
      "kl": 2.80859375,
      "learning_rate": 3.975477518617716e-07,
      "loss": 0.152,
      "num_tokens": 1077283124.0,
      "reward": 1.07275390625,
      "reward_std": 0.30001622438430786,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.1689939647912979,
      "step": 1902
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1944.0,
      "completions/mean_length": 818.95703125,
      "completions/mean_terminated_length": 811.7131958007812,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.6496543483826919,
      "grad_norm": 2.2637829780578613,
      "kl": 2.580078125,
      "learning_rate": 3.9704326388683994e-07,
      "loss": 0.1264,
      "num_tokens": 1077782014.0,
      "reward": 1.08642578125,
      "reward_std": 0.32736116647720337,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.17398646473884583,
      "step": 1903
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 796.12890625,
      "completions/mean_terminated_length": 791.2196655273438,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.6499957326960826,
      "grad_norm": 4.218906402587891,
      "kl": 2.01953125,
      "learning_rate": 3.965389931707651e-07,
      "loss": 0.0882,
      "num_tokens": 1078268960.0,
      "reward": 1.099609375,
      "reward_std": 0.31150782108306885,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.953125,
      "rewards/tag_count_reward/std": 0.15483088791370392,
      "step": 1904
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1707.0,
      "completions/mean_length": 795.498046875,
      "completions/mean_terminated_length": 793.0469360351562,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.6503371170094734,
      "grad_norm": 2.017845869064331,
      "kl": 2.3203125,
      "learning_rate": 3.9603494042981e-07,
      "loss": 0.1258,
      "num_tokens": 1078754623.0,
      "reward": 1.0224609375,
      "reward_std": 0.3042353689670563,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.1765792965888977,
      "step": 1905
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1929.0,
      "completions/mean_length": 813.421875,
      "completions/mean_terminated_length": 808.5804443359375,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "epoch": 0.6506785013228642,
      "grad_norm": 1.6041759252548218,
      "kl": 1.958984375,
      "learning_rate": 3.955311063799287e-07,
      "loss": 0.0846,
      "num_tokens": 1079248919.0,
      "reward": 1.0732421875,
      "reward_std": 0.30848151445388794,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.025390625,
      "rewards/format_reward/std": 0.15746226906776428,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.16953378915786743,
      "step": 1906
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1895.0,
      "completions/mean_length": 752.515625,
      "completions/mean_terminated_length": 744.8801879882812,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.651019885636255,
      "grad_norm": 2.248253107070923,
      "kl": 2.5546875,
      "learning_rate": 3.950274917367638e-07,
      "loss": 0.1386,
      "num_tokens": 1079712511.0,
      "reward": 1.05810546875,
      "reward_std": 0.29562437534332275,
      "rewards/accuracy_reward/mean": 0.07708333432674408,
      "rewards/accuracy_reward/std": 0.2670018970966339,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.94873046875,
      "rewards/tag_count_reward/std": 0.1585259586572647,
      "step": 1907
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1935.0,
      "completions/mean_length": 805.080078125,
      "completions/mean_terminated_length": 802.6477661132812,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.6513612699496458,
      "grad_norm": 5.085806369781494,
      "kl": 2.7421875,
      "learning_rate": 3.9452409721564686e-07,
      "loss": 0.1775,
      "num_tokens": 1080196728.0,
      "reward": 1.07421875,
      "reward_std": 0.2965303063392639,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.17274148762226105,
      "step": 1908
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1930.0,
      "completions/mean_length": 816.642578125,
      "completions/mean_terminated_length": 806.9468383789062,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.6517026542630366,
      "grad_norm": 1.6927117109298706,
      "kl": 2.060546875,
      "learning_rate": 3.940209235315961e-07,
      "loss": 0.0926,
      "num_tokens": 1080699441.0,
      "reward": 1.05322265625,
      "reward_std": 0.29500052332878113,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.1760827749967575,
      "step": 1909
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1991.0,
      "completions/mean_length": 760.736328125,
      "completions/mean_terminated_length": 742.89306640625,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.6520440385764275,
      "grad_norm": 2.669011354446411,
      "kl": 3.09765625,
      "learning_rate": 3.9351797139931684e-07,
      "loss": 0.1651,
      "num_tokens": 1081168010.0,
      "reward": 1.06201171875,
      "reward_std": 0.30134129524230957,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17503775656223297,
      "step": 1910
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 803.95703125,
      "completions/mean_terminated_length": 796.624755859375,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.6523854228898183,
      "grad_norm": 3.475491762161255,
      "kl": 2.80859375,
      "learning_rate": 3.930152415331992e-07,
      "loss": 0.1516,
      "num_tokens": 1081655588.0,
      "reward": 1.0400390625,
      "reward_std": 0.3331858217716217,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.18649590015411377,
      "step": 1911
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1826.0,
      "completions/max_terminated_length": 1826.0,
      "completions/mean_length": 734.103515625,
      "completions/mean_terminated_length": 734.103515625,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.652726807203209,
      "grad_norm": 2.547541618347168,
      "kl": 2.001953125,
      "learning_rate": 3.925127346473179e-07,
      "loss": 0.0879,
      "num_tokens": 1082104457.0,
      "reward": 1.11279296875,
      "reward_std": 0.31989234685897827,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.15553821623325348,
      "step": 1912
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2005.0,
      "completions/mean_length": 809.615234375,
      "completions/mean_terminated_length": 802.3163452148438,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.6530681915165998,
      "grad_norm": 3.892587184906006,
      "kl": 3.1015625,
      "learning_rate": 3.9201045145543053e-07,
      "loss": 0.1438,
      "num_tokens": 1082593956.0,
      "reward": 1.0576171875,
      "reward_std": 0.3563315272331238,
      "rewards/accuracy_reward/mean": 0.08064515888690948,
      "rewards/accuracy_reward/std": 0.2725643217563629,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.19002850353717804,
      "step": 1913
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 789.63671875,
      "completions/mean_terminated_length": 764.5697631835938,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.6534095758299906,
      "grad_norm": 3.216252326965332,
      "kl": 3.2734375,
      "learning_rate": 3.9150839267097766e-07,
      "loss": 0.2116,
      "num_tokens": 1083073786.0,
      "reward": 1.07861328125,
      "reward_std": 0.319521963596344,
      "rewards/accuracy_reward/mean": 0.09879032522439957,
      "rewards/accuracy_reward/std": 0.2986815273761749,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.1828656941652298,
      "step": 1914
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 757.3671875,
      "completions/mean_terminated_length": 749.7603149414062,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.6537509601433814,
      "grad_norm": 2.0655741691589355,
      "kl": 2.3125,
      "learning_rate": 3.9100655900708026e-07,
      "loss": 0.1061,
      "num_tokens": 1083536758.0,
      "reward": 1.0625,
      "reward_std": 0.32510071992874146,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.18146054446697235,
      "step": 1915
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1803.0,
      "completions/mean_length": 754.4765625,
      "completions/mean_terminated_length": 744.2913208007812,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.6540923444567722,
      "grad_norm": 3.49310302734375,
      "kl": 2.6953125,
      "learning_rate": 3.9050495117654e-07,
      "loss": 0.1436,
      "num_tokens": 1084001914.0,
      "reward": 1.08837890625,
      "reward_std": 0.3200463056564331,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.1732655018568039,
      "step": 1916
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 861.119140625,
      "completions/mean_terminated_length": 842.27978515625,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.654433728770163,
      "grad_norm": 2.5223731994628906,
      "kl": 3.0234375,
      "learning_rate": 3.900035698918378e-07,
      "loss": 0.1854,
      "num_tokens": 1084519271.0,
      "reward": 1.03173828125,
      "reward_std": 0.3127293586730957,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.1779128909111023,
      "step": 1917
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1870.0,
      "completions/mean_length": 807.61328125,
      "completions/mean_terminated_length": 802.7490844726562,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.6547751130835539,
      "grad_norm": 2.123964786529541,
      "kl": 2.255859375,
      "learning_rate": 3.895024158651329e-07,
      "loss": 0.1,
      "num_tokens": 1085010641.0,
      "reward": 1.07763671875,
      "reward_std": 0.3200598359107971,
      "rewards/accuracy_reward/mean": 0.0947580635547638,
      "rewards/accuracy_reward/std": 0.29317617416381836,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.17221449315547943,
      "step": 1918
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1979.0,
      "completions/mean_length": 799.63671875,
      "completions/mean_terminated_length": 792.2789916992188,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.6551164973969447,
      "grad_norm": 1.5538283586502075,
      "kl": 2.8984375,
      "learning_rate": 3.8900148980826097e-07,
      "loss": 0.1853,
      "num_tokens": 1085499607.0,
      "reward": 1.060546875,
      "reward_std": 0.3631531596183777,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.91015625,
      "rewards/tag_count_reward/std": 0.21384188532829285,
      "step": 1919
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1933.0,
      "completions/mean_length": 784.76953125,
      "completions/mean_terminated_length": 769.79052734375,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.6554578817103354,
      "grad_norm": 7.512059211730957,
      "kl": 2.689453125,
      "learning_rate": 3.8850079243273514e-07,
      "loss": 0.2133,
      "num_tokens": 1085976881.0,
      "reward": 1.08837890625,
      "reward_std": 0.3127474784851074,
      "rewards/accuracy_reward/mean": 0.11290322244167328,
      "rewards/accuracy_reward/std": 0.3167939782142639,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.17538133263587952,
      "step": 1920
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1945.0,
      "completions/mean_length": 800.359375,
      "completions/mean_terminated_length": 790.535400390625,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.6557992660237262,
      "grad_norm": 3.450766086578369,
      "kl": 1.849609375,
      "learning_rate": 3.880003244497427e-07,
      "loss": 0.1215,
      "num_tokens": 1086463193.0,
      "reward": 1.06591796875,
      "reward_std": 0.2908085882663727,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.16094864904880524,
      "step": 1921
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1865.0,
      "completions/mean_length": 873.791015625,
      "completions/mean_terminated_length": 864.5452880859375,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.656140650337117,
      "grad_norm": 3.688720703125,
      "kl": 2.40625,
      "learning_rate": 3.8750008657014554e-07,
      "loss": 0.1733,
      "num_tokens": 1086991342.0,
      "reward": 1.0263671875,
      "reward_std": 0.31121253967285156,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.19258584082126617,
      "step": 1922
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1997.0,
      "completions/mean_length": 867.46875,
      "completions/mean_terminated_length": 858.1732177734375,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.6564820346505078,
      "grad_norm": 8.26951789855957,
      "kl": 2.400390625,
      "learning_rate": 3.8700007950447856e-07,
      "loss": 0.1594,
      "num_tokens": 1087527342.0,
      "reward": 1.064453125,
      "reward_std": 0.34242507815361023,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.18991030752658844,
      "step": 1923
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1990.0,
      "completions/mean_length": 801.353515625,
      "completions/mean_terminated_length": 791.5374145507812,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.6568234189638986,
      "grad_norm": 6.074746608734131,
      "kl": 3.14453125,
      "learning_rate": 3.865003039629491e-07,
      "loss": 0.1474,
      "num_tokens": 1088008323.0,
      "reward": 1.0615234375,
      "reward_std": 0.35644254088401794,
      "rewards/accuracy_reward/mean": 0.0927419364452362,
      "rewards/accuracy_reward/std": 0.2903633117675781,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.19473710656166077,
      "step": 1924
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 792.802734375,
      "completions/mean_terminated_length": 782.9193115234375,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "epoch": 0.6571648032772894,
      "grad_norm": 2.151301622390747,
      "kl": 2.724609375,
      "learning_rate": 3.86000760655435e-07,
      "loss": 0.1751,
      "num_tokens": 1088489630.0,
      "reward": 1.07958984375,
      "reward_std": 0.3261934220790863,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17571881413459778,
      "step": 1925
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 823.259765625,
      "completions/mean_terminated_length": 813.6161499023438,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.6575061875906802,
      "grad_norm": 8.23900032043457,
      "kl": 2.796875,
      "learning_rate": 3.855014502914851e-07,
      "loss": 0.1273,
      "num_tokens": 1088987043.0,
      "reward": 1.046875,
      "reward_std": 0.3548493981361389,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.1852131336927414,
      "step": 1926
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1905.0,
      "completions/mean_length": 811.849609375,
      "completions/mean_terminated_length": 799.6588134765625,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.6578475719040711,
      "grad_norm": 3.4573681354522705,
      "kl": 3.140625,
      "learning_rate": 3.850023735803166e-07,
      "loss": 0.1972,
      "num_tokens": 1089477014.0,
      "reward": 1.115234375,
      "reward_std": 0.3450678288936615,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.1883339285850525,
      "step": 1927
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1840.0,
      "completions/mean_length": 807.71875,
      "completions/mean_terminated_length": 795.4871826171875,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.6581889562174618,
      "grad_norm": 2.5229742527008057,
      "kl": 2.37890625,
      "learning_rate": 3.8450353123081545e-07,
      "loss": 0.1326,
      "num_tokens": 1089979430.0,
      "reward": 1.08740234375,
      "reward_std": 0.3329201936721802,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.1757296919822693,
      "step": 1928
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 808.38671875,
      "completions/mean_terminated_length": 783.6932373046875,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.6585303405308526,
      "grad_norm": 2.9450507164001465,
      "kl": 2.7578125,
      "learning_rate": 3.8400492395153417e-07,
      "loss": 0.1612,
      "num_tokens": 1090476828.0,
      "reward": 1.08740234375,
      "reward_std": 0.3415449261665344,
      "rewards/accuracy_reward/mean": 0.11290322244167328,
      "rewards/accuracy_reward/std": 0.3167939782142639,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.18577399849891663,
      "step": 1929
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1948.0,
      "completions/mean_length": 815.77734375,
      "completions/mean_terminated_length": 803.625244140625,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.6588717248442434,
      "grad_norm": 2.0206379890441895,
      "kl": 2.84765625,
      "learning_rate": 3.8350655245069184e-07,
      "loss": 0.1696,
      "num_tokens": 1090973178.0,
      "reward": 1.05078125,
      "reward_std": 0.3212524354457855,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.1843028962612152,
      "step": 1930
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1914.0,
      "completions/mean_length": 880.236328125,
      "completions/mean_terminated_length": 875.6569213867188,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.6592131091576342,
      "grad_norm": 7.919393539428711,
      "kl": 3.0,
      "learning_rate": 3.8300841743617227e-07,
      "loss": 0.1117,
      "num_tokens": 1091503347.0,
      "reward": 1.05419921875,
      "reward_std": 0.3303118944168091,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17361809313297272,
      "step": 1931
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 762.11328125,
      "completions/mean_terminated_length": 751.9881591796875,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.659554493471025,
      "grad_norm": 6.266638278961182,
      "kl": 3.234375,
      "learning_rate": 3.8251051961552373e-07,
      "loss": 0.1465,
      "num_tokens": 1091966685.0,
      "reward": 1.126953125,
      "reward_std": 0.352092981338501,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.1748199313879013,
      "step": 1932
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1994.0,
      "completions/mean_length": 814.884765625,
      "completions/mean_terminated_length": 800.2628784179688,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.6598958777844158,
      "grad_norm": 10.530084609985352,
      "kl": 3.9453125,
      "learning_rate": 3.8201285969595696e-07,
      "loss": 0.1963,
      "num_tokens": 1092459538.0,
      "reward": 1.05810546875,
      "reward_std": 0.33577898144721985,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.16935545206069946,
      "step": 1933
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1997.0,
      "completions/mean_length": 822.65625,
      "completions/mean_terminated_length": 810.572021484375,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.6602372620978066,
      "grad_norm": 6.426862716674805,
      "kl": 2.96875,
      "learning_rate": 3.8151543838434566e-07,
      "loss": 0.0984,
      "num_tokens": 1092955842.0,
      "reward": 1.1064453125,
      "reward_std": 0.37291496992111206,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.07421875,
      "rewards/format_reward/std": 0.2623828947544098,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.17380855977535248,
      "step": 1934
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1918.0,
      "completions/mean_length": 822.7109375,
      "completions/mean_terminated_length": 810.6272583007812,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.6605786464111975,
      "grad_norm": 5.250598907470703,
      "kl": 3.15234375,
      "learning_rate": 3.8101825638722395e-07,
      "loss": 0.1432,
      "num_tokens": 1093453710.0,
      "reward": 1.0634765625,
      "reward_std": 0.36420419812202454,
      "rewards/accuracy_reward/mean": 0.07661290466785431,
      "rewards/accuracy_reward/std": 0.2662447690963745,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.17996680736541748,
      "step": 1935
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1861.0,
      "completions/mean_length": 802.263671875,
      "completions/mean_terminated_length": 799.8258056640625,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.6609200307245882,
      "grad_norm": 5.057370662689209,
      "kl": 2.623046875,
      "learning_rate": 3.805213144107865e-07,
      "loss": 0.1308,
      "num_tokens": 1093941413.0,
      "reward": 1.07275390625,
      "reward_std": 0.32390761375427246,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.94189453125,
      "rewards/tag_count_reward/std": 0.16453613340854645,
      "step": 1936
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1968.0,
      "completions/mean_length": 837.005859375,
      "completions/mean_terminated_length": 834.635986328125,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.661261415037979,
      "grad_norm": 3.881486415863037,
      "kl": 2.0146484375,
      "learning_rate": 3.800246131608863e-07,
      "loss": 0.1176,
      "num_tokens": 1094446216.0,
      "reward": 1.09130859375,
      "reward_std": 0.30351150035858154,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.95068359375,
      "rewards/tag_count_reward/std": 0.15604117512702942,
      "step": 1937
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1982.0,
      "completions/mean_length": 845.869140625,
      "completions/mean_terminated_length": 829.2059936523438,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.6616027993513698,
      "grad_norm": 3.580059051513672,
      "kl": 3.234375,
      "learning_rate": 3.7952815334303535e-07,
      "loss": 0.1612,
      "num_tokens": 1094962933.0,
      "reward": 1.07421875,
      "reward_std": 0.39027005434036255,
      "rewards/accuracy_reward/mean": 0.10483870655298233,
      "rewards/accuracy_reward/std": 0.30665475130081177,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.20013105869293213,
      "step": 1938
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 857.09765625,
      "completions/mean_terminated_length": 838.1945190429688,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.6619441836647606,
      "grad_norm": 7.356101036071777,
      "kl": 2.70703125,
      "learning_rate": 3.790319356624021e-07,
      "loss": 0.205,
      "num_tokens": 1095475767.0,
      "reward": 1.0458984375,
      "reward_std": 0.29537346959114075,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.17380855977535248,
      "step": 1939
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1761.0,
      "completions/mean_length": 800.19921875,
      "completions/mean_terminated_length": 792.8448486328125,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.6622855679781514,
      "grad_norm": 5.001293182373047,
      "kl": 1.302734375,
      "learning_rate": 3.7853596082381134e-07,
      "loss": 0.0177,
      "num_tokens": 1095955245.0,
      "reward": 1.06396484375,
      "reward_std": 0.28220146894454956,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.95654296875,
      "rewards/tag_count_reward/std": 0.1396850049495697,
      "step": 1940
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 873.361328125,
      "completions/mean_terminated_length": 866.4381713867188,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.6626269522915422,
      "grad_norm": 1.962906002998352,
      "kl": 1.568359375,
      "learning_rate": 3.780402295317426e-07,
      "loss": 0.0793,
      "num_tokens": 1096475798.0,
      "reward": 1.1083984375,
      "reward_std": 0.37327125668525696,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.17094823718070984,
      "step": 1941
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1961.0,
      "completions/mean_length": 839.306640625,
      "completions/mean_terminated_length": 829.7893676757812,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.662968336604933,
      "grad_norm": 2.693998098373413,
      "kl": 2.765625,
      "learning_rate": 3.775447424903302e-07,
      "loss": 0.1718,
      "num_tokens": 1096974563.0,
      "reward": 1.1181640625,
      "reward_std": 0.3343203663825989,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.1847042590379715,
      "step": 1942
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1994.0,
      "completions/mean_length": 865.41015625,
      "completions/mean_terminated_length": 853.74755859375,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.6633097209183239,
      "grad_norm": 8.785478591918945,
      "kl": 2.1640625,
      "learning_rate": 3.770495004033606e-07,
      "loss": 0.1616,
      "num_tokens": 1097500485.0,
      "reward": 1.06640625,
      "reward_std": 0.274461030960083,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.021484375,
      "rewards/format_reward/std": 0.14513419568538666,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.17754259705543518,
      "step": 1943
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1994.0,
      "completions/mean_length": 861.705078125,
      "completions/mean_terminated_length": 847.6383666992188,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.6636511052317146,
      "grad_norm": 3.886937141418457,
      "kl": 2.111328125,
      "learning_rate": 3.76554503974273e-07,
      "loss": 0.131,
      "num_tokens": 1098012110.0,
      "reward": 1.14306640625,
      "reward_std": 0.3767285943031311,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.18275068700313568,
      "step": 1944
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 848.392578125,
      "completions/mean_terminated_length": 831.764404296875,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.6639924895451054,
      "grad_norm": 1.5926653146743774,
      "kl": 2.45703125,
      "learning_rate": 3.7605975390615717e-07,
      "loss": 0.1366,
      "num_tokens": 1098522263.0,
      "reward": 1.03955078125,
      "reward_std": 0.3317958116531372,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.18672312796115875,
      "step": 1945
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 866.37109375,
      "completions/mean_terminated_length": 838.0120239257812,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.6643338738584962,
      "grad_norm": 3.5171382427215576,
      "kl": 3.296875,
      "learning_rate": 3.755652509017536e-07,
      "loss": 0.2187,
      "num_tokens": 1099046997.0,
      "reward": 1.0009765625,
      "reward_std": 0.3274975121021271,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.21218886971473694,
      "step": 1946
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1967.0,
      "completions/mean_length": 815.806640625,
      "completions/mean_terminated_length": 798.7267456054688,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.664675258171887,
      "grad_norm": 7.1579179763793945,
      "kl": 2.640625,
      "learning_rate": 3.7507099566345125e-07,
      "loss": 0.2068,
      "num_tokens": 1099544802.0,
      "reward": 1.03076171875,
      "reward_std": 0.29526475071907043,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.16935545206069946,
      "step": 1947
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 853.416015625,
      "completions/mean_terminated_length": 846.3753051757812,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.6650166424852778,
      "grad_norm": 1.816637396812439,
      "kl": 2.94140625,
      "learning_rate": 3.745769888932876e-07,
      "loss": 0.168,
      "num_tokens": 1100059271.0,
      "reward": 1.11376953125,
      "reward_std": 0.37326788902282715,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.18652856349945068,
      "step": 1948
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1889.0,
      "completions/mean_length": 784.5625,
      "completions/mean_terminated_length": 779.60791015625,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.6653580267986686,
      "grad_norm": 2.8198273181915283,
      "kl": 2.626953125,
      "learning_rate": 3.740832312929465e-07,
      "loss": 0.1489,
      "num_tokens": 1100539127.0,
      "reward": 1.12255859375,
      "reward_std": 0.3355463743209839,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.18254666030406952,
      "step": 1949
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 850.197265625,
      "completions/mean_terminated_length": 835.9940795898438,
      "completions/min_length": 250.0,
      "completions/min_terminated_length": 250.0,
      "epoch": 0.6656994111120594,
      "grad_norm": 3.4084203243255615,
      "kl": 2.953125,
      "learning_rate": 3.73589723563759e-07,
      "loss": 0.1766,
      "num_tokens": 1101056844.0,
      "reward": 1.0390625,
      "reward_std": 0.2964341342449188,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17551816999912262,
      "step": 1950
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 867.65625,
      "completions/mean_terminated_length": 851.2951049804688,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.6660407954254502,
      "grad_norm": 6.745882987976074,
      "kl": 4.06640625,
      "learning_rate": 3.7309646640670003e-07,
      "loss": 0.2372,
      "num_tokens": 1101577372.0,
      "reward": 1.09326171875,
      "reward_std": 0.39704084396362305,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.07421875,
      "rewards/format_reward/std": 0.2623828947544098,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.19901005923748016,
      "step": 1951
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 754.130859375,
      "completions/mean_terminated_length": 751.5988159179688,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.666382179738841,
      "grad_norm": 5.3336381912231445,
      "kl": 2.7890625,
      "learning_rate": 3.7260346052238967e-07,
      "loss": 0.1359,
      "num_tokens": 1102041391.0,
      "reward": 1.11474609375,
      "reward_std": 0.34246891736984253,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.94091796875,
      "rewards/tag_count_reward/std": 0.16640710830688477,
      "step": 1952
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1832.0,
      "completions/mean_length": 737.162109375,
      "completions/mean_terminated_length": 734.5968627929688,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.6667235640522318,
      "grad_norm": 2.959735870361328,
      "kl": 2.76171875,
      "learning_rate": 3.721107066110901e-07,
      "loss": 0.1418,
      "num_tokens": 1102496914.0,
      "reward": 1.05615234375,
      "reward_std": 0.34262150526046753,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.92919921875,
      "rewards/tag_count_reward/std": 0.18503700196743011,
      "step": 1953
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1977.0,
      "completions/mean_length": 812.033203125,
      "completions/mean_terminated_length": 787.412353515625,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.6670649483656226,
      "grad_norm": 5.216389179229736,
      "kl": 4.13671875,
      "learning_rate": 3.716182053727067e-07,
      "loss": 0.2641,
      "num_tokens": 1102998963.0,
      "reward": 1.01025390625,
      "reward_std": 0.3005276024341583,
      "rewards/accuracy_reward/mean": 0.03515625,
      "rewards/accuracy_reward/std": 0.1843547374010086,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.18532080948352814,
      "step": 1954
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 884.01953125,
      "completions/mean_terminated_length": 874.8543090820312,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.6674063326790134,
      "grad_norm": 5.178909778594971,
      "kl": 3.453125,
      "learning_rate": 3.7112595750678486e-07,
      "loss": 0.1618,
      "num_tokens": 1103529309.0,
      "reward": 1.04541015625,
      "reward_std": 0.3825531601905823,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.19279102981090546,
      "step": 1955
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1922.0,
      "completions/mean_length": 819.318359375,
      "completions/mean_terminated_length": 809.6436767578125,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.6677477169924042,
      "grad_norm": 2.1413521766662598,
      "kl": 2.21875,
      "learning_rate": 3.706339637125109e-07,
      "loss": 0.1239,
      "num_tokens": 1104026128.0,
      "reward": 1.09912109375,
      "reward_std": 0.3082974851131439,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.15074624121189117,
      "step": 1956
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 871.69140625,
      "completions/mean_terminated_length": 860.0907592773438,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.668089101305795,
      "grad_norm": 4.940948963165283,
      "kl": 2.75,
      "learning_rate": 3.701422246887096e-07,
      "loss": 0.1397,
      "num_tokens": 1104549810.0,
      "reward": 1.0263671875,
      "reward_std": 0.3215748071670532,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.1874362826347351,
      "step": 1957
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 848.365234375,
      "completions/mean_terminated_length": 838.9193115234375,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.6684304856191858,
      "grad_norm": 1.736469030380249,
      "kl": 2.158203125,
      "learning_rate": 3.6965074113384467e-07,
      "loss": 0.1219,
      "num_tokens": 1105056957.0,
      "reward": 1.09814453125,
      "reward_std": 0.3518895208835602,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18965290486812592,
      "step": 1958
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1827.0,
      "completions/mean_length": 835.8984375,
      "completions/mean_terminated_length": 823.9447631835938,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.6687718699325766,
      "grad_norm": 3.6304750442504883,
      "kl": 1.994140625,
      "learning_rate": 3.6915951374601584e-07,
      "loss": 0.1148,
      "num_tokens": 1105557737.0,
      "reward": 1.0693359375,
      "reward_std": 0.2911996841430664,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.9462890625,
      "rewards/tag_count_reward/std": 0.15964092314243317,
      "step": 1959
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1962.0,
      "completions/mean_length": 852.318359375,
      "completions/mean_terminated_length": 838.1403198242188,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.6691132542459673,
      "grad_norm": 3.80436635017395,
      "kl": 2.37109375,
      "learning_rate": 3.686685432229604e-07,
      "loss": 0.1437,
      "num_tokens": 1106082204.0,
      "reward": 1.0546875,
      "reward_std": 0.30142658948898315,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.1748199313879013,
      "step": 1960
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 794.326171875,
      "completions/mean_terminated_length": 791.872802734375,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.6694546385593582,
      "grad_norm": 1.9554775953292847,
      "kl": 1.9921875,
      "learning_rate": 3.681778302620494e-07,
      "loss": 0.1007,
      "num_tokens": 1106568099.0,
      "reward": 1.091796875,
      "reward_std": 0.34669455885887146,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.16402500867843628,
      "step": 1961
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1967.0,
      "completions/mean_length": 803.2890625,
      "completions/mean_terminated_length": 788.5296630859375,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.669796022872749,
      "grad_norm": 3.738330125808716,
      "kl": 1.88671875,
      "learning_rate": 3.6768737556028904e-07,
      "loss": 0.1311,
      "num_tokens": 1107053303.0,
      "reward": 1.18701171875,
      "reward_std": 0.3353784680366516,
      "rewards/accuracy_reward/mean": 0.19556452333927155,
      "rewards/accuracy_reward/std": 0.3970351219177246,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.16112665832042694,
      "step": 1962
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1921.0,
      "completions/mean_length": 815.658203125,
      "completions/mean_terminated_length": 805.9547119140625,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.6701374071861398,
      "grad_norm": 3.9076175689697266,
      "kl": 2.19140625,
      "learning_rate": 3.671971798143181e-07,
      "loss": 0.1074,
      "num_tokens": 1107545656.0,
      "reward": 1.08642578125,
      "reward_std": 0.3265295922756195,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.94189453125,
      "rewards/tag_count_reward/std": 0.16601619124412537,
      "step": 1963
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1975.0,
      "completions/mean_length": 801.177734375,
      "completions/mean_terminated_length": 793.8291015625,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.6704787914995306,
      "grad_norm": 3.4179844856262207,
      "kl": 1.978515625,
      "learning_rate": 3.6670724372040796e-07,
      "loss": 0.1082,
      "num_tokens": 1108033955.0,
      "reward": 1.09619140625,
      "reward_std": 0.3545726239681244,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.08203125,
      "rewards/format_reward/std": 0.2746807038784027,
      "rewards/tag_count_reward/mean": 0.94580078125,
      "rewards/tag_count_reward/std": 0.15985849499702454,
      "step": 1964
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1890.0,
      "completions/mean_length": 817.5,
      "completions/mean_terminated_length": 795.4830932617188,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.6708201758129214,
      "grad_norm": 4.996206760406494,
      "kl": 2.814453125,
      "learning_rate": 3.6621756797446066e-07,
      "loss": 0.1313,
      "num_tokens": 1108537523.0,
      "reward": 1.13134765625,
      "reward_std": 0.32183706760406494,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.94189453125,
      "rewards/tag_count_reward/std": 0.1600138396024704,
      "step": 1965
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1990.0,
      "completions/mean_length": 873.158203125,
      "completions/mean_terminated_length": 844.9620361328125,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.6711615601263122,
      "grad_norm": 3.2720115184783936,
      "kl": 2.91015625,
      "learning_rate": 3.6572815327200933e-07,
      "loss": 0.1371,
      "num_tokens": 1109055604.0,
      "reward": 1.087890625,
      "reward_std": 0.3635501265525818,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.17805851995944977,
      "step": 1966
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 838.10546875,
      "completions/mean_terminated_length": 835.73779296875,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.671502944439703,
      "grad_norm": 3.358809471130371,
      "kl": 1.7958984375,
      "learning_rate": 3.652390003082151e-07,
      "loss": 0.0579,
      "num_tokens": 1109563930.0,
      "reward": 1.1650390625,
      "reward_std": 0.3534090518951416,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.9482421875,
      "rewards/tag_count_reward/std": 0.14674162864685059,
      "step": 1967
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 815.240234375,
      "completions/mean_terminated_length": 812.8277587890625,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.6718443287530937,
      "grad_norm": 2.223949432373047,
      "kl": 2.072265625,
      "learning_rate": 3.647501097778685e-07,
      "loss": 0.1013,
      "num_tokens": 1110055941.0,
      "reward": 1.15283203125,
      "reward_std": 0.32636475563049316,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.94970703125,
      "rewards/tag_count_reward/std": 0.14931321144104004,
      "step": 1968
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 893.091796875,
      "completions/mean_terminated_length": 883.998046875,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.6721857130664846,
      "grad_norm": 6.9371747970581055,
      "kl": 2.205078125,
      "learning_rate": 3.6426148237538656e-07,
      "loss": 0.0851,
      "num_tokens": 1110591748.0,
      "reward": 1.07763671875,
      "reward_std": 0.35847485065460205,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.94091796875,
      "rewards/tag_count_reward/std": 0.16859769821166992,
      "step": 1969
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 860.275390625,
      "completions/mean_terminated_length": 843.8118896484375,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.6725270973798754,
      "grad_norm": 2.914273977279663,
      "kl": 2.20703125,
      "learning_rate": 3.6377311879481296e-07,
      "loss": 0.0944,
      "num_tokens": 1111117441.0,
      "reward": 1.08837890625,
      "reward_std": 0.36513030529022217,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.1808004528284073,
      "step": 1970
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1987.0,
      "completions/mean_length": 786.12109375,
      "completions/mean_terminated_length": 773.676513671875,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.6728684816932662,
      "grad_norm": 2.6593613624572754,
      "kl": 1.8046875,
      "learning_rate": 3.632850197298161e-07,
      "loss": 0.0743,
      "num_tokens": 1111589727.0,
      "reward": 1.06103515625,
      "reward_std": 0.3264227509498596,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.94970703125,
      "rewards/tag_count_reward/std": 0.15651197731494904,
      "step": 1971
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 870.744140625,
      "completions/mean_terminated_length": 847.2928466796875,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.673209866006657,
      "grad_norm": 2.6116867065429688,
      "kl": 2.4765625,
      "learning_rate": 3.6279718587368955e-07,
      "loss": 0.14,
      "num_tokens": 1112117756.0,
      "reward": 1.0986328125,
      "reward_std": 0.3741343319416046,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.18428993225097656,
      "step": 1972
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 831.884765625,
      "completions/mean_terminated_length": 822.30908203125,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.6735512503200478,
      "grad_norm": 5.75847864151001,
      "kl": 2.12109375,
      "learning_rate": 3.6230961791934934e-07,
      "loss": 0.143,
      "num_tokens": 1112622961.0,
      "reward": 1.13232421875,
      "reward_std": 0.35911405086517334,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.94677734375,
      "rewards/tag_count_reward/std": 0.16246140003204346,
      "step": 1973
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2010.0,
      "completions/mean_length": 866.443359375,
      "completions/mean_terminated_length": 847.6885375976562,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.6738926346334386,
      "grad_norm": 3.6523139476776123,
      "kl": 2.201171875,
      "learning_rate": 3.6182231655933437e-07,
      "loss": 0.1174,
      "num_tokens": 1113152900.0,
      "reward": 1.02001953125,
      "reward_std": 0.3131875991821289,
      "rewards/accuracy_reward/mean": 0.033203125,
      "rewards/accuracy_reward/std": 0.17934183776378632,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.1854754239320755,
      "step": 1974
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 888.130859375,
      "completions/mean_terminated_length": 865.0259399414062,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.6742340189468294,
      "grad_norm": 3.562194347381592,
      "kl": 2.365234375,
      "learning_rate": 3.613352824858044e-07,
      "loss": 0.108,
      "num_tokens": 1113690487.0,
      "reward": 1.08544921875,
      "reward_std": 0.3480846881866455,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.07421875,
      "rewards/format_reward/std": 0.2623828947544098,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.1884550154209137,
      "step": 1975
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1957.0,
      "completions/mean_length": 881.294921875,
      "completions/mean_terminated_length": 862.7758178710938,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.6745754032602201,
      "grad_norm": 2.8378944396972656,
      "kl": 2.150390625,
      "learning_rate": 3.6084851639054e-07,
      "loss": 0.1132,
      "num_tokens": 1114226030.0,
      "reward": 1.0546875,
      "reward_std": 0.3625064492225647,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.19170314073562622,
      "step": 1976
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 840.76171875,
      "completions/mean_terminated_length": 824.0277709960938,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.674916787573611,
      "grad_norm": 3.299548864364624,
      "kl": 2.84765625,
      "learning_rate": 3.603620189649408e-07,
      "loss": 0.1827,
      "num_tokens": 1114732964.0,
      "reward": 1.07958984375,
      "reward_std": 0.37545472383499146,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.18990464508533478,
      "step": 1977
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 820.591796875,
      "completions/mean_terminated_length": 796.1414794921875,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.6752581718870018,
      "grad_norm": 5.121732234954834,
      "kl": 3.56640625,
      "learning_rate": 3.5987579090002496e-07,
      "loss": 0.2022,
      "num_tokens": 1115227635.0,
      "reward": 1.0732421875,
      "reward_std": 0.38599497079849243,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.8994140625,
      "rewards/tag_count_reward/std": 0.21305173635482788,
      "step": 1978
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2044.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 813.009765625,
      "completions/mean_terminated_length": 813.009765625,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.6755995562003926,
      "grad_norm": 2.082010507583618,
      "kl": 2.244140625,
      "learning_rate": 3.593898328864279e-07,
      "loss": 0.1115,
      "num_tokens": 1115713352.0,
      "reward": 1.05224609375,
      "reward_std": 0.34903088212013245,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.18625685572624207,
      "step": 1979
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1998.0,
      "completions/mean_length": 833.857421875,
      "completions/mean_terminated_length": 829.0961303710938,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.6759409405137834,
      "grad_norm": 6.166898727416992,
      "kl": 3.1796875,
      "learning_rate": 3.589041456144017e-07,
      "loss": 0.1486,
      "num_tokens": 1116214975.0,
      "reward": 1.02734375,
      "reward_std": 0.3698437213897705,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.20910651981830597,
      "step": 1980
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1991.0,
      "completions/mean_length": 897.015625,
      "completions/mean_terminated_length": 871.7445068359375,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.6762823248271742,
      "grad_norm": 4.866971015930176,
      "kl": 3.171875,
      "learning_rate": 3.584187297738136e-07,
      "loss": 0.1425,
      "num_tokens": 1116764567.0,
      "reward": 1.208984375,
      "reward_std": 0.5000156164169312,
      "rewards/accuracy_reward/mean": 0.19921875,
      "rewards/accuracy_reward/std": 0.39980348944664,
      "rewards/format_reward/mean": 0.107421875,
      "rewards/format_reward/std": 0.30995169281959534,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.21154166758060455,
      "step": 1981
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 821.767578125,
      "completions/mean_terminated_length": 799.8270263671875,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.676623709140565,
      "grad_norm": 3.286105155944824,
      "kl": 3.7109375,
      "learning_rate": 3.579335860541456e-07,
      "loss": 0.246,
      "num_tokens": 1117257936.0,
      "reward": 1.1552734375,
      "reward_std": 0.4390408992767334,
      "rewards/accuracy_reward/mean": 0.171875,
      "rewards/accuracy_reward/std": 0.3776407241821289,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.2049129605293274,
      "step": 1982
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 839.322265625,
      "completions/mean_terminated_length": 817.69580078125,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.6769650934539558,
      "grad_norm": 5.260016918182373,
      "kl": 3.83203125,
      "learning_rate": 3.574487151444927e-07,
      "loss": 0.205,
      "num_tokens": 1117772357.0,
      "reward": 1.0322265625,
      "reward_std": 0.3532659113407135,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.20008091628551483,
      "step": 1983
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1997.0,
      "completions/mean_length": 799.982421875,
      "completions/mean_terminated_length": 785.183837890625,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.6773064777673465,
      "grad_norm": 3.0933825969696045,
      "kl": 3.26171875,
      "learning_rate": 3.5696411773356303e-07,
      "loss": 0.1943,
      "num_tokens": 1118256668.0,
      "reward": 1.10546875,
      "reward_std": 0.4066968858242035,
      "rewards/accuracy_reward/mean": 0.1391129046678543,
      "rewards/accuracy_reward/std": 0.34641367197036743,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.19974872469902039,
      "step": 1984
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1915.0,
      "completions/mean_length": 842.900390625,
      "completions/mean_terminated_length": 831.0158081054688,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.6776478620807374,
      "grad_norm": 2.8358771800994873,
      "kl": 2.51171875,
      "learning_rate": 3.5647979450967557e-07,
      "loss": 0.1547,
      "num_tokens": 1118764089.0,
      "reward": 1.10888671875,
      "reward_std": 0.3980877697467804,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.18548057973384857,
      "step": 1985
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1962.0,
      "completions/mean_length": 838.1328125,
      "completions/mean_terminated_length": 811.56884765625,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.6779892463941282,
      "grad_norm": 6.475921630859375,
      "kl": 2.88671875,
      "learning_rate": 3.559957461607608e-07,
      "loss": 0.1223,
      "num_tokens": 1119274349.0,
      "reward": 1.12060546875,
      "reward_std": 0.40999656915664673,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.08984375,
      "rewards/format_reward/std": 0.2862374484539032,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.18160201609134674,
      "step": 1986
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 846.189453125,
      "completions/mean_terminated_length": 839.1061401367188,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.678330630707519,
      "grad_norm": 2.7994697093963623,
      "kl": 2.6640625,
      "learning_rate": 3.555119733743576e-07,
      "loss": 0.1466,
      "num_tokens": 1119788878.0,
      "reward": 1.04736328125,
      "reward_std": 0.3752076327800751,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.1942230463027954,
      "step": 1987
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 868.541015625,
      "completions/mean_terminated_length": 854.5553588867188,
      "completions/min_length": 261.0,
      "completions/min_terminated_length": 261.0,
      "epoch": 0.6786720150209098,
      "grad_norm": 2.3474643230438232,
      "kl": 2.169921875,
      "learning_rate": 3.5502847683761426e-07,
      "loss": 0.0831,
      "num_tokens": 1120310307.0,
      "reward": 1.0771484375,
      "reward_std": 0.35952842235565186,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.08203125,
      "rewards/format_reward/std": 0.2746807038784027,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.18374989926815033,
      "step": 1988
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1932.0,
      "completions/mean_length": 877.611328125,
      "completions/mean_terminated_length": 844.7088012695312,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.6790133993343006,
      "grad_norm": 3.081923246383667,
      "kl": 2.171875,
      "learning_rate": 3.5454525723728644e-07,
      "loss": 0.1376,
      "num_tokens": 1120837548.0,
      "reward": 1.1044921875,
      "reward_std": 0.3634968400001526,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.2019064873456955,
      "step": 1989
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 840.35546875,
      "completions/mean_terminated_length": 823.6158447265625,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.6793547836476914,
      "grad_norm": 1.98365318775177,
      "kl": 2.28125,
      "learning_rate": 3.5406231525973653e-07,
      "loss": 0.1379,
      "num_tokens": 1121351138.0,
      "reward": 1.11328125,
      "reward_std": 0.3751985430717468,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.17952290177345276,
      "step": 1990
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 844.826171875,
      "completions/mean_terminated_length": 825.7282104492188,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.6796961679610822,
      "grad_norm": 3.4340503215789795,
      "kl": 2.275390625,
      "learning_rate": 3.535796515909319e-07,
      "loss": 0.1451,
      "num_tokens": 1121864441.0,
      "reward": 1.0244140625,
      "reward_std": 0.30911821126937866,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.1875789761543274,
      "step": 1991
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 832.080078125,
      "completions/mean_terminated_length": 815.2257690429688,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.6800375522744729,
      "grad_norm": 4.344378471374512,
      "kl": 2.103515625,
      "learning_rate": 3.530972669164463e-07,
      "loss": 0.0752,
      "num_tokens": 1122361090.0,
      "reward": 1.1416015625,
      "reward_std": 0.3675711750984192,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.16507895290851593,
      "step": 1992
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1951.0,
      "completions/mean_length": 832.84765625,
      "completions/mean_terminated_length": 806.1676635742188,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.6803789365878637,
      "grad_norm": 1.649202823638916,
      "kl": 2.43359375,
      "learning_rate": 3.5261516192145523e-07,
      "loss": 0.1047,
      "num_tokens": 1122867332.0,
      "reward": 1.10205078125,
      "reward_std": 0.42149943113327026,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.08203125,
      "rewards/format_reward/std": 0.2746807038784027,
      "rewards/tag_count_reward/mean": 0.90869140625,
      "rewards/tag_count_reward/std": 0.20710861682891846,
      "step": 1993
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 834.421875,
      "completions/mean_terminated_length": 802.8056030273438,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.6807203209012546,
      "grad_norm": 4.389552593231201,
      "kl": 2.513671875,
      "learning_rate": 3.5213333729073823e-07,
      "loss": 0.171,
      "num_tokens": 1123376876.0,
      "reward": 1.10205078125,
      "reward_std": 0.35682186484336853,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.1931772381067276,
      "step": 1994
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 845.3359375,
      "completions/mean_terminated_length": 823.8170776367188,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.6810617052146454,
      "grad_norm": 3.0156242847442627,
      "kl": 2.021484375,
      "learning_rate": 3.5165179370867593e-07,
      "loss": 0.1032,
      "num_tokens": 1123883848.0,
      "reward": 1.0595703125,
      "reward_std": 0.3213019073009491,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.1731034219264984,
      "step": 1995
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 861.154296875,
      "completions/mean_terminated_length": 847.0810546875,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.6814030895280362,
      "grad_norm": 1.314761996269226,
      "kl": 2.4921875,
      "learning_rate": 3.511705318592504e-07,
      "loss": 0.1224,
      "num_tokens": 1124405703.0,
      "reward": 1.0869140625,
      "reward_std": 0.39862626791000366,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.1844143271446228,
      "step": 1996
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1971.0,
      "completions/mean_length": 804.669921875,
      "completions/mean_terminated_length": 784.9345703125,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.681744473841427,
      "grad_norm": 2.5341320037841797,
      "kl": 2.087890625,
      "learning_rate": 3.506895524260426e-07,
      "loss": 0.0712,
      "num_tokens": 1124893358.0,
      "reward": 1.1083984375,
      "reward_std": 0.33458152413368225,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.15904124081134796,
      "step": 1997
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2001.0,
      "completions/mean_length": 800.244140625,
      "completions/mean_terminated_length": 777.91845703125,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.6820858581548178,
      "grad_norm": 2.728328227996826,
      "kl": 2.35546875,
      "learning_rate": 3.502088560922335e-07,
      "loss": 0.1507,
      "num_tokens": 1125371883.0,
      "reward": 1.130859375,
      "reward_std": 0.33455926179885864,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.177639439702034,
      "step": 1998
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 831.91796875,
      "completions/mean_terminated_length": 817.498046875,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.6824272424682086,
      "grad_norm": 1.903712511062622,
      "kl": 2.166015625,
      "learning_rate": 3.4972844354060095e-07,
      "loss": 0.0918,
      "num_tokens": 1125878065.0,
      "reward": 1.1298828125,
      "reward_std": 0.38038915395736694,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.16586430370807648,
      "step": 1999
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1969.0,
      "completions/mean_length": 868.986328125,
      "completions/mean_terminated_length": 847.890625,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.6827686267815993,
      "grad_norm": 2.7636938095092773,
      "kl": 1.86328125,
      "learning_rate": 3.492483154535205e-07,
      "loss": 0.1129,
      "num_tokens": 1126406506.0,
      "reward": 1.0703125,
      "reward_std": 0.34476834535598755,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.1697956770658493,
      "step": 2000
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 811.107421875,
      "completions/mean_terminated_length": 803.8173217773438,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.6831100110949901,
      "grad_norm": 3.018387794494629,
      "kl": 2.203125,
      "learning_rate": 3.4876847251296287e-07,
      "loss": 0.0932,
      "num_tokens": 1126905969.0,
      "reward": 1.0888671875,
      "reward_std": 0.35073888301849365,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.16366049647331238,
      "step": 2001
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 816.5,
      "completions/mean_terminated_length": 801.8972778320312,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.683451395408381,
      "grad_norm": 3.1583056449890137,
      "kl": 2.74609375,
      "learning_rate": 3.4828891540049463e-07,
      "loss": 0.1691,
      "num_tokens": 1127404337.0,
      "reward": 1.044921875,
      "reward_std": 0.31024712324142456,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17759640514850616,
      "step": 2002
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2000.0,
      "completions/mean_length": 817.423828125,
      "completions/mean_terminated_length": 802.83203125,
      "completions/min_length": 57.0,
      "completions/min_terminated_length": 57.0,
      "epoch": 0.6837927797217718,
      "grad_norm": 2.3933656215667725,
      "kl": 2.765625,
      "learning_rate": 3.478096447972756e-07,
      "loss": 0.1365,
      "num_tokens": 1127902394.0,
      "reward": 1.1455078125,
      "reward_std": 0.3759608268737793,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.18583892285823822,
      "step": 2003
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1939.0,
      "completions/mean_length": 804.73828125,
      "completions/mean_terminated_length": 787.5050048828125,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.6841341640351626,
      "grad_norm": 3.059457540512085,
      "kl": 2.826171875,
      "learning_rate": 3.473306613840589e-07,
      "loss": 0.1479,
      "num_tokens": 1128394388.0,
      "reward": 1.03759765625,
      "reward_std": 0.31256619095802307,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.1818806678056717,
      "step": 2004
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 837.025390625,
      "completions/mean_terminated_length": 815.3577880859375,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.6844755483485534,
      "grad_norm": 2.3869965076446533,
      "kl": 2.634765625,
      "learning_rate": 3.4685196584119e-07,
      "loss": 0.1271,
      "num_tokens": 1128914241.0,
      "reward": 1.0986328125,
      "reward_std": 0.3809621334075928,
      "rewards/accuracy_reward/mean": 0.10282257944345474,
      "rewards/accuracy_reward/std": 0.30403366684913635,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.1859828382730484,
      "step": 2005
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 815.326171875,
      "completions/mean_terminated_length": 788.261474609375,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.6848169326619442,
      "grad_norm": 3.5276033878326416,
      "kl": 3.0625,
      "learning_rate": 3.463735588486053e-07,
      "loss": 0.1983,
      "num_tokens": 1129408760.0,
      "reward": 1.060546875,
      "reward_std": 0.3475075960159302,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.18546061217784882,
      "step": 2006
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 849.634765625,
      "completions/mean_terminated_length": 842.5717163085938,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.685158316975335,
      "grad_norm": 3.876281976699829,
      "kl": 3.0703125,
      "learning_rate": 3.45895441085831e-07,
      "loss": 0.1372,
      "num_tokens": 1129927165.0,
      "reward": 1.0859375,
      "reward_std": 0.4188704490661621,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.1937359869480133,
      "step": 2007
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 814.70703125,
      "completions/mean_terminated_length": 812.2935180664062,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.6854997012887258,
      "grad_norm": 2.854119062423706,
      "kl": 2.578125,
      "learning_rate": 3.4541761323198295e-07,
      "loss": 0.1152,
      "num_tokens": 1130420311.0,
      "reward": 1.13330078125,
      "reward_std": 0.35503774881362915,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.16971616446971893,
      "step": 2008
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 791.271484375,
      "completions/mean_terminated_length": 781.3759765625,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.6858410856021165,
      "grad_norm": 3.0499801635742188,
      "kl": 2.15234375,
      "learning_rate": 3.449400759657653e-07,
      "loss": 0.1278,
      "num_tokens": 1130910210.0,
      "reward": 1.0634765625,
      "reward_std": 0.3152570128440857,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.1709705889225006,
      "step": 2009
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 834.228515625,
      "completions/mean_terminated_length": 822.2584228515625,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.6861824699155074,
      "grad_norm": 2.3293509483337402,
      "kl": 2.64453125,
      "learning_rate": 3.4446282996546853e-07,
      "loss": 0.1461,
      "num_tokens": 1131418087.0,
      "reward": 1.06298828125,
      "reward_std": 0.3098532259464264,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.17743425071239471,
      "step": 2010
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2005.0,
      "completions/mean_length": 884.306640625,
      "completions/mean_terminated_length": 872.8303833007812,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.6865238542288982,
      "grad_norm": 2.228442668914795,
      "kl": 1.83203125,
      "learning_rate": 3.439858759089709e-07,
      "loss": 0.0698,
      "num_tokens": 1131951124.0,
      "reward": 1.12939453125,
      "reward_std": 0.3936542272567749,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.091796875,
      "rewards/format_reward/std": 0.289021372795105,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.16605646908283234,
      "step": 2011
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1972.0,
      "completions/mean_length": 853.876953125,
      "completions/mean_terminated_length": 834.9226684570312,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.686865238542289,
      "grad_norm": 2.3702590465545654,
      "kl": 1.798828125,
      "learning_rate": 3.435092144737346e-07,
      "loss": 0.0937,
      "num_tokens": 1132461589.0,
      "reward": 1.068359375,
      "reward_std": 0.3254043161869049,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.935546875,
      "rewards/tag_count_reward/std": 0.17274148762226105,
      "step": 2012
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 827.44140625,
      "completions/mean_terminated_length": 817.8306884765625,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.6872066228556798,
      "grad_norm": 2.512019634246826,
      "kl": 2.55078125,
      "learning_rate": 3.4303284633680716e-07,
      "loss": 0.1226,
      "num_tokens": 1132970871.0,
      "reward": 1.05908203125,
      "reward_std": 0.3575366735458374,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.19964765012264252,
      "step": 2013
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1982.0,
      "completions/mean_length": 874.576171875,
      "completions/mean_terminated_length": 853.5805053710938,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.6875480071690706,
      "grad_norm": 1.6990776062011719,
      "kl": 2.140625,
      "learning_rate": 3.425567721748187e-07,
      "loss": 0.1304,
      "num_tokens": 1133497086.0,
      "reward": 1.0947265625,
      "reward_std": 0.3705121576786041,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.9189453125,
      "rewards/tag_count_reward/std": 0.19288331270217896,
      "step": 2014
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 870.970703125,
      "completions/mean_terminated_length": 849.9105224609375,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.6878893914824614,
      "grad_norm": 7.498424530029297,
      "kl": 2.765625,
      "learning_rate": 3.420809926639825e-07,
      "loss": 0.2008,
      "num_tokens": 1134012815.0,
      "reward": 0.99072265625,
      "reward_std": 0.3221360445022583,
      "rewards/accuracy_reward/mean": 0.04838709533214569,
      "rewards/accuracy_reward/std": 0.21479946374893188,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.90673828125,
      "rewards/tag_count_reward/std": 0.20917905867099762,
      "step": 2015
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1927.0,
      "completions/mean_length": 798.990234375,
      "completions/mean_terminated_length": 786.672607421875,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.6882307757958522,
      "grad_norm": 15.323307037353516,
      "kl": 2.36328125,
      "learning_rate": 3.416055084800927e-07,
      "loss": 0.0926,
      "num_tokens": 1134503626.0,
      "reward": 1.0966796875,
      "reward_std": 0.3540540337562561,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.17308135330677032,
      "step": 2016
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 831.29296875,
      "completions/mean_terminated_length": 816.8656616210938,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.6885721601092429,
      "grad_norm": 5.637637138366699,
      "kl": 1.76953125,
      "learning_rate": 3.411303202985245e-07,
      "loss": 0.0625,
      "num_tokens": 1135008000.0,
      "reward": 1.1337890625,
      "reward_std": 0.378518670797348,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.17297089099884033,
      "step": 2017
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 833.11328125,
      "completions/mean_terminated_length": 828.3490600585938,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.6889135444226338,
      "grad_norm": 3.005314826965332,
      "kl": 1.98046875,
      "learning_rate": 3.406554287942324e-07,
      "loss": 0.0838,
      "num_tokens": 1135508986.0,
      "reward": 1.107421875,
      "reward_std": 0.36660492420196533,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.18546061217784882,
      "step": 2018
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1995.0,
      "completions/mean_length": 851.09765625,
      "completions/mean_terminated_length": 844.0432739257812,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.6892549287360246,
      "grad_norm": 2.1439764499664307,
      "kl": 1.560546875,
      "learning_rate": 3.401808346417495e-07,
      "loss": 0.0628,
      "num_tokens": 1136031468.0,
      "reward": 1.076171875,
      "reward_std": 0.2905398905277252,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.9453125,
      "rewards/tag_count_reward/std": 0.15384027361869812,
      "step": 2019
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 875.466796875,
      "completions/mean_terminated_length": 861.5632934570312,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.6895963130494154,
      "grad_norm": 3.358839273452759,
      "kl": 2.919921875,
      "learning_rate": 3.3970653851518657e-07,
      "loss": 0.139,
      "num_tokens": 1136548347.0,
      "reward": 1.04443359375,
      "reward_std": 0.36828118562698364,
      "rewards/accuracy_reward/mean": 0.07056451588869095,
      "rewards/accuracy_reward/std": 0.25635457038879395,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.1953953504562378,
      "step": 2020
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1998.0,
      "completions/mean_length": 858.6953125,
      "completions/mean_terminated_length": 844.5928955078125,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.6899376973628062,
      "grad_norm": 2.7229037284851074,
      "kl": 2.23046875,
      "learning_rate": 3.3923254108823114e-07,
      "loss": 0.1098,
      "num_tokens": 1137069551.0,
      "reward": 1.12451171875,
      "reward_std": 0.38507571816444397,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17503775656223297,
      "step": 2021
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2016.0,
      "completions/mean_length": 823.71875,
      "completions/mean_terminated_length": 814.0787353515625,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.690279081676197,
      "grad_norm": 2.605647325515747,
      "kl": 2.232421875,
      "learning_rate": 3.387588430341461e-07,
      "loss": 0.0925,
      "num_tokens": 1137562623.0,
      "reward": 1.05224609375,
      "reward_std": 0.32912611961364746,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.1861388236284256,
      "step": 2022
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1982.0,
      "completions/mean_length": 823.99609375,
      "completions/mean_terminated_length": 811.925048828125,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.6906204659895878,
      "grad_norm": 2.058511972427368,
      "kl": 2.2421875,
      "learning_rate": 3.382854450257696e-07,
      "loss": 0.1134,
      "num_tokens": 1138051325.0,
      "reward": 1.0810546875,
      "reward_std": 0.3180699646472931,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.16057194769382477,
      "step": 2023
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2001.0,
      "completions/mean_length": 774.353515625,
      "completions/mean_terminated_length": 769.35888671875,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.6909618503029786,
      "grad_norm": 3.8489980697631836,
      "kl": 1.998046875,
      "learning_rate": 3.378123477355135e-07,
      "loss": 0.1424,
      "num_tokens": 1138526610.0,
      "reward": 1.138671875,
      "reward_std": 0.3458394408226013,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.94921875,
      "rewards/tag_count_reward/std": 0.15359161794185638,
      "step": 2024
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 860.919921875,
      "completions/mean_terminated_length": 842.0774536132812,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.6913032346163693,
      "grad_norm": 5.384428977966309,
      "kl": 2.55078125,
      "learning_rate": 3.373395518353625e-07,
      "loss": 0.0867,
      "num_tokens": 1139050089.0,
      "reward": 1.0693359375,
      "reward_std": 0.357952743768692,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.18308307230472565,
      "step": 2025
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 789.62109375,
      "completions/mean_terminated_length": 782.204345703125,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.6916446189297601,
      "grad_norm": 2.204078435897827,
      "kl": 2.310546875,
      "learning_rate": 3.3686705799687285e-07,
      "loss": 0.1235,
      "num_tokens": 1139529655.0,
      "reward": 1.13232421875,
      "reward_std": 0.37530261278152466,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.1749831587076187,
      "step": 2026
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 892.69921875,
      "completions/mean_terminated_length": 869.685302734375,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.691986003243151,
      "grad_norm": 4.572418212890625,
      "kl": 2.7109375,
      "learning_rate": 3.3639486689117234e-07,
      "loss": 0.0986,
      "num_tokens": 1140058205.0,
      "reward": 1.08740234375,
      "reward_std": 0.39657920598983765,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.18427632749080658,
      "step": 2027
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1897.0,
      "completions/mean_length": 855.8984375,
      "completions/mean_terminated_length": 824.8416748046875,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.6923273875565418,
      "grad_norm": 7.1265950202941895,
      "kl": 2.912109375,
      "learning_rate": 3.3592297918895824e-07,
      "loss": 0.26,
      "num_tokens": 1140583305.0,
      "reward": 1.02294921875,
      "reward_std": 0.30741724371910095,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.025390625,
      "rewards/format_reward/std": 0.15746226906776428,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.19118840992450714,
      "step": 2028
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1965.0,
      "completions/mean_length": 871.46875,
      "completions/mean_terminated_length": 850.41748046875,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "epoch": 0.6926687718699326,
      "grad_norm": 4.3199663162231445,
      "kl": 2.412109375,
      "learning_rate": 3.354513955604971e-07,
      "loss": 0.1707,
      "num_tokens": 1141119593.0,
      "reward": 1.06103515625,
      "reward_std": 0.34209397435188293,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.18718312680721283,
      "step": 2029
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1966.0,
      "completions/mean_length": 847.966796875,
      "completions/mean_terminated_length": 838.5177001953125,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.6930101561833234,
      "grad_norm": 2.2698123455047607,
      "kl": 2.1640625,
      "learning_rate": 3.3498011667562365e-07,
      "loss": 0.0946,
      "num_tokens": 1141628856.0,
      "reward": 1.09228515625,
      "reward_std": 0.3573184609413147,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17875948548316956,
      "step": 2030
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 878.076171875,
      "completions/mean_terminated_length": 864.20361328125,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.6933515404967142,
      "grad_norm": 2.515773057937622,
      "kl": 2.22265625,
      "learning_rate": 3.345091432037398e-07,
      "loss": 0.0831,
      "num_tokens": 1142161679.0,
      "reward": 1.044921875,
      "reward_std": 0.3244918882846832,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.16988569498062134,
      "step": 2031
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1953.0,
      "completions/mean_length": 811.298828125,
      "completions/mean_terminated_length": 799.1026000976562,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.693692924810105,
      "grad_norm": 6.9392876625061035,
      "kl": 3.17578125,
      "learning_rate": 3.340384758138133e-07,
      "loss": 0.1461,
      "num_tokens": 1142642680.0,
      "reward": 1.11181640625,
      "reward_std": 0.3710258901119232,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.18333014845848083,
      "step": 2032
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 895.619140625,
      "completions/mean_terminated_length": 884.2544555664062,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.6940343091234957,
      "grad_norm": 5.473264217376709,
      "kl": 1.9140625,
      "learning_rate": 3.335681151743775e-07,
      "loss": 0.0544,
      "num_tokens": 1143188725.0,
      "reward": 1.10107421875,
      "reward_std": 0.34152883291244507,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17291219532489777,
      "step": 2033
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1958.0,
      "completions/mean_length": 881.931640625,
      "completions/mean_terminated_length": 870.4319458007812,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.6943756934368865,
      "grad_norm": 3.096057653427124,
      "kl": 1.7578125,
      "learning_rate": 3.3309806195352976e-07,
      "loss": 0.1026,
      "num_tokens": 1143712402.0,
      "reward": 1.0810546875,
      "reward_std": 0.2960221469402313,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.1606195569038391,
      "step": 2034
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 811.228515625,
      "completions/mean_terminated_length": 794.0851440429688,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.6947170777502774,
      "grad_norm": 2.296532392501831,
      "kl": 1.7421875,
      "learning_rate": 3.32628316818931e-07,
      "loss": 0.0828,
      "num_tokens": 1144206295.0,
      "reward": 1.1875,
      "reward_std": 0.3502257764339447,
      "rewards/accuracy_reward/mean": 0.18359375,
      "rewards/accuracy_reward/std": 0.3875311613082886,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.951171875,
      "rewards/tag_count_reward/std": 0.1493907868862152,
      "step": 2035
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1969.0,
      "completions/mean_length": 931.650390625,
      "completions/mean_terminated_length": 909.412353515625,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.6950584620636682,
      "grad_norm": 3.3257064819335938,
      "kl": 2.67578125,
      "learning_rate": 3.3215888043780453e-07,
      "loss": 0.1469,
      "num_tokens": 1144758020.0,
      "reward": 1.01416015625,
      "reward_std": 0.33109569549560547,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.19656065106391907,
      "step": 2036
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1975.0,
      "completions/mean_length": 906.294921875,
      "completions/mean_terminated_length": 899.5658569335938,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.695399846377059,
      "grad_norm": 4.429315567016602,
      "kl": 2.109375,
      "learning_rate": 3.3168975347693517e-07,
      "loss": 0.148,
      "num_tokens": 1145306011.0,
      "reward": 1.0380859375,
      "reward_std": 0.319455087184906,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.18822988867759705,
      "step": 2037
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2009.0,
      "completions/mean_length": 873.107421875,
      "completions/mean_terminated_length": 856.8218383789062,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.6957412306904498,
      "grad_norm": 2.7152650356292725,
      "kl": 2.84765625,
      "learning_rate": 3.3122093660266794e-07,
      "loss": 0.1604,
      "num_tokens": 1145829346.0,
      "reward": 1.02783203125,
      "reward_std": 0.32627755403518677,
      "rewards/accuracy_reward/mean": 0.07056451588869095,
      "rewards/accuracy_reward/std": 0.25635460019111633,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.18998514115810394,
      "step": 2038
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1930.0,
      "completions/mean_length": 799.921875,
      "completions/mean_terminated_length": 782.621826171875,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.6960826150038406,
      "grad_norm": 2.535181999206543,
      "kl": 1.994140625,
      "learning_rate": 3.3075243048090766e-07,
      "loss": 0.1136,
      "num_tokens": 1146319690.0,
      "reward": 1.15576171875,
      "reward_std": 0.34523525834083557,
      "rewards/accuracy_reward/mean": 0.16532258689403534,
      "rewards/accuracy_reward/std": 0.37184643745422363,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.16188396513462067,
      "step": 2039
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2002.0,
      "completions/mean_length": 851.9921875,
      "completions/mean_terminated_length": 837.810302734375,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.6964239993172314,
      "grad_norm": 2.6821112632751465,
      "kl": 2.62109375,
      "learning_rate": 3.3028423577711755e-07,
      "loss": 0.1409,
      "num_tokens": 1146833398.0,
      "reward": 1.09521484375,
      "reward_std": 0.35190898180007935,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.92919921875,
      "rewards/tag_count_reward/std": 0.18237383663654327,
      "step": 2040
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 899.22265625,
      "completions/mean_terminated_length": 885.600830078125,
      "completions/min_length": 268.0,
      "completions/min_terminated_length": 268.0,
      "epoch": 0.6967653836306221,
      "grad_norm": 3.7952985763549805,
      "kl": 2.0546875,
      "learning_rate": 3.2981635315631885e-07,
      "loss": 0.0854,
      "num_tokens": 1147375288.0,
      "reward": 1.08984375,
      "reward_std": 0.31668949127197266,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.94921875,
      "rewards/tag_count_reward/std": 0.15118376910686493,
      "step": 2041
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 842.53515625,
      "completions/mean_terminated_length": 835.4302978515625,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.6971067679440129,
      "grad_norm": 1.8702855110168457,
      "kl": 1.96875,
      "learning_rate": 3.293487832830891e-07,
      "loss": 0.0994,
      "num_tokens": 1147887930.0,
      "reward": 1.1171875,
      "reward_std": 0.306997686624527,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.15920037031173706,
      "step": 2042
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 863.55078125,
      "completions/mean_terminated_length": 847.1326904296875,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.6974481522574038,
      "grad_norm": 3.088501453399658,
      "kl": 2.53515625,
      "learning_rate": 3.288815268215622e-07,
      "loss": 0.1548,
      "num_tokens": 1148403732.0,
      "reward": 1.07421875,
      "reward_std": 0.30261605978012085,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.18501698970794678,
      "step": 2043
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1974.0,
      "completions/mean_length": 899.251953125,
      "completions/mean_terminated_length": 890.2066650390625,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.6977895365707946,
      "grad_norm": 3.1716232299804688,
      "kl": 1.78125,
      "learning_rate": 3.2841458443542604e-07,
      "loss": 0.0997,
      "num_tokens": 1148938565.0,
      "reward": 1.0849609375,
      "reward_std": 0.34739550948143005,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.1666000783443451,
      "step": 2044
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 882.08984375,
      "completions/mean_terminated_length": 870.5917358398438,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.6981309208841854,
      "grad_norm": 4.9459614753723145,
      "kl": 2.212890625,
      "learning_rate": 3.279479567879232e-07,
      "loss": 0.1019,
      "num_tokens": 1149471731.0,
      "reward": 1.10107421875,
      "reward_std": 0.33557015657424927,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17007611691951752,
      "step": 2045
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1998.0,
      "completions/mean_length": 933.83203125,
      "completions/mean_terminated_length": 909.3692626953125,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.6984723051975762,
      "grad_norm": 1.4658163785934448,
      "kl": 2.37109375,
      "learning_rate": 3.2748164454184867e-07,
      "loss": 0.1249,
      "num_tokens": 1150030237.0,
      "reward": 1.04833984375,
      "reward_std": 0.33467191457748413,
      "rewards/accuracy_reward/mean": 0.060483869165182114,
      "rewards/accuracy_reward/std": 0.2386218160390854,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.1804301142692566,
      "step": 2046
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 899.19140625,
      "completions/mean_terminated_length": 873.9680786132812,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.698813689510967,
      "grad_norm": 1.4968277215957642,
      "kl": 2.8984375,
      "learning_rate": 3.270156483595496e-07,
      "loss": 0.1856,
      "num_tokens": 1150563807.0,
      "reward": 1.02490234375,
      "reward_std": 0.33558905124664307,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.19357748329639435,
      "step": 2047
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1970.0,
      "completions/mean_length": 866.634765625,
      "completions/mean_terminated_length": 847.8829956054688,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.6991550738243578,
      "grad_norm": 2.8308959007263184,
      "kl": 1.94921875,
      "learning_rate": 3.2654996890292453e-07,
      "loss": 0.0786,
      "num_tokens": 1151081764.0,
      "reward": 1.05419921875,
      "reward_std": 0.24821466207504272,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.94287109375,
      "rewards/tag_count_reward/std": 0.1663554310798645,
      "step": 2048
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 871.810546875,
      "completions/mean_terminated_length": 855.5069580078125,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.6994964581377485,
      "grad_norm": 2.3430943489074707,
      "kl": 2.51171875,
      "learning_rate": 3.260846068334218e-07,
      "loss": 0.134,
      "num_tokens": 1151602243.0,
      "reward": 1.0439453125,
      "reward_std": 0.288002073764801,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.1709705889225006,
      "step": 2049
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1984.0,
      "completions/mean_length": 864.6484375,
      "completions/mean_terminated_length": 848.2455444335938,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.6998378424511393,
      "grad_norm": 3.197082757949829,
      "kl": 2.87890625,
      "learning_rate": 3.256195628120387e-07,
      "loss": 0.1317,
      "num_tokens": 1152120959.0,
      "reward": 1.107421875,
      "reward_std": 0.35819485783576965,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.19534705579280853,
      "step": 2050
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 936.4140625,
      "completions/mean_terminated_length": 914.2709350585938,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.7001792267645301,
      "grad_norm": 2.7993712425231934,
      "kl": 1.865234375,
      "learning_rate": 3.2515483749932136e-07,
      "loss": 0.1201,
      "num_tokens": 1152674019.0,
      "reward": 1.07861328125,
      "reward_std": 0.3104711174964905,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.1793731451034546,
      "step": 2051
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1972.0,
      "completions/mean_length": 930.775390625,
      "completions/mean_terminated_length": 917.5277099609375,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.700520611077921,
      "grad_norm": 2.217512845993042,
      "kl": 2.126953125,
      "learning_rate": 3.2469043155536266e-07,
      "loss": 0.1157,
      "num_tokens": 1153226864.0,
      "reward": 1.04296875,
      "reward_std": 0.3125886023044586,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.1816289722919464,
      "step": 2052
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 997.1484375,
      "completions/mean_terminated_length": 961.0586547851562,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.7008619953913118,
      "grad_norm": 1.6279301643371582,
      "kl": 3.1015625,
      "learning_rate": 3.242263456398022e-07,
      "loss": 0.1879,
      "num_tokens": 1153813724.0,
      "reward": 1.0234375,
      "reward_std": 0.36192587018013,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.896484375,
      "rewards/tag_count_reward/std": 0.21106232702732086,
      "step": 2053
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 900.798828125,
      "completions/mean_terminated_length": 882.58935546875,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.7012033797047026,
      "grad_norm": 3.0876924991607666,
      "kl": 2.564453125,
      "learning_rate": 3.237625804118249e-07,
      "loss": 0.1628,
      "num_tokens": 1154351829.0,
      "reward": 1.03369140625,
      "reward_std": 0.3081708550453186,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0234375,
      "rewards/format_reward/std": 0.15143637359142303,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.1820801943540573,
      "step": 2054
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 913.6484375,
      "completions/mean_terminated_length": 904.716552734375,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.7015447640180934,
      "grad_norm": 2.9013869762420654,
      "kl": 1.642578125,
      "learning_rate": 3.232991365301604e-07,
      "loss": 0.0972,
      "num_tokens": 1154898321.0,
      "reward": 1.08935546875,
      "reward_std": 0.2962498664855957,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.95458984375,
      "rewards/tag_count_reward/std": 0.14508728682994843,
      "step": 2055
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 869.607421875,
      "completions/mean_terminated_length": 867.3013916015625,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.7018861483314842,
      "grad_norm": 1.661656141281128,
      "kl": 1.658203125,
      "learning_rate": 3.2283601465308135e-07,
      "loss": 0.0571,
      "num_tokens": 1155415320.0,
      "reward": 1.125,
      "reward_std": 0.3145996332168579,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.03125,
      "rewards/format_reward/std": 0.17416280508041382,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.16467617452144623,
      "step": 2056
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2002.0,
      "completions/mean_length": 936.619140625,
      "completions/mean_terminated_length": 927.8681030273438,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.7022275326448749,
      "grad_norm": 4.517663955688477,
      "kl": 1.8046875,
      "learning_rate": 3.2237321543840367e-07,
      "loss": 0.0484,
      "num_tokens": 1155970613.0,
      "reward": 1.05224609375,
      "reward_std": 0.30492764711380005,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.1572064310312271,
      "step": 2057
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 844.6328125,
      "completions/mean_terminated_length": 820.661376953125,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.7025689169582657,
      "grad_norm": 1.5827946662902832,
      "kl": 2.2021484375,
      "learning_rate": 3.219107395434843e-07,
      "loss": 0.142,
      "num_tokens": 1156483385.0,
      "reward": 1.15625,
      "reward_std": 0.36130523681640625,
      "rewards/accuracy_reward/mean": 0.17540322244167328,
      "rewards/accuracy_reward/std": 0.3806955814361572,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.9453125,
      "rewards/tag_count_reward/std": 0.17115212976932526,
      "step": 2058
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 872.416015625,
      "completions/mean_terminated_length": 865.4872436523438,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.7029103012716565,
      "grad_norm": 2.5658154487609863,
      "kl": 3.001953125,
      "learning_rate": 3.2144858762522156e-07,
      "loss": 0.1707,
      "num_tokens": 1157003134.0,
      "reward": 1.130859375,
      "reward_std": 0.35006314516067505,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.1847999542951584,
      "step": 2059
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1992.0,
      "completions/mean_length": 939.365234375,
      "completions/mean_terminated_length": 935.0177001953125,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.7032516855850474,
      "grad_norm": 5.632010459899902,
      "kl": 2.83984375,
      "learning_rate": 3.2098676034005325e-07,
      "loss": 0.1229,
      "num_tokens": 1157563641.0,
      "reward": 1.111328125,
      "reward_std": 0.3705633878707886,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.18991030752658844,
      "step": 2060
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 908.017578125,
      "completions/mean_terminated_length": 889.9226684570312,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.7035930698984382,
      "grad_norm": 7.497401237487793,
      "kl": 2.42578125,
      "learning_rate": 3.205252583439564e-07,
      "loss": 0.0608,
      "num_tokens": 1158118610.0,
      "reward": 1.0849609375,
      "reward_std": 0.3396851718425751,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.15904124081134796,
      "step": 2061
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1959.0,
      "completions/mean_length": 865.884765625,
      "completions/mean_terminated_length": 847.12109375,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.703934454211829,
      "grad_norm": 3.1223888397216797,
      "kl": 2.669921875,
      "learning_rate": 3.200640822924453e-07,
      "loss": 0.1456,
      "num_tokens": 1158635559.0,
      "reward": 1.09228515625,
      "reward_std": 0.31413334608078003,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.17327652871608734,
      "step": 2062
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1976.0,
      "completions/mean_length": 923.763671875,
      "completions/mean_terminated_length": 917.1375732421875,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "epoch": 0.7042758385252198,
      "grad_norm": 1.7292968034744263,
      "kl": 1.890625,
      "learning_rate": 3.1960323284057226e-07,
      "loss": 0.0822,
      "num_tokens": 1159188590.0,
      "reward": 1.07275390625,
      "reward_std": 0.330628901720047,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.17465519905090332,
      "step": 2063
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 931.328125,
      "completions/mean_terminated_length": 918.0869750976562,
      "completions/min_length": 278.0,
      "completions/min_terminated_length": 278.0,
      "epoch": 0.7046172228386106,
      "grad_norm": 4.040060043334961,
      "kl": 2.953125,
      "learning_rate": 3.1914271064292476e-07,
      "loss": 0.1694,
      "num_tokens": 1159750614.0,
      "reward": 1.0517578125,
      "reward_std": 0.347946435213089,
      "rewards/accuracy_reward/mean": 0.09879032522439957,
      "rewards/accuracy_reward/std": 0.2986815273761749,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.1926850527524948,
      "step": 2064
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1888.0,
      "completions/mean_length": 913.443359375,
      "completions/mean_terminated_length": 897.7168579101562,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.7049586071520013,
      "grad_norm": 2.0488128662109375,
      "kl": 2.6953125,
      "learning_rate": 3.1868251635362584e-07,
      "loss": 0.1273,
      "num_tokens": 1160294009.0,
      "reward": 1.16259765625,
      "reward_std": 0.3914956748485565,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.1739809662103653,
      "step": 2065
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 935.466796875,
      "completions/mean_terminated_length": 913.3048095703125,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.7052999914653921,
      "grad_norm": 1.882514238357544,
      "kl": 2.326171875,
      "learning_rate": 3.1822265062633304e-07,
      "loss": 0.1318,
      "num_tokens": 1160852056.0,
      "reward": 1.0576171875,
      "reward_std": 0.3285204768180847,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.1833334118127823,
      "step": 2066
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 951.78125,
      "completions/mean_terminated_length": 934.3809814453125,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.7056413757787829,
      "grad_norm": 3.051801919937134,
      "kl": 2.5703125,
      "learning_rate": 3.1776311411423687e-07,
      "loss": 0.1584,
      "num_tokens": 1161416200.0,
      "reward": 1.03857421875,
      "reward_std": 0.32101166248321533,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17502138018608093,
      "step": 2067
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 956.146484375,
      "completions/mean_terminated_length": 941.0119018554688,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.7059827600921738,
      "grad_norm": 5.0430474281311035,
      "kl": 2.25390625,
      "learning_rate": 3.173039074700602e-07,
      "loss": 0.0733,
      "num_tokens": 1161987155.0,
      "reward": 1.076171875,
      "reward_std": 0.3384384512901306,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.19010141491889954,
      "step": 2068
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 945.33203125,
      "completions/mean_terminated_length": 927.8294067382812,
      "completions/min_length": 305.0,
      "completions/min_terminated_length": 305.0,
      "epoch": 0.7063241444055646,
      "grad_norm": 3.8846516609191895,
      "kl": 2.375,
      "learning_rate": 3.168450313460577e-07,
      "loss": 0.0917,
      "num_tokens": 1162552717.0,
      "reward": 1.05224609375,
      "reward_std": 0.3390119671821594,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.17906923592090607,
      "step": 2069
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.005859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 906.74609375,
      "completions/mean_terminated_length": 900.0196533203125,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.7066655287189554,
      "grad_norm": 8.674768447875977,
      "kl": 2.0703125,
      "learning_rate": 3.16386486394014e-07,
      "loss": 0.0289,
      "num_tokens": 1163090283.0,
      "reward": 1.08642578125,
      "reward_std": 0.3626440763473511,
      "rewards/accuracy_reward/mean": 0.11088709533214569,
      "rewards/accuracy_reward/std": 0.3143092691898346,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.1780041754245758,
      "step": 2070
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1930.0,
      "completions/mean_length": 970.03515625,
      "completions/mean_terminated_length": 959.4043579101562,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.7070069130323462,
      "grad_norm": 1.7121455669403076,
      "kl": 1.69140625,
      "learning_rate": 3.1592827326524395e-07,
      "loss": 0.0695,
      "num_tokens": 1163668221.0,
      "reward": 1.07373046875,
      "reward_std": 0.33283674716949463,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.17930388450622559,
      "step": 2071
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1943.0,
      "completions/mean_length": 942.34765625,
      "completions/mean_terminated_length": 929.2371826171875,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.707348297345737,
      "grad_norm": 1.2957576513290405,
      "kl": 1.890625,
      "learning_rate": 3.154703926105907e-07,
      "loss": 0.1004,
      "num_tokens": 1164225807.0,
      "reward": 1.037109375,
      "reward_std": 0.3216906487941742,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.935546875,
      "rewards/tag_count_reward/std": 0.17131954431533813,
      "step": 2072
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1990.0,
      "completions/mean_length": 907.765625,
      "completions/mean_terminated_length": 885.0518188476562,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.7076896816591277,
      "grad_norm": 6.42418098449707,
      "kl": 2.2880859375,
      "learning_rate": 3.1501284508042536e-07,
      "loss": 0.0777,
      "num_tokens": 1164760839.0,
      "reward": 1.10498046875,
      "reward_std": 0.3907593786716461,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.1749831587076187,
      "step": 2073
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1012.328125,
      "completions/mean_terminated_length": 991.697265625,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.7080310659725185,
      "grad_norm": 1.9056379795074463,
      "kl": 2.9296875,
      "learning_rate": 3.1455563132464567e-07,
      "loss": 0.1495,
      "num_tokens": 1165357919.0,
      "reward": 1.02490234375,
      "reward_std": 0.3452129364013672,
      "rewards/accuracy_reward/mean": 0.08669354766607285,
      "rewards/accuracy_reward/std": 0.281669557094574,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.90185546875,
      "rewards/tag_count_reward/std": 0.2081073820590973,
      "step": 2074
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 906.298828125,
      "completions/mean_terminated_length": 878.8980712890625,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.7083724502859093,
      "grad_norm": 2.7555909156799316,
      "kl": 2.27734375,
      "learning_rate": 3.1409875199267556e-07,
      "loss": 0.1402,
      "num_tokens": 1165899672.0,
      "reward": 1.18798828125,
      "reward_std": 0.4005546569824219,
      "rewards/accuracy_reward/mean": 0.205078125,
      "rewards/accuracy_reward/std": 0.4041535556316376,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.18214841187000275,
      "step": 2075
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1960.0,
      "completions/mean_length": 1001.12109375,
      "completions/mean_terminated_length": 980.2669677734375,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.7087138345993002,
      "grad_norm": 2.6930439472198486,
      "kl": 2.21484375,
      "learning_rate": 3.1364220773346346e-07,
      "loss": 0.1197,
      "num_tokens": 1166494614.0,
      "reward": 1.0400390625,
      "reward_std": 0.3177770972251892,
      "rewards/accuracy_reward/mean": 0.060483869165182114,
      "rewards/accuracy_reward/std": 0.2386218160390854,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.18428993225097656,
      "step": 2076
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 953.2890625,
      "completions/mean_terminated_length": 938.1148681640625,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.709055218912691,
      "grad_norm": 4.2263875007629395,
      "kl": 1.716796875,
      "learning_rate": 3.1318599919548235e-07,
      "loss": 0.091,
      "num_tokens": 1167059706.0,
      "reward": 1.0732421875,
      "reward_std": 0.29490160942077637,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.16953378915786743,
      "step": 2077
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 866.671875,
      "completions/mean_terminated_length": 852.6640625,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.7093966032260818,
      "grad_norm": 3.0302419662475586,
      "kl": 2.55078125,
      "learning_rate": 3.127301270267282e-07,
      "loss": 0.1397,
      "num_tokens": 1167574466.0,
      "reward": 1.0859375,
      "reward_std": 0.3346711993217468,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17828376591205597,
      "step": 2078
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 891.16796875,
      "completions/mean_terminated_length": 879.7593994140625,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.7097379875394726,
      "grad_norm": 2.0054116249084473,
      "kl": 2.01953125,
      "learning_rate": 3.122745918747193e-07,
      "loss": 0.083,
      "num_tokens": 1168110408.0,
      "reward": 1.08203125,
      "reward_std": 0.3111875653266907,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17896848917007446,
      "step": 2079
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1024.44140625,
      "completions/mean_terminated_length": 993.5492553710938,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.7100793718528634,
      "grad_norm": 2.6261651515960693,
      "kl": 2.732421875,
      "learning_rate": 3.1181939438649485e-07,
      "loss": 0.1198,
      "num_tokens": 1168712170.0,
      "reward": 1.0224609375,
      "reward_std": 0.33199214935302734,
      "rewards/accuracy_reward/mean": 0.0786290317773819,
      "rewards/accuracy_reward/std": 0.26943066716194153,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.20196326076984406,
      "step": 2080
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1845.0,
      "completions/mean_length": 972.748046875,
      "completions/mean_terminated_length": 962.1439819335938,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "epoch": 0.7104207561662541,
      "grad_norm": 1.6980721950531006,
      "kl": 2.19921875,
      "learning_rate": 3.1136453520861494e-07,
      "loss": 0.081,
      "num_tokens": 1169288681.0,
      "reward": 1.08349609375,
      "reward_std": 0.335152268409729,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.17210347950458527,
      "step": 2081
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 961.078125,
      "completions/mean_terminated_length": 943.825439453125,
      "completions/min_length": 278.0,
      "completions/min_terminated_length": 278.0,
      "epoch": 0.7107621404796449,
      "grad_norm": 3.2408053874969482,
      "kl": 2.30859375,
      "learning_rate": 3.1091001498715874e-07,
      "loss": 0.0639,
      "num_tokens": 1169857361.0,
      "reward": 1.01171875,
      "reward_std": 0.3441643714904785,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.2005888968706131,
      "step": 2082
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 928.5625,
      "completions/mean_terminated_length": 913.0455932617188,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.7111035247930357,
      "grad_norm": 2.4408140182495117,
      "kl": 2.0078125,
      "learning_rate": 3.104558343677242e-07,
      "loss": 0.0759,
      "num_tokens": 1170405425.0,
      "reward": 1.05859375,
      "reward_std": 0.29011622071266174,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.1816289722919464,
      "step": 2083
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 905.404296875,
      "completions/mean_terminated_length": 896.407470703125,
      "completions/min_length": 73.0,
      "completions/min_terminated_length": 73.0,
      "epoch": 0.7114449091064265,
      "grad_norm": 3.700108766555786,
      "kl": 1.740234375,
      "learning_rate": 3.100019939954267e-07,
      "loss": 0.0588,
      "num_tokens": 1170938480.0,
      "reward": 1.07763671875,
      "reward_std": 0.35653746128082275,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.1736346036195755,
      "step": 2084
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1014.556640625,
      "completions/mean_terminated_length": 1000.231689453125,
      "completions/min_length": 310.0,
      "completions/min_terminated_length": 310.0,
      "epoch": 0.7117862934198174,
      "grad_norm": 1.6824538707733154,
      "kl": 1.857421875,
      "learning_rate": 3.0954849451489884e-07,
      "loss": 0.0792,
      "num_tokens": 1171534381.0,
      "reward": 1.08056640625,
      "reward_std": 0.3470780849456787,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.1794423907995224,
      "step": 2085
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 947.73828125,
      "completions/mean_terminated_length": 934.6917114257812,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.7121276777332082,
      "grad_norm": 2.645061492919922,
      "kl": 1.3857421875,
      "learning_rate": 3.090953365702882e-07,
      "loss": 0.0476,
      "num_tokens": 1172094119.0,
      "reward": 1.02392578125,
      "reward_std": 0.3295062482357025,
      "rewards/accuracy_reward/mean": 0.04296875,
      "rewards/accuracy_reward/std": 0.2029850035905838,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.1874433010816574,
      "step": 2086
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 990.681640625,
      "completions/mean_terminated_length": 965.3060302734375,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.712469062046599,
      "grad_norm": 1.8598291873931885,
      "kl": 2.478515625,
      "learning_rate": 3.08642520805258e-07,
      "loss": 0.1302,
      "num_tokens": 1172683108.0,
      "reward": 1.07470703125,
      "reward_std": 0.36600035429000854,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.19551268219947815,
      "step": 2087
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 1041.626953125,
      "completions/mean_terminated_length": 1011.2534790039062,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.7128104463599898,
      "grad_norm": 2.8653650283813477,
      "kl": 1.85546875,
      "learning_rate": 3.081900478629848e-07,
      "loss": 0.0801,
      "num_tokens": 1173299733.0,
      "reward": 1.04296875,
      "reward_std": 0.3478839099407196,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.91015625,
      "rewards/tag_count_reward/std": 0.1977970004081726,
      "step": 2088
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1993.0,
      "completions/mean_length": 923.197265625,
      "completions/mean_terminated_length": 891.5762939453125,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.7131518306733805,
      "grad_norm": 10.932439804077148,
      "kl": 2.1171875,
      "learning_rate": 3.077379183861587e-07,
      "loss": 0.1544,
      "num_tokens": 1173849754.0,
      "reward": 1.0625,
      "reward_std": 0.3302322328090668,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.19534705579280853,
      "step": 2089
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1915.0,
      "completions/mean_length": 932.109375,
      "completions/mean_terminated_length": 916.6416015625,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.7134932149867713,
      "grad_norm": 2.4517128467559814,
      "kl": 1.623046875,
      "learning_rate": 3.072861330169818e-07,
      "loss": 0.0598,
      "num_tokens": 1174399842.0,
      "reward": 1.0400390625,
      "reward_std": 0.26263684034347534,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.1658182144165039,
      "step": 2090
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 882.740234375,
      "completions/mean_terminated_length": 859.5278930664062,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.7138345993001621,
      "grad_norm": 3.553374767303467,
      "kl": 2.40234375,
      "learning_rate": 3.0683469239716753e-07,
      "loss": 0.159,
      "num_tokens": 1174926813.0,
      "reward": 1.16015625,
      "reward_std": 0.3651435971260071,
      "rewards/accuracy_reward/mean": 0.19758065044879913,
      "rewards/accuracy_reward/std": 0.398576021194458,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17621363699436188,
      "step": 2091
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1998.0,
      "completions/mean_length": 970.98828125,
      "completions/mean_terminated_length": 940.7108154296875,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.714175983613553,
      "grad_norm": 7.568809986114502,
      "kl": 2.634765625,
      "learning_rate": 3.0638359716793926e-07,
      "loss": 0.1993,
      "num_tokens": 1175504023.0,
      "reward": 1.06591796875,
      "reward_std": 0.30761605501174927,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.18874886631965637,
      "step": 2092
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 935.556640625,
      "completions/mean_terminated_length": 908.8580322265625,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.7145173679269438,
      "grad_norm": 3.367060661315918,
      "kl": 2.111328125,
      "learning_rate": 3.059328479700303e-07,
      "loss": 0.1102,
      "num_tokens": 1176055812.0,
      "reward": 1.09228515625,
      "reward_std": 0.31176435947418213,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.177461177110672,
      "step": 2093
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2005.0,
      "completions/mean_length": 936.71875,
      "completions/mean_terminated_length": 921.3148803710938,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.7148587522403346,
      "grad_norm": 3.9183101654052734,
      "kl": 2.189453125,
      "learning_rate": 3.054824454436818e-07,
      "loss": 0.1391,
      "num_tokens": 1176609684.0,
      "reward": 1.08251953125,
      "reward_std": 0.3413243591785431,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.19126836955547333,
      "step": 2094
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 916.521484375,
      "completions/mean_terminated_length": 905.3629150390625,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.7152001365537254,
      "grad_norm": 1.8598436117172241,
      "kl": 1.609375,
      "learning_rate": 3.0503239022864327e-07,
      "loss": 0.069,
      "num_tokens": 1177150527.0,
      "reward": 1.0693359375,
      "reward_std": 0.3265714943408966,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.9423828125,
      "rewards/tag_count_reward/std": 0.1628410518169403,
      "step": 2095
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 971.244140625,
      "completions/mean_terminated_length": 947.602783203125,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.7155415208671162,
      "grad_norm": 1.6463770866394043,
      "kl": 2.41015625,
      "learning_rate": 3.045826829641701e-07,
      "loss": 0.1041,
      "num_tokens": 1177723884.0,
      "reward": 1.10693359375,
      "reward_std": 0.3826766014099121,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.1888652741909027,
      "step": 2096
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1879.0,
      "completions/mean_length": 838.83203125,
      "completions/mean_terminated_length": 834.0902709960938,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.7158829051805069,
      "grad_norm": 2.6229939460754395,
      "kl": 1.767578125,
      "learning_rate": 3.0413332428902437e-07,
      "loss": 0.0647,
      "num_tokens": 1178224406.0,
      "reward": 1.15576171875,
      "reward_std": 0.34136268496513367,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.95458984375,
      "rewards/tag_count_reward/std": 0.14592784643173218,
      "step": 2097
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 840.658203125,
      "completions/mean_terminated_length": 821.4940795898438,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.7162242894938977,
      "grad_norm": 2.4416191577911377,
      "kl": 2.51171875,
      "learning_rate": 3.036843148414722e-07,
      "loss": 0.1533,
      "num_tokens": 1178738743.0,
      "reward": 1.05078125,
      "reward_std": 0.2867480516433716,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.951171875,
      "rewards/tag_count_reward/std": 0.15814046561717987,
      "step": 2098
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1989.0,
      "completions/mean_length": 897.134765625,
      "completions/mean_terminated_length": 869.5140380859375,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.7165656738072885,
      "grad_norm": 2.347712516784668,
      "kl": 3.140625,
      "learning_rate": 3.032356552592841e-07,
      "loss": 0.1899,
      "num_tokens": 1179271084.0,
      "reward": 1.07177734375,
      "reward_std": 0.3246845602989197,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.19546380639076233,
      "step": 2099
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 953.275390625,
      "completions/mean_terminated_length": 935.8988647460938,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.7169070581206793,
      "grad_norm": 3.475773811340332,
      "kl": 3.20703125,
      "learning_rate": 3.027873461797334e-07,
      "loss": 0.1539,
      "num_tokens": 1179827881.0,
      "reward": 1.10546875,
      "reward_std": 0.382254421710968,
      "rewards/accuracy_reward/mean": 0.1391129046678543,
      "rewards/accuracy_reward/std": 0.34641367197036743,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.19541551172733307,
      "step": 2100
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1021.12109375,
      "completions/mean_terminated_length": 990.1287231445312,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.7172484424340702,
      "grad_norm": 4.873970985412598,
      "kl": 2.4296875,
      "learning_rate": 3.023393882395959e-07,
      "loss": 0.1051,
      "num_tokens": 1180431879.0,
      "reward": 1.048828125,
      "reward_std": 0.3608614206314087,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.19246920943260193,
      "step": 2101
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 912.314453125,
      "completions/mean_terminated_length": 882.7274780273438,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.717589826747461,
      "grad_norm": 3.9878900051116943,
      "kl": 3.9453125,
      "learning_rate": 3.018917820751481e-07,
      "loss": 0.2186,
      "num_tokens": 1180982536.0,
      "reward": 1.09765625,
      "reward_std": 0.3582857847213745,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.18201786279678345,
      "step": 2102
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 931.134765625,
      "completions/mean_terminated_length": 915.6535034179688,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.7179312110608518,
      "grad_norm": 2.69391131401062,
      "kl": 2.623046875,
      "learning_rate": 3.0144452832216776e-07,
      "loss": 0.1179,
      "num_tokens": 1181537069.0,
      "reward": 1.11865234375,
      "reward_std": 0.3504186272621155,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17149166762828827,
      "step": 2103
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1902.0,
      "completions/mean_length": 958.326171875,
      "completions/mean_terminated_length": 945.4051513671875,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "epoch": 0.7182725953742426,
      "grad_norm": 1.4373724460601807,
      "kl": 2.30078125,
      "learning_rate": 3.00997627615931e-07,
      "loss": 0.1204,
      "num_tokens": 1182104564.0,
      "reward": 1.0830078125,
      "reward_std": 0.3346357047557831,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.17451083660125732,
      "step": 2104
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 935.453125,
      "completions/mean_terminated_length": 917.793701171875,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.7186139796876334,
      "grad_norm": 7.588167190551758,
      "kl": 2.53125,
      "learning_rate": 3.005510805912133e-07,
      "loss": 0.0835,
      "num_tokens": 1182663724.0,
      "reward": 1.0927734375,
      "reward_std": 0.3213024437427521,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.16808471083641052,
      "step": 2105
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 971.388671875,
      "completions/mean_terminated_length": 952.1251831054688,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.7189553640010241,
      "grad_norm": 3.119499921798706,
      "kl": 2.05078125,
      "learning_rate": 3.001048878822872e-07,
      "loss": 0.0841,
      "num_tokens": 1183236739.0,
      "reward": 1.0673828125,
      "reward_std": 0.3247576355934143,
      "rewards/accuracy_reward/mean": 0.0786290317773819,
      "rewards/accuracy_reward/std": 0.26943066716194153,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.16733261942863464,
      "step": 2106
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 968.78125,
      "completions/mean_terminated_length": 940.6653442382812,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.7192967483144149,
      "grad_norm": 1.7402732372283936,
      "kl": 2.09375,
      "learning_rate": 2.996590501229224e-07,
      "loss": 0.1197,
      "num_tokens": 1183812947.0,
      "reward": 1.099609375,
      "reward_std": 0.3466918468475342,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.935546875,
      "rewards/tag_count_reward/std": 0.17203198373317719,
      "step": 2107
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1015.87890625,
      "completions/mean_terminated_length": 997.4114990234375,
      "completions/min_length": 302.0,
      "completions/min_terminated_length": 302.0,
      "epoch": 0.7196381326278057,
      "grad_norm": 3.0502305030822754,
      "kl": 1.564453125,
      "learning_rate": 2.99213567946384e-07,
      "loss": 0.1003,
      "num_tokens": 1184408277.0,
      "reward": 1.07373046875,
      "reward_std": 0.3070228695869446,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.92919921875,
      "rewards/tag_count_reward/std": 0.17967121303081512,
      "step": 2108
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1966.0,
      "completions/mean_length": 920.609375,
      "completions/mean_terminated_length": 909.4911499023438,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.7199795169411966,
      "grad_norm": 2.784146785736084,
      "kl": 1.6171875,
      "learning_rate": 2.9876844198543266e-07,
      "loss": 0.0961,
      "num_tokens": 1184952429.0,
      "reward": 1.09423828125,
      "reward_std": 0.29471534490585327,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.94775390625,
      "rewards/tag_count_reward/std": 0.16427458822727203,
      "step": 2109
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 980.408203125,
      "completions/mean_terminated_length": 952.59521484375,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.7203209012545874,
      "grad_norm": 1.8828357458114624,
      "kl": 2.0859375,
      "learning_rate": 2.983236728723224e-07,
      "loss": 0.1392,
      "num_tokens": 1185537326.0,
      "reward": 1.0439453125,
      "reward_std": 0.3143582344055176,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.18964596092700958,
      "step": 2110
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 898.091796875,
      "completions/mean_terminated_length": 875.185302734375,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.7206622855679782,
      "grad_norm": 1.9902719259262085,
      "kl": 1.7890625,
      "learning_rate": 2.9787926123880097e-07,
      "loss": 0.1408,
      "num_tokens": 1186078829.0,
      "reward": 1.05126953125,
      "reward_std": 0.27194079756736755,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.94189453125,
      "rewards/tag_count_reward/std": 0.16304263472557068,
      "step": 2111
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 921.8671875,
      "completions/mean_terminated_length": 910.7613525390625,
      "completions/min_length": 22.0,
      "completions/min_terminated_length": 22.0,
      "epoch": 0.721003669881369,
      "grad_norm": 5.46536111831665,
      "kl": 1.5556640625,
      "learning_rate": 2.974352077161077e-07,
      "loss": 0.1022,
      "num_tokens": 1186626761.0,
      "reward": 1.10546875,
      "reward_std": 0.30975374579429626,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.9453125,
      "rewards/tag_count_reward/std": 0.1631019562482834,
      "step": 2112
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 935.671875,
      "completions/mean_terminated_length": 915.7693481445312,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.7213450541947598,
      "grad_norm": 4.400142669677734,
      "kl": 2.126953125,
      "learning_rate": 2.96991512934974e-07,
      "loss": 0.0673,
      "num_tokens": 1187180049.0,
      "reward": 1.14013671875,
      "reward_std": 0.38579443097114563,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.17150279879570007,
      "step": 2113
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 952.654296875,
      "completions/mean_terminated_length": 935.2678833007812,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.7216864385081505,
      "grad_norm": 1.9835413694381714,
      "kl": 1.857421875,
      "learning_rate": 2.965481775256211e-07,
      "loss": 0.1005,
      "num_tokens": 1187738208.0,
      "reward": 1.04638671875,
      "reward_std": 0.29439234733581543,
      "rewards/accuracy_reward/mean": 0.07459677755832672,
      "rewards/accuracy_reward/std": 0.263004869222641,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17079374194145203,
      "step": 2114
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 972.103515625,
      "completions/mean_terminated_length": 937.3971557617188,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.7220278228215413,
      "grad_norm": 2.0127451419830322,
      "kl": 1.984375,
      "learning_rate": 2.9610520211776e-07,
      "loss": 0.0994,
      "num_tokens": 1188315765.0,
      "reward": 1.1064453125,
      "reward_std": 0.3446625769138336,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.18495242297649384,
      "step": 2115
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2000.0,
      "completions/mean_length": 946.49609375,
      "completions/mean_terminated_length": 920.06005859375,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.7223692071349321,
      "grad_norm": 1.6072068214416504,
      "kl": 2.466796875,
      "learning_rate": 2.956625873405905e-07,
      "loss": 0.1435,
      "num_tokens": 1188872931.0,
      "reward": 1.06494140625,
      "reward_std": 0.33009999990463257,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.18012270331382751,
      "step": 2116
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1939.0,
      "completions/mean_length": 825.26171875,
      "completions/mean_terminated_length": 813.2031860351562,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.722710591448323,
      "grad_norm": 3.4244606494903564,
      "kl": 1.953125,
      "learning_rate": 2.952203338228002e-07,
      "loss": 0.1117,
      "num_tokens": 1189378409.0,
      "reward": 1.09423828125,
      "reward_std": 0.32503634691238403,
      "rewards/accuracy_reward/mean": 0.13508065044879913,
      "rewards/accuracy_reward/std": 0.3421548008918762,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.16826297342777252,
      "step": 2117
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1866.0,
      "completions/mean_length": 896.767578125,
      "completions/mean_terminated_length": 873.834716796875,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.7230519757617138,
      "grad_norm": 3.5652318000793457,
      "kl": 2.318359375,
      "learning_rate": 2.947784421925631e-07,
      "loss": 0.1761,
      "num_tokens": 1189916818.0,
      "reward": 1.125,
      "reward_std": 0.3374006748199463,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.16621248424053192,
      "step": 2118
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 999.025390625,
      "completions/mean_terminated_length": 967.3661499023438,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.7233933600751046,
      "grad_norm": 1.6633632183074951,
      "kl": 2.984375,
      "learning_rate": 2.943369130775399e-07,
      "loss": 0.1836,
      "num_tokens": 1190514847.0,
      "reward": 1.0029296875,
      "reward_std": 0.3062749207019806,
      "rewards/accuracy_reward/mean": 0.058467742055654526,
      "rewards/accuracy_reward/std": 0.23486268520355225,
      "rewards/format_reward/mean": 0.03125,
      "rewards/format_reward/std": 0.17416280508041382,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.20237918198108673,
      "step": 2119
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 947.65625,
      "completions/mean_terminated_length": 921.248046875,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.7237347443884954,
      "grad_norm": 1.7128705978393555,
      "kl": 1.9453125,
      "learning_rate": 2.9389574710487547e-07,
      "loss": 0.1179,
      "num_tokens": 1191075375.0,
      "reward": 1.07177734375,
      "reward_std": 0.3148093819618225,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17007611691951752,
      "step": 2120
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2009.0,
      "completions/mean_length": 939.98046875,
      "completions/mean_terminated_length": 926.8419189453125,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.7240761287018862,
      "grad_norm": 3.762661933898926,
      "kl": 2.34375,
      "learning_rate": 2.934549449011997e-07,
      "loss": 0.111,
      "num_tokens": 1191645317.0,
      "reward": 1.083984375,
      "reward_std": 0.3455064296722412,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.17952290177345276,
      "step": 2121
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 1003.40234375,
      "completions/mean_terminated_length": 982.5936279296875,
      "completions/min_length": 300.0,
      "completions/min_terminated_length": 300.0,
      "epoch": 0.7244175130152769,
      "grad_norm": 5.650506019592285,
      "kl": 3.041015625,
      "learning_rate": 2.930145070926254e-07,
      "loss": 0.2066,
      "num_tokens": 1192237299.0,
      "reward": 1.134765625,
      "reward_std": 0.36895841360092163,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.20257031917572021,
      "step": 2122
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 946.919921875,
      "completions/mean_terminated_length": 922.7445068359375,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.7247588973286677,
      "grad_norm": 6.777873516082764,
      "kl": 2.32421875,
      "learning_rate": 2.92574434304748e-07,
      "loss": 0.0759,
      "num_tokens": 1192801098.0,
      "reward": 1.07080078125,
      "reward_std": 0.36891961097717285,
      "rewards/accuracy_reward/mean": 0.0833333358168602,
      "rewards/accuracy_reward/std": 0.2766737639904022,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.192215234041214,
      "step": 2123
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1851.0,
      "completions/mean_length": 933.951171875,
      "completions/mean_terminated_length": 914.017822265625,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.7251002816420585,
      "grad_norm": 3.0265586376190186,
      "kl": 3.3984375,
      "learning_rate": 2.921347271626442e-07,
      "loss": 0.1887,
      "num_tokens": 1193355681.0,
      "reward": 1.087890625,
      "reward_std": 0.3291592299938202,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17828376591205597,
      "step": 2124
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2002.0,
      "completions/mean_length": 903.271484375,
      "completions/mean_terminated_length": 882.7892456054688,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.7254416659554493,
      "grad_norm": 7.29146671295166,
      "kl": 2.603515625,
      "learning_rate": 2.9169538629087153e-07,
      "loss": 0.0974,
      "num_tokens": 1193895932.0,
      "reward": 1.12109375,
      "reward_std": 0.32780325412750244,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.951171875,
      "rewards/tag_count_reward/std": 0.15422488749027252,
      "step": 2125
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1986.0,
      "completions/mean_length": 940.7890625,
      "completions/mean_terminated_length": 929.8698120117188,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.7257830502688402,
      "grad_norm": 4.0576066970825195,
      "kl": 2.369140625,
      "learning_rate": 2.912564123134671e-07,
      "loss": 0.1003,
      "num_tokens": 1194454272.0,
      "reward": 1.08984375,
      "reward_std": 0.31391602754592896,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.16913031041622162,
      "step": 2126
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 972.427734375,
      "completions/mean_terminated_length": 951.0020141601562,
      "completions/min_length": 274.0,
      "completions/min_terminated_length": 274.0,
      "epoch": 0.726124434582231,
      "grad_norm": 2.921215295791626,
      "kl": 2.171875,
      "learning_rate": 2.9081780585394694e-07,
      "loss": 0.0994,
      "num_tokens": 1195039963.0,
      "reward": 1.08349609375,
      "reward_std": 0.3452760875225067,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.16121558845043182,
      "step": 2127
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 940.39453125,
      "completions/mean_terminated_length": 902.3555908203125,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.7264658188956218,
      "grad_norm": 2.3903448581695557,
      "kl": 2.72265625,
      "learning_rate": 2.9037956753530534e-07,
      "loss": 0.1544,
      "num_tokens": 1195604101.0,
      "reward": 1.05712890625,
      "reward_std": 0.3574679493904114,
      "rewards/accuracy_reward/mean": 0.0947580635547638,
      "rewards/accuracy_reward/std": 0.29317617416381836,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.19675986468791962,
      "step": 2128
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1999.0,
      "completions/mean_length": 887.892578125,
      "completions/mean_terminated_length": 874.1364135742188,
      "completions/min_length": 271.0,
      "completions/min_terminated_length": 271.0,
      "epoch": 0.7268072032090126,
      "grad_norm": 2.3155248165130615,
      "kl": 1.8515625,
      "learning_rate": 2.8994169798001334e-07,
      "loss": 0.0863,
      "num_tokens": 1196133470.0,
      "reward": 1.0322265625,
      "reward_std": 0.27031049132347107,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.9482421875,
      "rewards/tag_count_reward/std": 0.16180500388145447,
      "step": 2129
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 921.6015625,
      "completions/mean_terminated_length": 903.7222900390625,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.7271485875224033,
      "grad_norm": 1.7204222679138184,
      "kl": 2.94921875,
      "learning_rate": 2.895041978100182e-07,
      "loss": 0.161,
      "num_tokens": 1196684354.0,
      "reward": 1.0810546875,
      "reward_std": 0.37718504667282104,
      "rewards/accuracy_reward/mean": 0.1270161271095276,
      "rewards/accuracy_reward/std": 0.3333272337913513,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.20076745748519897,
      "step": 2130
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 942.431640625,
      "completions/mean_terminated_length": 927.10693359375,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "epoch": 0.7274899718357941,
      "grad_norm": 2.0065958499908447,
      "kl": 1.8681640625,
      "learning_rate": 2.8906706764674294e-07,
      "loss": 0.089,
      "num_tokens": 1197239759.0,
      "reward": 1.146484375,
      "reward_std": 0.3562297821044922,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.15531150996685028,
      "step": 2131
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1077.025390625,
      "completions/mean_terminated_length": 1061.6131591796875,
      "completions/min_length": 294.0,
      "completions/min_terminated_length": 294.0,
      "epoch": 0.7278313561491849,
      "grad_norm": 1.905436635017395,
      "kl": 2.525390625,
      "learning_rate": 2.886303081110842e-07,
      "loss": 0.1406,
      "num_tokens": 1197870652.0,
      "reward": 1.02880859375,
      "reward_std": 0.34721454977989197,
      "rewards/accuracy_reward/mean": 0.06451612710952759,
      "rewards/accuracy_reward/std": 0.2459181249141693,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.20005404949188232,
      "step": 2132
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1032.8828125,
      "completions/mean_terminated_length": 995.894775390625,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.7281727404625757,
      "grad_norm": 1.2293317317962646,
      "kl": 1.908203125,
      "learning_rate": 2.88193919823413e-07,
      "loss": 0.0942,
      "num_tokens": 1198474064.0,
      "reward": 1.05419921875,
      "reward_std": 0.3445899486541748,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.1913033276796341,
      "step": 2133
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 913.3203125,
      "completions/mean_terminated_length": 895.3095703125,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.7285141247759666,
      "grad_norm": 2.019636631011963,
      "kl": 2.1123046875,
      "learning_rate": 2.8775790340357265e-07,
      "loss": 0.1533,
      "num_tokens": 1199021796.0,
      "reward": 1.00048828125,
      "reward_std": 0.27511173486709595,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.017578125,
      "rewards/format_reward/std": 0.13154059648513794,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.1966189742088318,
      "step": 2134
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1014.330078125,
      "completions/mean_terminated_length": 980.98583984375,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.7288555090893574,
      "grad_norm": 3.724452495574951,
      "kl": 2.501953125,
      "learning_rate": 2.873222594708785e-07,
      "loss": 0.14,
      "num_tokens": 1199613469.0,
      "reward": 1.0927734375,
      "reward_std": 0.38656413555145264,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.21027082204818726,
      "step": 2135
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 991.6015625,
      "completions/mean_terminated_length": 970.5578002929688,
      "completions/min_length": 307.0,
      "completions/min_terminated_length": 307.0,
      "epoch": 0.7291968934027482,
      "grad_norm": 1.4995718002319336,
      "kl": 1.9453125,
      "learning_rate": 2.8688698864411633e-07,
      "loss": 0.0956,
      "num_tokens": 1200203553.0,
      "reward": 1.05615234375,
      "reward_std": 0.2746681571006775,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.1804301142692566,
      "step": 2136
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1994.0,
      "completions/mean_length": 1041.615234375,
      "completions/mean_terminated_length": 1013.3232421875,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.729538277716139,
      "grad_norm": 1.7754127979278564,
      "kl": 1.8671875,
      "learning_rate": 2.864520915415426e-07,
      "loss": 0.0969,
      "num_tokens": 1200821596.0,
      "reward": 1.009765625,
      "reward_std": 0.31180790066719055,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0234375,
      "rewards/format_reward/std": 0.15143637359142303,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.19246920943260193,
      "step": 2137
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 986.05859375,
      "completions/mean_terminated_length": 960.572021484375,
      "completions/min_length": 294.0,
      "completions/min_terminated_length": 294.0,
      "epoch": 0.7298796620295297,
      "grad_norm": 3.720889091491699,
      "kl": 2.173828125,
      "learning_rate": 2.8601756878088236e-07,
      "loss": 0.0893,
      "num_tokens": 1201404858.0,
      "reward": 1.0966796875,
      "reward_std": 0.37317997217178345,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.1910315454006195,
      "step": 2138
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1970.0,
      "completions/mean_length": 950.767578125,
      "completions/mean_terminated_length": 933.3512573242188,
      "completions/min_length": 249.0,
      "completions/min_terminated_length": 249.0,
      "epoch": 0.7302210463429205,
      "grad_norm": 2.001533031463623,
      "kl": 2.091796875,
      "learning_rate": 2.855834209793293e-07,
      "loss": 0.1049,
      "num_tokens": 1201967619.0,
      "reward": 1.06396484375,
      "reward_std": 0.27928805351257324,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17077696323394775,
      "step": 2139
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 949.84375,
      "completions/mean_terminated_length": 930.1947631835938,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.7305624306563113,
      "grad_norm": 2.0633723735809326,
      "kl": 1.595703125,
      "learning_rate": 2.851496487535445e-07,
      "loss": 0.0531,
      "num_tokens": 1202529299.0,
      "reward": 1.14990234375,
      "reward_std": 0.3061620593070984,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.16180720925331116,
      "step": 2140
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1083.74609375,
      "completions/mean_terminated_length": 1044.5487060546875,
      "completions/min_length": 274.0,
      "completions/min_terminated_length": 274.0,
      "epoch": 0.7309038149697021,
      "grad_norm": 4.550657749176025,
      "kl": 2.1162109375,
      "learning_rate": 2.8471625271965537e-07,
      "loss": 0.1142,
      "num_tokens": 1203162993.0,
      "reward": 0.9892578125,
      "reward_std": 0.314760684967041,
      "rewards/accuracy_reward/mean": 0.05040322616696358,
      "rewards/accuracy_reward/std": 0.21899643540382385,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.21485605835914612,
      "step": 2141
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 941.640625,
      "completions/mean_terminated_length": 928.5217895507812,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.731245199283093,
      "grad_norm": 4.507602214813232,
      "kl": 1.615234375,
      "learning_rate": 2.842832334932554e-07,
      "loss": 0.0229,
      "num_tokens": 1203716281.0,
      "reward": 1.16015625,
      "reward_std": 0.37245625257492065,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.94921875,
      "rewards/tag_count_reward/std": 0.1628674566745758,
      "step": 2142
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 995.8125,
      "completions/mean_terminated_length": 948.5714111328125,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.7315865835964838,
      "grad_norm": 4.16478967666626,
      "kl": 2.28515625,
      "learning_rate": 2.838505916894023e-07,
      "loss": 0.1507,
      "num_tokens": 1204301657.0,
      "reward": 1.07666015625,
      "reward_std": 0.3451623320579529,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.19170249998569489,
      "step": 2143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 970.0703125,
      "completions/mean_terminated_length": 937.5371704101562,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.7319279679098746,
      "grad_norm": 4.07260799407959,
      "kl": 2.25,
      "learning_rate": 2.834183279226181e-07,
      "loss": 0.1491,
      "num_tokens": 1204875229.0,
      "reward": 1.01025390625,
      "reward_std": 0.3133026361465454,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.19093835353851318,
      "step": 2144
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1000.810546875,
      "completions/mean_terminated_length": 960.4523315429688,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "epoch": 0.7322693522232654,
      "grad_norm": 2.2163825035095215,
      "kl": 2.39453125,
      "learning_rate": 2.829864428068875e-07,
      "loss": 0.1145,
      "num_tokens": 1205464044.0,
      "reward": 1.04931640625,
      "reward_std": 0.32089635729789734,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.1950674206018448,
      "step": 2145
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 954.162109375,
      "completions/mean_terminated_length": 930.1456909179688,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.7326107365366561,
      "grad_norm": 2.299699544906616,
      "kl": 2.341796875,
      "learning_rate": 2.825549369556578e-07,
      "loss": 0.091,
      "num_tokens": 1206033599.0,
      "reward": 1.18505859375,
      "reward_std": 0.3540371060371399,
      "rewards/accuracy_reward/mean": 0.203125,
      "rewards/accuracy_reward/std": 0.4027182459831238,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.94091796875,
      "rewards/tag_count_reward/std": 0.1649305671453476,
      "step": 2146
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1038.044921875,
      "completions/mean_terminated_length": 1015.8702392578125,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.7329521208500469,
      "grad_norm": 3.308039665222168,
      "kl": 1.958984375,
      "learning_rate": 2.821238109818374e-07,
      "loss": 0.0757,
      "num_tokens": 1206647158.0,
      "reward": 1.060546875,
      "reward_std": 0.33447128534317017,
      "rewards/accuracy_reward/mean": 0.06653226166963577,
      "rewards/accuracy_reward/std": 0.2494617998600006,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.935546875,
      "rewards/tag_count_reward/std": 0.17968250811100006,
      "step": 2147
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1990.0,
      "completions/mean_length": 1010.712890625,
      "completions/mean_terminated_length": 981.5521850585938,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "epoch": 0.7332935051634377,
      "grad_norm": 3.0816457271575928,
      "kl": 2.708984375,
      "learning_rate": 2.8169306549779526e-07,
      "loss": 0.1623,
      "num_tokens": 1207252771.0,
      "reward": 1.06103515625,
      "reward_std": 0.3866375684738159,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.91455078125,
      "rewards/tag_count_reward/std": 0.20666059851646423,
      "step": 2148
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 988.701171875,
      "completions/mean_terminated_length": 969.7474975585938,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "epoch": 0.7336348894768285,
      "grad_norm": 5.88734769821167,
      "kl": 2.41796875,
      "learning_rate": 2.8126270111535945e-07,
      "loss": 0.1117,
      "num_tokens": 1207838986.0,
      "reward": 1.125,
      "reward_std": 0.3515871465206146,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.18423029780387878,
      "step": 2149
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 968.232421875,
      "completions/mean_terminated_length": 944.5249633789062,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.7339762737902193,
      "grad_norm": 2.8372082710266113,
      "kl": 2.30859375,
      "learning_rate": 2.8083271844581723e-07,
      "loss": 0.1119,
      "num_tokens": 1208407569.0,
      "reward": 1.12548828125,
      "reward_std": 0.3805568814277649,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.17115144431591034,
      "step": 2150
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 955.806640625,
      "completions/mean_terminated_length": 925.1023559570312,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.7343176581036102,
      "grad_norm": 1.9893885850906372,
      "kl": 2.20703125,
      "learning_rate": 2.8040311809991334e-07,
      "loss": 0.1182,
      "num_tokens": 1208969278.0,
      "reward": 1.10107421875,
      "reward_std": 0.32023048400878906,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17573511600494385,
      "step": 2151
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 940.81640625,
      "completions/mean_terminated_length": 918.760986328125,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.734659042417001,
      "grad_norm": 4.575304985046387,
      "kl": 1.951171875,
      "learning_rate": 2.7997390068784967e-07,
      "loss": 0.1412,
      "num_tokens": 1209525648.0,
      "reward": 1.14990234375,
      "reward_std": 0.3050912320613861,
      "rewards/accuracy_reward/mean": 0.1796875,
      "rewards/accuracy_reward/std": 0.38430243730545044,
      "rewards/format_reward/mean": 0.025390625,
      "rewards/format_reward/std": 0.15746226906776428,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.16405922174453735,
      "step": 2152
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 956.15625,
      "completions/mean_terminated_length": 938.825439453125,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.7350004267303918,
      "grad_norm": 2.601768970489502,
      "kl": 3.09375,
      "learning_rate": 2.795450668192842e-07,
      "loss": 0.1907,
      "num_tokens": 1210086976.0,
      "reward": 1.07373046875,
      "reward_std": 0.3354206383228302,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.19207598268985748,
      "step": 2153
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1927.0,
      "completions/mean_length": 1022.796875,
      "completions/mean_terminated_length": 996.0881958007812,
      "completions/min_length": 268.0,
      "completions/min_terminated_length": 268.0,
      "epoch": 0.7353418110437825,
      "grad_norm": 5.045741081237793,
      "kl": 2.6796875,
      "learning_rate": 2.791166171033301e-07,
      "loss": 0.1201,
      "num_tokens": 1210684168.0,
      "reward": 1.08203125,
      "reward_std": 0.34311410784721375,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.1834714710712433,
      "step": 2154
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1945.0,
      "completions/mean_length": 952.97265625,
      "completions/mean_terminated_length": 926.6920166015625,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.7356831953571733,
      "grad_norm": 2.6554343700408936,
      "kl": 2.30078125,
      "learning_rate": 2.7868855214855465e-07,
      "loss": 0.124,
      "num_tokens": 1211257018.0,
      "reward": 1.1103515625,
      "reward_std": 0.3540228307247162,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.18193122744560242,
      "step": 2155
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1030.09765625,
      "completions/mean_terminated_length": 997.2620849609375,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.7360245796705641,
      "grad_norm": 1.4620965719223022,
      "kl": 1.677734375,
      "learning_rate": 2.78260872562979e-07,
      "loss": 0.0632,
      "num_tokens": 1211860620.0,
      "reward": 1.134765625,
      "reward_std": 0.338411808013916,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.17476527392864227,
      "step": 2156
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 980.134765625,
      "completions/mean_terminated_length": 952.3146362304688,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.7363659639839549,
      "grad_norm": 1.5125021934509277,
      "kl": 1.5859375,
      "learning_rate": 2.778335789540767e-07,
      "loss": 0.0747,
      "num_tokens": 1212432177.0,
      "reward": 1.046875,
      "reward_std": 0.28343820571899414,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.16324250400066376,
      "step": 2157
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 1017.806640625,
      "completions/mean_terminated_length": 990.9679565429688,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.7367073482973457,
      "grad_norm": 5.71192741394043,
      "kl": 2.8359375,
      "learning_rate": 2.774066719287729e-07,
      "loss": 0.1898,
      "num_tokens": 1213040414.0,
      "reward": 1.03076171875,
      "reward_std": 0.3434918224811554,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.19498902559280396,
      "step": 2158
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1013.958984375,
      "completions/mean_terminated_length": 991.2554931640625,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.7370487326107366,
      "grad_norm": 2.491302013397217,
      "kl": 2.712890625,
      "learning_rate": 2.7698015209344404e-07,
      "loss": 0.1539,
      "num_tokens": 1213634713.0,
      "reward": 1.03662109375,
      "reward_std": 0.30933213233947754,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.18874886631965637,
      "step": 2159
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1993.0,
      "completions/mean_length": 949.546875,
      "completions/mean_terminated_length": 920.9298706054688,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "epoch": 0.7373901169241274,
      "grad_norm": 4.889411926269531,
      "kl": 2.072265625,
      "learning_rate": 2.765540200539166e-07,
      "loss": 0.1224,
      "num_tokens": 1214198961.0,
      "reward": 1.0322265625,
      "reward_std": 0.3285452723503113,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.1812576949596405,
      "step": 2160
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 961.775390625,
      "completions/mean_terminated_length": 935.7060546875,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "epoch": 0.7377315012375182,
      "grad_norm": 1.7071599960327148,
      "kl": 2.98828125,
      "learning_rate": 2.7612827641546566e-07,
      "loss": 0.1902,
      "num_tokens": 1214771902.0,
      "reward": 1.12548828125,
      "reward_std": 0.36986303329467773,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.18521249294281006,
      "step": 2161
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1998.0,
      "completions/mean_length": 915.26953125,
      "completions/mean_terminated_length": 881.0824584960938,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.7380728855509089,
      "grad_norm": 1.9646536111831665,
      "kl": 2.873046875,
      "learning_rate": 2.757029217828153e-07,
      "loss": 0.1752,
      "num_tokens": 1215312504.0,
      "reward": 1.150390625,
      "reward_std": 0.33948659896850586,
      "rewards/accuracy_reward/mean": 0.173828125,
      "rewards/accuracy_reward/std": 0.3793322443962097,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.16547498106956482,
      "step": 2162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 972.220703125,
      "completions/mean_terminated_length": 926.2098388671875,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.7384142698642997,
      "grad_norm": 2.8977572917938232,
      "kl": 3.1875,
      "learning_rate": 2.7527795676013654e-07,
      "loss": 0.1712,
      "num_tokens": 1215893337.0,
      "reward": 1.05810546875,
      "reward_std": 0.32645851373672485,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.20343582332134247,
      "step": 2163
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 1021.349609375,
      "completions/mean_terminated_length": 1002.9801025390625,
      "completions/min_length": 344.0,
      "completions/min_terminated_length": 344.0,
      "epoch": 0.7387556541776905,
      "grad_norm": 4.004371643066406,
      "kl": 2.318359375,
      "learning_rate": 2.7485338195104736e-07,
      "loss": 0.1268,
      "num_tokens": 1216492444.0,
      "reward": 1.0498046875,
      "reward_std": 0.3321082890033722,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.18657785654067993,
      "step": 2164
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 1013.984375,
      "completions/mean_terminated_length": 982.776611328125,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.7390970384910813,
      "grad_norm": 2.154346227645874,
      "kl": 2.015625,
      "learning_rate": 2.744291979586112e-07,
      "loss": 0.1035,
      "num_tokens": 1217079764.0,
      "reward": 1.0634765625,
      "reward_std": 0.31781646609306335,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.9384765625,
      "rewards/tag_count_reward/std": 0.16808471083641052,
      "step": 2165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1020.060546875,
      "completions/mean_terminated_length": 1003.7440795898438,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "epoch": 0.7394384228044721,
      "grad_norm": 1.7318470478057861,
      "kl": 2.091796875,
      "learning_rate": 2.740054053853369e-07,
      "loss": 0.1006,
      "num_tokens": 1217683315.0,
      "reward": 1.0322265625,
      "reward_std": 0.32956641912460327,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.17860238254070282,
      "step": 2166
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 996.560546875,
      "completions/mean_terminated_length": 956.0385131835938,
      "completions/min_length": 314.0,
      "completions/min_terminated_length": 314.0,
      "epoch": 0.739779807117863,
      "grad_norm": 1.7835890054702759,
      "kl": 1.919921875,
      "learning_rate": 2.735820048331765e-07,
      "loss": 0.1062,
      "num_tokens": 1218269650.0,
      "reward": 1.02734375,
      "reward_std": 0.278891384601593,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.15948821604251862,
      "step": 2167
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1009.095703125,
      "completions/mean_terminated_length": 973.4161987304688,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.7401211914312538,
      "grad_norm": 3.8984973430633545,
      "kl": 2.306640625,
      "learning_rate": 2.731589969035261e-07,
      "loss": 0.1386,
      "num_tokens": 1218872963.0,
      "reward": 1.09716796875,
      "reward_std": 0.3077167272567749,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.18708612024784088,
      "step": 2168
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1993.0,
      "completions/mean_length": 1044.5,
      "completions/mean_terminated_length": 1003.707275390625,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.7404625757446446,
      "grad_norm": 4.998632431030273,
      "kl": 2.759765625,
      "learning_rate": 2.7273638219722315e-07,
      "loss": 0.1671,
      "num_tokens": 1219482323.0,
      "reward": 1.0419921875,
      "reward_std": 0.36220264434814453,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.21428602933883667,
      "step": 2169
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1022.419921875,
      "completions/mean_terminated_length": 1001.9900512695312,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.7408039600580353,
      "grad_norm": 1.772864580154419,
      "kl": 3.1015625,
      "learning_rate": 2.723141613145476e-07,
      "loss": 0.1553,
      "num_tokens": 1220086154.0,
      "reward": 1.09619140625,
      "reward_std": 0.37537693977355957,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.90869140625,
      "rewards/tag_count_reward/std": 0.2106221467256546,
      "step": 2170
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2001.0,
      "completions/mean_length": 1065.98828125,
      "completions/mean_terminated_length": 1011.3196411132812,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.7411453443714261,
      "grad_norm": 1.623914361000061,
      "kl": 2.4765625,
      "learning_rate": 2.7189233485521934e-07,
      "loss": 0.1174,
      "num_tokens": 1220706964.0,
      "reward": 1.10546875,
      "reward_std": 0.3655689060688019,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.19305415451526642,
      "step": 2171
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2010.0,
      "completions/mean_length": 947.958984375,
      "completions/mean_terminated_length": 928.2763061523438,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.7414867286848169,
      "grad_norm": 3.8861334323883057,
      "kl": 2.546875,
      "learning_rate": 2.714709034183984e-07,
      "loss": 0.1417,
      "num_tokens": 1221262799.0,
      "reward": 1.037109375,
      "reward_std": 0.3145906627178192,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.18861782550811768,
      "step": 2172
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 967.7421875,
      "completions/mean_terminated_length": 950.5952758789062,
      "completions/min_length": 274.0,
      "completions/min_terminated_length": 274.0,
      "epoch": 0.7418281129982077,
      "grad_norm": 1.6836764812469482,
      "kl": 2.0234375,
      "learning_rate": 2.7104986760268324e-07,
      "loss": 0.1047,
      "num_tokens": 1221836059.0,
      "reward": 1.08349609375,
      "reward_std": 0.3300013244152069,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.18665657937526703,
      "step": 2173
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1991.0,
      "completions/mean_length": 1038.064453125,
      "completions/mean_terminated_length": 988.3954467773438,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.7421694973115985,
      "grad_norm": 2.9049177169799805,
      "kl": 3.1953125,
      "learning_rate": 2.70629228006111e-07,
      "loss": 0.1706,
      "num_tokens": 1222442396.0,
      "reward": 1.05029296875,
      "reward_std": 0.35290706157684326,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.20348748564720154,
      "step": 2174
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1060.767578125,
      "completions/mean_terminated_length": 1043.1033935546875,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.7425108816249893,
      "grad_norm": 3.161365032196045,
      "kl": 1.9296875,
      "learning_rate": 2.702089852261553e-07,
      "loss": 0.0691,
      "num_tokens": 1223069125.0,
      "reward": 1.0400390625,
      "reward_std": 0.3222488760948181,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.1872730702161789,
      "step": 2175
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1046.0546875,
      "completions/mean_terminated_length": 1013.7338256835938,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "epoch": 0.7428522659383802,
      "grad_norm": 2.33664608001709,
      "kl": 2.275390625,
      "learning_rate": 2.6978913985972683e-07,
      "loss": 0.1185,
      "num_tokens": 1223684129.0,
      "reward": 1.06103515625,
      "reward_std": 0.3221091628074646,
      "rewards/accuracy_reward/mean": 0.07056451588869095,
      "rewards/accuracy_reward/std": 0.25635457038879395,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.1779128909111023,
      "step": 2176
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1063.375,
      "completions/mean_terminated_length": 1027.498046875,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.743193650251771,
      "grad_norm": 7.468886375427246,
      "kl": 2.8984375,
      "learning_rate": 2.6936969250317154e-07,
      "loss": 0.1142,
      "num_tokens": 1224317473.0,
      "reward": 1.02294921875,
      "reward_std": 0.35908567905426025,
      "rewards/accuracy_reward/mean": 0.029296875,
      "rewards/accuracy_reward/std": 0.16880230605602264,
      "rewards/format_reward/mean": 0.083984375,
      "rewards/format_reward/std": 0.2776356339454651,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.20516635477542877,
      "step": 2177
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1028.158203125,
      "completions/mean_terminated_length": 997.3782348632812,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.7435350345651617,
      "grad_norm": 1.6769273281097412,
      "kl": 2.931640625,
      "learning_rate": 2.6895064375227e-07,
      "loss": 0.1552,
      "num_tokens": 1224918018.0,
      "reward": 1.044921875,
      "reward_std": 0.3472713232040405,
      "rewards/accuracy_reward/mean": 0.08870967477560043,
      "rewards/accuracy_reward/std": 0.2846112847328186,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.20437365770339966,
      "step": 2178
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 1043.041015625,
      "completions/mean_terminated_length": 1016.8597412109375,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.7438764188785525,
      "grad_norm": 3.5246975421905518,
      "kl": 2.48828125,
      "learning_rate": 2.685319942022364e-07,
      "loss": 0.1505,
      "num_tokens": 1225537911.0,
      "reward": 1.0390625,
      "reward_std": 0.33686167001724243,
      "rewards/accuracy_reward/mean": 0.060483869165182114,
      "rewards/accuracy_reward/std": 0.2386218160390854,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.2005603015422821,
      "step": 2179
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 1033.140625,
      "completions/mean_terminated_length": 1019.0733032226562,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.7442178031919433,
      "grad_norm": 1.865007996559143,
      "kl": 2.138671875,
      "learning_rate": 2.6811374444771833e-07,
      "loss": 0.0769,
      "num_tokens": 1226138047.0,
      "reward": 1.04443359375,
      "reward_std": 0.34877651929855347,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.19118840992450714,
      "step": 2180
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 997.76953125,
      "completions/mean_terminated_length": 972.5640258789062,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "epoch": 0.7445591875053341,
      "grad_norm": 1.785409688949585,
      "kl": 2.73828125,
      "learning_rate": 2.676958950827952e-07,
      "loss": 0.1224,
      "num_tokens": 1226739497.0,
      "reward": 1.05908203125,
      "reward_std": 0.369469553232193,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.1946849673986435,
      "step": 2181
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 1017.2578125,
      "completions/mean_terminated_length": 979.700439453125,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.7449005718187249,
      "grad_norm": 3.1059558391571045,
      "kl": 2.62109375,
      "learning_rate": 2.6727844670097776e-07,
      "loss": 0.1522,
      "num_tokens": 1227338093.0,
      "reward": 1.09423828125,
      "reward_std": 0.3844451308250427,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.18998514115810394,
      "step": 2182
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 965.603515625,
      "completions/mean_terminated_length": 952.768798828125,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.7452419561321157,
      "grad_norm": 1.2423095703125,
      "kl": 2.2421875,
      "learning_rate": 2.668613998952074e-07,
      "loss": 0.1251,
      "num_tokens": 1227905346.0,
      "reward": 1.09423828125,
      "reward_std": 0.3628828525543213,
      "rewards/accuracy_reward/mean": 0.13709677755832672,
      "rewards/accuracy_reward/std": 0.34429675340652466,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.2010640949010849,
      "step": 2183
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 980.681640625,
      "completions/mean_terminated_length": 946.2520141601562,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.7455833404455066,
      "grad_norm": 1.7096635103225708,
      "kl": 3.12890625,
      "learning_rate": 2.6644475525785497e-07,
      "loss": 0.1906,
      "num_tokens": 1228492287.0,
      "reward": 1.0927734375,
      "reward_std": 0.36463260650634766,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.19994714856147766,
      "step": 2184
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1024.8515625,
      "completions/mean_terminated_length": 998.1964111328125,
      "completions/min_length": 261.0,
      "completions/min_terminated_length": 261.0,
      "epoch": 0.7459247247588974,
      "grad_norm": 2.4175004959106445,
      "kl": 2.251953125,
      "learning_rate": 2.6602851338072e-07,
      "loss": 0.0955,
      "num_tokens": 1229089955.0,
      "reward": 1.0869140625,
      "reward_std": 0.3920617997646332,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.9189453125,
      "rewards/tag_count_reward/std": 0.19414739310741425,
      "step": 2185
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 984.775390625,
      "completions/mean_terminated_length": 967.8988647460938,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.7462661090722881,
      "grad_norm": 2.8256916999816895,
      "kl": 2.560546875,
      "learning_rate": 2.656126748550301e-07,
      "loss": 0.1382,
      "num_tokens": 1229675216.0,
      "reward": 1.07275390625,
      "reward_std": 0.35024622082710266,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.17113468050956726,
      "step": 2186
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 963.8125,
      "completions/mean_terminated_length": 926.5778198242188,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.7466074933856789,
      "grad_norm": 2.071110725402832,
      "kl": 2.810546875,
      "learning_rate": 2.6519724027143977e-07,
      "loss": 0.1593,
      "num_tokens": 1230245680.0,
      "reward": 1.1650390625,
      "reward_std": 0.42103928327560425,
      "rewards/accuracy_reward/mean": 0.19140625,
      "rewards/accuracy_reward/std": 0.3937928080558777,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.19645671546459198,
      "step": 2187
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 999.759765625,
      "completions/mean_terminated_length": 981.00390625,
      "completions/min_length": 294.0,
      "completions/min_terminated_length": 294.0,
      "epoch": 0.7469488776990697,
      "grad_norm": 3.4647161960601807,
      "kl": 2.11328125,
      "learning_rate": 2.6478221022002987e-07,
      "loss": 0.1177,
      "num_tokens": 1230833925.0,
      "reward": 1.09765625,
      "reward_std": 0.3251683712005615,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.18033012747764587,
      "step": 2188
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1921.0,
      "completions/mean_length": 970.755859375,
      "completions/mean_terminated_length": 957.9822387695312,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.7472902620124605,
      "grad_norm": 1.144181489944458,
      "kl": 1.669921875,
      "learning_rate": 2.643675852903069e-07,
      "loss": 0.0937,
      "num_tokens": 1231405816.0,
      "reward": 1.099609375,
      "reward_std": 0.34585076570510864,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.939453125,
      "rewards/tag_count_reward/std": 0.16624696552753448,
      "step": 2189
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 960.53125,
      "completions/mean_terminated_length": 938.8685302734375,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.7476316463258513,
      "grad_norm": 2.9684247970581055,
      "kl": 1.79296875,
      "learning_rate": 2.6395336607120155e-07,
      "loss": 0.0952,
      "num_tokens": 1231971672.0,
      "reward": 1.08056640625,
      "reward_std": 0.3182827830314636,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.16826297342777252,
      "step": 2190
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 989.8125,
      "completions/mean_terminated_length": 962.2445068359375,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.7479730306392421,
      "grad_norm": 4.261856555938721,
      "kl": 2.203125,
      "learning_rate": 2.635395531510683e-07,
      "loss": 0.0999,
      "num_tokens": 1232558680.0,
      "reward": 1.0302734375,
      "reward_std": 0.32941746711730957,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.1867826133966446,
      "step": 2191
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1070.248046875,
      "completions/mean_terminated_length": 1036.668701171875,
      "completions/min_length": 320.0,
      "completions/min_terminated_length": 320.0,
      "epoch": 0.748314414952633,
      "grad_norm": 4.148563385009766,
      "kl": 2.046875,
      "learning_rate": 2.6312614711768475e-07,
      "loss": 0.1063,
      "num_tokens": 1233186503.0,
      "reward": 1.05126953125,
      "reward_std": 0.34227079153060913,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.19215556979179382,
      "step": 2192
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 986.458984375,
      "completions/mean_terminated_length": 971.7445678710938,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.7486557992660238,
      "grad_norm": 9.642166137695312,
      "kl": 2.00390625,
      "learning_rate": 2.6271314855825034e-07,
      "loss": 0.0316,
      "num_tokens": 1233758850.0,
      "reward": 1.0771484375,
      "reward_std": 0.33060088753700256,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.9462890625,
      "rewards/tag_count_reward/std": 0.15178616344928741,
      "step": 2193
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 997.6015625,
      "completions/mean_terminated_length": 989.3306884765625,
      "completions/min_length": 300.0,
      "completions/min_terminated_length": 300.0,
      "epoch": 0.7489971835794145,
      "grad_norm": 2.298248052597046,
      "kl": 2.50390625,
      "learning_rate": 2.6230055805938577e-07,
      "loss": 0.1084,
      "num_tokens": 1234347062.0,
      "reward": 1.068359375,
      "reward_std": 0.34794530272483826,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.19246920943260193,
      "step": 2194
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 927.787109375,
      "completions/mean_terminated_length": 893.9778442382812,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.7493385678928053,
      "grad_norm": 4.533019542694092,
      "kl": 3.75390625,
      "learning_rate": 2.6188837620713223e-07,
      "loss": 0.1869,
      "num_tokens": 1234904505.0,
      "reward": 1.11962890625,
      "reward_std": 0.37996405363082886,
      "rewards/accuracy_reward/mean": 0.15120968222618103,
      "rewards/accuracy_reward/std": 0.35861483216285706,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.91455078125,
      "rewards/tag_count_reward/std": 0.20247536897659302,
      "step": 2195
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1005.27734375,
      "completions/mean_terminated_length": 971.64111328125,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.7496799522061961,
      "grad_norm": 1.977700114250183,
      "kl": 2.861328125,
      "learning_rate": 2.6147660358695063e-07,
      "loss": 0.1633,
      "num_tokens": 1235500375.0,
      "reward": 1.0498046875,
      "reward_std": 0.30382025241851807,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.18327085673809052,
      "step": 2196
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 918.67578125,
      "completions/mean_terminated_length": 893.8802490234375,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.7500213365195869,
      "grad_norm": 3.8987481594085693,
      "kl": 1.92578125,
      "learning_rate": 2.610652407837201e-07,
      "loss": 0.0727,
      "num_tokens": 1236052305.0,
      "reward": 1.18212890625,
      "reward_std": 0.37431368231773376,
      "rewards/accuracy_reward/mean": 0.169921875,
      "rewards/accuracy_reward/std": 0.3759314715862274,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.94189453125,
      "rewards/tag_count_reward/std": 0.1600138396024704,
      "step": 2197
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 984.701171875,
      "completions/mean_terminated_length": 959.1820678710938,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.7503627208329777,
      "grad_norm": 5.456165790557861,
      "kl": 3.130859375,
      "learning_rate": 2.606542883817381e-07,
      "loss": 0.1349,
      "num_tokens": 1236630984.0,
      "reward": 1.16943359375,
      "reward_std": 0.3833501636981964,
      "rewards/accuracy_reward/mean": 0.1796875,
      "rewards/accuracy_reward/std": 0.38430243730545044,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.18361139297485352,
      "step": 2198
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1893.0,
      "completions/mean_length": 870.19921875,
      "completions/mean_terminated_length": 851.5040283203125,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "epoch": 0.7507041051463685,
      "grad_norm": 4.165374755859375,
      "kl": 2.171875,
      "learning_rate": 2.602437469647189e-07,
      "loss": 0.109,
      "num_tokens": 1237148670.0,
      "reward": 1.1533203125,
      "reward_std": 0.366317480802536,
      "rewards/accuracy_reward/mean": 0.14717741310596466,
      "rewards/accuracy_reward/std": 0.3546403646469116,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.9482421875,
      "rewards/tag_count_reward/std": 0.15720415115356445,
      "step": 2199
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1995.0,
      "completions/mean_length": 994.494140625,
      "completions/mean_terminated_length": 964.8775024414062,
      "completions/min_length": 303.0,
      "completions/min_terminated_length": 303.0,
      "epoch": 0.7510454894597594,
      "grad_norm": 4.184016704559326,
      "kl": 2.66796875,
      "learning_rate": 2.598336171157932e-07,
      "loss": 0.1281,
      "num_tokens": 1237729579.0,
      "reward": 1.1171875,
      "reward_std": 0.3676406741142273,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.935546875,
      "rewards/tag_count_reward/std": 0.17203198373317719,
      "step": 2200
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1048.94921875,
      "completions/mean_terminated_length": 1012.5465698242188,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.7513868737731502,
      "grad_norm": 1.7787723541259766,
      "kl": 2.58984375,
      "learning_rate": 2.594238994175072e-07,
      "loss": 0.1339,
      "num_tokens": 1238343409.0,
      "reward": 1.03076171875,
      "reward_std": 0.34416288137435913,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.1923096626996994,
      "step": 2201
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 985.39453125,
      "completions/mean_terminated_length": 957.71142578125,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.7517282580865409,
      "grad_norm": 1.2324093580245972,
      "kl": 1.77734375,
      "learning_rate": 2.590145944518215e-07,
      "loss": 0.0648,
      "num_tokens": 1238916859.0,
      "reward": 1.078125,
      "reward_std": 0.3484116196632385,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.1767766922712326,
      "step": 2202
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1994.0,
      "completions/mean_length": 973.837890625,
      "completions/mean_terminated_length": 948.0580444335938,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.7520696423999317,
      "grad_norm": 3.588472366333008,
      "kl": 1.466796875,
      "learning_rate": 2.5860570280011027e-07,
      "loss": 0.0903,
      "num_tokens": 1239487304.0,
      "reward": 1.1357421875,
      "reward_std": 0.33816277980804443,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.9404296875,
      "rewards/tag_count_reward/std": 0.16213536262512207,
      "step": 2203
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1990.0,
      "completions/mean_length": 1099.107421875,
      "completions/mean_terminated_length": 1072.431640625,
      "completions/min_length": 272.0,
      "completions/min_terminated_length": 272.0,
      "epoch": 0.7524110267133225,
      "grad_norm": 2.380033016204834,
      "kl": 2.12109375,
      "learning_rate": 2.581972250431611e-07,
      "loss": 0.0921,
      "num_tokens": 1240131631.0,
      "reward": 1.10595703125,
      "reward_std": 0.34697479009628296,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.18606694042682648,
      "step": 2204
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1056.634765625,
      "completions/mean_terminated_length": 1014.2342529296875,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.7527524110267133,
      "grad_norm": 4.082900047302246,
      "kl": 2.115234375,
      "learning_rate": 2.5778916176117314e-07,
      "loss": 0.0945,
      "num_tokens": 1240746612.0,
      "reward": 1.00830078125,
      "reward_std": 0.3190525770187378,
      "rewards/accuracy_reward/mean": 0.041015625,
      "rewards/accuracy_reward/std": 0.19852031767368317,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.91455078125,
      "rewards/tag_count_reward/std": 0.1994321495294571,
      "step": 2205
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 1007.197265625,
      "completions/mean_terminated_length": 984.3453369140625,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.7530937953401041,
      "grad_norm": 1.7731800079345703,
      "kl": 2.7578125,
      "learning_rate": 2.5738151353375736e-07,
      "loss": 0.1459,
      "num_tokens": 1241340713.0,
      "reward": 1.10400390625,
      "reward_std": 0.37155601382255554,
      "rewards/accuracy_reward/mean": 0.13508065044879913,
      "rewards/accuracy_reward/std": 0.34215477108955383,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.18652856349945068,
      "step": 2206
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1062.25390625,
      "completions/mean_terminated_length": 1024.263671875,
      "completions/min_length": 312.0,
      "completions/min_terminated_length": 312.0,
      "epoch": 0.7534351796534949,
      "grad_norm": 6.108999252319336,
      "kl": 1.5625,
      "learning_rate": 2.569742809399347e-07,
      "loss": 0.0811,
      "num_tokens": 1241962491.0,
      "reward": 1.09814453125,
      "reward_std": 0.3553093373775482,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18174928426742554,
      "step": 2207
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1079.341796875,
      "completions/mean_terminated_length": 1048.0947265625,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.7537765639668857,
      "grad_norm": 1.553903579711914,
      "kl": 2.0625,
      "learning_rate": 2.5656746455813615e-07,
      "loss": 0.0969,
      "num_tokens": 1242598426.0,
      "reward": 1.06787109375,
      "reward_std": 0.35006827116012573,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.92919921875,
      "rewards/tag_count_reward/std": 0.18102756142616272,
      "step": 2208
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1923.0,
      "completions/mean_length": 986.189453125,
      "completions/mean_terminated_length": 958.5270385742188,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.7541179482802766,
      "grad_norm": 1.4526729583740234,
      "kl": 1.90625,
      "learning_rate": 2.5616106496620125e-07,
      "loss": 0.0765,
      "num_tokens": 1243185355.0,
      "reward": 1.08154296875,
      "reward_std": 0.3351963758468628,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.16863170266151428,
      "step": 2209
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1029.755859375,
      "completions/mean_terminated_length": 1007.399169921875,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.7544593325936674,
      "grad_norm": 2.486086130142212,
      "kl": 2.078125,
      "learning_rate": 2.557550827413776e-07,
      "loss": 0.1048,
      "num_tokens": 1243793726.0,
      "reward": 1.078125,
      "reward_std": 0.3204424977302551,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.18677493929862976,
      "step": 2210
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1942.0,
      "completions/mean_length": 936.416015625,
      "completions/mean_terminated_length": 923.2352294921875,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.7548007169070581,
      "grad_norm": 2.824995756149292,
      "kl": 1.58984375,
      "learning_rate": 2.5534951846032e-07,
      "loss": 0.078,
      "num_tokens": 1244344771.0,
      "reward": 1.05615234375,
      "reward_std": 0.29490965604782104,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17079374194145203,
      "step": 2211
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 906.55078125,
      "completions/mean_terminated_length": 876.8136596679688,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.7551421012204489,
      "grad_norm": 2.355698585510254,
      "kl": 2.67578125,
      "learning_rate": 2.5494437269908976e-07,
      "loss": 0.137,
      "num_tokens": 1244888637.0,
      "reward": 1.107421875,
      "reward_std": 0.3455817997455597,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.19549374282360077,
      "step": 2212
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1042.615234375,
      "completions/mean_terminated_length": 1018.4860229492188,
      "completions/min_length": 331.0,
      "completions/min_terminated_length": 331.0,
      "epoch": 0.7554834855338397,
      "grad_norm": 2.3014628887176514,
      "kl": 2.423828125,
      "learning_rate": 2.545396460331529e-07,
      "loss": 0.1327,
      "num_tokens": 1245496040.0,
      "reward": 1.10498046875,
      "reward_std": 0.3370698094367981,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.16196657717227936,
      "step": 2213
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 1076.5625,
      "completions/mean_terminated_length": 1049.2529296875,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.7558248698472305,
      "grad_norm": 4.6682329177856445,
      "kl": 1.9912109375,
      "learning_rate": 2.5413533903738184e-07,
      "loss": 0.0721,
      "num_tokens": 1246125752.0,
      "reward": 1.15478515625,
      "reward_std": 0.35795092582702637,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.17312757670879364,
      "step": 2214
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 1011.453125,
      "completions/mean_terminated_length": 986.5760498046875,
      "completions/min_length": 292.0,
      "completions/min_terminated_length": 292.0,
      "epoch": 0.7561662541606213,
      "grad_norm": 2.1165542602539062,
      "kl": 1.845703125,
      "learning_rate": 2.5373145228605103e-07,
      "loss": 0.0648,
      "num_tokens": 1246713472.0,
      "reward": 1.1064453125,
      "reward_std": 0.31755271553993225,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.18260227143764496,
      "step": 2215
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 974.40234375,
      "completions/mean_terminated_length": 955.1928100585938,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.7565076384740121,
      "grad_norm": 2.2689080238342285,
      "kl": 2.51171875,
      "learning_rate": 2.5332798635283947e-07,
      "loss": 0.1149,
      "num_tokens": 1247284974.0,
      "reward": 1.11767578125,
      "reward_std": 0.34139201045036316,
      "rewards/accuracy_reward/mean": 0.1572580635547638,
      "rewards/accuracy_reward/std": 0.36441144347190857,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.18737702071666718,
      "step": 2216
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1001.1796875,
      "completions/mean_terminated_length": 980.3267211914062,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.756849022787403,
      "grad_norm": 1.5622797012329102,
      "kl": 2.640625,
      "learning_rate": 2.5292494181082726e-07,
      "loss": 0.1521,
      "num_tokens": 1247869802.0,
      "reward": 1.10546875,
      "reward_std": 0.3828883171081543,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.03125,
      "rewards/format_reward/std": 0.17416280508041382,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.18666234612464905,
      "step": 2217
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1008.271484375,
      "completions/mean_terminated_length": 991.7679443359375,
      "completions/min_length": 319.0,
      "completions/min_terminated_length": 319.0,
      "epoch": 0.7571904071007938,
      "grad_norm": 2.656470537185669,
      "kl": 1.96484375,
      "learning_rate": 2.5252231923249703e-07,
      "loss": 0.0688,
      "num_tokens": 1248457749.0,
      "reward": 1.11767578125,
      "reward_std": 0.3618015646934509,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17875948548316956,
      "step": 2218
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1030.08984375,
      "completions/mean_terminated_length": 1005.6600341796875,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.7575317914141845,
      "grad_norm": 3.818528413772583,
      "kl": 1.6171875,
      "learning_rate": 2.5212011918973085e-07,
      "loss": 0.0836,
      "num_tokens": 1249058755.0,
      "reward": 1.041015625,
      "reward_std": 0.28096121549606323,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.1547197550535202,
      "step": 2219
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 1053.453125,
      "completions/mean_terminated_length": 1017.214599609375,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.7578731757275753,
      "grad_norm": 1.8749295473098755,
      "kl": 2.30078125,
      "learning_rate": 2.517183422538122e-07,
      "loss": 0.1136,
      "num_tokens": 1249679275.0,
      "reward": 1.0576171875,
      "reward_std": 0.3195943236351013,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.16662302613258362,
      "step": 2220
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1005.833984375,
      "completions/mean_terminated_length": 976.5361328125,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "epoch": 0.7582145600409661,
      "grad_norm": 3.0081217288970947,
      "kl": 2.361328125,
      "learning_rate": 2.513169889954221e-07,
      "loss": 0.0981,
      "num_tokens": 1250270726.0,
      "reward": 1.1669921875,
      "reward_std": 0.4079582691192627,
      "rewards/accuracy_reward/mean": 0.1875,
      "rewards/accuracy_reward/std": 0.39069411158561707,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.1844143271446228,
      "step": 2221
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1986.0,
      "completions/mean_length": 1042.05078125,
      "completions/mean_terminated_length": 1015.8436889648438,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.7585559443543569,
      "grad_norm": 1.5602948665618896,
      "kl": 2.3984375,
      "learning_rate": 2.509160599846407e-07,
      "loss": 0.114,
      "num_tokens": 1250881568.0,
      "reward": 1.1103515625,
      "reward_std": 0.33246347308158875,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.1920890361070633,
      "step": 2222
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1158.548828125,
      "completions/mean_terminated_length": 1107.0928955078125,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.7588973286677477,
      "grad_norm": 8.4295654296875,
      "kl": 3.251953125,
      "learning_rate": 2.5051555579094493e-07,
      "loss": 0.1288,
      "num_tokens": 1251560761.0,
      "reward": 1.01953125,
      "reward_std": 0.3765547275543213,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.2182645946741104,
      "step": 2223
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2016.0,
      "completions/mean_length": 992.859375,
      "completions/mean_terminated_length": 971.8406372070312,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.7592387129811385,
      "grad_norm": 3.7181661128997803,
      "kl": 2.107421875,
      "learning_rate": 2.501154769832089e-07,
      "loss": 0.1094,
      "num_tokens": 1252140209.0,
      "reward": 1.07470703125,
      "reward_std": 0.317842960357666,
      "rewards/accuracy_reward/mean": 0.11693548411130905,
      "rewards/accuracy_reward/std": 0.3216678202152252,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17738577723503113,
      "step": 2224
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1094.4375,
      "completions/mean_terminated_length": 1061.68896484375,
      "completions/min_length": 337.0,
      "completions/min_terminated_length": 337.0,
      "epoch": 0.7595800972945294,
      "grad_norm": 3.99417781829834,
      "kl": 2.091796875,
      "learning_rate": 2.4971582412970195e-07,
      "loss": 0.077,
      "num_tokens": 1252774177.0,
      "reward": 1.04296875,
      "reward_std": 0.32362744212150574,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17341503500938416,
      "step": 2225
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 1023.025390625,
      "completions/mean_terminated_length": 1002.6076049804688,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.7599214816079202,
      "grad_norm": 2.892289876937866,
      "kl": 2.1298828125,
      "learning_rate": 2.4931659779808874e-07,
      "loss": 0.1017,
      "num_tokens": 1253371710.0,
      "reward": 1.07958984375,
      "reward_std": 0.33189767599105835,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.19132331013679504,
      "step": 2226
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1107.267578125,
      "completions/mean_terminated_length": 1052.844970703125,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.7602628659213109,
      "grad_norm": 2.559948444366455,
      "kl": 2.431640625,
      "learning_rate": 2.489177985554282e-07,
      "loss": 0.1625,
      "num_tokens": 1254022663.0,
      "reward": 1.107421875,
      "reward_std": 0.36859750747680664,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.196245014667511,
      "step": 2227
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1061.900390625,
      "completions/mean_terminated_length": 1023.8965454101562,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.7606042502347017,
      "grad_norm": 3.3067076206207275,
      "kl": 2.17578125,
      "learning_rate": 2.485194269681723e-07,
      "loss": 0.1171,
      "num_tokens": 1254639124.0,
      "reward": 0.99853515625,
      "reward_std": 0.2973896861076355,
      "rewards/accuracy_reward/mean": 0.03125,
      "rewards/accuracy_reward/std": 0.17416280508041382,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.19126836955547333,
      "step": 2228
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1071.14453125,
      "completions/mean_terminated_length": 1045.6954345703125,
      "completions/min_length": 308.0,
      "completions/min_terminated_length": 308.0,
      "epoch": 0.7609456345480925,
      "grad_norm": 1.8414686918258667,
      "kl": 2.1669921875,
      "learning_rate": 2.481214836021657e-07,
      "loss": 0.1146,
      "num_tokens": 1255263726.0,
      "reward": 1.08935546875,
      "reward_std": 0.35469865798950195,
      "rewards/accuracy_reward/mean": 0.10483870655298233,
      "rewards/accuracy_reward/std": 0.30665475130081177,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.18092724680900574,
      "step": 2229
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1051.2265625,
      "completions/mean_terminated_length": 1000.0575561523438,
      "completions/min_length": 334.0,
      "completions/min_terminated_length": 334.0,
      "epoch": 0.7612870188614833,
      "grad_norm": 2.4028053283691406,
      "kl": 3.125,
      "learning_rate": 2.4772396902264505e-07,
      "loss": 0.2008,
      "num_tokens": 1255877778.0,
      "reward": 1.03076171875,
      "reward_std": 0.3477475941181183,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.2057616412639618,
      "step": 2230
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 974.673828125,
      "completions/mean_terminated_length": 933.3082885742188,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "epoch": 0.7616284031748741,
      "grad_norm": 2.8248589038848877,
      "kl": 2.59375,
      "learning_rate": 2.4732688379423744e-07,
      "loss": 0.121,
      "num_tokens": 1256449451.0,
      "reward": 1.04296875,
      "reward_std": 0.29123976826667786,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.18413691222667694,
      "step": 2231
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1990.0,
      "completions/mean_length": 1107.427734375,
      "completions/mean_terminated_length": 1067.1995849609375,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.7619697874882649,
      "grad_norm": 4.481600284576416,
      "kl": 1.8720703125,
      "learning_rate": 2.4693022848096054e-07,
      "loss": 0.0813,
      "num_tokens": 1257088918.0,
      "reward": 1.09375,
      "reward_std": 0.3368939161300659,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17270830273628235,
      "step": 2232
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 1032.6171875,
      "completions/mean_terminated_length": 984.85888671875,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.7623111718016558,
      "grad_norm": 5.15520715713501,
      "kl": 2.458984375,
      "learning_rate": 2.465340036462213e-07,
      "loss": 0.1327,
      "num_tokens": 1257707970.0,
      "reward": 1.07373046875,
      "reward_std": 0.3484814465045929,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.03125,
      "rewards/format_reward/std": 0.17416280508041382,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.2008453756570816,
      "step": 2233
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1110.82421875,
      "completions/mean_terminated_length": 1054.554931640625,
      "completions/min_length": 293.0,
      "completions/min_terminated_length": 293.0,
      "epoch": 0.7626525561150466,
      "grad_norm": 4.962558746337891,
      "kl": 2.69921875,
      "learning_rate": 2.4613820985281524e-07,
      "loss": 0.1345,
      "num_tokens": 1258358568.0,
      "reward": 1.0185546875,
      "reward_std": 0.33296477794647217,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.20524843037128448,
      "step": 2234
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1046.9609375,
      "completions/mean_terminated_length": 1004.1466674804688,
      "completions/min_length": 278.0,
      "completions/min_terminated_length": 278.0,
      "epoch": 0.7629939404284373,
      "grad_norm": 2.2278881072998047,
      "kl": 2.34765625,
      "learning_rate": 2.457428476629253e-07,
      "loss": 0.1471,
      "num_tokens": 1258972964.0,
      "reward": 1.0546875,
      "reward_std": 0.33507412672042847,
      "rewards/accuracy_reward/mean": 0.07459677755832672,
      "rewards/accuracy_reward/std": 0.263004869222641,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.935546875,
      "rewards/tag_count_reward/std": 0.1810387820005417,
      "step": 2235
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1040.38671875,
      "completions/mean_terminated_length": 999.4268188476562,
      "completions/min_length": 310.0,
      "completions/min_terminated_length": 310.0,
      "epoch": 0.7633353247418281,
      "grad_norm": 2.150195837020874,
      "kl": 2.26953125,
      "learning_rate": 2.45347917638122e-07,
      "loss": 0.1363,
      "num_tokens": 1259591130.0,
      "reward": 1.06640625,
      "reward_std": 0.29895350337028503,
      "rewards/accuracy_reward/mean": 0.0947580635547638,
      "rewards/accuracy_reward/std": 0.29317617416381836,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.94140625,
      "rewards/tag_count_reward/std": 0.16621248424053192,
      "step": 2236
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1962.0,
      "completions/mean_length": 1016.697265625,
      "completions/mean_terminated_length": 970.3938598632812,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.7636767090552189,
      "grad_norm": 1.7956606149673462,
      "kl": 3.037109375,
      "learning_rate": 2.4495342033936115e-07,
      "loss": 0.1769,
      "num_tokens": 1260192255.0,
      "reward": 1.0703125,
      "reward_std": 0.36397427320480347,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.03125,
      "rewards/format_reward/std": 0.17416280508041382,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.2041865587234497,
      "step": 2237
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1056.0234375,
      "completions/mean_terminated_length": 1019.8785400390625,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.7640180933686097,
      "grad_norm": 2.8235387802124023,
      "kl": 2.7890625,
      "learning_rate": 2.4455935632698474e-07,
      "loss": 0.1211,
      "num_tokens": 1260815995.0,
      "reward": 1.0966796875,
      "reward_std": 0.40870654582977295,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.20761838555335999,
      "step": 2238
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1085.259765625,
      "completions/mean_terminated_length": 1060.1783447265625,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.7643594776820005,
      "grad_norm": 2.217665910720825,
      "kl": 2.53125,
      "learning_rate": 2.4416572616071895e-07,
      "loss": 0.1335,
      "num_tokens": 1261445616.0,
      "reward": 1.08056640625,
      "reward_std": 0.33928707242012024,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18900687992572784,
      "step": 2239
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1027.1015625,
      "completions/mean_terminated_length": 1006.7649536132812,
      "completions/min_length": 330.0,
      "completions/min_terminated_length": 330.0,
      "epoch": 0.7647008619953913,
      "grad_norm": 3.055691957473755,
      "kl": 2.099609375,
      "learning_rate": 2.4377253039967396e-07,
      "loss": 0.1134,
      "num_tokens": 1262051236.0,
      "reward": 1.1318359375,
      "reward_std": 0.35164132714271545,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.18845312297344208,
      "step": 2240
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1092.228515625,
      "completions/mean_terminated_length": 1059.404052734375,
      "completions/min_length": 301.0,
      "completions/min_terminated_length": 301.0,
      "epoch": 0.7650422463087821,
      "grad_norm": 5.009459972381592,
      "kl": 2.705078125,
      "learning_rate": 2.433797696023424e-07,
      "loss": 0.1668,
      "num_tokens": 1262683513.0,
      "reward": 1.04541015625,
      "reward_std": 0.32103317975997925,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.025390625,
      "rewards/format_reward/std": 0.15746226906776428,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.19157785177230835,
      "step": 2241
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1040.01171875,
      "completions/mean_terminated_length": 977.27392578125,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.765383630622173,
      "grad_norm": 3.4729323387145996,
      "kl": 2.47265625,
      "learning_rate": 2.4298744432659973e-07,
      "loss": 0.1464,
      "num_tokens": 1263298847.0,
      "reward": 1.13330078125,
      "reward_std": 0.39557763934135437,
      "rewards/accuracy_reward/mean": 0.173828125,
      "rewards/accuracy_reward/std": 0.3793322443962097,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.91455078125,
      "rewards/tag_count_reward/std": 0.20126360654830933,
      "step": 2242
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1102.998046875,
      "completions/mean_terminated_length": 1068.5648193359375,
      "completions/min_length": 341.0,
      "completions/min_terminated_length": 341.0,
      "epoch": 0.7657250149355637,
      "grad_norm": 9.142526626586914,
      "kl": 3.12109375,
      "learning_rate": 2.4259555512970206e-07,
      "loss": 0.1074,
      "num_tokens": 1263942142.0,
      "reward": 1.06640625,
      "reward_std": 0.3728174865245819,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.19499453902244568,
      "step": 2243
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1085.685546875,
      "completions/mean_terminated_length": 1001.917236328125,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.7660663992489545,
      "grad_norm": 1.9588756561279297,
      "kl": 3.26953125,
      "learning_rate": 2.422041025682869e-07,
      "loss": 0.1697,
      "num_tokens": 1264583261.0,
      "reward": 1.0537109375,
      "reward_std": 0.33580493927001953,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.8857421875,
      "rewards/tag_count_reward/std": 0.2317335158586502,
      "step": 2244
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1073.7421875,
      "completions/mean_terminated_length": 1036.1947021484375,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.7664077835623453,
      "grad_norm": 3.4614264965057373,
      "kl": 2.44921875,
      "learning_rate": 2.4181308719837103e-07,
      "loss": 0.1533,
      "num_tokens": 1265213769.0,
      "reward": 1.0205078125,
      "reward_std": 0.27063578367233276,
      "rewards/accuracy_reward/mean": 0.05645161122083664,
      "rewards/accuracy_reward/std": 0.23102475702762604,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.1784525215625763,
      "step": 2245
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1070.85546875,
      "completions/mean_terminated_length": 1024.8956298828125,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.7667491678757361,
      "grad_norm": 3.315122127532959,
      "kl": 2.56640625,
      "learning_rate": 2.414225095753506e-07,
      "loss": 0.1277,
      "num_tokens": 1265850383.0,
      "reward": 1.11474609375,
      "reward_std": 0.3514671325683594,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.19716253876686096,
      "step": 2246
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1040.91796875,
      "completions/mean_terminated_length": 1008.431396484375,
      "completions/min_length": 299.0,
      "completions/min_terminated_length": 299.0,
      "epoch": 0.7670905521891269,
      "grad_norm": 4.62288761138916,
      "kl": 2.34765625,
      "learning_rate": 2.4103237025399946e-07,
      "loss": 0.1043,
      "num_tokens": 1266460933.0,
      "reward": 1.0458984375,
      "reward_std": 0.3049134612083435,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.1804969757795334,
      "step": 2247
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 983.7578125,
      "completions/mean_terminated_length": 940.4959106445312,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.7674319365025177,
      "grad_norm": 6.021011829376221,
      "kl": 2.734375,
      "learning_rate": 2.406426697884696e-07,
      "loss": 0.1978,
      "num_tokens": 1267046265.0,
      "reward": 1.0947265625,
      "reward_std": 0.31461101770401,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.20006181299686432,
      "step": 2248
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1056.529296875,
      "completions/mean_terminated_length": 1018.3184204101562,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.7677733208159085,
      "grad_norm": 7.167107582092285,
      "kl": 3.22265625,
      "learning_rate": 2.4025340873228897e-07,
      "loss": 0.1643,
      "num_tokens": 1267664648.0,
      "reward": 1.09716796875,
      "reward_std": 0.3739963173866272,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.19546380639076233,
      "step": 2249
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1072.5546875,
      "completions/mean_terminated_length": 1037.01220703125,
      "completions/min_length": 338.0,
      "completions/min_terminated_length": 338.0,
      "epoch": 0.7681147051292994,
      "grad_norm": 3.9639720916748047,
      "kl": 2.140625,
      "learning_rate": 2.3986458763836177e-07,
      "loss": 0.0796,
      "num_tokens": 1268289332.0,
      "reward": 1.048828125,
      "reward_std": 0.3164241313934326,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.18146054446697235,
      "step": 2250
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1100.318359375,
      "completions/mean_terminated_length": 1063.795166015625,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.7684560894426901,
      "grad_norm": 5.53609037399292,
      "kl": 2.138671875,
      "learning_rate": 2.3947620705896734e-07,
      "loss": 0.0613,
      "num_tokens": 1268929847.0,
      "reward": 1.05224609375,
      "reward_std": 0.322548508644104,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.1771216243505478,
      "step": 2251
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1107.16796875,
      "completions/mean_terminated_length": 1058.8707275390625,
      "completions/min_length": 279.0,
      "completions/min_terminated_length": 279.0,
      "epoch": 0.7687974737560809,
      "grad_norm": 8.220803260803223,
      "kl": 2.80859375,
      "learning_rate": 2.3908826754575923e-07,
      "loss": 0.2052,
      "num_tokens": 1269577165.0,
      "reward": 1.0205078125,
      "reward_std": 0.3072895109653473,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.20556476712226868,
      "step": 2252
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1055.041015625,
      "completions/mean_terminated_length": 1008.33740234375,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.7691388580694717,
      "grad_norm": 2.3903872966766357,
      "kl": 3.42578125,
      "learning_rate": 2.3870076964976424e-07,
      "loss": 0.206,
      "num_tokens": 1270205986.0,
      "reward": 1.0302734375,
      "reward_std": 0.3425173759460449,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.21143096685409546,
      "step": 2253
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1091.41796875,
      "completions/mean_terminated_length": 1048.4693603515625,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.7694802423828625,
      "grad_norm": 5.985517978668213,
      "kl": 2.99609375,
      "learning_rate": 2.3831371392138237e-07,
      "loss": 0.1193,
      "num_tokens": 1270842584.0,
      "reward": 1.04150390625,
      "reward_std": 0.35622867941856384,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.19172243773937225,
      "step": 2254
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 981.365234375,
      "completions/mean_terminated_length": 951.3794555664062,
      "completions/min_length": 281.0,
      "completions/min_terminated_length": 281.0,
      "epoch": 0.7698216266962533,
      "grad_norm": 5.019622325897217,
      "kl": 2.416015625,
      "learning_rate": 2.3792710091038506e-07,
      "loss": 0.159,
      "num_tokens": 1271413283.0,
      "reward": 1.13037109375,
      "reward_std": 0.3536721467971802,
      "rewards/accuracy_reward/mean": 0.169921875,
      "rewards/accuracy_reward/std": 0.3759314715862274,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.18511444330215454,
      "step": 2255
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1041.447265625,
      "completions/mean_terminated_length": 1004.7713012695312,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "epoch": 0.7701630110096441,
      "grad_norm": 6.263581275939941,
      "kl": 2.052734375,
      "learning_rate": 2.3754093116591534e-07,
      "loss": 0.1167,
      "num_tokens": 1272027384.0,
      "reward": 1.04248046875,
      "reward_std": 0.3408612012863159,
      "rewards/accuracy_reward/mean": 0.0786290317773819,
      "rewards/accuracy_reward/std": 0.26943066716194153,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.19039209187030792,
      "step": 2256
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1073.076171875,
      "completions/mean_terminated_length": 1043.65185546875,
      "completions/min_length": 294.0,
      "completions/min_terminated_length": 294.0,
      "epoch": 0.7705043953230349,
      "grad_norm": 1.9384559392929077,
      "kl": 2.447265625,
      "learning_rate": 2.3715520523648647e-07,
      "loss": 0.1337,
      "num_tokens": 1272652319.0,
      "reward": 1.044921875,
      "reward_std": 0.34502896666526794,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.19659529626369476,
      "step": 2257
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1042.369140625,
      "completions/mean_terminated_length": 1014.0983276367188,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.7708457796364258,
      "grad_norm": 2.814941883087158,
      "kl": 2.173828125,
      "learning_rate": 2.3676992366998136e-07,
      "loss": 0.1259,
      "num_tokens": 1273260140.0,
      "reward": 1.03466796875,
      "reward_std": 0.2768687903881073,
      "rewards/accuracy_reward/mean": 0.07258064299821854,
      "rewards/accuracy_reward/std": 0.25970885157585144,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.18054130673408508,
      "step": 2258
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1112.818359375,
      "completions/mean_terminated_length": 1084.593505859375,
      "completions/min_length": 358.0,
      "completions/min_terminated_length": 358.0,
      "epoch": 0.7711871639498165,
      "grad_norm": 1.5303236246109009,
      "kl": 1.8232421875,
      "learning_rate": 2.3638508701365153e-07,
      "loss": 0.0822,
      "num_tokens": 1273898255.0,
      "reward": 1.12451171875,
      "reward_std": 0.3661800026893616,
      "rewards/accuracy_reward/mean": 0.14453125,
      "rewards/accuracy_reward/std": 0.35197147727012634,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.17775706946849823,
      "step": 2259
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1044.966796875,
      "completions/mean_terminated_length": 1004.1930541992188,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "epoch": 0.7715285482632073,
      "grad_norm": 1.779982089996338,
      "kl": 2.46875,
      "learning_rate": 2.3600069581411693e-07,
      "loss": 0.1561,
      "num_tokens": 1274508110.0,
      "reward": 1.11474609375,
      "reward_std": 0.3632776141166687,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.1952926218509674,
      "step": 2260
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 996.109375,
      "completions/mean_terminated_length": 973.0139770507812,
      "completions/min_length": 308.0,
      "completions/min_terminated_length": 308.0,
      "epoch": 0.7718699325765981,
      "grad_norm": 3.0474798679351807,
      "kl": 3.404296875,
      "learning_rate": 2.356167506173644e-07,
      "loss": 0.1718,
      "num_tokens": 1275086310.0,
      "reward": 1.0390625,
      "reward_std": 0.3389974534511566,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.03125,
      "rewards/format_reward/std": 0.17416280508041382,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.2045886218547821,
      "step": 2261
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1027.71484375,
      "completions/mean_terminated_length": 994.8023681640625,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.7722113168899889,
      "grad_norm": 2.281660556793213,
      "kl": 2.142578125,
      "learning_rate": 2.3523325196874746e-07,
      "loss": 0.0752,
      "num_tokens": 1275684068.0,
      "reward": 1.02783203125,
      "reward_std": 0.29623085260391235,
      "rewards/accuracy_reward/mean": 0.07459677755832672,
      "rewards/accuracy_reward/std": 0.263004869222641,
      "rewards/format_reward/mean": 0.02734375,
      "rewards/format_reward/std": 0.16324250400066376,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.18131764233112335,
      "step": 2262
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1111.408203125,
      "completions/mean_terminated_length": 1092.7509765625,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.7725527012033797,
      "grad_norm": 4.6520209312438965,
      "kl": 2.302734375,
      "learning_rate": 2.3485020041298544e-07,
      "loss": 0.0914,
      "num_tokens": 1276324757.0,
      "reward": 1.04345703125,
      "reward_std": 0.3242158889770508,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.172541543841362,
      "step": 2263
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1039.037109375,
      "completions/mean_terminated_length": 1014.822021484375,
      "completions/min_length": 328.0,
      "completions/min_terminated_length": 328.0,
      "epoch": 0.7728940855167705,
      "grad_norm": 3.5061988830566406,
      "kl": 2.669921875,
      "learning_rate": 2.344675964941627e-07,
      "loss": 0.1306,
      "num_tokens": 1276930808.0,
      "reward": 1.05224609375,
      "reward_std": 0.30761483311653137,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.16789913177490234,
      "step": 2264
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 966.9765625,
      "completions/mean_terminated_length": 943.2415161132812,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.7732354698301613,
      "grad_norm": 4.673521041870117,
      "kl": 3.830078125,
      "learning_rate": 2.3408544075572727e-07,
      "loss": 0.2032,
      "num_tokens": 1277496204.0,
      "reward": 1.11767578125,
      "reward_std": 0.33358681201934814,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.18266178667545319,
      "step": 2265
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1007.16796875,
      "completions/mean_terminated_length": 986.4342651367188,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.7735768541435522,
      "grad_norm": 1.8258031606674194,
      "kl": 2.138671875,
      "learning_rate": 2.337037337404913e-07,
      "loss": 0.0864,
      "num_tokens": 1278084594.0,
      "reward": 1.11962890625,
      "reward_std": 0.3642021715641022,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17460595071315765,
      "step": 2266
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 986.375,
      "completions/mean_terminated_length": 963.0658569335938,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.7739182384569429,
      "grad_norm": 5.637394428253174,
      "kl": 2.703125,
      "learning_rate": 2.333224759906288e-07,
      "loss": 0.1097,
      "num_tokens": 1278667106.0,
      "reward": 1.091796875,
      "reward_std": 0.3354136347770691,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.1781550794839859,
      "step": 2267
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1017.703125,
      "completions/mean_terminated_length": 984.4677124023438,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.7742596227703337,
      "grad_norm": 3.8480064868927,
      "kl": 2.791015625,
      "learning_rate": 2.3294166804767634e-07,
      "loss": 0.1872,
      "num_tokens": 1279263802.0,
      "reward": 1.13720703125,
      "reward_std": 0.31603750586509705,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.1834864467382431,
      "step": 2268
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 986.7890625,
      "completions/mean_terminated_length": 943.650390625,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.7746010070837245,
      "grad_norm": 2.9448046684265137,
      "kl": 2.755859375,
      "learning_rate": 2.3256131045253127e-07,
      "loss": 0.145,
      "num_tokens": 1279845566.0,
      "reward": 1.08984375,
      "reward_std": 0.34643620252609253,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.18962833285331726,
      "step": 2269
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2010.0,
      "completions/mean_length": 1005.92578125,
      "completions/mean_terminated_length": 983.0458984375,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "epoch": 0.7749423913971153,
      "grad_norm": 2.3940649032592773,
      "kl": 2.41015625,
      "learning_rate": 2.3218140374545137e-07,
      "loss": 0.1288,
      "num_tokens": 1280434584.0,
      "reward": 1.14599609375,
      "reward_std": 0.3611350655555725,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17291219532489777,
      "step": 2270
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1066.4453125,
      "completions/mean_terminated_length": 1042.8880615234375,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "epoch": 0.7752837757105061,
      "grad_norm": 4.552471160888672,
      "kl": 2.107421875,
      "learning_rate": 2.3180194846605364e-07,
      "loss": 0.133,
      "num_tokens": 1281056444.0,
      "reward": 1.1162109375,
      "reward_std": 0.37534934282302856,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.19635941088199615,
      "step": 2271
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 958.115234375,
      "completions/mean_terminated_length": 918.40283203125,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.7756251600238969,
      "grad_norm": 2.0496935844421387,
      "kl": 2.673828125,
      "learning_rate": 2.3142294515331437e-07,
      "loss": 0.1358,
      "num_tokens": 1281621303.0,
      "reward": 1.00634765625,
      "reward_std": 0.24395737051963806,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.01953125,
      "rewards/format_reward/std": 0.1385180652141571,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17875948548316956,
      "step": 2272
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1069.80078125,
      "completions/mean_terminated_length": 1034.157958984375,
      "completions/min_length": 302.0,
      "completions/min_terminated_length": 302.0,
      "epoch": 0.7759665443372877,
      "grad_norm": 3.2112843990325928,
      "kl": 2.18359375,
      "learning_rate": 2.3104439434556775e-07,
      "loss": 0.1065,
      "num_tokens": 1282241345.0,
      "reward": 1.07080078125,
      "reward_std": 0.3248564600944519,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.18481481075286865,
      "step": 2273
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1075.50390625,
      "completions/mean_terminated_length": 1031.8408203125,
      "completions/min_length": 294.0,
      "completions/min_terminated_length": 294.0,
      "epoch": 0.7763079286506785,
      "grad_norm": 2.3921453952789307,
      "kl": 2.779296875,
      "learning_rate": 2.3066629658050482e-07,
      "loss": 0.1625,
      "num_tokens": 1282871363.0,
      "reward": 1.060546875,
      "reward_std": 0.32115721702575684,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.19534705579280853,
      "step": 2274
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1098.357421875,
      "completions/mean_terminated_length": 1053.691162109375,
      "completions/min_length": 352.0,
      "completions/min_terminated_length": 352.0,
      "epoch": 0.7766493129640692,
      "grad_norm": 2.4226014614105225,
      "kl": 2.333984375,
      "learning_rate": 2.3028865239517363e-07,
      "loss": 0.1366,
      "num_tokens": 1283508090.0,
      "reward": 1.02490234375,
      "reward_std": 0.28532925248146057,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.18012800812721252,
      "step": 2275
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 998.8984375,
      "completions/mean_terminated_length": 962.8687133789062,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.7769906972774601,
      "grad_norm": 3.0213632583618164,
      "kl": 2.630859375,
      "learning_rate": 2.299114623259778e-07,
      "loss": 0.1217,
      "num_tokens": 1284093398.0,
      "reward": 1.09912109375,
      "reward_std": 0.30310487747192383,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.92919921875,
      "rewards/tag_count_reward/std": 0.19089330732822418,
      "step": 2276
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1072.08984375,
      "completions/mean_terminated_length": 1044.654541015625,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.7773320815908509,
      "grad_norm": 3.269261360168457,
      "kl": 2.232421875,
      "learning_rate": 2.29534726908676e-07,
      "loss": 0.095,
      "num_tokens": 1284713140.0,
      "reward": 1.1396484375,
      "reward_std": 0.3556555509567261,
      "rewards/accuracy_reward/mean": 0.15927419066429138,
      "rewards/accuracy_reward/std": 0.3663010001182556,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17448893189430237,
      "step": 2277
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1029.0546875,
      "completions/mean_terminated_length": 998.3017578125,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "epoch": 0.7776734659042417,
      "grad_norm": 2.3558075428009033,
      "kl": 1.802734375,
      "learning_rate": 2.2915844667838074e-07,
      "loss": 0.0651,
      "num_tokens": 1285318080.0,
      "reward": 0.99853515625,
      "reward_std": 0.29774922132492065,
      "rewards/accuracy_reward/mean": 0.03125,
      "rewards/accuracy_reward/std": 0.17416280508041382,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.18053071200847626,
      "step": 2278
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1097.9921875,
      "completions/mean_terminated_length": 1057.360595703125,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.7780148502176325,
      "grad_norm": 2.3282322883605957,
      "kl": 2.58984375,
      "learning_rate": 2.2878262216955863e-07,
      "loss": 0.1496,
      "num_tokens": 1285958108.0,
      "reward": 1.0380859375,
      "reward_std": 0.3391152620315552,
      "rewards/accuracy_reward/mean": 0.08541666716337204,
      "rewards/accuracy_reward/std": 0.27979233860969543,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.19561834633350372,
      "step": 2279
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 1044.720703125,
      "completions/mean_terminated_length": 1016.5160522460938,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.7783562345310233,
      "grad_norm": 2.625993013381958,
      "kl": 3.01171875,
      "learning_rate": 2.2840725391602826e-07,
      "loss": 0.1692,
      "num_tokens": 1286573885.0,
      "reward": 1.06298828125,
      "reward_std": 0.32963770627975464,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.19362683594226837,
      "step": 2280
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1108.6484375,
      "completions/mean_terminated_length": 1064.4661865234375,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.7786976188444141,
      "grad_norm": 5.202631950378418,
      "kl": 2.6171875,
      "learning_rate": 2.2803234245096062e-07,
      "loss": 0.1557,
      "num_tokens": 1287213257.0,
      "reward": 1.08203125,
      "reward_std": 0.3195320963859558,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.19642995297908783,
      "step": 2281
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.013671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1098.8203125,
      "completions/mean_terminated_length": 1085.6634521484375,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.7790390031578049,
      "grad_norm": 5.33516263961792,
      "kl": 2.080078125,
      "learning_rate": 2.2765788830687782e-07,
      "loss": 0.0554,
      "num_tokens": 1287858125.0,
      "reward": 1.0859375,
      "reward_std": 0.3283921778202057,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.1787441074848175,
      "step": 2282
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1059.697265625,
      "completions/mean_terminated_length": 1011.0921630859375,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "epoch": 0.7793803874711956,
      "grad_norm": 3.056795358657837,
      "kl": 2.595703125,
      "learning_rate": 2.2728389201565252e-07,
      "loss": 0.1649,
      "num_tokens": 1288479250.0,
      "reward": 1.013671875,
      "reward_std": 0.33103084564208984,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.19042283296585083,
      "step": 2283
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 979.302734375,
      "completions/mean_terminated_length": 951.4609375,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.7797217717845865,
      "grad_norm": 1.7095515727996826,
      "kl": 2.18359375,
      "learning_rate": 2.269103541085065e-07,
      "loss": 0.1105,
      "num_tokens": 1289055213.0,
      "reward": 1.08837890625,
      "reward_std": 0.3720618188381195,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17738577723503113,
      "step": 2284
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1081.056640625,
      "completions/mean_terminated_length": 1047.8485107421875,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.7800631560979773,
      "grad_norm": 3.155726432800293,
      "kl": 2.6796875,
      "learning_rate": 2.2653727511601115e-07,
      "loss": 0.1181,
      "num_tokens": 1289687530.0,
      "reward": 1.06787109375,
      "reward_std": 0.3291609287261963,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.16568778455257416,
      "step": 2285
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1161.73046875,
      "completions/mean_terminated_length": 1110.4586181640625,
      "completions/min_length": 377.0,
      "completions/min_terminated_length": 377.0,
      "epoch": 0.7804045404113681,
      "grad_norm": 1.8491008281707764,
      "kl": 2.83203125,
      "learning_rate": 2.261646555680855e-07,
      "loss": 0.1321,
      "num_tokens": 1290356400.0,
      "reward": 1.01513671875,
      "reward_std": 0.3437083959579468,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.19850045442581177,
      "step": 2286
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1022.39453125,
      "completions/mean_terminated_length": 989.3104248046875,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.7807459247247589,
      "grad_norm": 1.5820467472076416,
      "kl": 2.607421875,
      "learning_rate": 2.2579249599399616e-07,
      "loss": 0.1441,
      "num_tokens": 1290954042.0,
      "reward": 1.0400390625,
      "reward_std": 0.3252141773700714,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.1848077028989792,
      "step": 2287
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1030.3984375,
      "completions/mean_terminated_length": 1010.1275024414062,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.7810873090381497,
      "grad_norm": 1.740046501159668,
      "kl": 1.87890625,
      "learning_rate": 2.254207969223566e-07,
      "loss": 0.0714,
      "num_tokens": 1291555110.0,
      "reward": 1.076171875,
      "reward_std": 0.319326788187027,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.1726529598236084,
      "step": 2288
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1081.099609375,
      "completions/mean_terminated_length": 1039.7454833984375,
      "completions/min_length": 297.0,
      "completions/min_terminated_length": 297.0,
      "epoch": 0.7814286933515405,
      "grad_norm": 1.753785252571106,
      "kl": 2.3359375,
      "learning_rate": 2.25049558881126e-07,
      "loss": 0.1101,
      "num_tokens": 1292192297.0,
      "reward": 1.05322265625,
      "reward_std": 0.3315582275390625,
      "rewards/accuracy_reward/mean": 0.07056451588869095,
      "rewards/accuracy_reward/std": 0.25635457038879395,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.18481481075286865,
      "step": 2289
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1107.896484375,
      "completions/mean_terminated_length": 1047.3077392578125,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.7817700776649313,
      "grad_norm": 2.1008362770080566,
      "kl": 2.076171875,
      "learning_rate": 2.2467878239760851e-07,
      "loss": 0.1088,
      "num_tokens": 1292840836.0,
      "reward": 1.041015625,
      "reward_std": 0.35410812497138977,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.1937359869480133,
      "step": 2290
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1026.337890625,
      "completions/mean_terminated_length": 993.3810424804688,
      "completions/min_length": 312.0,
      "completions/min_terminated_length": 312.0,
      "epoch": 0.782111461978322,
      "grad_norm": 2.446251392364502,
      "kl": 2.388671875,
      "learning_rate": 2.243084679984531e-07,
      "loss": 0.1456,
      "num_tokens": 1293436449.0,
      "reward": 1.14697265625,
      "reward_std": 0.35229337215423584,
      "rewards/accuracy_reward/mean": 0.1875,
      "rewards/accuracy_reward/std": 0.39069411158561707,
      "rewards/format_reward/mean": 0.029296875,
      "rewards/format_reward/std": 0.16880230605602264,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.17731572687625885,
      "step": 2291
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1044.359375,
      "completions/mean_terminated_length": 994.9999389648438,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.7824528462917129,
      "grad_norm": 3.2603793144226074,
      "kl": 2.16796875,
      "learning_rate": 2.2393861620965205e-07,
      "loss": 0.0739,
      "num_tokens": 1294052569.0,
      "reward": 1.0244140625,
      "reward_std": 0.32584571838378906,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.1872730702161789,
      "step": 2292
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1023.06640625,
      "completions/mean_terminated_length": 957.0103759765625,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.7827942306051037,
      "grad_norm": 3.8458852767944336,
      "kl": 2.33984375,
      "learning_rate": 2.2356922755654068e-07,
      "loss": 0.1037,
      "num_tokens": 1294656891.0,
      "reward": 1.076171875,
      "reward_std": 0.3515157103538513,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.2045886218547821,
      "step": 2293
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1038.7109375,
      "completions/mean_terminated_length": 1014.488037109375,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.7831356149184945,
      "grad_norm": 2.5841803550720215,
      "kl": 2.0625,
      "learning_rate": 2.2320030256379656e-07,
      "loss": 0.1127,
      "num_tokens": 1295258071.0,
      "reward": 1.1044921875,
      "reward_std": 0.3568401336669922,
      "rewards/accuracy_reward/mean": 0.11693548411130905,
      "rewards/accuracy_reward/std": 0.3216678202152252,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.1672183722257614,
      "step": 2294
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1065.115234375,
      "completions/mean_terminated_length": 1045.535888671875,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "epoch": 0.7834769992318853,
      "grad_norm": 3.0170798301696777,
      "kl": 1.67578125,
      "learning_rate": 2.2283184175543867e-07,
      "loss": 0.072,
      "num_tokens": 1295880418.0,
      "reward": 1.02783203125,
      "reward_std": 0.27887699007987976,
      "rewards/accuracy_reward/mean": 0.04296875,
      "rewards/accuracy_reward/std": 0.2029850035905838,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.94384765625,
      "rewards/tag_count_reward/std": 0.15529228746891022,
      "step": 2295
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1029.1796875,
      "completions/mean_terminated_length": 989.914794921875,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.7838183835452761,
      "grad_norm": 1.7091035842895508,
      "kl": 2.244140625,
      "learning_rate": 2.2246384565482645e-07,
      "loss": 0.1335,
      "num_tokens": 1296485758.0,
      "reward": 1.06396484375,
      "reward_std": 0.31465262174606323,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.94091796875,
      "rewards/tag_count_reward/std": 0.17147494852542877,
      "step": 2296
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1051.97265625,
      "completions/mean_terminated_length": 1015.68017578125,
      "completions/min_length": 285.0,
      "completions/min_terminated_length": 285.0,
      "epoch": 0.7841597678586669,
      "grad_norm": 3.524322748184204,
      "kl": 2.892578125,
      "learning_rate": 2.220963147846595e-07,
      "loss": 0.1858,
      "num_tokens": 1297103376.0,
      "reward": 1.15673828125,
      "reward_std": 0.3673393726348877,
      "rewards/accuracy_reward/mean": 0.17578125,
      "rewards/accuracy_reward/std": 0.3810062110424042,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.18729029595851898,
      "step": 2297
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1058.099609375,
      "completions/mean_terminated_length": 1028.2232666015625,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.7845011521720577,
      "grad_norm": 4.519505023956299,
      "kl": 1.904296875,
      "learning_rate": 2.217292496669764e-07,
      "loss": 0.0765,
      "num_tokens": 1297731619.0,
      "reward": 1.1044921875,
      "reward_std": 0.3536537289619446,
      "rewards/accuracy_reward/mean": 0.10080645233392715,
      "rewards/accuracy_reward/std": 0.30137622356414795,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.9462890625,
      "rewards/tag_count_reward/std": 0.15964092314243317,
      "step": 2298
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1104.576171875,
      "completions/mean_terminated_length": 1054.1048583984375,
      "completions/min_length": 315.0,
      "completions/min_terminated_length": 315.0,
      "epoch": 0.7848425364854484,
      "grad_norm": 2.1584033966064453,
      "kl": 1.5283203125,
      "learning_rate": 2.2136265082315442e-07,
      "loss": 0.096,
      "num_tokens": 1298374058.0,
      "reward": 1.11474609375,
      "reward_std": 0.3629153370857239,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.16789913177490234,
      "step": 2299
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1123.92578125,
      "completions/mean_terminated_length": 1084.4033203125,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.7851839207988393,
      "grad_norm": 4.45211124420166,
      "kl": 2.037109375,
      "learning_rate": 2.209965187739084e-07,
      "loss": 0.1143,
      "num_tokens": 1299029684.0,
      "reward": 1.06103515625,
      "reward_std": 0.3254391551017761,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.1814756840467453,
      "step": 2300
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 1082.166015625,
      "completions/mean_terminated_length": 1036.7381591796875,
      "completions/min_length": 345.0,
      "completions/min_terminated_length": 345.0,
      "epoch": 0.7855253051122301,
      "grad_norm": 6.068052768707275,
      "kl": 2.330078125,
      "learning_rate": 2.2063085403929024e-07,
      "loss": 0.1714,
      "num_tokens": 1299665033.0,
      "reward": 1.04931640625,
      "reward_std": 0.3271487355232239,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.19334039092063904,
      "step": 2301
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1957.0,
      "completions/mean_length": 1063.6171875,
      "completions/mean_terminated_length": 1021.5153198242188,
      "completions/min_length": 385.0,
      "completions/min_terminated_length": 385.0,
      "epoch": 0.7858666894256209,
      "grad_norm": 6.554154872894287,
      "kl": 1.5234375,
      "learning_rate": 2.2026565713868782e-07,
      "loss": 0.1115,
      "num_tokens": 1300285429.0,
      "reward": 1.14111328125,
      "reward_std": 0.3114096522331238,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.1638319194316864,
      "step": 2302
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1112.982421875,
      "completions/mean_terminated_length": 1072.991943359375,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.7862080737390117,
      "grad_norm": 1.6721909046173096,
      "kl": 2.068359375,
      "learning_rate": 2.1990092859082492e-07,
      "loss": 0.1227,
      "num_tokens": 1300932236.0,
      "reward": 1.07666015625,
      "reward_std": 0.3702687621116638,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18705546855926514,
      "step": 2303
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1032.6953125,
      "completions/mean_terminated_length": 993.56591796875,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.7865494580524025,
      "grad_norm": 4.0513410568237305,
      "kl": 2.310546875,
      "learning_rate": 2.1953666891375966e-07,
      "loss": 0.1194,
      "num_tokens": 1301535584.0,
      "reward": 1.11865234375,
      "reward_std": 0.38107720017433167,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.188277468085289,
      "step": 2304
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 969.80078125,
      "completions/mean_terminated_length": 935.0201416015625,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.7868908423657933,
      "grad_norm": 5.8314528465271,
      "kl": 2.83203125,
      "learning_rate": 2.1917287862488438e-07,
      "loss": 0.1991,
      "num_tokens": 1302106298.0,
      "reward": 1.08984375,
      "reward_std": 0.3768289089202881,
      "rewards/accuracy_reward/mean": 0.1270161271095276,
      "rewards/accuracy_reward/std": 0.3333272337913513,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.18945692479610443,
      "step": 2305
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1975.0,
      "completions/mean_length": 1009.349609375,
      "completions/mean_terminated_length": 980.1505737304688,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.7872322266791841,
      "grad_norm": 2.5602266788482666,
      "kl": 1.931640625,
      "learning_rate": 2.1880955824092473e-07,
      "loss": 0.1012,
      "num_tokens": 1302700221.0,
      "reward": 1.09521484375,
      "reward_std": 0.34862062335014343,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.17007049918174744,
      "step": 2306
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1046.978515625,
      "completions/mean_terminated_length": 1022.9540405273438,
      "completions/min_length": 319.0,
      "completions/min_terminated_length": 319.0,
      "epoch": 0.787573610992575,
      "grad_norm": 7.343836784362793,
      "kl": 1.974609375,
      "learning_rate": 2.1844670827793898e-07,
      "loss": 0.075,
      "num_tokens": 1303314194.0,
      "reward": 1.201171875,
      "reward_std": 0.3874884843826294,
      "rewards/accuracy_reward/mean": 0.173828125,
      "rewards/accuracy_reward/std": 0.3793322443962097,
      "rewards/format_reward/mean": 0.080078125,
      "rewards/format_reward/std": 0.271679550409317,
      "rewards/tag_count_reward/mean": 0.947265625,
      "rewards/tag_count_reward/std": 0.1537284255027771,
      "step": 2307
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1106.8828125,
      "completions/mean_terminated_length": 1078.4788818359375,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.7879149953059656,
      "grad_norm": 2.5623719692230225,
      "kl": 2.388671875,
      "learning_rate": 2.1808432925131686e-07,
      "loss": 0.1297,
      "num_tokens": 1303959526.0,
      "reward": 1.08837890625,
      "reward_std": 0.34951961040496826,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.18266178667545319,
      "step": 2308
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1052.9609375,
      "completions/mean_terminated_length": 1020.8628540039062,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "epoch": 0.7882563796193565,
      "grad_norm": 2.1872973442077637,
      "kl": 2.3203125,
      "learning_rate": 2.1772242167577973e-07,
      "loss": 0.1176,
      "num_tokens": 1304574482.0,
      "reward": 1.13037109375,
      "reward_std": 0.36306798458099365,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17220339179039001,
      "step": 2309
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1013.720703125,
      "completions/mean_terminated_length": 958.3888549804688,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.7885977639327473,
      "grad_norm": 5.431679725646973,
      "kl": 2.291015625,
      "learning_rate": 2.1736098606537867e-07,
      "loss": 0.0968,
      "num_tokens": 1305168099.0,
      "reward": 1.1376953125,
      "reward_std": 0.3144841194152832,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.9443359375,
      "rewards/tag_count_reward/std": 0.16352032124996185,
      "step": 2310
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1031.91015625,
      "completions/mean_terminated_length": 992.75048828125,
      "completions/min_length": 249.0,
      "completions/min_terminated_length": 249.0,
      "epoch": 0.7889391482461381,
      "grad_norm": 4.95039701461792,
      "kl": 1.89453125,
      "learning_rate": 2.170000229334949e-07,
      "loss": 0.1307,
      "num_tokens": 1305772789.0,
      "reward": 1.109375,
      "reward_std": 0.35983261466026306,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.18235354125499725,
      "step": 2311
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1053.01171875,
      "completions/mean_terminated_length": 993.271240234375,
      "completions/min_length": 319.0,
      "completions/min_terminated_length": 319.0,
      "epoch": 0.7892805325595289,
      "grad_norm": 3.095932722091675,
      "kl": 2.80078125,
      "learning_rate": 2.1663953279283828e-07,
      "loss": 0.1764,
      "num_tokens": 1306394587.0,
      "reward": 1.0498046875,
      "reward_std": 0.3414396643638611,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.9189453125,
      "rewards/tag_count_reward/std": 0.1972721517086029,
      "step": 2312
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1940.0,
      "completions/mean_length": 1027.927734375,
      "completions/mean_terminated_length": 984.2994384765625,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.7896219168729197,
      "grad_norm": 4.1225409507751465,
      "kl": 2.720703125,
      "learning_rate": 2.1627951615544716e-07,
      "loss": 0.1844,
      "num_tokens": 1307002278.0,
      "reward": 0.9912109375,
      "reward_std": 0.276045024394989,
      "rewards/accuracy_reward/mean": 0.037109375,
      "rewards/accuracy_reward/std": 0.18921469151973724,
      "rewards/format_reward/mean": 0.03125,
      "rewards/format_reward/std": 0.17416280508041382,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.18612663447856903,
      "step": 2313
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 1011.55078125,
      "completions/mean_terminated_length": 975.9556274414062,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.7899633011863105,
      "grad_norm": 3.1654531955718994,
      "kl": 2.189453125,
      "learning_rate": 2.1591997353268666e-07,
      "loss": 0.1291,
      "num_tokens": 1307595920.0,
      "reward": 1.1044921875,
      "reward_std": 0.2975696623325348,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.1709705889225006,
      "step": 2314
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1014.55859375,
      "completions/mean_terminated_length": 976.90283203125,
      "completions/min_length": 323.0,
      "completions/min_terminated_length": 323.0,
      "epoch": 0.7903046854997013,
      "grad_norm": 2.0889272689819336,
      "kl": 2.58984375,
      "learning_rate": 2.155609054352494e-07,
      "loss": 0.1258,
      "num_tokens": 1308185934.0,
      "reward": 1.0654296875,
      "reward_std": 0.32039761543273926,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.18308307230472565,
      "step": 2315
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1124.099609375,
      "completions/mean_terminated_length": 1092.3697509765625,
      "completions/min_length": 288.0,
      "completions/min_terminated_length": 288.0,
      "epoch": 0.790646069813092,
      "grad_norm": 2.1945366859436035,
      "kl": 1.94140625,
      "learning_rate": 2.1520231237315326e-07,
      "loss": 0.1129,
      "num_tokens": 1308839089.0,
      "reward": 1.033203125,
      "reward_std": 0.3249098062515259,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.1789150983095169,
      "step": 2316
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 1029.14453125,
      "completions/mean_terminated_length": 1004.6920776367188,
      "completions/min_length": 352.0,
      "completions/min_terminated_length": 352.0,
      "epoch": 0.7909874541264829,
      "grad_norm": 5.610980033874512,
      "kl": 2.634765625,
      "learning_rate": 2.1484419485574196e-07,
      "loss": 0.1276,
      "num_tokens": 1309440763.0,
      "reward": 1.15380859375,
      "reward_std": 0.402589350938797,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17849735915660858,
      "step": 2317
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 941.404296875,
      "completions/mean_terminated_length": 914.8460693359375,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.7913288384398737,
      "grad_norm": 5.959605693817139,
      "kl": 2.880859375,
      "learning_rate": 2.1448655339168347e-07,
      "loss": 0.1422,
      "num_tokens": 1310002138.0,
      "reward": 1.12646484375,
      "reward_std": 0.3662912845611572,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.17706766724586487,
      "step": 2318
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1102.9609375,
      "completions/mean_terminated_length": 1058.51123046875,
      "completions/min_length": 351.0,
      "completions/min_terminated_length": 351.0,
      "epoch": 0.7916702227532645,
      "grad_norm": 2.0184543132781982,
      "kl": 2.953125,
      "learning_rate": 2.141293884889699e-07,
      "loss": 0.1385,
      "num_tokens": 1310647942.0,
      "reward": 1.05810546875,
      "reward_std": 0.3813610076904297,
      "rewards/accuracy_reward/mean": 0.08467742055654526,
      "rewards/accuracy_reward/std": 0.278682142496109,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.20145341753959656,
      "step": 2319
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1062.466796875,
      "completions/mean_terminated_length": 1022.4044189453125,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "epoch": 0.7920116070666553,
      "grad_norm": 2.302642345428467,
      "kl": 2.275390625,
      "learning_rate": 2.137727006549157e-07,
      "loss": 0.1232,
      "num_tokens": 1311257093.0,
      "reward": 1.12548828125,
      "reward_std": 0.3347333073616028,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.16896003484725952,
      "step": 2320
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 1042.30078125,
      "completions/mean_terminated_length": 1007.7616577148438,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.7923529913800461,
      "grad_norm": 2.98958420753479,
      "kl": 3.505859375,
      "learning_rate": 2.1341649039615865e-07,
      "loss": 0.2133,
      "num_tokens": 1311868527.0,
      "reward": 1.08447265625,
      "reward_std": 0.3495829701423645,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.19079317152500153,
      "step": 2321
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1060.400390625,
      "completions/mean_terminated_length": 1024.4150390625,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.7926943756934369,
      "grad_norm": 2.5862016677856445,
      "kl": 2.158203125,
      "learning_rate": 2.1306075821865737e-07,
      "loss": 0.1213,
      "num_tokens": 1312487740.0,
      "reward": 1.07666015625,
      "reward_std": 0.32022154331207275,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.94580078125,
      "rewards/tag_count_reward/std": 0.15985849499702454,
      "step": 2322
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1977.0,
      "completions/mean_length": 980.69140625,
      "completions/mean_terminated_length": 957.2575073242188,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.7930357600068277,
      "grad_norm": 1.9269840717315674,
      "kl": 2.63671875,
      "learning_rate": 2.1270550462769212e-07,
      "loss": 0.1602,
      "num_tokens": 1313060670.0,
      "reward": 1.0947265625,
      "reward_std": 0.33442410826683044,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.037109375,
      "rewards/format_reward/std": 0.18921469151973724,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.1750793755054474,
      "step": 2323
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1011.4609375,
      "completions/mean_terminated_length": 967.1283569335938,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.7933771443202184,
      "grad_norm": 1.5138392448425293,
      "kl": 2.67578125,
      "learning_rate": 2.1235073012786253e-07,
      "loss": 0.144,
      "num_tokens": 1313656858.0,
      "reward": 1.13330078125,
      "reward_std": 0.3676219582557678,
      "rewards/accuracy_reward/mean": 0.169921875,
      "rewards/accuracy_reward/std": 0.3759314715862274,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.19172243773937225,
      "step": 2324
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1059.46875,
      "completions/mean_terminated_length": 995.7588500976562,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.7937185286336093,
      "grad_norm": 4.874662399291992,
      "kl": 3.97265625,
      "learning_rate": 2.119964352230888e-07,
      "loss": 0.2157,
      "num_tokens": 1314274522.0,
      "reward": 1.03466796875,
      "reward_std": 0.37151771783828735,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.20337004959583282,
      "step": 2325
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1082.58984375,
      "completions/mean_terminated_length": 1037.1820068359375,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.7940599129470001,
      "grad_norm": 7.475686550140381,
      "kl": 2.251953125,
      "learning_rate": 2.11642620416609e-07,
      "loss": 0.0859,
      "num_tokens": 1314906152.0,
      "reward": 1.13916015625,
      "reward_std": 0.3554784953594208,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17460595071315765,
      "step": 2326
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 996.478515625,
      "completions/mean_terminated_length": 964.742431640625,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.7944012972603909,
      "grad_norm": 6.651371479034424,
      "kl": 2.62890625,
      "learning_rate": 2.1128928621097985e-07,
      "loss": 0.1064,
      "num_tokens": 1315490333.0,
      "reward": 1.1748046875,
      "reward_std": 0.39619573950767517,
      "rewards/accuracy_reward/mean": 0.1796875,
      "rewards/accuracy_reward/std": 0.38430243730545044,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.1810678094625473,
      "step": 2327
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1068.681640625,
      "completions/mean_terminated_length": 1028.8719482421875,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.7947426815737817,
      "grad_norm": 2.616569995880127,
      "kl": 2.34375,
      "learning_rate": 2.109364331080749e-07,
      "loss": 0.114,
      "num_tokens": 1316123562.0,
      "reward": 1.0732421875,
      "reward_std": 0.34903356432914734,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.19067105650901794,
      "step": 2328
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1079.38671875,
      "completions/mean_terminated_length": 1023.3511962890625,
      "completions/min_length": 338.0,
      "completions/min_terminated_length": 338.0,
      "epoch": 0.7950840658871725,
      "grad_norm": 2.174304723739624,
      "kl": 2.38671875,
      "learning_rate": 2.10584061609085e-07,
      "loss": 0.156,
      "num_tokens": 1316758144.0,
      "reward": 1.13330078125,
      "reward_std": 0.4128798842430115,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.1830902397632599,
      "step": 2329
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1010.283203125,
      "completions/mean_terminated_length": 981.1104125976562,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.7954254502005633,
      "grad_norm": 2.4027020931243896,
      "kl": 1.953125,
      "learning_rate": 2.1023217221451603e-07,
      "loss": 0.0821,
      "num_tokens": 1317342241.0,
      "reward": 1.18359375,
      "reward_std": 0.3709033727645874,
      "rewards/accuracy_reward/mean": 0.197265625,
      "rewards/accuracy_reward/std": 0.3983237147331238,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.1789150983095169,
      "step": 2330
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1967.0,
      "completions/mean_length": 1066.17578125,
      "completions/mean_terminated_length": 1005.0664672851562,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.7957668345139541,
      "grad_norm": 3.0163819789886475,
      "kl": 2.671875,
      "learning_rate": 2.098807654241903e-07,
      "loss": 0.1444,
      "num_tokens": 1317967355.0,
      "reward": 1.03759765625,
      "reward_std": 0.3063843846321106,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.1830902397632599,
      "step": 2331
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1114.794921875,
      "completions/mean_terminated_length": 1054.6507568359375,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "epoch": 0.7961082188273448,
      "grad_norm": 4.766200542449951,
      "kl": 2.84765625,
      "learning_rate": 2.0952984173724348e-07,
      "loss": 0.1824,
      "num_tokens": 1318627378.0,
      "reward": 1.0166015625,
      "reward_std": 0.347095787525177,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.8994140625,
      "rewards/tag_count_reward/std": 0.21476708352565765,
      "step": 2332
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1114.95703125,
      "completions/mean_terminated_length": 1060.979248046875,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.7964496031407357,
      "grad_norm": 5.242162704467773,
      "kl": 2.87109375,
      "learning_rate": 2.091794016521259e-07,
      "loss": 0.1718,
      "num_tokens": 1319281612.0,
      "reward": 1.02490234375,
      "reward_std": 0.34907281398773193,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.21874071657657623,
      "step": 2333
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1992.0,
      "completions/mean_length": 1087.93359375,
      "completions/mean_terminated_length": 1030.2899169921875,
      "completions/min_length": 343.0,
      "completions/min_terminated_length": 343.0,
      "epoch": 0.7967909874541265,
      "grad_norm": 2.320801258087158,
      "kl": 2.96875,
      "learning_rate": 2.088294456666002e-07,
      "loss": 0.154,
      "num_tokens": 1319914698.0,
      "reward": 1.00634765625,
      "reward_std": 0.3809760808944702,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.89306640625,
      "rewards/tag_count_reward/std": 0.2264673113822937,
      "step": 2334
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 1037.587890625,
      "completions/mean_terminated_length": 987.8954467773438,
      "completions/min_length": 305.0,
      "completions/min_terminated_length": 305.0,
      "epoch": 0.7971323717675173,
      "grad_norm": 2.765597105026245,
      "kl": 2.1953125,
      "learning_rate": 2.0847997427774222e-07,
      "loss": 0.1161,
      "num_tokens": 1320517863.0,
      "reward": 1.0703125,
      "reward_std": 0.3526250422000885,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.21157780289649963,
      "step": 2335
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1065.51171875,
      "completions/mean_terminated_length": 1029.7125244140625,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "epoch": 0.7974737560809081,
      "grad_norm": 6.627567768096924,
      "kl": 2.373046875,
      "learning_rate": 2.0813098798193875e-07,
      "loss": 0.151,
      "num_tokens": 1321142957.0,
      "reward": 1.033203125,
      "reward_std": 0.3327845335006714,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.900390625,
      "rewards/tag_count_reward/std": 0.20770350098609924,
      "step": 2336
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1129.93359375,
      "completions/mean_terminated_length": 1068.729248046875,
      "completions/min_length": 323.0,
      "completions/min_terminated_length": 323.0,
      "epoch": 0.7978151403942989,
      "grad_norm": 2.5888054370880127,
      "kl": 2.49609375,
      "learning_rate": 2.0778248727488807e-07,
      "loss": 0.1183,
      "num_tokens": 1321797019.0,
      "reward": 1.08984375,
      "reward_std": 0.3541601896286011,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.20036010444164276,
      "step": 2337
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1048.158203125,
      "completions/mean_terminated_length": 1003.267333984375,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.7981565247076897,
      "grad_norm": 3.669558525085449,
      "kl": 2.0,
      "learning_rate": 2.0743447265159849e-07,
      "loss": 0.1147,
      "num_tokens": 1322410572.0,
      "reward": 1.0947265625,
      "reward_std": 0.36656540632247925,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.19635941088199615,
      "step": 2338
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1080.580078125,
      "completions/mean_terminated_length": 1022.494873046875,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.7984979090210805,
      "grad_norm": 6.862471580505371,
      "kl": 2.46875,
      "learning_rate": 2.0708694460638815e-07,
      "loss": 0.1623,
      "num_tokens": 1323043829.0,
      "reward": 1.05029296875,
      "reward_std": 0.3185489773750305,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.03125,
      "rewards/format_reward/std": 0.17416280508041382,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.1808057427406311,
      "step": 2339
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1064.53515625,
      "completions/mean_terminated_length": 1014.04931640625,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.7988392933344712,
      "grad_norm": 2.4543957710266113,
      "kl": 2.271484375,
      "learning_rate": 2.0673990363288354e-07,
      "loss": 0.1476,
      "num_tokens": 1323664919.0,
      "reward": 1.14453125,
      "reward_std": 0.39314723014831543,
      "rewards/accuracy_reward/mean": 0.181640625,
      "rewards/accuracy_reward/std": 0.38592514395713806,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.19541551172733307,
      "step": 2340
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2005.0,
      "completions/mean_length": 1063.69921875,
      "completions/mean_terminated_length": 1004.6004028320312,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.799180677647862,
      "grad_norm": 4.214763641357422,
      "kl": 2.408203125,
      "learning_rate": 2.0639335022401998e-07,
      "loss": 0.1611,
      "num_tokens": 1324280077.0,
      "reward": 1.0205078125,
      "reward_std": 0.34186527132987976,
      "rewards/accuracy_reward/mean": 0.06854838877916336,
      "rewards/accuracy_reward/std": 0.25293970108032227,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.2019064873456955,
      "step": 2341
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 1077.1796875,
      "completions/mean_terminated_length": 1005.9454345703125,
      "completions/min_length": 311.0,
      "completions/min_terminated_length": 311.0,
      "epoch": 0.7995220619612529,
      "grad_norm": 1.7704473733901978,
      "kl": 2.41796875,
      "learning_rate": 2.060472848720396e-07,
      "loss": 0.1374,
      "num_tokens": 1324912377.0,
      "reward": 1.04541015625,
      "reward_std": 0.3238769769668579,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.1923593431711197,
      "step": 2342
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1136.974609375,
      "completions/mean_terminated_length": 1098.01025390625,
      "completions/min_length": 386.0,
      "completions/min_terminated_length": 386.0,
      "epoch": 0.7998634462746437,
      "grad_norm": 1.9443188905715942,
      "kl": 1.7041015625,
      "learning_rate": 2.0570170806849172e-07,
      "loss": 0.097,
      "num_tokens": 1325574844.0,
      "reward": 1.05859375,
      "reward_std": 0.33676382899284363,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.17685236036777496,
      "step": 2343
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1037.166015625,
      "completions/mean_terminated_length": 989.6216430664062,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.8002048305880345,
      "grad_norm": 2.564016580581665,
      "kl": 2.3671875,
      "learning_rate": 2.0535662030423163e-07,
      "loss": 0.0995,
      "num_tokens": 1326185057.0,
      "reward": 1.029296875,
      "reward_std": 0.3521963357925415,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.1875101923942566,
      "step": 2344
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1105.974609375,
      "completions/mean_terminated_length": 1041.0751953125,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.8005462149014253,
      "grad_norm": 8.724496841430664,
      "kl": 2.8984375,
      "learning_rate": 2.0501202206942008e-07,
      "loss": 0.1994,
      "num_tokens": 1326833748.0,
      "reward": 1.08056640625,
      "reward_std": 0.35309576988220215,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.025390625,
      "rewards/format_reward/std": 0.15746226906776428,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.19610315561294556,
      "step": 2345
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1101.806640625,
      "completions/mean_terminated_length": 1044.995849609375,
      "completions/min_length": 272.0,
      "completions/min_terminated_length": 272.0,
      "epoch": 0.8008875992148161,
      "grad_norm": 2.091207265853882,
      "kl": 2.705078125,
      "learning_rate": 2.0466791385352224e-07,
      "loss": 0.1368,
      "num_tokens": 1327485697.0,
      "reward": 1.0517578125,
      "reward_std": 0.3393837809562683,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.2019064873456955,
      "step": 2346
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1986.0,
      "completions/mean_length": 990.908203125,
      "completions/mean_terminated_length": 936.6427612304688,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.8012289835282069,
      "grad_norm": 1.923886775970459,
      "kl": 2.587890625,
      "learning_rate": 2.0432429614530761e-07,
      "loss": 0.1526,
      "num_tokens": 1328070450.0,
      "reward": 1.09814453125,
      "reward_std": 0.3478143513202667,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.20408298075199127,
      "step": 2347
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1012.892578125,
      "completions/mean_terminated_length": 959.7556762695312,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.8015703678415976,
      "grad_norm": 4.5194926261901855,
      "kl": 2.65625,
      "learning_rate": 2.0398116943284848e-07,
      "loss": 0.176,
      "num_tokens": 1328664843.0,
      "reward": 1.04638671875,
      "reward_std": 0.28775566816329956,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.033203125,
      "rewards/format_reward/std": 0.17934183776378632,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.17980943620204926,
      "step": 2348
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1094.0625,
      "completions/mean_terminated_length": 1051.232666015625,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "epoch": 0.8019117521549884,
      "grad_norm": 3.0292017459869385,
      "kl": 2.474609375,
      "learning_rate": 2.0363853420352022e-07,
      "loss": 0.1132,
      "num_tokens": 1329303947.0,
      "reward": 1.0634765625,
      "reward_std": 0.3626502454280853,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.2043900191783905,
      "step": 2349
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1004.39453125,
      "completions/mean_terminated_length": 979.3480224609375,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.8022531364683793,
      "grad_norm": 2.9248127937316895,
      "kl": 2.705078125,
      "learning_rate": 2.032963909439999e-07,
      "loss": 0.1405,
      "num_tokens": 1329891589.0,
      "reward": 1.10498046875,
      "reward_std": 0.3709397315979004,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.17361809313297272,
      "step": 2350
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 1010.548828125,
      "completions/mean_terminated_length": 970.56591796875,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "epoch": 0.8025945207817701,
      "grad_norm": 1.8398419618606567,
      "kl": 2.84765625,
      "learning_rate": 2.0295474014026592e-07,
      "loss": 0.1465,
      "num_tokens": 1330494302.0,
      "reward": 1.12255859375,
      "reward_std": 0.3614022135734558,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.18227426707744598,
      "step": 2351
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1015.685546875,
      "completions/mean_terminated_length": 982.3850708007812,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.8029359050951609,
      "grad_norm": 3.5638630390167236,
      "kl": 2.75390625,
      "learning_rate": 2.0261358227759687e-07,
      "loss": 0.1284,
      "num_tokens": 1331095885.0,
      "reward": 1.14990234375,
      "reward_std": 0.38127022981643677,
      "rewards/accuracy_reward/mean": 0.1733870953321457,
      "rewards/accuracy_reward/std": 0.37896379828453064,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.1804301142692566,
      "step": 2352
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1064.154296875,
      "completions/mean_terminated_length": 1019.9815673828125,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.8032772894085517,
      "grad_norm": 3.6850082874298096,
      "kl": 2.9609375,
      "learning_rate": 2.0227291784057166e-07,
      "loss": 0.1234,
      "num_tokens": 1331720956.0,
      "reward": 1.095703125,
      "reward_std": 0.3694269061088562,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.19282633066177368,
      "step": 2353
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1061.306640625,
      "completions/mean_terminated_length": 1037.6260986328125,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "epoch": 0.8036186737219425,
      "grad_norm": 3.2790260314941406,
      "kl": 2.232421875,
      "learning_rate": 2.0193274731306777e-07,
      "loss": 0.1092,
      "num_tokens": 1332347689.0,
      "reward": 1.166015625,
      "reward_std": 0.3547057807445526,
      "rewards/accuracy_reward/mean": 0.17578125,
      "rewards/accuracy_reward/std": 0.3810062110424042,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.16541723906993866,
      "step": 2354
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.017578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1057.513671875,
      "completions/mean_terminated_length": 1039.791259765625,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.8039600580353333,
      "grad_norm": 9.811931610107422,
      "kl": 2.42578125,
      "learning_rate": 2.0159307117826152e-07,
      "loss": 0.0865,
      "num_tokens": 1332972112.0,
      "reward": 1.12646484375,
      "reward_std": 0.36042797565460205,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.94482421875,
      "rewards/tag_count_reward/std": 0.16028828918933868,
      "step": 2355
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 954.892578125,
      "completions/mean_terminated_length": 915.0628051757812,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.804301442348724,
      "grad_norm": 2.1637425422668457,
      "kl": 2.763671875,
      "learning_rate": 2.01253889918627e-07,
      "loss": 0.1472,
      "num_tokens": 1333534505.0,
      "reward": 1.154296875,
      "reward_std": 0.4104391932487488,
      "rewards/accuracy_reward/mean": 0.173828125,
      "rewards/accuracy_reward/std": 0.3793322443962097,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.1932915896177292,
      "step": 2356
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1083.40234375,
      "completions/mean_terminated_length": 1044.1910400390625,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.8046428266621148,
      "grad_norm": 4.516602039337158,
      "kl": 2.390625,
      "learning_rate": 2.0091520401593536e-07,
      "loss": 0.1022,
      "num_tokens": 1334173751.0,
      "reward": 1.11474609375,
      "reward_std": 0.38311493396759033,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.18731071054935455,
      "step": 2357
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1109.412109375,
      "completions/mean_terminated_length": 1086.8861083984375,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.8049842109755057,
      "grad_norm": 2.129068613052368,
      "kl": 2.58203125,
      "learning_rate": 2.0057701395125392e-07,
      "loss": 0.1083,
      "num_tokens": 1334830266.0,
      "reward": 1.08447265625,
      "reward_std": 0.3720419108867645,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.19087830185890198,
      "step": 2358
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1079.578125,
      "completions/mean_terminated_length": 1029.864501953125,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.8053255952888965,
      "grad_norm": 3.94397234916687,
      "kl": 2.357421875,
      "learning_rate": 2.0023932020494602e-07,
      "loss": 0.1501,
      "num_tokens": 1335464530.0,
      "reward": 0.99462890625,
      "reward_std": 0.30469590425491333,
      "rewards/accuracy_reward/mean": 0.033203125,
      "rewards/accuracy_reward/std": 0.17934183776378632,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.18829776346683502,
      "step": 2359
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1023.720703125,
      "completions/mean_terminated_length": 988.54345703125,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.8056669796022873,
      "grad_norm": 3.0667355060577393,
      "kl": 1.98828125,
      "learning_rate": 1.9990212325666973e-07,
      "loss": 0.1048,
      "num_tokens": 1336058611.0,
      "reward": 1.09228515625,
      "reward_std": 0.3379972279071808,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.93994140625,
      "rewards/tag_count_reward/std": 0.16531828045845032,
      "step": 2360
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.021484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1046.73046875,
      "completions/mean_terminated_length": 1024.7464599609375,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.8060083639156781,
      "grad_norm": 5.71998405456543,
      "kl": 2.115234375,
      "learning_rate": 1.9956542358537764e-07,
      "loss": 0.0808,
      "num_tokens": 1336665657.0,
      "reward": 1.14404296875,
      "reward_std": 0.38886284828186035,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.16935545206069946,
      "step": 2361
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 977.4453125,
      "completions/mean_terminated_length": 929.3795776367188,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.8063497482290689,
      "grad_norm": 1.9589004516601562,
      "kl": 3.4765625,
      "learning_rate": 1.992292216693162e-07,
      "loss": 0.1934,
      "num_tokens": 1337247997.0,
      "reward": 1.158203125,
      "reward_std": 0.4453861713409424,
      "rewards/accuracy_reward/mean": 0.177734375,
      "rewards/accuracy_reward/std": 0.3826628625392914,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.19990174472332,
      "step": 2362
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1082.712890625,
      "completions/mean_terminated_length": 1041.427734375,
      "completions/min_length": 272.0,
      "completions/min_terminated_length": 272.0,
      "epoch": 0.8066911325424597,
      "grad_norm": 1.6740443706512451,
      "kl": 2.189453125,
      "learning_rate": 1.9889351798602454e-07,
      "loss": 0.1094,
      "num_tokens": 1337880426.0,
      "reward": 1.08056640625,
      "reward_std": 0.3808703124523163,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.19675986468791962,
      "step": 2363
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 1060.7265625,
      "completions/mean_terminated_length": 1022.677490234375,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "epoch": 0.8070325168558504,
      "grad_norm": 1.3629320859909058,
      "kl": 2.458984375,
      "learning_rate": 1.9855831301233414e-07,
      "loss": 0.1286,
      "num_tokens": 1338493710.0,
      "reward": 1.13330078125,
      "reward_std": 0.42396247386932373,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.19613726437091827,
      "step": 2364
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1058.240234375,
      "completions/mean_terminated_length": 1005.2901000976562,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.8073739011692412,
      "grad_norm": 3.6040313243865967,
      "kl": 2.9453125,
      "learning_rate": 1.9822360722436838e-07,
      "loss": 0.1602,
      "num_tokens": 1339114425.0,
      "reward": 1.05517578125,
      "reward_std": 0.3515712320804596,
      "rewards/accuracy_reward/mean": 0.07056451588869095,
      "rewards/accuracy_reward/std": 0.25635457038879395,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.1914331614971161,
      "step": 2365
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1109.423828125,
      "completions/mean_terminated_length": 1042.6632080078125,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "epoch": 0.807715285482632,
      "grad_norm": 7.065984725952148,
      "kl": 2.259765625,
      "learning_rate": 1.9788940109754114e-07,
      "loss": 0.1651,
      "num_tokens": 1339764258.0,
      "reward": 1.08935546875,
      "reward_std": 0.3808128535747528,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.18742799758911133,
      "step": 2366
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 1070.564453125,
      "completions/mean_terminated_length": 1014.0185546875,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.8080566697960229,
      "grad_norm": 2.8818702697753906,
      "kl": 2.69921875,
      "learning_rate": 1.9755569510655701e-07,
      "loss": 0.1715,
      "num_tokens": 1340397987.0,
      "reward": 1.03369140625,
      "reward_std": 0.3466808795928955,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.89892578125,
      "rewards/tag_count_reward/std": 0.2221004068851471,
      "step": 2367
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1065.4375,
      "completions/mean_terminated_length": 1023.4135131835938,
      "completions/min_length": 272.0,
      "completions/min_terminated_length": 272.0,
      "epoch": 0.8083980541094137,
      "grad_norm": 1.6329728364944458,
      "kl": 2.396484375,
      "learning_rate": 1.9722248972541e-07,
      "loss": 0.1337,
      "num_tokens": 1341026691.0,
      "reward": 1.13916015625,
      "reward_std": 0.3848889470100403,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.1888602077960968,
      "step": 2368
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1036.474609375,
      "completions/mean_terminated_length": 984.5482788085938,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.8087394384228045,
      "grad_norm": 2.1450865268707275,
      "kl": 2.916015625,
      "learning_rate": 1.9688978542738326e-07,
      "loss": 0.1739,
      "num_tokens": 1341632982.0,
      "reward": 1.1767578125,
      "reward_std": 0.4225959777832031,
      "rewards/accuracy_reward/mean": 0.19921875,
      "rewards/accuracy_reward/std": 0.39980348944664,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.18347929418087006,
      "step": 2369
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2001.0,
      "completions/mean_length": 992.21875,
      "completions/mean_terminated_length": 962.5381469726562,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.8090808227361953,
      "grad_norm": 3.4220244884490967,
      "kl": 2.31640625,
      "learning_rate": 1.9655758268504785e-07,
      "loss": 0.114,
      "num_tokens": 1342214390.0,
      "reward": 1.0361328125,
      "reward_std": 0.3053995668888092,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.17374257743358612,
      "step": 2370
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1046.935546875,
      "completions/mean_terminated_length": 997.7028198242188,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.8094222070495861,
      "grad_norm": 1.891930103302002,
      "kl": 2.294921875,
      "learning_rate": 1.9622588197026268e-07,
      "loss": 0.1328,
      "num_tokens": 1342843045.0,
      "reward": 1.10595703125,
      "reward_std": 0.3962911367416382,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.91064453125,
      "rewards/tag_count_reward/std": 0.2019934356212616,
      "step": 2371
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1111.962890625,
      "completions/mean_terminated_length": 1053.703369140625,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.8097635913629768,
      "grad_norm": 2.9643852710723877,
      "kl": 2.24609375,
      "learning_rate": 1.958946837541734e-07,
      "loss": 0.1091,
      "num_tokens": 1343493682.0,
      "reward": 1.06201171875,
      "reward_std": 0.3362460136413574,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.1927117109298706,
      "step": 2372
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1110.408203125,
      "completions/mean_terminated_length": 1066.3087158203125,
      "completions/min_length": 379.0,
      "completions/min_terminated_length": 379.0,
      "epoch": 0.8101049756763676,
      "grad_norm": 6.519678115844727,
      "kl": 2.53125,
      "learning_rate": 1.955639885072121e-07,
      "loss": 0.1239,
      "num_tokens": 1344144307.0,
      "reward": 1.06494140625,
      "reward_std": 0.35815680027008057,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.076171875,
      "rewards/format_reward/std": 0.26553234457969666,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18770819902420044,
      "step": 2373
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1103.923828125,
      "completions/mean_terminated_length": 1055.4599609375,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.8104463599897584,
      "grad_norm": 2.912588119506836,
      "kl": 2.49609375,
      "learning_rate": 1.9523379669909646e-07,
      "loss": 0.143,
      "num_tokens": 1344789660.0,
      "reward": 1.0478515625,
      "reward_std": 0.328630656003952,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.044921875,
      "rewards/format_reward/std": 0.20733514428138733,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.20055793225765228,
      "step": 2374
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1112.587890625,
      "completions/mean_terminated_length": 1037.5970458984375,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.8107877443031493,
      "grad_norm": 2.573439121246338,
      "kl": 2.619140625,
      "learning_rate": 1.9490410879882897e-07,
      "loss": 0.1592,
      "num_tokens": 1345435689.0,
      "reward": 1.107421875,
      "reward_std": 0.37708961963653564,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.19415970146656036,
      "step": 2375
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2000.0,
      "completions/mean_length": 1092.408203125,
      "completions/mean_terminated_length": 1022.2913818359375,
      "completions/min_length": 31.0,
      "completions/min_terminated_length": 31.0,
      "epoch": 0.8111291286165401,
      "grad_norm": 2.9239754676818848,
      "kl": 2.8671875,
      "learning_rate": 1.9457492527469628e-07,
      "loss": 0.1804,
      "num_tokens": 1346074474.0,
      "reward": 1.0517578125,
      "reward_std": 0.3837081491947174,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.8955078125,
      "rewards/tag_count_reward/std": 0.22134028375148773,
      "step": 2376
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1009.91796875,
      "completions/mean_terminated_length": 969.9107055664062,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.8114705129299309,
      "grad_norm": 2.1076366901397705,
      "kl": 2.294921875,
      "learning_rate": 1.9424624659426897e-07,
      "loss": 0.1111,
      "num_tokens": 1346672256.0,
      "reward": 1.091796875,
      "reward_std": 0.3356272578239441,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.18078525364398956,
      "step": 2377
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1108.390625,
      "completions/mean_terminated_length": 1054.032958984375,
      "completions/min_length": 351.0,
      "completions/min_terminated_length": 351.0,
      "epoch": 0.8118118972433217,
      "grad_norm": 2.6519134044647217,
      "kl": 3.03125,
      "learning_rate": 1.9391807322440007e-07,
      "loss": 0.1496,
      "num_tokens": 1347314088.0,
      "reward": 1.0546875,
      "reward_std": 0.4044151306152344,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.91015625,
      "rewards/tag_count_reward/std": 0.1971776783466339,
      "step": 2378
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1048.755859375,
      "completions/mean_terminated_length": 984.3555297851562,
      "completions/min_length": 322.0,
      "completions/min_terminated_length": 322.0,
      "epoch": 0.8121532815567125,
      "grad_norm": 2.5883829593658447,
      "kl": 3.203125,
      "learning_rate": 1.9359040563122522e-07,
      "loss": 0.184,
      "num_tokens": 1347927291.0,
      "reward": 1.0849609375,
      "reward_std": 0.38237401843070984,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.19707830250263214,
      "step": 2379
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1114.244140625,
      "completions/mean_terminated_length": 1056.1265869140625,
      "completions/min_length": 304.0,
      "completions/min_terminated_length": 304.0,
      "epoch": 0.8124946658701032,
      "grad_norm": 2.717782735824585,
      "kl": 2.8203125,
      "learning_rate": 1.932632442801616e-07,
      "loss": 0.1397,
      "num_tokens": 1348571432.0,
      "reward": 1.10302734375,
      "reward_std": 0.3820044696331024,
      "rewards/accuracy_reward/mean": 0.13709677755832672,
      "rewards/accuracy_reward/std": 0.34429675340652466,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.1996237188577652,
      "step": 2380
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1017.66796875,
      "completions/mean_terminated_length": 977.9594116210938,
      "completions/min_length": 352.0,
      "completions/min_terminated_length": 352.0,
      "epoch": 0.812836050183494,
      "grad_norm": 2.6087486743927,
      "kl": 2.419921875,
      "learning_rate": 1.929365896359074e-07,
      "loss": 0.1169,
      "num_tokens": 1349168878.0,
      "reward": 1.1083984375,
      "reward_std": 0.39976656436920166,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.083984375,
      "rewards/format_reward/std": 0.2776356339454651,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.18657785654067993,
      "step": 2381
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1147.646484375,
      "completions/mean_terminated_length": 1097.5238037109375,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "epoch": 0.8131774344968848,
      "grad_norm": 5.247420310974121,
      "kl": 2.287109375,
      "learning_rate": 1.9261044216244077e-07,
      "loss": 0.134,
      "num_tokens": 1349839977.0,
      "reward": 1.0546875,
      "reward_std": 0.35196352005004883,
      "rewards/accuracy_reward/mean": 0.09072580933570862,
      "rewards/accuracy_reward/std": 0.2875087857246399,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.19246920943260193,
      "step": 2382
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1001.693359375,
      "completions/mean_terminated_length": 952.4805297851562,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.8135188188102757,
      "grad_norm": 2.1906330585479736,
      "kl": 2.755859375,
      "learning_rate": 1.9228480232301977e-07,
      "loss": 0.1319,
      "num_tokens": 1350425404.0,
      "reward": 1.2001953125,
      "reward_std": 0.3937082290649414,
      "rewards/accuracy_reward/mean": 0.22265625,
      "rewards/accuracy_reward/std": 0.41643625497817993,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.9189453125,
      "rewards/tag_count_reward/std": 0.19477635622024536,
      "step": 2383
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1049.00390625,
      "completions/mean_terminated_length": 980.1795654296875,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.8138602031236665,
      "grad_norm": 4.723444938659668,
      "kl": 2.091796875,
      "learning_rate": 1.9195967058018125e-07,
      "loss": 0.1269,
      "num_tokens": 1351040094.0,
      "reward": 1.064453125,
      "reward_std": 0.3590174913406372,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.18962833285331726,
      "step": 2384
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1120.302734375,
      "completions/mean_terminated_length": 1080.6253662109375,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.8142015874370573,
      "grad_norm": 2.464592933654785,
      "kl": 2.158203125,
      "learning_rate": 1.9163504739574054e-07,
      "loss": 0.1247,
      "num_tokens": 1351699561.0,
      "reward": 1.109375,
      "reward_std": 0.3473352789878845,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.179597407579422,
      "step": 2385
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 1137.53515625,
      "completions/mean_terminated_length": 1096.6571044921875,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.8145429717504481,
      "grad_norm": 1.6607451438903809,
      "kl": 2.5888671875,
      "learning_rate": 1.9131093323079044e-07,
      "loss": 0.1336,
      "num_tokens": 1352363531.0,
      "reward": 1.0068359375,
      "reward_std": 0.34897375106811523,
      "rewards/accuracy_reward/mean": 0.03125,
      "rewards/accuracy_reward/std": 0.17416280508041382,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.20437131822109222,
      "step": 2386
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1062.66015625,
      "completions/mean_terminated_length": 1026.757080078125,
      "completions/min_length": 63.0,
      "completions/min_terminated_length": 63.0,
      "epoch": 0.8148843560638389,
      "grad_norm": 1.9651501178741455,
      "kl": 1.74609375,
      "learning_rate": 1.9098732854570104e-07,
      "loss": 0.0814,
      "num_tokens": 1352987453.0,
      "reward": 1.123046875,
      "reward_std": 0.35017603635787964,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.076171875,
      "rewards/format_reward/std": 0.26553234457969666,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.17942707240581512,
      "step": 2387
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1036.416015625,
      "completions/mean_terminated_length": 1001.6748046875,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.8152257403772296,
      "grad_norm": 1.5949029922485352,
      "kl": 2.21484375,
      "learning_rate": 1.906642338001182e-07,
      "loss": 0.1206,
      "num_tokens": 1353603794.0,
      "reward": 1.111328125,
      "reward_std": 0.404132604598999,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.080078125,
      "rewards/format_reward/std": 0.271679550409317,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.17685236036777496,
      "step": 2388
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1140.08203125,
      "completions/mean_terminated_length": 1077.5323486328125,
      "completions/min_length": 357.0,
      "completions/min_terminated_length": 357.0,
      "epoch": 0.8155671246906204,
      "grad_norm": 5.9671173095703125,
      "kl": 2.89453125,
      "learning_rate": 1.9034164945296415e-07,
      "loss": 0.1267,
      "num_tokens": 1354264972.0,
      "reward": 1.078125,
      "reward_std": 0.4102986454963684,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.08203125,
      "rewards/format_reward/std": 0.2746807038784027,
      "rewards/tag_count_reward/mean": 0.904296875,
      "rewards/tag_count_reward/std": 0.20421463251113892,
      "step": 2389
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1179.158203125,
      "completions/mean_terminated_length": 1103.526611328125,
      "completions/min_length": 410.0,
      "completions/min_terminated_length": 410.0,
      "epoch": 0.8159085090040112,
      "grad_norm": 3.905566453933716,
      "kl": 2.53515625,
      "learning_rate": 1.9001957596243557e-07,
      "loss": 0.1548,
      "num_tokens": 1354946349.0,
      "reward": 1.08154296875,
      "reward_std": 0.398532509803772,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.08984375,
      "rewards/format_reward/std": 0.2862374484539032,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.20725619792938232,
      "step": 2390
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1980.0,
      "completions/mean_length": 1093.697265625,
      "completions/mean_terminated_length": 1042.64404296875,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "epoch": 0.816249893317402,
      "grad_norm": 1.9376497268676758,
      "kl": 2.126953125,
      "learning_rate": 1.896980137860038e-07,
      "loss": 0.0922,
      "num_tokens": 1355586034.0,
      "reward": 1.11962890625,
      "reward_std": 0.38722673058509827,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18640044331550598,
      "step": 2391
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1007.431640625,
      "completions/mean_terminated_length": 951.7633666992188,
      "completions/min_length": 281.0,
      "completions/min_terminated_length": 281.0,
      "epoch": 0.8165912776307929,
      "grad_norm": 1.6739675998687744,
      "kl": 2.708984375,
      "learning_rate": 1.8937696338041397e-07,
      "loss": 0.1664,
      "num_tokens": 1356177487.0,
      "reward": 1.17041015625,
      "reward_std": 0.3682592809200287,
      "rewards/accuracy_reward/mean": 0.19140625,
      "rewards/accuracy_reward/std": 0.3937928080558777,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.19093835353851318,
      "step": 2392
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1069.630859375,
      "completions/mean_terminated_length": 1017.2901000976562,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.8169326619441837,
      "grad_norm": 3.429978847503662,
      "kl": 3.609375,
      "learning_rate": 1.890564252016843e-07,
      "loss": 0.2005,
      "num_tokens": 1356799682.0,
      "reward": 1.091796875,
      "reward_std": 0.3947150707244873,
      "rewards/accuracy_reward/mean": 0.11088709533214569,
      "rewards/accuracy_reward/std": 0.3143092691898346,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.20075078308582306,
      "step": 2393
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1103.44921875,
      "completions/mean_terminated_length": 1072.9798583984375,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.8172740462575745,
      "grad_norm": 2.6521358489990234,
      "kl": 1.74609375,
      "learning_rate": 1.887363997051051e-07,
      "loss": 0.042,
      "num_tokens": 1357437384.0,
      "reward": 1.109375,
      "reward_std": 0.3834799826145172,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.17737028002738953,
      "step": 2394
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1051.404296875,
      "completions/mean_terminated_length": 1017.1777954101562,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.8176154305709653,
      "grad_norm": 2.0698275566101074,
      "kl": 1.990234375,
      "learning_rate": 1.8841688734523898e-07,
      "loss": 0.0895,
      "num_tokens": 1358060231.0,
      "reward": 1.0849609375,
      "reward_std": 0.34596845507621765,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.1784525215625763,
      "step": 2395
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1077.01171875,
      "completions/mean_terminated_length": 1039.5902099609375,
      "completions/min_length": 357.0,
      "completions/min_terminated_length": 357.0,
      "epoch": 0.817956814884356,
      "grad_norm": 2.6365702152252197,
      "kl": 2.4140625,
      "learning_rate": 1.8809788857591918e-07,
      "loss": 0.1363,
      "num_tokens": 1358689469.0,
      "reward": 1.11181640625,
      "reward_std": 0.3518145680427551,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.16533562541007996,
      "step": 2396
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.095703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1195.251953125,
      "completions/mean_terminated_length": 1105.0042724609375,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "epoch": 0.8182981991977468,
      "grad_norm": 1.8713483810424805,
      "kl": 2.53515625,
      "learning_rate": 1.8777940385024983e-07,
      "loss": 0.1401,
      "num_tokens": 1359376782.0,
      "reward": 1.0751953125,
      "reward_std": 0.3872072100639343,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.076171875,
      "rewards/format_reward/std": 0.26553234457969666,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.20614035427570343,
      "step": 2397
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1071.82421875,
      "completions/mean_terminated_length": 1002.3890991210938,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.8186395835111376,
      "grad_norm": 1.6924453973770142,
      "kl": 2.40625,
      "learning_rate": 1.8746143362060473e-07,
      "loss": 0.1272,
      "num_tokens": 1360006004.0,
      "reward": 1.08203125,
      "reward_std": 0.3599720597267151,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.1937359869480133,
      "step": 2398
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1064.685546875,
      "completions/mean_terminated_length": 1018.435546875,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.8189809678245284,
      "grad_norm": 1.4412189722061157,
      "kl": 2.37109375,
      "learning_rate": 1.8714397833862717e-07,
      "loss": 0.1362,
      "num_tokens": 1360626435.0,
      "reward": 1.08203125,
      "reward_std": 0.3512256443500519,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.18881024420261383,
      "step": 2399
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1084.49609375,
      "completions/mean_terminated_length": 1022.399169921875,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "epoch": 0.8193223521379193,
      "grad_norm": 1.838685393333435,
      "kl": 3.03125,
      "learning_rate": 1.8682703845522837e-07,
      "loss": 0.178,
      "num_tokens": 1361262481.0,
      "reward": 1.0205078125,
      "reward_std": 0.3525121212005615,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.9052734375,
      "rewards/tag_count_reward/std": 0.20939649641513824,
      "step": 2400
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1141.29296875,
      "completions/mean_terminated_length": 1078.8267822265625,
      "completions/min_length": 336.0,
      "completions/min_terminated_length": 336.0,
      "epoch": 0.8196637364513101,
      "grad_norm": 2.0104587078094482,
      "kl": 2.107421875,
      "learning_rate": 1.865106144205883e-07,
      "loss": 0.0971,
      "num_tokens": 1361918487.0,
      "reward": 1.01806640625,
      "reward_std": 0.34818506240844727,
      "rewards/accuracy_reward/mean": 0.04296875,
      "rewards/accuracy_reward/std": 0.2029850035905838,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.19858227670192719,
      "step": 2401
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1093.822265625,
      "completions/mean_terminated_length": 1034.4337158203125,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.8200051207647009,
      "grad_norm": 4.024048328399658,
      "kl": 1.837890625,
      "learning_rate": 1.8619470668415351e-07,
      "loss": 0.1052,
      "num_tokens": 1362552476.0,
      "reward": 1.12939453125,
      "reward_std": 0.3992331922054291,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.076171875,
      "rewards/format_reward/std": 0.26553234457969666,
      "rewards/tag_count_reward/mean": 0.92041015625,
      "rewards/tag_count_reward/std": 0.1867384910583496,
      "step": 2402
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1992.0,
      "completions/mean_length": 1024.59375,
      "completions/mean_terminated_length": 982.9918212890625,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.8203465050780917,
      "grad_norm": 2.069023847579956,
      "kl": 2.078125,
      "learning_rate": 1.858793156946376e-07,
      "loss": 0.1215,
      "num_tokens": 1363149964.0,
      "reward": 1.11328125,
      "reward_std": 0.3569978177547455,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.16907380521297455,
      "step": 2403
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1073.671875,
      "completions/mean_terminated_length": 1038.1700439453125,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.8206878893914825,
      "grad_norm": 4.195062637329102,
      "kl": 2.16796875,
      "learning_rate": 1.855644419000202e-07,
      "loss": 0.1249,
      "num_tokens": 1363773540.0,
      "reward": 1.0615234375,
      "reward_std": 0.344260573387146,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.19436383247375488,
      "step": 2404
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 987.3515625,
      "completions/mean_terminated_length": 941.9878540039062,
      "completions/min_length": 293.0,
      "completions/min_terminated_length": 293.0,
      "epoch": 0.8210292737048732,
      "grad_norm": 2.212071180343628,
      "kl": 1.78515625,
      "learning_rate": 1.85250085747546e-07,
      "loss": 0.0979,
      "num_tokens": 1364355160.0,
      "reward": 1.08251953125,
      "reward_std": 0.380862832069397,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17738577723503113,
      "step": 2405
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1059.4765625,
      "completions/mean_terminated_length": 1017.1976318359375,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.821370658018264,
      "grad_norm": 3.7569053173065186,
      "kl": 1.587890625,
      "learning_rate": 1.84936247683725e-07,
      "loss": 0.0758,
      "num_tokens": 1364979308.0,
      "reward": 1.16650390625,
      "reward_std": 0.39158207178115845,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.16754020750522614,
      "step": 2406
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1971.0,
      "completions/mean_length": 1001.0390625,
      "completions/mean_terminated_length": 973.7635498046875,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.8217120423316548,
      "grad_norm": 3.1795504093170166,
      "kl": 2.609375,
      "learning_rate": 1.8462292815433057e-07,
      "loss": 0.1654,
      "num_tokens": 1365565104.0,
      "reward": 1.1298828125,
      "reward_std": 0.37695837020874023,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17378656566143036,
      "step": 2407
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1989.0,
      "completions/mean_length": 1014.421875,
      "completions/mean_terminated_length": 963.590087890625,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.8220534266450457,
      "grad_norm": 2.2671878337860107,
      "kl": 2.76953125,
      "learning_rate": 1.8431012760440028e-07,
      "loss": 0.1432,
      "num_tokens": 1366151736.0,
      "reward": 1.0576171875,
      "reward_std": 0.30838334560394287,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.1939898282289505,
      "step": 2408
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1083.91015625,
      "completions/mean_terminated_length": 1034.4189453125,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.8223948109584365,
      "grad_norm": 1.744873046875,
      "kl": 1.783203125,
      "learning_rate": 1.8399784647823388e-07,
      "loss": 0.0551,
      "num_tokens": 1366782490.0,
      "reward": 1.11279296875,
      "reward_std": 0.4091048538684845,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.087890625,
      "rewards/format_reward/std": 0.2834126651287079,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.19979596138000488,
      "step": 2409
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 1026.7109375,
      "completions/mean_terminated_length": 972.0740356445312,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.8227361952718273,
      "grad_norm": 4.284357070922852,
      "kl": 2.298828125,
      "learning_rate": 1.8368608521939383e-07,
      "loss": 0.0797,
      "num_tokens": 1367381638.0,
      "reward": 1.0947265625,
      "reward_std": 0.39112332463264465,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.9189453125,
      "rewards/tag_count_reward/std": 0.1883922666311264,
      "step": 2410
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1020.359375,
      "completions/mean_terminated_length": 978.5853271484375,
      "completions/min_length": 303.0,
      "completions/min_terminated_length": 303.0,
      "epoch": 0.8230775795852181,
      "grad_norm": 3.4293127059936523,
      "kl": 2.9140625,
      "learning_rate": 1.8337484427070406e-07,
      "loss": 0.1557,
      "num_tokens": 1367979294.0,
      "reward": 1.14990234375,
      "reward_std": 0.37268367409706116,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.1914980411529541,
      "step": 2411
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1083.80859375,
      "completions/mean_terminated_length": 1032.226318359375,
      "completions/min_length": 293.0,
      "completions/min_terminated_length": 293.0,
      "epoch": 0.8234189638986089,
      "grad_norm": 7.222492218017578,
      "kl": 2.8828125,
      "learning_rate": 1.8306412407424938e-07,
      "loss": 0.1217,
      "num_tokens": 1368604348.0,
      "reward": 1.19921875,
      "reward_std": 0.46285369992256165,
      "rewards/accuracy_reward/mean": 0.193359375,
      "rewards/accuracy_reward/std": 0.39531853795051575,
      "rewards/format_reward/mean": 0.09765625,
      "rewards/format_reward/std": 0.29713961482048035,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.20836491882801056,
      "step": 2412
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1065.822265625,
      "completions/mean_terminated_length": 1019.625732421875,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.8237603482119996,
      "grad_norm": 4.418808460235596,
      "kl": 2.62109375,
      "learning_rate": 1.8275392507137482e-07,
      "loss": 0.1407,
      "num_tokens": 1369232513.0,
      "reward": 1.111328125,
      "reward_std": 0.4184204339981079,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.20895110070705414,
      "step": 2413
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1125.31640625,
      "completions/mean_terminated_length": 1049.2388916015625,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.8241017325253904,
      "grad_norm": 4.76790714263916,
      "kl": 3.1484375,
      "learning_rate": 1.8244424770268547e-07,
      "loss": 0.1548,
      "num_tokens": 1369891379.0,
      "reward": 1.0927734375,
      "reward_std": 0.39666956663131714,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.8974609375,
      "rewards/tag_count_reward/std": 0.2260729968547821,
      "step": 2414
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1059.1640625,
      "completions/mean_terminated_length": 1001.9586181640625,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.8244431168387812,
      "grad_norm": 5.8182783126831055,
      "kl": 3.2734375,
      "learning_rate": 1.821350924080449e-07,
      "loss": 0.1576,
      "num_tokens": 1370510759.0,
      "reward": 1.06640625,
      "reward_std": 0.3936970829963684,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.904296875,
      "rewards/tag_count_reward/std": 0.21300913393497467,
      "step": 2415
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1059.669921875,
      "completions/mean_terminated_length": 1025.727294921875,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.8247845011521721,
      "grad_norm": 1.6957921981811523,
      "kl": 2.09375,
      "learning_rate": 1.818264596265758e-07,
      "loss": 0.0913,
      "num_tokens": 1371130366.0,
      "reward": 1.08740234375,
      "reward_std": 0.3478482961654663,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17503775656223297,
      "step": 2416
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1061.90625,
      "completions/mean_terminated_length": 1011.2854614257812,
      "completions/min_length": 296.0,
      "completions/min_terminated_length": 296.0,
      "epoch": 0.8251258854655629,
      "grad_norm": 6.86099910736084,
      "kl": 2.046875,
      "learning_rate": 1.8151834979665825e-07,
      "loss": 0.1166,
      "num_tokens": 1371751790.0,
      "reward": 1.07177734375,
      "reward_std": 0.347286581993103,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.03515625,
      "rewards/format_reward/std": 0.1843547374010086,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.19614213705062866,
      "step": 2417
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1127.796875,
      "completions/mean_terminated_length": 1080.55859375,
      "completions/min_length": 314.0,
      "completions/min_terminated_length": 314.0,
      "epoch": 0.8254672697789537,
      "grad_norm": 3.594465970993042,
      "kl": 2.056640625,
      "learning_rate": 1.8121076335592976e-07,
      "loss": 0.1043,
      "num_tokens": 1372406038.0,
      "reward": 1.107421875,
      "reward_std": 0.400793194770813,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.2147248089313507,
      "step": 2418
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1997.0,
      "completions/mean_length": 1080.783203125,
      "completions/mean_terminated_length": 1039.41552734375,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.8258086540923445,
      "grad_norm": 1.3764461278915405,
      "kl": 1.703125,
      "learning_rate": 1.809037007412842e-07,
      "loss": 0.0812,
      "num_tokens": 1373035719.0,
      "reward": 1.0986328125,
      "reward_std": 0.3274257779121399,
      "rewards/accuracy_reward/mean": 0.12291666865348816,
      "rewards/accuracy_reward/std": 0.32868409156799316,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.9345703125,
      "rewards/tag_count_reward/std": 0.17166221141815186,
      "step": 2419
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1975.0,
      "completions/mean_length": 1038.4296875,
      "completions/mean_terminated_length": 971.1250610351562,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.8261500384057353,
      "grad_norm": 9.349227905273438,
      "kl": 2.62890625,
      "learning_rate": 1.8059716238887163e-07,
      "loss": 0.1868,
      "num_tokens": 1373645891.0,
      "reward": 1.0654296875,
      "reward_std": 0.3468262851238251,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.21315935254096985,
      "step": 2420
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1091.439453125,
      "completions/mean_terminated_length": 1050.527587890625,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "epoch": 0.826491422719126,
      "grad_norm": 1.4730504751205444,
      "kl": 1.677734375,
      "learning_rate": 1.802911487340972e-07,
      "loss": 0.0619,
      "num_tokens": 1374280564.0,
      "reward": 1.06591796875,
      "reward_std": 0.35266730189323425,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.16933852434158325,
      "step": 2421
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1225.04296875,
      "completions/mean_terminated_length": 1139.909423828125,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "epoch": 0.8268328070325168,
      "grad_norm": 1.4224796295166016,
      "kl": 2.52734375,
      "learning_rate": 1.7998566021162088e-07,
      "loss": 0.1248,
      "num_tokens": 1374990634.0,
      "reward": 1.0439453125,
      "reward_std": 0.38714104890823364,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.8916015625,
      "rewards/tag_count_reward/std": 0.21664533019065857,
      "step": 2422
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1036.66015625,
      "completions/mean_terminated_length": 999.8097534179688,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.8271741913459076,
      "grad_norm": 10.13999080657959,
      "kl": 2.130859375,
      "learning_rate": 1.79680697255357e-07,
      "loss": 0.0826,
      "num_tokens": 1375598716.0,
      "reward": 1.09228515625,
      "reward_std": 0.3285040259361267,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17460595071315765,
      "step": 2423
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1991.0,
      "completions/mean_length": 1055.97265625,
      "completions/mean_terminated_length": 1013.5438232421875,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.8275155756592985,
      "grad_norm": 2.443547487258911,
      "kl": 2.8515625,
      "learning_rate": 1.7937626029847312e-07,
      "loss": 0.111,
      "num_tokens": 1376218254.0,
      "reward": 1.064453125,
      "reward_std": 0.3818660378456116,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.19604040682315826,
      "step": 2424
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 1050.142578125,
      "completions/mean_terminated_length": 1022.09033203125,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.8278569599726893,
      "grad_norm": 2.5989248752593994,
      "kl": 2.087890625,
      "learning_rate": 1.7907234977338965e-07,
      "loss": 0.1018,
      "num_tokens": 1376832887.0,
      "reward": 1.13720703125,
      "reward_std": 0.34223732352256775,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.16384941339492798,
      "step": 2425
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1056.384765625,
      "completions/mean_terminated_length": 996.8468017578125,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "epoch": 0.8281983442860801,
      "grad_norm": 6.098804473876953,
      "kl": 2.703125,
      "learning_rate": 1.7876896611177938e-07,
      "loss": 0.1801,
      "num_tokens": 1377452076.0,
      "reward": 1.14013671875,
      "reward_std": 0.35894644260406494,
      "rewards/accuracy_reward/mean": 0.19140625,
      "rewards/accuracy_reward/std": 0.3937928080558777,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.90576171875,
      "rewards/tag_count_reward/std": 0.2139485478401184,
      "step": 2426
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1132.333984375,
      "completions/mean_terminated_length": 1073.3201904296875,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.8285397285994709,
      "grad_norm": 3.393190622329712,
      "kl": 2.419921875,
      "learning_rate": 1.7846610974456655e-07,
      "loss": 0.1319,
      "num_tokens": 1378109543.0,
      "reward": 1.1259765625,
      "reward_std": 0.4002212584018707,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.19095149636268616,
      "step": 2427
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1058.845703125,
      "completions/mean_terminated_length": 999.4555053710938,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.8288811129128617,
      "grad_norm": 3.487034559249878,
      "kl": 2.33984375,
      "learning_rate": 1.781637811019267e-07,
      "loss": 0.1613,
      "num_tokens": 1378726296.0,
      "reward": 1.12060546875,
      "reward_std": 0.38307666778564453,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.92529296875,
      "rewards/tag_count_reward/std": 0.18012800812721252,
      "step": 2428
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1951.0,
      "completions/mean_length": 1005.728515625,
      "completions/mean_terminated_length": 961.1507568359375,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.8292224972262524,
      "grad_norm": 2.5854415893554688,
      "kl": 2.4453125,
      "learning_rate": 1.7786198061328567e-07,
      "loss": 0.1384,
      "num_tokens": 1379317853.0,
      "reward": 1.1708984375,
      "reward_std": 0.3726179599761963,
      "rewards/accuracy_reward/mean": 0.19921875,
      "rewards/accuracy_reward/std": 0.39980348944664,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.18952499330043793,
      "step": 2429
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1130.703125,
      "completions/mean_terminated_length": 1091.4705810546875,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.8295638815396432,
      "grad_norm": 5.406187057495117,
      "kl": 2.208984375,
      "learning_rate": 1.7756070870731921e-07,
      "loss": 0.1285,
      "num_tokens": 1379971461.0,
      "reward": 1.11767578125,
      "reward_std": 0.3863990902900696,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.2058405727148056,
      "step": 2430
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1017.75390625,
      "completions/mean_terminated_length": 984.5201416015625,
      "completions/min_length": 297.0,
      "completions/min_terminated_length": 297.0,
      "epoch": 0.829905265853034,
      "grad_norm": 3.6119678020477295,
      "kl": 2.130859375,
      "learning_rate": 1.7725996581195196e-07,
      "loss": 0.125,
      "num_tokens": 1380570823.0,
      "reward": 1.14501953125,
      "reward_std": 0.392635703086853,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.18131764233112335,
      "step": 2431
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2010.0,
      "completions/mean_length": 1131.615234375,
      "completions/mean_terminated_length": 1074.578857421875,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "epoch": 0.8302466501664248,
      "grad_norm": 4.670883655548096,
      "kl": 2.83203125,
      "learning_rate": 1.7695975235435765e-07,
      "loss": 0.1746,
      "num_tokens": 1381226914.0,
      "reward": 1.07177734375,
      "reward_std": 0.3999711275100708,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.20456935465335846,
      "step": 2432
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1989.0,
      "completions/mean_length": 1105.158203125,
      "completions/mean_terminated_length": 1025.25634765625,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.8305880344798157,
      "grad_norm": 1.498756766319275,
      "kl": 2.35546875,
      "learning_rate": 1.766600687609574e-07,
      "loss": 0.1607,
      "num_tokens": 1381873123.0,
      "reward": 1.0859375,
      "reward_std": 0.3785056471824646,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.1949455291032791,
      "step": 2433
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1104.72265625,
      "completions/mean_terminated_length": 1062.371337890625,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.8309294187932065,
      "grad_norm": 2.9274964332580566,
      "kl": 2.6328125,
      "learning_rate": 1.7636091545742038e-07,
      "loss": 0.1265,
      "num_tokens": 1382519349.0,
      "reward": 1.08447265625,
      "reward_std": 0.37317654490470886,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.1940557062625885,
      "step": 2434
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1106.54296875,
      "completions/mean_terminated_length": 1056.1768798828125,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.8312708031065973,
      "grad_norm": 6.498803615570068,
      "kl": 2.22265625,
      "learning_rate": 1.7606229286866175e-07,
      "loss": 0.0583,
      "num_tokens": 1383160155.0,
      "reward": 1.134765625,
      "reward_std": 0.4322308301925659,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.099609375,
      "rewards/format_reward/std": 0.29977133870124817,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.18201786279678345,
      "step": 2435
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1048.37890625,
      "completions/mean_terminated_length": 994.9011840820312,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.8316121874199881,
      "grad_norm": 3.208627462387085,
      "kl": 3.23828125,
      "learning_rate": 1.757642014188438e-07,
      "loss": 0.1899,
      "num_tokens": 1383778429.0,
      "reward": 1.02783203125,
      "reward_std": 0.37499701976776123,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.90673828125,
      "rewards/tag_count_reward/std": 0.20564086735248566,
      "step": 2436
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1039.720703125,
      "completions/mean_terminated_length": 998.7337036132812,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.8319535717333788,
      "grad_norm": 3.140491008758545,
      "kl": 2.8671875,
      "learning_rate": 1.7546664153137359e-07,
      "loss": 0.1535,
      "num_tokens": 1384383918.0,
      "reward": 1.07861328125,
      "reward_std": 0.346494197845459,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.1780739426612854,
      "step": 2437
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1119.650390625,
      "completions/mean_terminated_length": 1036.69140625,
      "completions/min_length": 276.0,
      "completions/min_terminated_length": 276.0,
      "epoch": 0.8322949560467696,
      "grad_norm": 6.420150279998779,
      "kl": 3.59375,
      "learning_rate": 1.7516961362890364e-07,
      "loss": 0.1808,
      "num_tokens": 1385039387.0,
      "reward": 1.08251953125,
      "reward_std": 0.3912148177623749,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.90087890625,
      "rewards/tag_count_reward/std": 0.2168629914522171,
      "step": 2438
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1177.849609375,
      "completions/mean_terminated_length": 1114.0020751953125,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.8326363403601604,
      "grad_norm": 1.724784255027771,
      "kl": 2.642578125,
      "learning_rate": 1.7487311813333038e-07,
      "loss": 0.1272,
      "num_tokens": 1385724030.0,
      "reward": 1.119140625,
      "reward_std": 0.4232575297355652,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0859375,
      "rewards/format_reward/std": 0.28054583072662354,
      "rewards/tag_count_reward/mean": 0.892578125,
      "rewards/tag_count_reward/std": 0.21656812727451324,
      "step": 2439
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1079.634765625,
      "completions/mean_terminated_length": 1027.8292236328125,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.8329777246735512,
      "grad_norm": 5.704923152923584,
      "kl": 3.240234375,
      "learning_rate": 1.7457715546579456e-07,
      "loss": 0.1441,
      "num_tokens": 1386352403.0,
      "reward": 1.0791015625,
      "reward_std": 0.400590717792511,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.20734204351902008,
      "step": 2440
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1986.0,
      "completions/mean_length": 1039.5859375,
      "completions/mean_terminated_length": 981.2478637695312,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.8333191089869421,
      "grad_norm": 2.6870903968811035,
      "kl": 3.125,
      "learning_rate": 1.7428172604667952e-07,
      "loss": 0.1581,
      "num_tokens": 1386966239.0,
      "reward": 1.17431640625,
      "reward_std": 0.45181700587272644,
      "rewards/accuracy_reward/mean": 0.18145161867141724,
      "rewards/accuracy_reward/std": 0.38578101992607117,
      "rewards/format_reward/mean": 0.076171875,
      "rewards/format_reward/std": 0.26553234457969666,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.1888602077960968,
      "step": 2441
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1063.0390625,
      "completions/mean_terminated_length": 1008.2062377929688,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.8336604933003329,
      "grad_norm": 2.1704299449920654,
      "kl": 3.140625,
      "learning_rate": 1.7398683029561185e-07,
      "loss": 0.1857,
      "num_tokens": 1387586963.0,
      "reward": 1.08056640625,
      "reward_std": 0.34484773874282837,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.1889462023973465,
      "step": 2442
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1165.7265625,
      "completions/mean_terminated_length": 1106.908447265625,
      "completions/min_length": 336.0,
      "completions/min_terminated_length": 336.0,
      "epoch": 0.8340018776137237,
      "grad_norm": 3.793334484100342,
      "kl": 3.0234375,
      "learning_rate": 1.7369246863145948e-07,
      "loss": 0.1297,
      "num_tokens": 1388273959.0,
      "reward": 1.04931640625,
      "reward_std": 0.4144626259803772,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.07421875,
      "rewards/format_reward/std": 0.2623828947544098,
      "rewards/tag_count_reward/mean": 0.89306640625,
      "rewards/tag_count_reward/std": 0.21933400630950928,
      "step": 2443
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1106.357421875,
      "completions/mean_terminated_length": 1051.8822021484375,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.8343432619271145,
      "grad_norm": 2.5380656719207764,
      "kl": 2.85546875,
      "learning_rate": 1.7339864147233225e-07,
      "loss": 0.1451,
      "num_tokens": 1388916766.0,
      "reward": 1.03125,
      "reward_std": 0.3855457305908203,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.896484375,
      "rewards/tag_count_reward/std": 0.21394017338752747,
      "step": 2444
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1040.208984375,
      "completions/mean_terminated_length": 981.906982421875,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.8346846462405052,
      "grad_norm": 2.464055061340332,
      "kl": 3.203125,
      "learning_rate": 1.7310534923558025e-07,
      "loss": 0.2021,
      "num_tokens": 1389523401.0,
      "reward": 1.12451171875,
      "reward_std": 0.40834134817123413,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.07421875,
      "rewards/format_reward/std": 0.2623828947544098,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.20106884837150574,
      "step": 2445
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1109.09765625,
      "completions/mean_terminated_length": 1048.5863037109375,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.835026030553896,
      "grad_norm": 3.8685975074768066,
      "kl": 2.771484375,
      "learning_rate": 1.7281259233779436e-07,
      "loss": 0.1386,
      "num_tokens": 1390164395.0,
      "reward": 1.0576171875,
      "reward_std": 0.34709495306015015,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.8955078125,
      "rewards/tag_count_reward/std": 0.2146068513393402,
      "step": 2446
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1113.3203125,
      "completions/mean_terminated_length": 1038.38818359375,
      "completions/min_length": 301.0,
      "completions/min_terminated_length": 301.0,
      "epoch": 0.8353674148672868,
      "grad_norm": 2.6831860542297363,
      "kl": 3.25,
      "learning_rate": 1.7252037119480438e-07,
      "loss": 0.166,
      "num_tokens": 1390809807.0,
      "reward": 1.033203125,
      "reward_std": 0.37386655807495117,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.892578125,
      "rewards/tag_count_reward/std": 0.22048601508140564,
      "step": 2447
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2004.0,
      "completions/mean_length": 1033.1484375,
      "completions/mean_terminated_length": 960.9623413085938,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.8357087991806776,
      "grad_norm": 7.181947708129883,
      "kl": 3.1796875,
      "learning_rate": 1.7222868622167998e-07,
      "loss": 0.1493,
      "num_tokens": 1391409067.0,
      "reward": 1.09130859375,
      "reward_std": 0.4202735424041748,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.90185546875,
      "rewards/tag_count_reward/std": 0.21843034029006958,
      "step": 2448
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1140.931640625,
      "completions/mean_terminated_length": 1033.9847412109375,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.8360501834940685,
      "grad_norm": 4.506415843963623,
      "kl": 3.64453125,
      "learning_rate": 1.7193753783272847e-07,
      "loss": 0.2437,
      "num_tokens": 1392076248.0,
      "reward": 1.07421875,
      "reward_std": 0.4136364459991455,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.87890625,
      "rewards/tag_count_reward/std": 0.23716437816619873,
      "step": 2449
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1107.666015625,
      "completions/mean_terminated_length": 1042.883056640625,
      "completions/min_length": 308.0,
      "completions/min_terminated_length": 308.0,
      "epoch": 0.8363915678074593,
      "grad_norm": 4.927025318145752,
      "kl": 2.86328125,
      "learning_rate": 1.7164692644149557e-07,
      "loss": 0.1557,
      "num_tokens": 1392719805.0,
      "reward": 1.08154296875,
      "reward_std": 0.38479864597320557,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.89990234375,
      "rewards/tag_count_reward/std": 0.2059890627861023,
      "step": 2450
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1064.2578125,
      "completions/mean_terminated_length": 1005.1925659179688,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "epoch": 0.8367329521208501,
      "grad_norm": 2.6272780895233154,
      "kl": 2.15234375,
      "learning_rate": 1.713568524607637e-07,
      "loss": 0.1015,
      "num_tokens": 1393335873.0,
      "reward": 1.11279296875,
      "reward_std": 0.3726275563240051,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.91162109375,
      "rewards/tag_count_reward/std": 0.19440992176532745,
      "step": 2451
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1174.25,
      "completions/mean_terminated_length": 1116.0,
      "completions/min_length": 292.0,
      "completions/min_terminated_length": 292.0,
      "epoch": 0.8370743364342409,
      "grad_norm": 2.45058536529541,
      "kl": 2.921875,
      "learning_rate": 1.710673163025526e-07,
      "loss": 0.1479,
      "num_tokens": 1394020865.0,
      "reward": 1.10400390625,
      "reward_std": 0.43304574489593506,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.08984375,
      "rewards/format_reward/std": 0.2862374484539032,
      "rewards/tag_count_reward/mean": 0.89111328125,
      "rewards/tag_count_reward/std": 0.22280485928058624,
      "step": 2452
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1096.330078125,
      "completions/mean_terminated_length": 1037.0975341796875,
      "completions/min_length": 268.0,
      "completions/min_terminated_length": 268.0,
      "epoch": 0.8374157207476316,
      "grad_norm": 2.160078525543213,
      "kl": 2.0546875,
      "learning_rate": 1.707783183781174e-07,
      "loss": 0.0922,
      "num_tokens": 1394659018.0,
      "reward": 1.05859375,
      "reward_std": 0.36901023983955383,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.1825525462627411,
      "step": 2453
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1119.919921875,
      "completions/mean_terminated_length": 1072.2772216796875,
      "completions/min_length": 348.0,
      "completions/min_terminated_length": 348.0,
      "epoch": 0.8377571050610224,
      "grad_norm": 2.0535600185394287,
      "kl": 2.43359375,
      "learning_rate": 1.7048985909794928e-07,
      "loss": 0.1273,
      "num_tokens": 1395306593.0,
      "reward": 1.08349609375,
      "reward_std": 0.39434653520584106,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.08984375,
      "rewards/format_reward/std": 0.2862374484539032,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.19923560321331024,
      "step": 2454
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1159.25,
      "completions/mean_terminated_length": 1071.519287109375,
      "completions/min_length": 311.0,
      "completions/min_terminated_length": 311.0,
      "epoch": 0.8380984893744132,
      "grad_norm": 3.17631196975708,
      "kl": 2.921875,
      "learning_rate": 1.7020193887177403e-07,
      "loss": 0.1725,
      "num_tokens": 1395981793.0,
      "reward": 1.03173828125,
      "reward_std": 0.38581639528274536,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.88134765625,
      "rewards/tag_count_reward/std": 0.22817394137382507,
      "step": 2455
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1000.462890625,
      "completions/mean_terminated_length": 955.659912109375,
      "completions/min_length": 274.0,
      "completions/min_terminated_length": 274.0,
      "epoch": 0.838439873687804,
      "grad_norm": 2.7116317749023438,
      "kl": 3.453125,
      "learning_rate": 1.6991455810855204e-07,
      "loss": 0.2009,
      "num_tokens": 1396569166.0,
      "reward": 1.08203125,
      "reward_std": 0.3808964490890503,
      "rewards/accuracy_reward/mean": 0.12096773833036423,
      "rewards/accuracy_reward/std": 0.32641899585723877,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.20718760788440704,
      "step": 2456
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1003.875,
      "completions/mean_terminated_length": 965.8299560546875,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.8387812580011949,
      "grad_norm": 3.508617877960205,
      "kl": 2.083984375,
      "learning_rate": 1.6962771721647705e-07,
      "loss": 0.1221,
      "num_tokens": 1397152750.0,
      "reward": 1.15771484375,
      "reward_std": 0.3813819885253906,
      "rewards/accuracy_reward/mean": 0.193359375,
      "rewards/accuracy_reward/std": 0.39531853795051575,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.18335099518299103,
      "step": 2457
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 1145.21484375,
      "completions/mean_terminated_length": 1085.0291748046875,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.8391226423145857,
      "grad_norm": 4.807103633880615,
      "kl": 2.234375,
      "learning_rate": 1.693414166029764e-07,
      "loss": 0.0903,
      "num_tokens": 1397816700.0,
      "reward": 1.1318359375,
      "reward_std": 0.4273075759410858,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.080078125,
      "rewards/format_reward/std": 0.271679550409317,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.20634421706199646,
      "step": 2458
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1069.015625,
      "completions/mean_terminated_length": 1035.39404296875,
      "completions/min_length": 304.0,
      "completions/min_terminated_length": 304.0,
      "epoch": 0.8394640266279765,
      "grad_norm": 4.118847846984863,
      "kl": 2.037109375,
      "learning_rate": 1.6905565667470954e-07,
      "loss": 0.0873,
      "num_tokens": 1398442212.0,
      "reward": 1.134765625,
      "reward_std": 0.3714521527290344,
      "rewards/accuracy_reward/mean": 0.14717741310596466,
      "rewards/accuracy_reward/std": 0.3546403646469116,
      "rewards/format_reward/mean": 0.07421875,
      "rewards/format_reward/std": 0.2623828947544098,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.18796826899051666,
      "step": 2459
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 1090.4375,
      "completions/mean_terminated_length": 1061.5372314453125,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.8398054109413673,
      "grad_norm": 1.8655813932418823,
      "kl": 1.4052734375,
      "learning_rate": 1.6877043783756838e-07,
      "loss": 0.0529,
      "num_tokens": 1399071972.0,
      "reward": 1.103515625,
      "reward_std": 0.3832892179489136,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.1781550794839859,
      "step": 2460
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1036.630859375,
      "completions/mean_terminated_length": 973.6826171875,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.840146795254758,
      "grad_norm": 1.6605829000473022,
      "kl": 2.90625,
      "learning_rate": 1.6848576049667605e-07,
      "loss": 0.1449,
      "num_tokens": 1399671079.0,
      "reward": 1.1103515625,
      "reward_std": 0.3776431083679199,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.9189453125,
      "rewards/tag_count_reward/std": 0.1909715086221695,
      "step": 2461
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1134.431640625,
      "completions/mean_terminated_length": 1048.5406494140625,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.8404881795681488,
      "grad_norm": 2.485846519470215,
      "kl": 2.93359375,
      "learning_rate": 1.6820162505638675e-07,
      "loss": 0.1791,
      "num_tokens": 1400325956.0,
      "reward": 1.05078125,
      "reward_std": 0.3807339370250702,
      "rewards/accuracy_reward/mean": 0.06653226166963577,
      "rewards/accuracy_reward/std": 0.24946178495883942,
      "rewards/format_reward/mean": 0.083984375,
      "rewards/format_reward/std": 0.2776356339454651,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.2080436646938324,
      "step": 2462
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1139.251953125,
      "completions/mean_terminated_length": 1060.1466064453125,
      "completions/min_length": 317.0,
      "completions/min_terminated_length": 317.0,
      "epoch": 0.8408295638815396,
      "grad_norm": 2.64872670173645,
      "kl": 2.9140625,
      "learning_rate": 1.6791803192028458e-07,
      "loss": 0.1612,
      "num_tokens": 1400990341.0,
      "reward": 1.0322265625,
      "reward_std": 0.40245115756988525,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.8798828125,
      "rewards/tag_count_reward/std": 0.23298367857933044,
      "step": 2463
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1013.56640625,
      "completions/mean_terminated_length": 960.464111328125,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.8411709481949304,
      "grad_norm": 1.9933552742004395,
      "kl": 2.66015625,
      "learning_rate": 1.676349814911837e-07,
      "loss": 0.1399,
      "num_tokens": 1401584551.0,
      "reward": 1.03271484375,
      "reward_std": 0.32293686270713806,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.1983945220708847,
      "step": 2464
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1114.7109375,
      "completions/mean_terminated_length": 1044.1260986328125,
      "completions/min_length": 296.0,
      "completions/min_terminated_length": 296.0,
      "epoch": 0.8415123325083212,
      "grad_norm": 5.01402473449707,
      "kl": 3.44921875,
      "learning_rate": 1.6735247417112718e-07,
      "loss": 0.1805,
      "num_tokens": 1402244563.0,
      "reward": 1.0732421875,
      "reward_std": 0.43712496757507324,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.1015625,
      "rewards/format_reward/std": 0.30236753821372986,
      "rewards/tag_count_reward/mean": 0.8935546875,
      "rewards/tag_count_reward/std": 0.22261446714401245,
      "step": 2465
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1133.181640625,
      "completions/mean_terminated_length": 1059.8416748046875,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.8418537168217121,
      "grad_norm": 5.2469048500061035,
      "kl": 2.443359375,
      "learning_rate": 1.6707051036138687e-07,
      "loss": 0.1517,
      "num_tokens": 1402904208.0,
      "reward": 1.05078125,
      "reward_std": 0.37223637104034424,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.20925270020961761,
      "step": 2466
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1114.916015625,
      "completions/mean_terminated_length": 1075.0081787109375,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.8421951011351029,
      "grad_norm": 11.170723915100098,
      "kl": 2.71875,
      "learning_rate": 1.6678909046246247e-07,
      "loss": 0.0937,
      "num_tokens": 1403549909.0,
      "reward": 1.10205078125,
      "reward_std": 0.4038926362991333,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.09375,
      "rewards/format_reward/std": 0.29176566004753113,
      "rewards/tag_count_reward/mean": 0.91455078125,
      "rewards/tag_count_reward/std": 0.2036799192428589,
      "step": 2467
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1165.169921875,
      "completions/mean_terminated_length": 1075.9376220703125,
      "completions/min_length": 301.0,
      "completions/min_terminated_length": 301.0,
      "epoch": 0.8425364854484937,
      "grad_norm": 2.3902857303619385,
      "kl": 2.583984375,
      "learning_rate": 1.6650821487408128e-07,
      "loss": 0.1381,
      "num_tokens": 1404229948.0,
      "reward": 1.06103515625,
      "reward_std": 0.4081980884075165,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.90087890625,
      "rewards/tag_count_reward/std": 0.21056769788265228,
      "step": 2468
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1112.4453125,
      "completions/mean_terminated_length": 1052.149658203125,
      "completions/min_length": 335.0,
      "completions/min_terminated_length": 335.0,
      "epoch": 0.8428778697618844,
      "grad_norm": 1.9006119966506958,
      "kl": 1.9951171875,
      "learning_rate": 1.6622788399519722e-07,
      "loss": 0.1029,
      "num_tokens": 1404877024.0,
      "reward": 1.1025390625,
      "reward_std": 0.38338834047317505,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.1867826133966446,
      "step": 2469
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1055.48828125,
      "completions/mean_terminated_length": 1015.1422119140625,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.8432192540752752,
      "grad_norm": 2.8661036491394043,
      "kl": 2.90625,
      "learning_rate": 1.6594809822399073e-07,
      "loss": 0.1701,
      "num_tokens": 1405487370.0,
      "reward": 1.17724609375,
      "reward_std": 0.46351733803749084,
      "rewards/accuracy_reward/mean": 0.17943547666072845,
      "rewards/accuracy_reward/std": 0.3841039538383484,
      "rewards/format_reward/mean": 0.083984375,
      "rewards/format_reward/std": 0.2776356339454651,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.1914980411529541,
      "step": 2470
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 1017.552734375,
      "completions/mean_terminated_length": 932.58984375,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.843560638388666,
      "grad_norm": 10.830955505371094,
      "kl": 3.6875,
      "learning_rate": 1.6566885795786775e-07,
      "loss": 0.2614,
      "num_tokens": 1406083141.0,
      "reward": 1.044921875,
      "reward_std": 0.3794099986553192,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.89453125,
      "rewards/tag_count_reward/std": 0.22362731397151947,
      "step": 2471
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1022.1953125,
      "completions/mean_terminated_length": 967.3168334960938,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.8439020227020568,
      "grad_norm": 3.130136728286743,
      "kl": 2.75,
      "learning_rate": 1.653901635934596e-07,
      "loss": 0.1494,
      "num_tokens": 1406681241.0,
      "reward": 1.0986328125,
      "reward_std": 0.3787572979927063,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.19458001852035522,
      "step": 2472
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1096.923828125,
      "completions/mean_terminated_length": 1018.5052490234375,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.8442434070154476,
      "grad_norm": 2.968031167984009,
      "kl": 2.20703125,
      "learning_rate": 1.6511201552662212e-07,
      "loss": 0.1407,
      "num_tokens": 1407318562.0,
      "reward": 1.138671875,
      "reward_std": 0.4225820302963257,
      "rewards/accuracy_reward/mean": 0.14516128599643707,
      "rewards/accuracy_reward/std": 0.3526190221309662,
      "rewards/format_reward/mean": 0.087890625,
      "rewards/format_reward/std": 0.2834126651287079,
      "rewards/tag_count_reward/mean": 0.91015625,
      "rewards/tag_count_reward/std": 0.2032860517501831,
      "step": 2473
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1059.109375,
      "completions/mean_terminated_length": 1010.475341796875,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.8445847913288385,
      "grad_norm": 2.307568311691284,
      "kl": 2.45703125,
      "learning_rate": 1.6483441415243538e-07,
      "loss": 0.1443,
      "num_tokens": 1407933466.0,
      "reward": 1.240234375,
      "reward_std": 0.4436051845550537,
      "rewards/accuracy_reward/mean": 0.240234375,
      "rewards/accuracy_reward/std": 0.4276435375213623,
      "rewards/format_reward/mean": 0.083984375,
      "rewards/format_reward/std": 0.2776356339454651,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.20036010444164276,
      "step": 2474
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 1081.90625,
      "completions/mean_terminated_length": 1011.0188598632812,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.8449261756422293,
      "grad_norm": 1.897137999534607,
      "kl": 3.083984375,
      "learning_rate": 1.645573598652025e-07,
      "loss": 0.1725,
      "num_tokens": 1408575018.0,
      "reward": 1.0595703125,
      "reward_std": 0.3842903971672058,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.076171875,
      "rewards/format_reward/std": 0.26553234457969666,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.2043152004480362,
      "step": 2475
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1071.18359375,
      "completions/mean_terminated_length": 983.8936157226562,
      "completions/min_length": 289.0,
      "completions/min_terminated_length": 289.0,
      "epoch": 0.8452675599556201,
      "grad_norm": 6.261782169342041,
      "kl": 3.28125,
      "learning_rate": 1.6428085305844997e-07,
      "loss": 0.2415,
      "num_tokens": 1409209560.0,
      "reward": 1.107421875,
      "reward_std": 0.41458624601364136,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.904296875,
      "rewards/tag_count_reward/std": 0.21300913393497467,
      "step": 2476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1102.306640625,
      "completions/mean_terminated_length": 1053.759765625,
      "completions/min_length": 285.0,
      "completions/min_terminated_length": 285.0,
      "epoch": 0.8456089442690108,
      "grad_norm": 2.166699171066284,
      "kl": 2.3125,
      "learning_rate": 1.6400489412492625e-07,
      "loss": 0.1307,
      "num_tokens": 1409851413.0,
      "reward": 1.05908203125,
      "reward_std": 0.34913110733032227,
      "rewards/accuracy_reward/mean": 0.07056451588869095,
      "rewards/accuracy_reward/std": 0.25635460019111633,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.18625172972679138,
      "step": 2477
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1065.029296875,
      "completions/mean_terminated_length": 986.2257080078125,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.8459503285824016,
      "grad_norm": 11.078619003295898,
      "kl": 3.5546875,
      "learning_rate": 1.6372948345660187e-07,
      "loss": 0.2928,
      "num_tokens": 1410475588.0,
      "reward": 1.02392578125,
      "reward_std": 0.3407014012336731,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.0390625,
      "rewards/format_reward/std": 0.1939331740140915,
      "rewards/tag_count_reward/mean": 0.91064453125,
      "rewards/tag_count_reward/std": 0.2085477113723755,
      "step": 2478
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1050.736328125,
      "completions/mean_terminated_length": 1005.961181640625,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "epoch": 0.8462917128957924,
      "grad_norm": 4.527271270751953,
      "kl": 2.48046875,
      "learning_rate": 1.6345462144466864e-07,
      "loss": 0.1184,
      "num_tokens": 1411080077.0,
      "reward": 1.14599609375,
      "reward_std": 0.4120045602321625,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.18786084651947021,
      "step": 2479
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1079.623046875,
      "completions/mean_terminated_length": 1031.9979248046875,
      "completions/min_length": 341.0,
      "completions/min_terminated_length": 341.0,
      "epoch": 0.8466330972091832,
      "grad_norm": 2.328171730041504,
      "kl": 2.21875,
      "learning_rate": 1.6318030847953896e-07,
      "loss": 0.1184,
      "num_tokens": 1411708412.0,
      "reward": 1.11083984375,
      "reward_std": 0.3626022934913635,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.93310546875,
      "rewards/tag_count_reward/std": 0.17637556791305542,
      "step": 2480
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 1080.228515625,
      "completions/mean_terminated_length": 1026.3526611328125,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "epoch": 0.846974481522574,
      "grad_norm": 3.991018295288086,
      "kl": 2.23046875,
      "learning_rate": 1.6290654495084523e-07,
      "loss": 0.0846,
      "num_tokens": 1412339057.0,
      "reward": 1.1220703125,
      "reward_std": 0.3936161994934082,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.09765625,
      "rewards/format_reward/std": 0.29713961482048035,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.19620363414287567,
      "step": 2481
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1085.794921875,
      "completions/mean_terminated_length": 1046.680908203125,
      "completions/min_length": 261.0,
      "completions/min_terminated_length": 261.0,
      "epoch": 0.8473158658359649,
      "grad_norm": 5.698953151702881,
      "kl": 3.13671875,
      "learning_rate": 1.6263333124743972e-07,
      "loss": 0.1505,
      "num_tokens": 1412974136.0,
      "reward": 1.02490234375,
      "reward_std": 0.3475743532180786,
      "rewards/accuracy_reward/mean": 0.0234375,
      "rewards/accuracy_reward/std": 0.15143637359142303,
      "rewards/format_reward/mean": 0.083984375,
      "rewards/format_reward/std": 0.2776356339454651,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.19635149836540222,
      "step": 2482
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1150.109375,
      "completions/mean_terminated_length": 1098.165283203125,
      "completions/min_length": 307.0,
      "completions/min_terminated_length": 307.0,
      "epoch": 0.8476572501493557,
      "grad_norm": 2.203179359436035,
      "kl": 2.31640625,
      "learning_rate": 1.6236066775739343e-07,
      "loss": 0.1291,
      "num_tokens": 1413645936.0,
      "reward": 1.14453125,
      "reward_std": 0.38081881403923035,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.19170314073562622,
      "step": 2483
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1117.328125,
      "completions/mean_terminated_length": 1053.2109375,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "epoch": 0.8479986344627465,
      "grad_norm": 1.9850155115127563,
      "kl": 2.4765625,
      "learning_rate": 1.6208855486799602e-07,
      "loss": 0.1277,
      "num_tokens": 1414297400.0,
      "reward": 1.09912109375,
      "reward_std": 0.4083441197872162,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.89794921875,
      "rewards/tag_count_reward/std": 0.21492886543273926,
      "step": 2484
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1087.8359375,
      "completions/mean_terminated_length": 1038.5462646484375,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.8483400187761372,
      "grad_norm": 2.6356756687164307,
      "kl": 2.484375,
      "learning_rate": 1.6181699296575515e-07,
      "loss": 0.1055,
      "num_tokens": 1414932324.0,
      "reward": 1.1005859375,
      "reward_std": 0.43871521949768066,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.20405313372612,
      "step": 2485
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1041.1953125,
      "completions/mean_terminated_length": 998.1344604492188,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.848681403089528,
      "grad_norm": 1.6693556308746338,
      "kl": 2.73828125,
      "learning_rate": 1.6154598243639582e-07,
      "loss": 0.1844,
      "num_tokens": 1415536632.0,
      "reward": 1.08447265625,
      "reward_std": 0.3561251759529114,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310528099536896,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.19270674884319305,
      "step": 2486
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1096.921875,
      "completions/mean_terminated_length": 1029.27197265625,
      "completions/min_length": 285.0,
      "completions/min_terminated_length": 285.0,
      "epoch": 0.8490227874029188,
      "grad_norm": 7.149250030517578,
      "kl": 2.5625,
      "learning_rate": 1.6127552366485957e-07,
      "loss": 0.1022,
      "num_tokens": 1416183872.0,
      "reward": 1.15478515625,
      "reward_std": 0.4297928810119629,
      "rewards/accuracy_reward/mean": 0.150390625,
      "rewards/accuracy_reward/std": 0.35780346393585205,
      "rewards/format_reward/mean": 0.095703125,
      "rewards/format_reward/std": 0.2944713830947876,
      "rewards/tag_count_reward/mean": 0.90869140625,
      "rewards/tag_count_reward/std": 0.2106221467256546,
      "step": 2487
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1105.525390625,
      "completions/mean_terminated_length": 1055.1048583984375,
      "completions/min_length": 300.0,
      "completions/min_terminated_length": 300.0,
      "epoch": 0.8493641717163096,
      "grad_norm": 2.0782597064971924,
      "kl": 2.49609375,
      "learning_rate": 1.6100561703530475e-07,
      "loss": 0.1267,
      "num_tokens": 1416821021.0,
      "reward": 1.0869140625,
      "reward_std": 0.37439000606536865,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.19242700934410095,
      "step": 2488
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2002.0,
      "completions/mean_length": 1086.412109375,
      "completions/mean_terminated_length": 998.24951171875,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.8497055560297004,
      "grad_norm": 2.828303813934326,
      "kl": 2.9375,
      "learning_rate": 1.6073626293110485e-07,
      "loss": 0.192,
      "num_tokens": 1417455024.0,
      "reward": 1.1123046875,
      "reward_std": 0.39791157841682434,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.8896484375,
      "rewards/tag_count_reward/std": 0.22671453654766083,
      "step": 2489
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1160.169921875,
      "completions/mean_terminated_length": 1118.4110107421875,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.8500469403430913,
      "grad_norm": 2.182011127471924,
      "kl": 1.7607421875,
      "learning_rate": 1.6046746173484905e-07,
      "loss": 0.069,
      "num_tokens": 1418120327.0,
      "reward": 1.1328125,
      "reward_std": 0.34036684036254883,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.935546875,
      "rewards/tag_count_reward/std": 0.17060412466526031,
      "step": 2490
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1039.5859375,
      "completions/mean_terminated_length": 951.8047485351562,
      "completions/min_length": 322.0,
      "completions/min_terminated_length": 322.0,
      "epoch": 0.8503883246564821,
      "grad_norm": 1.5009369850158691,
      "kl": 2.94140625,
      "learning_rate": 1.6019921382834104e-07,
      "loss": 0.166,
      "num_tokens": 1418733587.0,
      "reward": 1.16943359375,
      "reward_std": 0.3654649555683136,
      "rewards/accuracy_reward/mean": 0.19921875,
      "rewards/accuracy_reward/std": 0.39980348944664,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.90576171875,
      "rewards/tag_count_reward/std": 0.20815329253673553,
      "step": 2491
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1104.71484375,
      "completions/mean_terminated_length": 1031.23779296875,
      "completions/min_length": 339.0,
      "completions/min_terminated_length": 339.0,
      "epoch": 0.8507297089698729,
      "grad_norm": 5.200196743011475,
      "kl": 2.265625,
      "learning_rate": 1.5993151959259855e-07,
      "loss": 0.152,
      "num_tokens": 1419383649.0,
      "reward": 1.095703125,
      "reward_std": 0.38947418332099915,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.20036010444164276,
      "step": 2492
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1056.689453125,
      "completions/mean_terminated_length": 1003.6563720703125,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.8510710932832636,
      "grad_norm": 2.5590600967407227,
      "kl": 2.568359375,
      "learning_rate": 1.5966437940785281e-07,
      "loss": 0.1067,
      "num_tokens": 1419999042.0,
      "reward": 1.013671875,
      "reward_std": 0.3545224070549011,
      "rewards/accuracy_reward/mean": 0.033203125,
      "rewards/accuracy_reward/std": 0.17934183776378632,
      "rewards/format_reward/mean": 0.07421875,
      "rewards/format_reward/std": 0.2623828947544098,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.20866736769676208,
      "step": 2493
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1103.6953125,
      "completions/mean_terminated_length": 1021.4947509765625,
      "completions/min_length": 336.0,
      "completions/min_terminated_length": 336.0,
      "epoch": 0.8514124775966544,
      "grad_norm": 2.4877443313598633,
      "kl": 2.953125,
      "learning_rate": 1.5939779365354836e-07,
      "loss": 0.1993,
      "num_tokens": 1420640822.0,
      "reward": 1.12744140625,
      "reward_std": 0.40630829334259033,
      "rewards/accuracy_reward/mean": 0.16935484111309052,
      "rewards/accuracy_reward/std": 0.3754436671733856,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.89501953125,
      "rewards/tag_count_reward/std": 0.22467544674873352,
      "step": 2494
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 995.775390625,
      "completions/mean_terminated_length": 950.7719116210938,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.8517538619100452,
      "grad_norm": 4.02091646194458,
      "kl": 1.970703125,
      "learning_rate": 1.591317627083419e-07,
      "loss": 0.1157,
      "num_tokens": 1421222723.0,
      "reward": 1.12060546875,
      "reward_std": 0.36581292748451233,
      "rewards/accuracy_reward/mean": 0.15120968222618103,
      "rewards/accuracy_reward/std": 0.35861483216285706,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.1965412050485611,
      "step": 2495
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1100.44921875,
      "completions/mean_terminated_length": 1011.36328125,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "epoch": 0.852095246223436,
      "grad_norm": 2.572394609451294,
      "kl": 2.708984375,
      "learning_rate": 1.5886628695010224e-07,
      "loss": 0.1293,
      "num_tokens": 1421868985.0,
      "reward": 1.09521484375,
      "reward_std": 0.38914650678634644,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.89599609375,
      "rewards/tag_count_reward/std": 0.22184641659259796,
      "step": 2496
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1073.783203125,
      "completions/mean_terminated_length": 1013.1473388671875,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.8524366305368268,
      "grad_norm": 4.3175578117370605,
      "kl": 2.671875,
      "learning_rate": 1.586013667559096e-07,
      "loss": 0.1764,
      "num_tokens": 1422495178.0,
      "reward": 1.04638671875,
      "reward_std": 0.3526151180267334,
      "rewards/accuracy_reward/mean": 0.06854838877916336,
      "rewards/accuracy_reward/std": 0.25293970108032227,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.21135582029819489,
      "step": 2497
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1123.138671875,
      "completions/mean_terminated_length": 1040.491455078125,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "epoch": 0.8527780148502176,
      "grad_norm": 3.066497325897217,
      "kl": 2.97265625,
      "learning_rate": 1.5833700250205528e-07,
      "loss": 0.1977,
      "num_tokens": 1423159329.0,
      "reward": 1.01953125,
      "reward_std": 0.3580136299133301,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.892578125,
      "rewards/tag_count_reward/std": 0.2265058159828186,
      "step": 2498
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1142.677734375,
      "completions/mean_terminated_length": 1051.172119140625,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.8531193991636085,
      "grad_norm": 1.9884110689163208,
      "kl": 2.751953125,
      "learning_rate": 1.5807319456404054e-07,
      "loss": 0.1674,
      "num_tokens": 1423826460.0,
      "reward": 1.0625,
      "reward_std": 0.40620261430740356,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.88671875,
      "rewards/tag_count_reward/std": 0.22742362320423126,
      "step": 2499
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1155.431640625,
      "completions/mean_terminated_length": 1101.840576171875,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.8534607834769993,
      "grad_norm": 2.617475986480713,
      "kl": 2.330078125,
      "learning_rate": 1.5780994331657667e-07,
      "loss": 0.1171,
      "num_tokens": 1424503465.0,
      "reward": 1.09716796875,
      "reward_std": 0.4116724729537964,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.2119247019290924,
      "step": 2500
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1133.24609375,
      "completions/mean_terminated_length": 1053.617919921875,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.85380216779039,
      "grad_norm": 5.500685214996338,
      "kl": 2.76171875,
      "learning_rate": 1.5754724913358417e-07,
      "loss": 0.1886,
      "num_tokens": 1425160391.0,
      "reward": 1.0791015625,
      "reward_std": 0.4148721694946289,
      "rewards/accuracy_reward/mean": 0.09879032522439957,
      "rewards/accuracy_reward/std": 0.2986815273761749,
      "rewards/format_reward/mean": 0.076171875,
      "rewards/format_reward/std": 0.26553234457969666,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.2143038660287857,
      "step": 2501
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1101.98828125,
      "completions/mean_terminated_length": 1026.1475830078125,
      "completions/min_length": 334.0,
      "completions/min_terminated_length": 334.0,
      "epoch": 0.8541435521037808,
      "grad_norm": 1.9453545808792114,
      "kl": 2.6953125,
      "learning_rate": 1.5728511238819235e-07,
      "loss": 0.1576,
      "num_tokens": 1425804241.0,
      "reward": 1.07666015625,
      "reward_std": 0.3485608696937561,
      "rewards/accuracy_reward/mean": 0.10080645233392715,
      "rewards/accuracy_reward/std": 0.30137622356414795,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.91455078125,
      "rewards/tag_count_reward/std": 0.19383399188518524,
      "step": 2502
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1058.607421875,
      "completions/mean_terminated_length": 979.2890014648438,
      "completions/min_length": 305.0,
      "completions/min_terminated_length": 305.0,
      "epoch": 0.8544849364171716,
      "grad_norm": 8.42778205871582,
      "kl": 3.2578125,
      "learning_rate": 1.5702353345273876e-07,
      "loss": 0.2364,
      "num_tokens": 1426418408.0,
      "reward": 1.10302734375,
      "reward_std": 0.4140213429927826,
      "rewards/accuracy_reward/mean": 0.1391129046678543,
      "rewards/accuracy_reward/std": 0.34641367197036743,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.2084331214427948,
      "step": 2503
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1060.236328125,
      "completions/mean_terminated_length": 1022.1683349609375,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.8548263207305624,
      "grad_norm": 6.326718330383301,
      "kl": 1.9765625,
      "learning_rate": 1.567625126987686e-07,
      "loss": 0.0499,
      "num_tokens": 1427030593.0,
      "reward": 1.06591796875,
      "reward_std": 0.36252841353416443,
      "rewards/accuracy_reward/mean": 0.03515625,
      "rewards/accuracy_reward/std": 0.1843547374010086,
      "rewards/format_reward/mean": 0.095703125,
      "rewards/format_reward/std": 0.2944713830947876,
      "rewards/tag_count_reward/mean": 0.93505859375,
      "rewards/tag_count_reward/std": 0.16494794189929962,
      "step": 2504
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1082.912109375,
      "completions/mean_terminated_length": 1031.2818603515625,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "epoch": 0.8551677050439532,
      "grad_norm": 3.129791736602783,
      "kl": 1.93359375,
      "learning_rate": 1.5650205049703417e-07,
      "loss": 0.1046,
      "num_tokens": 1427654900.0,
      "reward": 1.1533203125,
      "reward_std": 0.37939101457595825,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.16662302613258362,
      "step": 2505
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1122.0703125,
      "completions/mean_terminated_length": 1070.5238037109375,
      "completions/min_length": 346.0,
      "completions/min_terminated_length": 346.0,
      "epoch": 0.855509089357344,
      "grad_norm": 4.0424723625183105,
      "kl": 2.6953125,
      "learning_rate": 1.5624214721749454e-07,
      "loss": 0.1543,
      "num_tokens": 1428307016.0,
      "reward": 1.09765625,
      "reward_std": 0.4202662706375122,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.0859375,
      "rewards/format_reward/std": 0.28054583072662354,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.19499453902244568,
      "step": 2506
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1988.0,
      "completions/mean_length": 1092.7265625,
      "completions/mean_terminated_length": 1047.7955322265625,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.8558504736707349,
      "grad_norm": 5.255420207977295,
      "kl": 2.375,
      "learning_rate": 1.559828032293147e-07,
      "loss": 0.1522,
      "num_tokens": 1428945628.0,
      "reward": 1.072265625,
      "reward_std": 0.3573336899280548,
      "rewards/accuracy_reward/mean": 0.060483869165182114,
      "rewards/accuracy_reward/std": 0.23862183094024658,
      "rewards/format_reward/mean": 0.080078125,
      "rewards/format_reward/std": 0.271679550409317,
      "rewards/tag_count_reward/mean": 0.93359375,
      "rewards/tag_count_reward/std": 0.17621363699436188,
      "step": 2507
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1042.43359375,
      "completions/mean_terminated_length": 977.6257934570312,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.8561918579841257,
      "grad_norm": 3.9764435291290283,
      "kl": 2.91015625,
      "learning_rate": 1.5572401890086537e-07,
      "loss": 0.1586,
      "num_tokens": 1429557226.0,
      "reward": 1.0341796875,
      "reward_std": 0.3454781174659729,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.19920024275779724,
      "step": 2508
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1097.9609375,
      "completions/mean_terminated_length": 1040.9193115234375,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.8565332422975165,
      "grad_norm": 8.94039249420166,
      "kl": 2.96484375,
      "learning_rate": 1.5546579459972237e-07,
      "loss": 0.1281,
      "num_tokens": 1430196774.0,
      "reward": 1.10400390625,
      "reward_std": 0.4110373258590698,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.115234375,
      "rewards/format_reward/std": 0.3196168541908264,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18835864961147308,
      "step": 2509
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1099.615234375,
      "completions/mean_terminated_length": 1046.818603515625,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "epoch": 0.8568746266109072,
      "grad_norm": 2.3975346088409424,
      "kl": 2.46484375,
      "learning_rate": 1.5520813069266605e-07,
      "loss": 0.1358,
      "num_tokens": 1430843233.0,
      "reward": 1.126953125,
      "reward_std": 0.3676784336566925,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.1835547834634781,
      "step": 2510
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1076.9296875,
      "completions/mean_terminated_length": 1027.080078125,
      "completions/min_length": 305.0,
      "completions/min_terminated_length": 305.0,
      "epoch": 0.857216010924298,
      "grad_norm": 3.456537961959839,
      "kl": 3.11328125,
      "learning_rate": 1.549510275456805e-07,
      "loss": 0.1786,
      "num_tokens": 1431483261.0,
      "reward": 1.0869140625,
      "reward_std": 0.41201263666152954,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.09765625,
      "rewards/format_reward/std": 0.29713961482048035,
      "rewards/tag_count_reward/mean": 0.9189453125,
      "rewards/tag_count_reward/std": 0.1972721517086029,
      "step": 2511
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1080.962890625,
      "completions/mean_terminated_length": 1012.1777954101562,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.8575573952376888,
      "grad_norm": 2.3917860984802246,
      "kl": 3.98828125,
      "learning_rate": 1.5469448552395384e-07,
      "loss": 0.233,
      "num_tokens": 1432109930.0,
      "reward": 1.0576171875,
      "reward_std": 0.40050607919692993,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.07421875,
      "rewards/format_reward/std": 0.2623828947544098,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.19981329143047333,
      "step": 2512
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 1098.43359375,
      "completions/mean_terminated_length": 1045.5711669921875,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.8578987795510796,
      "grad_norm": 13.534027099609375,
      "kl": 3.3984375,
      "learning_rate": 1.5443850499187656e-07,
      "loss": 0.1254,
      "num_tokens": 1432753000.0,
      "reward": 1.18310546875,
      "reward_std": 0.4591599106788635,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.09765625,
      "rewards/format_reward/std": 0.29713961482048035,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.1891029179096222,
      "step": 2513
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2009.0,
      "completions/mean_length": 1149.34375,
      "completions/mean_terminated_length": 1101.2674560546875,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.8582401638644704,
      "grad_norm": 5.248220443725586,
      "kl": 3.78515625,
      "learning_rate": 1.54183086313042e-07,
      "loss": 0.195,
      "num_tokens": 1433422808.0,
      "reward": 1.1142578125,
      "reward_std": 0.4387296140193939,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.1015625,
      "rewards/format_reward/std": 0.30236753821372986,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.2058434784412384,
      "step": 2514
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1072.4453125,
      "completions/mean_terminated_length": 1011.7261962890625,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.8585815481778613,
      "grad_norm": 6.2392578125,
      "kl": 3.21875,
      "learning_rate": 1.539282298502454e-07,
      "loss": 0.1547,
      "num_tokens": 1434048092.0,
      "reward": 1.08447265625,
      "reward_std": 0.3809046745300293,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0859375,
      "rewards/format_reward/std": 0.28054583072662354,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.20702555775642395,
      "step": 2515
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1115.447265625,
      "completions/mean_terminated_length": 1049.114990234375,
      "completions/min_length": 307.0,
      "completions/min_terminated_length": 307.0,
      "epoch": 0.8589229324912521,
      "grad_norm": 4.1004252433776855,
      "kl": 3.26953125,
      "learning_rate": 1.5367393596548355e-07,
      "loss": 0.1713,
      "num_tokens": 1434697809.0,
      "reward": 1.033203125,
      "reward_std": 0.4006016254425049,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.89453125,
      "rewards/tag_count_reward/std": 0.2214287668466568,
      "step": 2516
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1120.7109375,
      "completions/mean_terminated_length": 1046.3712158203125,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.8592643168046429,
      "grad_norm": 5.666050910949707,
      "kl": 3.08203125,
      "learning_rate": 1.5342020501995375e-07,
      "loss": 0.168,
      "num_tokens": 1435347037.0,
      "reward": 1.08447265625,
      "reward_std": 0.38367778062820435,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.083984375,
      "rewards/format_reward/std": 0.2776356339454651,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.21408694982528687,
      "step": 2517
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2004.0,
      "completions/mean_length": 1129.193359375,
      "completions/mean_terminated_length": 1065.8935546875,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.8596057011180336,
      "grad_norm": 7.628841400146484,
      "kl": 3.21484375,
      "learning_rate": 1.5316703737405416e-07,
      "loss": 0.1428,
      "num_tokens": 1436005488.0,
      "reward": 1.1533203125,
      "reward_std": 0.3962182402610779,
      "rewards/accuracy_reward/mean": 0.1796875,
      "rewards/accuracy_reward/std": 0.38430243730545044,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.21027082204818726,
      "step": 2518
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 1042.45703125,
      "completions/mean_terminated_length": 984.2850952148438,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.8599470854314244,
      "grad_norm": 4.38917875289917,
      "kl": 3.01953125,
      "learning_rate": 1.5291443338738242e-07,
      "loss": 0.1765,
      "num_tokens": 1436623082.0,
      "reward": 1.07470703125,
      "reward_std": 0.35303807258605957,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.90673828125,
      "rewards/tag_count_reward/std": 0.20564086735248566,
      "step": 2519
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1063.9921875,
      "completions/mean_terminated_length": 989.5714721679688,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.8602884697448152,
      "grad_norm": 7.5608229637146,
      "kl": 3.39453125,
      "learning_rate": 1.526623934187359e-07,
      "loss": 0.1604,
      "num_tokens": 1437246470.0,
      "reward": 1.07275390625,
      "reward_std": 0.3858228325843811,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.89892578125,
      "rewards/tag_count_reward/std": 0.2259223759174347,
      "step": 2520
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1040.384765625,
      "completions/mean_terminated_length": 982.0929565429688,
      "completions/min_length": 281.0,
      "completions/min_terminated_length": 281.0,
      "epoch": 0.860629854058206,
      "grad_norm": 7.116761684417725,
      "kl": 2.525390625,
      "learning_rate": 1.524109178261106e-07,
      "loss": 0.157,
      "num_tokens": 1437859611.0,
      "reward": 1.08837890625,
      "reward_std": 0.3956470489501953,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.076171875,
      "rewards/format_reward/std": 0.26553234457969666,
      "rewards/tag_count_reward/mean": 0.90673828125,
      "rewards/tag_count_reward/std": 0.20504523813724518,
      "step": 2521
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1164.919921875,
      "completions/mean_terminated_length": 1096.132568359375,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.8609712383715968,
      "grad_norm": 5.293074607849121,
      "kl": 2.326171875,
      "learning_rate": 1.521600069667012e-07,
      "loss": 0.154,
      "num_tokens": 1438537378.0,
      "reward": 1.0576171875,
      "reward_std": 0.3799906373023987,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.21314142644405365,
      "step": 2522
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1036.826171875,
      "completions/mean_terminated_length": 969.4146118164062,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "epoch": 0.8613126226849876,
      "grad_norm": 4.500375747680664,
      "kl": 2.8046875,
      "learning_rate": 1.5190966119689977e-07,
      "loss": 0.1897,
      "num_tokens": 1439144777.0,
      "reward": 1.16357421875,
      "reward_std": 0.42020463943481445,
      "rewards/accuracy_reward/mean": 0.212890625,
      "rewards/accuracy_reward/std": 0.409751296043396,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.20753724873065948,
      "step": 2523
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1055.787109375,
      "completions/mean_terminated_length": 994.0311889648438,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.8616540069983785,
      "grad_norm": 4.57724666595459,
      "kl": 1.884765625,
      "learning_rate": 1.516598808722962e-07,
      "loss": 0.1277,
      "num_tokens": 1439765436.0,
      "reward": 1.2265625,
      "reward_std": 0.4196757674217224,
      "rewards/accuracy_reward/mean": 0.244140625,
      "rewards/accuracy_reward/std": 0.42999663949012756,
      "rewards/format_reward/mean": 0.060546875,
      "rewards/format_reward/std": 0.2387305200099945,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.19471992552280426,
      "step": 2524
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1090.970703125,
      "completions/mean_terminated_length": 1029.291015625,
      "completions/min_length": 312.0,
      "completions/min_terminated_length": 312.0,
      "epoch": 0.8619953913117693,
      "grad_norm": 2.4420371055603027,
      "kl": 2.30078125,
      "learning_rate": 1.514106663476768e-07,
      "loss": 0.1403,
      "num_tokens": 1440397165.0,
      "reward": 1.12158203125,
      "reward_std": 0.4238749146461487,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.2020832896232605,
      "step": 2525
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.10546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1143.25390625,
      "completions/mean_terminated_length": 1036.580810546875,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.86233677562516,
      "grad_norm": 3.158919095993042,
      "kl": 2.669921875,
      "learning_rate": 1.5116201797702455e-07,
      "loss": 0.1799,
      "num_tokens": 1441062799.0,
      "reward": 1.0625,
      "reward_std": 0.4097965359687805,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.890625,
      "rewards/tag_count_reward/std": 0.22718821465969086,
      "step": 2526
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1082.708984375,
      "completions/mean_terminated_length": 1009.703857421875,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.8626781599385508,
      "grad_norm": 3.6557445526123047,
      "kl": 2.439453125,
      "learning_rate": 1.5091393611351817e-07,
      "loss": 0.1372,
      "num_tokens": 1441698218.0,
      "reward": 1.0244140625,
      "reward_std": 0.3351839780807495,
      "rewards/accuracy_reward/mean": 0.05040322616696358,
      "rewards/accuracy_reward/std": 0.21899642050266266,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.20610326528549194,
      "step": 2527
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1122.416015625,
      "completions/mean_terminated_length": 1008.747802734375,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.8630195442519416,
      "grad_norm": 3.7935750484466553,
      "kl": 3.46875,
      "learning_rate": 1.5066642110953168e-07,
      "loss": 0.243,
      "num_tokens": 1442368607.0,
      "reward": 1.01904296875,
      "reward_std": 0.3598157465457916,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.88427734375,
      "rewards/tag_count_reward/std": 0.23232397437095642,
      "step": 2528
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1102.177734375,
      "completions/mean_terminated_length": 1013.2543334960938,
      "completions/min_length": 309.0,
      "completions/min_terminated_length": 309.0,
      "epoch": 0.8633609285653324,
      "grad_norm": 2.2721869945526123,
      "kl": 2.365234375,
      "learning_rate": 1.5041947331663385e-07,
      "loss": 0.1527,
      "num_tokens": 1443009098.0,
      "reward": 1.0830078125,
      "reward_std": 0.37287774682044983,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.20702843368053436,
      "step": 2529
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1048.83984375,
      "completions/mean_terminated_length": 991.0371704101562,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.8637023128787232,
      "grad_norm": 10.322519302368164,
      "kl": 2.703125,
      "learning_rate": 1.5017309308558804e-07,
      "loss": 0.2011,
      "num_tokens": 1443617928.0,
      "reward": 1.08935546875,
      "reward_std": 0.3528033494949341,
      "rewards/accuracy_reward/mean": 0.12298387289047241,
      "rewards/accuracy_reward/std": 0.32875028252601624,
      "rewards/format_reward/mean": 0.046875,
      "rewards/format_reward/std": 0.21157780289649963,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.19436074793338776,
      "step": 2530
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1045.048828125,
      "completions/mean_terminated_length": 978.1854858398438,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.864043697192114,
      "grad_norm": 4.100895881652832,
      "kl": 3.2421875,
      "learning_rate": 1.499272807663511e-07,
      "loss": 0.2239,
      "num_tokens": 1444228321.0,
      "reward": 1.07861328125,
      "reward_std": 0.3856808543205261,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.21408694982528687,
      "step": 2531
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1153.837890625,
      "completions/mean_terminated_length": 1094.2271728515625,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "epoch": 0.8643850815055049,
      "grad_norm": 2.2413811683654785,
      "kl": 2.34765625,
      "learning_rate": 1.4968203670807367e-07,
      "loss": 0.1116,
      "num_tokens": 1444900078.0,
      "reward": 1.11181640625,
      "reward_std": 0.4081215262413025,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.07421875,
      "rewards/format_reward/std": 0.2623828947544098,
      "rewards/tag_count_reward/mean": 0.91455078125,
      "rewards/tag_count_reward/std": 0.20004449784755707,
      "step": 2532
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1102.888671875,
      "completions/mean_terminated_length": 1066.4644775390625,
      "completions/min_length": 335.0,
      "completions/min_terminated_length": 335.0,
      "epoch": 0.8647264658188957,
      "grad_norm": 6.804876327514648,
      "kl": 2.703125,
      "learning_rate": 1.4943736125909862e-07,
      "loss": 0.1238,
      "num_tokens": 1445536997.0,
      "reward": 1.13232421875,
      "reward_std": 0.4266893267631531,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.087890625,
      "rewards/format_reward/std": 0.2834126651287079,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.17700830101966858,
      "step": 2533
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1066.009765625,
      "completions/mean_terminated_length": 1032.284912109375,
      "completions/min_length": 335.0,
      "completions/min_terminated_length": 335.0,
      "epoch": 0.8650678501322864,
      "grad_norm": 1.6600645780563354,
      "kl": 1.92578125,
      "learning_rate": 1.4919325476696197e-07,
      "loss": 0.0957,
      "num_tokens": 1446161162.0,
      "reward": 1.13134765625,
      "reward_std": 0.3937014639377594,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.076171875,
      "rewards/format_reward/std": 0.26553234457969666,
      "rewards/tag_count_reward/mean": 0.93798828125,
      "rewards/tag_count_reward/std": 0.17677602171897888,
      "step": 2534
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1164.103515625,
      "completions/mean_terminated_length": 1048.9822998046875,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.8654092344456772,
      "grad_norm": 2.229029893875122,
      "kl": 4.27734375,
      "learning_rate": 1.4894971757839084e-07,
      "loss": 0.2655,
      "num_tokens": 1446844063.0,
      "reward": 1.03173828125,
      "reward_std": 0.3998609781265259,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.87744140625,
      "rewards/tag_count_reward/std": 0.24379560351371765,
      "step": 2535
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1134.6640625,
      "completions/mean_terminated_length": 1071.7412109375,
      "completions/min_length": 271.0,
      "completions/min_terminated_length": 271.0,
      "epoch": 0.865750618759068,
      "grad_norm": 9.9767484664917,
      "kl": 3.36328125,
      "learning_rate": 1.487067500393041e-07,
      "loss": 0.161,
      "num_tokens": 1447502515.0,
      "reward": 1.10888671875,
      "reward_std": 0.4104750156402588,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.09375,
      "rewards/format_reward/std": 0.29176566004753113,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.19384385645389557,
      "step": 2536
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1109.14453125,
      "completions/mean_terminated_length": 1060.94873046875,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.8660920030724588,
      "grad_norm": 7.036647796630859,
      "kl": 3.59765625,
      "learning_rate": 1.4846435249481159e-07,
      "loss": 0.1856,
      "num_tokens": 1448150461.0,
      "reward": 1.1728515625,
      "reward_std": 0.4495765268802643,
      "rewards/accuracy_reward/mean": 0.18145161867141724,
      "rewards/accuracy_reward/std": 0.38578101992607117,
      "rewards/format_reward/mean": 0.095703125,
      "rewards/format_reward/std": 0.2944713830947876,
      "rewards/tag_count_reward/mean": 0.9013671875,
      "rewards/tag_count_reward/std": 0.20816993713378906,
      "step": 2537
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 994.533203125,
      "completions/mean_terminated_length": 935.8866577148438,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.8664333873858496,
      "grad_norm": 7.680780410766602,
      "kl": 4.0859375,
      "learning_rate": 1.4822252528921314e-07,
      "loss": 0.1971,
      "num_tokens": 1448739022.0,
      "reward": 1.1787109375,
      "reward_std": 0.4314824342727661,
      "rewards/accuracy_reward/mean": 0.19153225421905518,
      "rewards/accuracy_reward/std": 0.3939041793346405,
      "rewards/format_reward/mean": 0.080078125,
      "rewards/format_reward/std": 0.271679550409317,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.19971762597560883,
      "step": 2538
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 1128.978515625,
      "completions/mean_terminated_length": 1073.7991943359375,
      "completions/min_length": 317.0,
      "completions/min_terminated_length": 317.0,
      "epoch": 0.8667747716992404,
      "grad_norm": 9.54370403289795,
      "kl": 3.220703125,
      "learning_rate": 1.479812687659988e-07,
      "loss": 0.1228,
      "num_tokens": 1449395267.0,
      "reward": 1.12109375,
      "reward_std": 0.3701077103614807,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0859375,
      "rewards/format_reward/std": 0.28054583072662354,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.19234009087085724,
      "step": 2539
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1034.73828125,
      "completions/mean_terminated_length": 991.4012451171875,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.8671161560126313,
      "grad_norm": 11.23932933807373,
      "kl": 2.908203125,
      "learning_rate": 1.4774058326784793e-07,
      "loss": 0.1192,
      "num_tokens": 1450000125.0,
      "reward": 1.134765625,
      "reward_std": 0.4307591915130615,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.08984375,
      "rewards/format_reward/std": 0.2862374484539032,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.19686728715896606,
      "step": 2540
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1073.53515625,
      "completions/mean_terminated_length": 1033.9227294921875,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.8674575403260221,
      "grad_norm": 1.7925382852554321,
      "kl": 2.2734375,
      "learning_rate": 1.4750046913662893e-07,
      "loss": 0.1239,
      "num_tokens": 1450631583.0,
      "reward": 1.12158203125,
      "reward_std": 0.35589835047721863,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.93408203125,
      "rewards/tag_count_reward/std": 0.17535409331321716,
      "step": 2541
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1096.3671875,
      "completions/mean_terminated_length": 1043.3897705078125,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "epoch": 0.8677989246394128,
      "grad_norm": 4.390264511108398,
      "kl": 2.271484375,
      "learning_rate": 1.472609267133983e-07,
      "loss": 0.1189,
      "num_tokens": 1451281355.0,
      "reward": 1.0712890625,
      "reward_std": 0.3726848363876343,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.19748516380786896,
      "step": 2542
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1116.59765625,
      "completions/mean_terminated_length": 1022.4559326171875,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.8681403089528036,
      "grad_norm": 2.5176916122436523,
      "kl": 3.55859375,
      "learning_rate": 1.4702195633840086e-07,
      "loss": 0.2086,
      "num_tokens": 1451940509.0,
      "reward": 1.10107421875,
      "reward_std": 0.40442851185798645,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.89404296875,
      "rewards/tag_count_reward/std": 0.2209184318780899,
      "step": 2543
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1981.0,
      "completions/mean_length": 1114.931640625,
      "completions/mean_terminated_length": 1058.908935546875,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "epoch": 0.8684816932661944,
      "grad_norm": 4.884047508239746,
      "kl": 3.15625,
      "learning_rate": 1.4678355835106862e-07,
      "loss": 0.1385,
      "num_tokens": 1452593322.0,
      "reward": 1.02197265625,
      "reward_std": 0.38512545824050903,
      "rewards/accuracy_reward/mean": 0.03515625,
      "rewards/accuracy_reward/std": 0.1843547374010086,
      "rewards/format_reward/mean": 0.08203125,
      "rewards/format_reward/std": 0.2746807038784027,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.2129412740468979,
      "step": 2544
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1166.640625,
      "completions/mean_terminated_length": 1127.0693359375,
      "completions/min_length": 300.0,
      "completions/min_terminated_length": 300.0,
      "epoch": 0.8688230775795852,
      "grad_norm": 3.527371644973755,
      "kl": 2.2578125,
      "learning_rate": 1.4654573309002081e-07,
      "loss": 0.0698,
      "num_tokens": 1453261762.0,
      "reward": 1.06982421875,
      "reward_std": 0.3864043354988098,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.09375,
      "rewards/format_reward/std": 0.29176566004753113,
      "rewards/tag_count_reward/mean": 0.91552734375,
      "rewards/tag_count_reward/std": 0.19363176822662354,
      "step": 2545
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1136.7421875,
      "completions/mean_terminated_length": 1057.4183349609375,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.869164461892976,
      "grad_norm": 2.3094141483306885,
      "kl": 2.703125,
      "learning_rate": 1.4630848089306282e-07,
      "loss": 0.1297,
      "num_tokens": 1453930350.0,
      "reward": 1.044921875,
      "reward_std": 0.38123565912246704,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.20979996025562286,
      "step": 2546
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1115.732421875,
      "completions/mean_terminated_length": 1067.874755859375,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.8695058462063668,
      "grad_norm": 2.7179768085479736,
      "kl": 2.16015625,
      "learning_rate": 1.4607180209718666e-07,
      "loss": 0.1209,
      "num_tokens": 1454581829.0,
      "reward": 1.03466796875,
      "reward_std": 0.3109338581562042,
      "rewards/accuracy_reward/mean": 0.048828125,
      "rewards/accuracy_reward/std": 0.2157193273305893,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.17769792675971985,
      "step": 2547
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1133.720703125,
      "completions/mean_terminated_length": 1032.5748291015625,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.8698472305197577,
      "grad_norm": 5.016415119171143,
      "kl": 3.55859375,
      "learning_rate": 1.458356970385692e-07,
      "loss": 0.2238,
      "num_tokens": 1455240998.0,
      "reward": 1.10107421875,
      "reward_std": 0.420688658952713,
      "rewards/accuracy_reward/mean": 0.1484375,
      "rewards/accuracy_reward/std": 0.35588082671165466,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.89013671875,
      "rewards/tag_count_reward/std": 0.22011244297027588,
      "step": 2548
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1105.921875,
      "completions/mean_terminated_length": 1032.5389404296875,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "epoch": 0.8701886148331485,
      "grad_norm": 7.587802410125732,
      "kl": 2.48828125,
      "learning_rate": 1.4560016605257285e-07,
      "loss": 0.1559,
      "num_tokens": 1455890942.0,
      "reward": 1.068359375,
      "reward_std": 0.4012216329574585,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.21373461186885834,
      "step": 2549
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1185.232421875,
      "completions/mean_terminated_length": 1112.1165771484375,
      "completions/min_length": 302.0,
      "completions/min_terminated_length": 302.0,
      "epoch": 0.8705299991465392,
      "grad_norm": 1.9166008234024048,
      "kl": 2.2734375,
      "learning_rate": 1.4536520947374438e-07,
      "loss": 0.1179,
      "num_tokens": 1456577765.0,
      "reward": 1.080078125,
      "reward_std": 0.36289283633232117,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.20895110070705414,
      "step": 2550
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 1023.712890625,
      "completions/mean_terminated_length": 979.904296875,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.87087138345993,
      "grad_norm": 3.534048318862915,
      "kl": 2.134765625,
      "learning_rate": 1.4513082763581479e-07,
      "loss": 0.0891,
      "num_tokens": 1457166418.0,
      "reward": 1.17626953125,
      "reward_std": 0.4116772413253784,
      "rewards/accuracy_reward/mean": 0.17578125,
      "rewards/accuracy_reward/std": 0.3810062110424042,
      "rewards/format_reward/mean": 0.07421875,
      "rewards/format_reward/std": 0.2623828947544098,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.18120694160461426,
      "step": 2551
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1052.859375,
      "completions/mean_terminated_length": 993.1097412109375,
      "completions/min_length": 274.0,
      "completions/min_terminated_length": 274.0,
      "epoch": 0.8712127677733208,
      "grad_norm": 10.404422760009766,
      "kl": 2.15625,
      "learning_rate": 1.4489702087169846e-07,
      "loss": 0.1479,
      "num_tokens": 1457788698.0,
      "reward": 1.11865234375,
      "reward_std": 0.384998619556427,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.2008453756570816,
      "step": 2552
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1178.447265625,
      "completions/mean_terminated_length": 1098.722900390625,
      "completions/min_length": 299.0,
      "completions/min_terminated_length": 299.0,
      "epoch": 0.8715541520867116,
      "grad_norm": 7.825228214263916,
      "kl": 3.3125,
      "learning_rate": 1.4466378951349356e-07,
      "loss": 0.2117,
      "num_tokens": 1458469855.0,
      "reward": 1.0068359375,
      "reward_std": 0.3696444630622864,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.8857421875,
      "rewards/tag_count_reward/std": 0.22747193276882172,
      "step": 2553
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 1123.00390625,
      "completions/mean_terminated_length": 1031.6953125,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.8718955364001024,
      "grad_norm": 4.3146443367004395,
      "kl": 2.83203125,
      "learning_rate": 1.4443113389248027e-07,
      "loss": 0.1894,
      "num_tokens": 1459128513.0,
      "reward": 1.0380859375,
      "reward_std": 0.33470016717910767,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.20968833565711975,
      "step": 2554
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1260.181640625,
      "completions/mean_terminated_length": 1174.919921875,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.8722369207134932,
      "grad_norm": 4.6336541175842285,
      "kl": 2.39453125,
      "learning_rate": 1.4419905433912138e-07,
      "loss": 0.1336,
      "num_tokens": 1459856014.0,
      "reward": 1.01708984375,
      "reward_std": 0.3544754981994629,
      "rewards/accuracy_reward/mean": 0.0625,
      "rewards/accuracy_reward/std": 0.2422981858253479,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.89599609375,
      "rewards/tag_count_reward/std": 0.21626292169094086,
      "step": 2555
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1000.650390625,
      "completions/mean_terminated_length": 953.62646484375,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.872578305026884,
      "grad_norm": 3.524115562438965,
      "kl": 1.939453125,
      "learning_rate": 1.439675511830612e-07,
      "loss": 0.0962,
      "num_tokens": 1460454667.0,
      "reward": 1.08740234375,
      "reward_std": 0.38455015420913696,
      "rewards/accuracy_reward/mean": 0.12096773833036423,
      "rewards/accuracy_reward/std": 0.32641899585723877,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.189572274684906,
      "step": 2556
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1041.2421875,
      "completions/mean_terminated_length": 996.040771484375,
      "completions/min_length": 319.0,
      "completions/min_terminated_length": 319.0,
      "epoch": 0.8729196893402749,
      "grad_norm": 4.734194755554199,
      "kl": 2.359375,
      "learning_rate": 1.4373662475312574e-07,
      "loss": 0.1604,
      "num_tokens": 1461061367.0,
      "reward": 1.0537109375,
      "reward_std": 0.3407416343688965,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.18058165907859802,
      "step": 2557
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1038.099609375,
      "completions/mean_terminated_length": 1003.4161987304688,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.8732610736536656,
      "grad_norm": 2.0697131156921387,
      "kl": 1.98046875,
      "learning_rate": 1.4350627537732113e-07,
      "loss": 0.1229,
      "num_tokens": 1461670074.0,
      "reward": 1.0712890625,
      "reward_std": 0.33228811621665955,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.052734375,
      "rewards/format_reward/std": 0.22372129559516907,
      "rewards/tag_count_reward/mean": 0.9365234375,
      "rewards/tag_count_reward/std": 0.1673554629087448,
      "step": 2558
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1127.173828125,
      "completions/mean_terminated_length": 1077.9114990234375,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.8736024579670564,
      "grad_norm": 2.5313568115234375,
      "kl": 2.23046875,
      "learning_rate": 1.432765033828347e-07,
      "loss": 0.1116,
      "num_tokens": 1462324307.0,
      "reward": 1.0595703125,
      "reward_std": 0.381880521774292,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.9072265625,
      "rewards/tag_count_reward/std": 0.20135675370693207,
      "step": 2559
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 1056.529296875,
      "completions/mean_terminated_length": 1009.8956909179688,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.8739438422804472,
      "grad_norm": 1.468004822731018,
      "kl": 2.63671875,
      "learning_rate": 1.4304730909603305e-07,
      "loss": 0.1446,
      "num_tokens": 1462946450.0,
      "reward": 1.162109375,
      "reward_std": 0.41191843152046204,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.18666234612464905,
      "step": 2560
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1095.26171875,
      "completions/mean_terminated_length": 1054.5133056640625,
      "completions/min_length": 300.0,
      "completions/min_terminated_length": 300.0,
      "epoch": 0.874285226593838,
      "grad_norm": 4.126630783081055,
      "kl": 2.494140625,
      "learning_rate": 1.428186928424625e-07,
      "loss": 0.1257,
      "num_tokens": 1463579448.0,
      "reward": 1.16650390625,
      "reward_std": 0.3979930281639099,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.92626953125,
      "rewards/tag_count_reward/std": 0.18913322687149048,
      "step": 2561
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1139.771484375,
      "completions/mean_terminated_length": 1041.4783935546875,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.8746266109072288,
      "grad_norm": 6.114365577697754,
      "kl": 2.91796875,
      "learning_rate": 1.425906549468481e-07,
      "loss": 0.1625,
      "num_tokens": 1464241587.0,
      "reward": 1.158203125,
      "reward_std": 0.46258124709129333,
      "rewards/accuracy_reward/mean": 0.177734375,
      "rewards/accuracy_reward/std": 0.3826628625392914,
      "rewards/format_reward/mean": 0.08203125,
      "rewards/format_reward/std": 0.2746807038784027,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.2182645946741104,
      "step": 2562
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1004.640625,
      "completions/mean_terminated_length": 964.4299926757812,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.8749679952206196,
      "grad_norm": 11.661547660827637,
      "kl": 2.521484375,
      "learning_rate": 1.4236319573309374e-07,
      "loss": 0.0627,
      "num_tokens": 1464834667.0,
      "reward": 1.234375,
      "reward_std": 0.3940182328224182,
      "rewards/accuracy_reward/mean": 0.19959677755832672,
      "rewards/accuracy_reward/std": 0.40010079741477966,
      "rewards/format_reward/mean": 0.095703125,
      "rewards/format_reward/std": 0.2944713830947876,
      "rewards/tag_count_reward/mean": 0.9453125,
      "rewards/tag_count_reward/std": 0.16899466514587402,
      "step": 2563
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1126.82421875,
      "completions/mean_terminated_length": 1059.232666015625,
      "completions/min_length": 288.0,
      "completions/min_terminated_length": 288.0,
      "epoch": 0.8753093795340104,
      "grad_norm": 2.236179828643799,
      "kl": 3.09375,
      "learning_rate": 1.421363155242809e-07,
      "loss": 0.1616,
      "num_tokens": 1465502433.0,
      "reward": 1.03515625,
      "reward_std": 0.4142110347747803,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.88671875,
      "rewards/tag_count_reward/std": 0.22362731397151947,
      "step": 2564
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1080.033203125,
      "completions/mean_terminated_length": 1006.82568359375,
      "completions/min_length": 279.0,
      "completions/min_terminated_length": 279.0,
      "epoch": 0.8756507638474013,
      "grad_norm": 4.514580249786377,
      "kl": 2.25,
      "learning_rate": 1.4191001464266915e-07,
      "loss": 0.1318,
      "num_tokens": 1466131778.0,
      "reward": 1.13525390625,
      "reward_std": 0.3867892622947693,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18835864961147308,
      "step": 2565
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1017.310546875,
      "completions/mean_terminated_length": 990.4589233398438,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.875992148160792,
      "grad_norm": 4.5749125480651855,
      "kl": 2.333984375,
      "learning_rate": 1.4168429340969485e-07,
      "loss": 0.0852,
      "num_tokens": 1466733217.0,
      "reward": 1.06787109375,
      "reward_std": 0.3650696277618408,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.18625685572624207,
      "step": 2566
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1165.134765625,
      "completions/mean_terminated_length": 1092.34033203125,
      "completions/min_length": 360.0,
      "completions/min_terminated_length": 360.0,
      "epoch": 0.8763335324741828,
      "grad_norm": 1.8185319900512695,
      "kl": 2.9453125,
      "learning_rate": 1.4145915214597114e-07,
      "loss": 0.1619,
      "num_tokens": 1467408646.0,
      "reward": 1.15478515625,
      "reward_std": 0.4403513967990875,
      "rewards/accuracy_reward/mean": 0.1796875,
      "rewards/accuracy_reward/std": 0.38430243730545044,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.90283203125,
      "rewards/tag_count_reward/std": 0.20501726865768433,
      "step": 2567
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1096.00390625,
      "completions/mean_terminated_length": 1051.2269287109375,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.8766749167875736,
      "grad_norm": 5.176822662353516,
      "kl": 2.17578125,
      "learning_rate": 1.4123459117128738e-07,
      "loss": 0.084,
      "num_tokens": 1468042232.0,
      "reward": 1.0498046875,
      "reward_std": 0.35536178946495056,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.19067105650901794,
      "step": 2568
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1099.076171875,
      "completions/mean_terminated_length": 1056.471435546875,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.8770163011009644,
      "grad_norm": 4.8754143714904785,
      "kl": 2.43359375,
      "learning_rate": 1.4101061080460862e-07,
      "loss": 0.0986,
      "num_tokens": 1468675951.0,
      "reward": 1.1181640625,
      "reward_std": 0.4465675354003906,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.1015625,
      "rewards/format_reward/std": 0.30236753821372986,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.19663172960281372,
      "step": 2569
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1116.935546875,
      "completions/mean_terminated_length": 1067.12548828125,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.8773576854143552,
      "grad_norm": 8.132530212402344,
      "kl": 2.298828125,
      "learning_rate": 1.4078721136407525e-07,
      "loss": 0.1701,
      "num_tokens": 1469331486.0,
      "reward": 1.076171875,
      "reward_std": 0.3553844094276428,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.05859375,
      "rewards/format_reward/std": 0.23509246110916138,
      "rewards/tag_count_reward/mean": 0.92578125,
      "rewards/tag_count_reward/std": 0.1840227097272873,
      "step": 2570
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1067.01953125,
      "completions/mean_terminated_length": 1035.375,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.877699069727746,
      "grad_norm": 7.264908313751221,
      "kl": 2.404296875,
      "learning_rate": 1.4056439316700256e-07,
      "loss": 0.0678,
      "num_tokens": 1469947080.0,
      "reward": 1.0791015625,
      "reward_std": 0.3467535972595215,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.9326171875,
      "rewards/tag_count_reward/std": 0.17444512248039246,
      "step": 2571
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1142.857421875,
      "completions/mean_terminated_length": 1064.06591796875,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.8780404540411368,
      "grad_norm": 2.367326498031616,
      "kl": 2.345703125,
      "learning_rate": 1.4034215652988026e-07,
      "loss": 0.1355,
      "num_tokens": 1470616543.0,
      "reward": 1.05029296875,
      "reward_std": 0.33371466398239136,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.91162109375,
      "rewards/tag_count_reward/std": 0.2012113630771637,
      "step": 2572
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1104.765625,
      "completions/mean_terminated_length": 1060.4007568359375,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "epoch": 0.8783818383545277,
      "grad_norm": 4.336972713470459,
      "kl": 1.791015625,
      "learning_rate": 1.4012050176837205e-07,
      "loss": 0.0606,
      "num_tokens": 1471259239.0,
      "reward": 1.134765625,
      "reward_std": 0.37284043431282043,
      "rewards/accuracy_reward/mean": 0.11290322244167328,
      "rewards/accuracy_reward/std": 0.3167939782142639,
      "rewards/format_reward/mean": 0.08203125,
      "rewards/format_reward/std": 0.2746807038784027,
      "rewards/tag_count_reward/mean": 0.943359375,
      "rewards/tag_count_reward/std": 0.15707340836524963,
      "step": 2573
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.115234375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1165.580078125,
      "completions/mean_terminated_length": 1050.6512451171875,
      "completions/min_length": 357.0,
      "completions/min_terminated_length": 357.0,
      "epoch": 0.8787232226679184,
      "grad_norm": 1.7907490730285645,
      "kl": 2.5,
      "learning_rate": 1.3989942919731484e-07,
      "loss": 0.1496,
      "num_tokens": 1471936000.0,
      "reward": 1.08447265625,
      "reward_std": 0.40894293785095215,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.88134765625,
      "rewards/tag_count_reward/std": 0.23916590213775635,
      "step": 2574
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1118.337890625,
      "completions/mean_terminated_length": 1045.9219970703125,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.8790646069813092,
      "grad_norm": 2.558666467666626,
      "kl": 2.142578125,
      "learning_rate": 1.3967893913071898e-07,
      "loss": 0.0975,
      "num_tokens": 1472585821.0,
      "reward": 1.11376953125,
      "reward_std": 0.39217886328697205,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.08203125,
      "rewards/format_reward/std": 0.2746807038784027,
      "rewards/tag_count_reward/mean": 0.91259765625,
      "rewards/tag_count_reward/std": 0.19981031119823456,
      "step": 2575
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 1136.1484375,
      "completions/mean_terminated_length": 1048.2825927734375,
      "completions/min_length": 274.0,
      "completions/min_terminated_length": 274.0,
      "epoch": 0.8794059912947,
      "grad_norm": 7.2972588539123535,
      "kl": 2.2890625,
      "learning_rate": 1.3945903188176719e-07,
      "loss": 0.1348,
      "num_tokens": 1473241225.0,
      "reward": 1.1259765625,
      "reward_std": 0.4241016209125519,
      "rewards/accuracy_reward/mean": 0.16330644488334656,
      "rewards/accuracy_reward/std": 0.37001824378967285,
      "rewards/format_reward/mean": 0.076171875,
      "rewards/format_reward/std": 0.26553234457969666,
      "rewards/tag_count_reward/mean": 0.8916015625,
      "rewards/tag_count_reward/std": 0.2238643318414688,
      "step": 2576
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2000.0,
      "completions/mean_length": 1093.232421875,
      "completions/mean_terminated_length": 1040.0804443359375,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.8797473756080908,
      "grad_norm": 52.69700241088867,
      "kl": 2.69140625,
      "learning_rate": 1.3923970776281452e-07,
      "loss": 0.1308,
      "num_tokens": 1473876976.0,
      "reward": 1.1044921875,
      "reward_std": 0.4066890478134155,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.07421875,
      "rewards/format_reward/std": 0.2623828947544098,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.19871997833251953,
      "step": 2577
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1183.349609375,
      "completions/mean_terminated_length": 1093.9029541015625,
      "completions/min_length": 300.0,
      "completions/min_terminated_length": 300.0,
      "epoch": 0.8800887599214816,
      "grad_norm": 3.216992139816284,
      "kl": 2.484375,
      "learning_rate": 1.3902096708538762e-07,
      "loss": 0.1625,
      "num_tokens": 1474573379.0,
      "reward": 1.0625,
      "reward_std": 0.43896353244781494,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.09375,
      "rewards/format_reward/std": 0.29176566004753113,
      "rewards/tag_count_reward/mean": 0.88671875,
      "rewards/tag_count_reward/std": 0.23483219742774963,
      "step": 2578
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1093.90625,
      "completions/mean_terminated_length": 1021.7479248046875,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "epoch": 0.8804301442348724,
      "grad_norm": 2.597442388534546,
      "kl": 2.080078125,
      "learning_rate": 1.3880281016018455e-07,
      "loss": 0.1229,
      "num_tokens": 1475210403.0,
      "reward": 1.12060546875,
      "reward_std": 0.39143675565719604,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.91162109375,
      "rewards/tag_count_reward/std": 0.2077903300523758,
      "step": 2579
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1070.03515625,
      "completions/mean_terminated_length": 1013.4586181640625,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.8807715285482632,
      "grad_norm": 6.768167972564697,
      "kl": 1.873046875,
      "learning_rate": 1.3858523729707402e-07,
      "loss": 0.1352,
      "num_tokens": 1475829029.0,
      "reward": 1.10986328125,
      "reward_std": 0.3886840045452118,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.04296875,
      "rewards/format_reward/std": 0.2029850035905838,
      "rewards/tag_count_reward/mean": 0.90673828125,
      "rewards/tag_count_reward/std": 0.20444786548614502,
      "step": 2580
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1098.67578125,
      "completions/mean_terminated_length": 1013.842529296875,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.881112912861654,
      "grad_norm": 4.697291374206543,
      "kl": 2.8828125,
      "learning_rate": 1.3836824880509543e-07,
      "loss": 0.1806,
      "num_tokens": 1476477599.0,
      "reward": 1.02490234375,
      "reward_std": 0.35676270723342896,
      "rewards/accuracy_reward/mean": 0.058467742055654526,
      "rewards/accuracy_reward/std": 0.23486268520355225,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.89794921875,
      "rewards/tag_count_reward/std": 0.21999086439609528,
      "step": 2581
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1095.65234375,
      "completions/mean_terminated_length": 1021.4694213867188,
      "completions/min_length": 344.0,
      "completions/min_terminated_length": 344.0,
      "epoch": 0.8814542971750448,
      "grad_norm": 8.37886905670166,
      "kl": 2.025390625,
      "learning_rate": 1.3815184499245775e-07,
      "loss": 0.1563,
      "num_tokens": 1477121341.0,
      "reward": 0.99609375,
      "reward_std": 0.31779083609580994,
      "rewards/accuracy_reward/mean": 0.0390625,
      "rewards/accuracy_reward/std": 0.1939331740140915,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.21269488334655762,
      "step": 2582
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1130.4609375,
      "completions/mean_terminated_length": 1054.8076171875,
      "completions/min_length": 344.0,
      "completions/min_terminated_length": 344.0,
      "epoch": 0.8817956814884356,
      "grad_norm": 2.9886717796325684,
      "kl": 2.90625,
      "learning_rate": 1.3793602616653977e-07,
      "loss": 0.1757,
      "num_tokens": 1477782809.0,
      "reward": 1.0625,
      "reward_std": 0.422885000705719,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.890625,
      "rewards/tag_count_reward/std": 0.22502446174621582,
      "step": 2583
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1088.17578125,
      "completions/mean_terminated_length": 1017.7484130859375,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.8821370658018264,
      "grad_norm": 5.442252159118652,
      "kl": 2.423828125,
      "learning_rate": 1.377207926338894e-07,
      "loss": 0.1481,
      "num_tokens": 1478416435.0,
      "reward": 1.17431640625,
      "reward_std": 0.41693174839019775,
      "rewards/accuracy_reward/mean": 0.220703125,
      "rewards/accuracy_reward/std": 0.4151262938976288,
      "rewards/format_reward/mean": 0.048828125,
      "rewards/format_reward/std": 0.2157193273305893,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.2146575003862381,
      "step": 2584
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1148.48828125,
      "completions/mean_terminated_length": 1094.4803466796875,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.8824784501152172,
      "grad_norm": 5.479371070861816,
      "kl": 2.103515625,
      "learning_rate": 1.37506144700223e-07,
      "loss": 0.0854,
      "num_tokens": 1479075709.0,
      "reward": 1.09814453125,
      "reward_std": 0.3576146066188812,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.1780041754245758,
      "step": 2585
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1145.599609375,
      "completions/mean_terminated_length": 1054.3892822265625,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.882819834428608,
      "grad_norm": 1.8868467807769775,
      "kl": 2.41015625,
      "learning_rate": 1.3729208267042524e-07,
      "loss": 0.1494,
      "num_tokens": 1479736064.0,
      "reward": 1.0986328125,
      "reward_std": 0.42256882786750793,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.076171875,
      "rewards/format_reward/std": 0.26553234457969666,
      "rewards/tag_count_reward/mean": 0.8955078125,
      "rewards/tag_count_reward/std": 0.21911880373954773,
      "step": 2586
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1077.48046875,
      "completions/mean_terminated_length": 1004.0798950195312,
      "completions/min_length": 326.0,
      "completions/min_terminated_length": 326.0,
      "epoch": 0.8831612187419988,
      "grad_norm": 2.0429177284240723,
      "kl": 1.9111328125,
      "learning_rate": 1.3707860684854872e-07,
      "loss": 0.0989,
      "num_tokens": 1480364294.0,
      "reward": 1.1416015625,
      "reward_std": 0.3803124725818634,
      "rewards/accuracy_reward/mean": 0.14717741310596466,
      "rewards/accuracy_reward/std": 0.3546403646469116,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.19495287537574768,
      "step": 2587
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1125.865234375,
      "completions/mean_terminated_length": 1054.0357666015625,
      "completions/min_length": 322.0,
      "completions/min_terminated_length": 322.0,
      "epoch": 0.8835026030553896,
      "grad_norm": 1.641013264656067,
      "kl": 2.01171875,
      "learning_rate": 1.3686571753781302e-07,
      "loss": 0.1268,
      "num_tokens": 1481014849.0,
      "reward": 1.06298828125,
      "reward_std": 0.38058561086654663,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.19151799380779266,
      "step": 2588
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1181.50390625,
      "completions/mean_terminated_length": 1106.0765380859375,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "epoch": 0.8838439873687804,
      "grad_norm": 6.263635158538818,
      "kl": 2.072265625,
      "learning_rate": 1.36653415040605e-07,
      "loss": 0.1046,
      "num_tokens": 1481702947.0,
      "reward": 1.0849609375,
      "reward_std": 0.42133569717407227,
      "rewards/accuracy_reward/mean": 0.11088709533214569,
      "rewards/accuracy_reward/std": 0.3143092691898346,
      "rewards/format_reward/mean": 0.076171875,
      "rewards/format_reward/std": 0.26553234457969666,
      "rewards/tag_count_reward/mean": 0.9013671875,
      "rewards/tag_count_reward/std": 0.21396473050117493,
      "step": 2589
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1121.6015625,
      "completions/mean_terminated_length": 1057.7786865234375,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.8841853716821712,
      "grad_norm": 3.618290662765503,
      "kl": 2.6953125,
      "learning_rate": 1.3644169965847787e-07,
      "loss": 0.1316,
      "num_tokens": 1482358583.0,
      "reward": 1.07763671875,
      "reward_std": 0.39267897605895996,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.92138671875,
      "rewards/tag_count_reward/std": 0.19357748329639435,
      "step": 2590
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1044.71484375,
      "completions/mean_terminated_length": 997.5255126953125,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.884526755995562,
      "grad_norm": 2.9081003665924072,
      "kl": 2.037109375,
      "learning_rate": 1.3623057169215102e-07,
      "loss": 0.0992,
      "num_tokens": 1482962949.0,
      "reward": 1.15185546875,
      "reward_std": 0.3780638575553894,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.18066298961639404,
      "step": 2591
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1033.685546875,
      "completions/mean_terminated_length": 994.5942993164062,
      "completions/min_length": 308.0,
      "completions/min_terminated_length": 308.0,
      "epoch": 0.8848681403089528,
      "grad_norm": 1.4806687831878662,
      "kl": 1.90234375,
      "learning_rate": 1.3602003144150926e-07,
      "loss": 0.0857,
      "num_tokens": 1483561476.0,
      "reward": 1.13720703125,
      "reward_std": 0.4037706255912781,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.93212890625,
      "rewards/tag_count_reward/std": 0.17178115248680115,
      "step": 2592
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1100.26171875,
      "completions/mean_terminated_length": 1055.68505859375,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.8852095246223436,
      "grad_norm": 5.997927188873291,
      "kl": 2.296875,
      "learning_rate": 1.3581007920560281e-07,
      "loss": 0.0993,
      "num_tokens": 1484200634.0,
      "reward": 1.08251953125,
      "reward_std": 0.38572585582733154,
      "rewards/accuracy_reward/mean": 0.060483869165182114,
      "rewards/accuracy_reward/std": 0.2386218160390854,
      "rewards/format_reward/mean": 0.095703125,
      "rewards/format_reward/std": 0.2944713830947876,
      "rewards/tag_count_reward/mean": 0.92822265625,
      "rewards/tag_count_reward/std": 0.17722409963607788,
      "step": 2593
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1042.53125,
      "completions/mean_terminated_length": 977.729736328125,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.8855509089357344,
      "grad_norm": 5.953350067138672,
      "kl": 3.009765625,
      "learning_rate": 1.3560071528264653e-07,
      "loss": 0.1387,
      "num_tokens": 1484807978.0,
      "reward": 1.1689453125,
      "reward_std": 0.43317079544067383,
      "rewards/accuracy_reward/mean": 0.171875,
      "rewards/accuracy_reward/std": 0.3776407241821289,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.9189453125,
      "rewards/tag_count_reward/std": 0.1954032927751541,
      "step": 2594
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1087.54296875,
      "completions/mean_terminated_length": 1048.5,
      "completions/min_length": 312.0,
      "completions/min_terminated_length": 312.0,
      "epoch": 0.8858922932491252,
      "grad_norm": 2.646212339401245,
      "kl": 2.111328125,
      "learning_rate": 1.3539193997001976e-07,
      "loss": 0.1032,
      "num_tokens": 1485433952.0,
      "reward": 1.11865234375,
      "reward_std": 0.36381471157073975,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.93701171875,
      "rewards/tag_count_reward/std": 0.17079374194145203,
      "step": 2595
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1163.26953125,
      "completions/mean_terminated_length": 1102.3173828125,
      "completions/min_length": 249.0,
      "completions/min_terminated_length": 249.0,
      "epoch": 0.886233677562516,
      "grad_norm": 5.337454319000244,
      "kl": 2.9765625,
      "learning_rate": 1.351837535642657e-07,
      "loss": 0.1189,
      "num_tokens": 1486102170.0,
      "reward": 1.02783203125,
      "reward_std": 0.4115527868270874,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.88330078125,
      "rewards/tag_count_reward/std": 0.2286466658115387,
      "step": 2596
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1085.591796875,
      "completions/mean_terminated_length": 1025.69091796875,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.8865750618759068,
      "grad_norm": 4.097114086151123,
      "kl": 1.826171875,
      "learning_rate": 1.3497615636109124e-07,
      "loss": 0.1159,
      "num_tokens": 1486734665.0,
      "reward": 1.07080078125,
      "reward_std": 0.34852519631385803,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.18690726161003113,
      "step": 2597
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 1104.447265625,
      "completions/mean_terminated_length": 1066.0914306640625,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.8869164461892975,
      "grad_norm": 4.098260879516602,
      "kl": 1.693359375,
      "learning_rate": 1.3476914865536608e-07,
      "loss": 0.0579,
      "num_tokens": 1487374862.0,
      "reward": 1.052734375,
      "reward_std": 0.34565094113349915,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.16699250042438507,
      "step": 2598
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1085.302734375,
      "completions/mean_terminated_length": 1027.5010986328125,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.8872578305026884,
      "grad_norm": 6.141515731811523,
      "kl": 2.33203125,
      "learning_rate": 1.3456273074112287e-07,
      "loss": 0.0997,
      "num_tokens": 1488008521.0,
      "reward": 1.09375,
      "reward_std": 0.38844335079193115,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.1852131336927414,
      "step": 2599
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1182.40625,
      "completions/mean_terminated_length": 1078.23193359375,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.8875992148160792,
      "grad_norm": 2.642157554626465,
      "kl": 3.15234375,
      "learning_rate": 1.3435690291155627e-07,
      "loss": 0.1766,
      "num_tokens": 1488687369.0,
      "reward": 1.1142578125,
      "reward_std": 0.4052448570728302,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.9091796875,
      "rewards/tag_count_reward/std": 0.21683931350708008,
      "step": 2600
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1183.5078125,
      "completions/mean_terminated_length": 1116.1683349609375,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.88794059912947,
      "grad_norm": 3.0880329608917236,
      "kl": 2.154296875,
      "learning_rate": 1.341516654590231e-07,
      "loss": 0.1188,
      "num_tokens": 1489366765.0,
      "reward": 1.064453125,
      "reward_std": 0.36538228392601013,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.08984375,
      "rewards/format_reward/std": 0.2862374484539032,
      "rewards/tag_count_reward/mean": 0.919921875,
      "rewards/tag_count_reward/std": 0.18816134333610535,
      "step": 2601
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1095.716796875,
      "completions/mean_terminated_length": 1050.9263916015625,
      "completions/min_length": 342.0,
      "completions/min_terminated_length": 342.0,
      "epoch": 0.8882819834428608,
      "grad_norm": 1.7701585292816162,
      "kl": 1.544921875,
      "learning_rate": 1.339470186750413e-07,
      "loss": 0.0684,
      "num_tokens": 1490002812.0,
      "reward": 1.2080078125,
      "reward_std": 0.4486067593097687,
      "rewards/accuracy_reward/mean": 0.2177419364452362,
      "rewards/accuracy_reward/std": 0.41312772035598755,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.9248046875,
      "rewards/tag_count_reward/std": 0.18822988867759705,
      "step": 2602
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1036.943359375,
      "completions/mean_terminated_length": 989.3885498046875,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.8886233677562516,
      "grad_norm": 3.172309398651123,
      "kl": 2.37890625,
      "learning_rate": 1.3374296285029014e-07,
      "loss": 0.131,
      "num_tokens": 1490608351.0,
      "reward": 1.1083984375,
      "reward_std": 0.3886687755584717,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.19495287537574768,
      "step": 2603
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1055.9765625,
      "completions/mean_terminated_length": 1009.3169555664062,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.8889647520696424,
      "grad_norm": 1.8199608325958252,
      "kl": 1.73828125,
      "learning_rate": 1.335394982746091e-07,
      "loss": 0.0803,
      "num_tokens": 1491221139.0,
      "reward": 1.177734375,
      "reward_std": 0.3965303897857666,
      "rewards/accuracy_reward/mean": 0.166015625,
      "rewards/accuracy_reward/std": 0.3724585771560669,
      "rewards/format_reward/mean": 0.080078125,
      "rewards/format_reward/std": 0.271679550409317,
      "rewards/tag_count_reward/mean": 0.931640625,
      "rewards/tag_count_reward/std": 0.1782301664352417,
      "step": 2604
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1024.482421875,
      "completions/mean_terminated_length": 974.1454467773438,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.8893061363830332,
      "grad_norm": 2.8290622234344482,
      "kl": 2.4765625,
      "learning_rate": 1.333366252369983e-07,
      "loss": 0.1535,
      "num_tokens": 1491820618.0,
      "reward": 1.1318359375,
      "reward_std": 0.376934677362442,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.05078125,
      "rewards/format_reward/std": 0.21976542472839355,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.18808770179748535,
      "step": 2605
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 1082.17578125,
      "completions/mean_terminated_length": 1017.7875366210938,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.889647520696424,
      "grad_norm": 6.18074893951416,
      "kl": 2.18359375,
      "learning_rate": 1.3313434402561725e-07,
      "loss": 0.1652,
      "num_tokens": 1492446900.0,
      "reward": 1.22314453125,
      "reward_std": 0.39326757192611694,
      "rewards/accuracy_reward/mean": 0.2421875,
      "rewards/accuracy_reward/std": 0.42882615327835083,
      "rewards/format_reward/mean": 0.056640625,
      "rewards/format_reward/std": 0.23138070106506348,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18174928426742554,
      "step": 2606
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1104.5859375,
      "completions/mean_terminated_length": 1015.888916015625,
      "completions/min_length": 300.0,
      "completions/min_terminated_length": 300.0,
      "epoch": 0.8899889050098148,
      "grad_norm": 6.825827121734619,
      "kl": 2.22265625,
      "learning_rate": 1.3293265492778502e-07,
      "loss": 0.1564,
      "num_tokens": 1493086496.0,
      "reward": 1.0810546875,
      "reward_std": 0.3840760588645935,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.8994140625,
      "rewards/tag_count_reward/std": 0.21703311800956726,
      "step": 2607
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1172.501953125,
      "completions/mean_terminated_length": 1116.076904296875,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.8903302893232056,
      "grad_norm": 4.828230857849121,
      "kl": 1.912109375,
      "learning_rate": 1.3273155822997975e-07,
      "loss": 0.0708,
      "num_tokens": 1493764081.0,
      "reward": 1.07763671875,
      "reward_std": 0.38608235120773315,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.92724609375,
      "rewards/tag_count_reward/std": 0.17957013845443726,
      "step": 2608
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1986.0,
      "completions/mean_length": 1070.37109375,
      "completions/mean_terminated_length": 991.9957275390625,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "epoch": 0.8906716736365964,
      "grad_norm": 2.175081491470337,
      "kl": 2.541015625,
      "learning_rate": 1.3253105421783794e-07,
      "loss": 0.1681,
      "num_tokens": 1494385695.0,
      "reward": 1.16650390625,
      "reward_std": 0.4186092019081116,
      "rewards/accuracy_reward/mean": 0.1796875,
      "rewards/accuracy_reward/std": 0.38430243730545044,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.1942574828863144,
      "step": 2609
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1165.125,
      "completions/mean_terminated_length": 1090.3050537109375,
      "completions/min_length": 315.0,
      "completions/min_terminated_length": 315.0,
      "epoch": 0.8910130579499872,
      "grad_norm": 4.508205890655518,
      "kl": 2.671875,
      "learning_rate": 1.3233114317615436e-07,
      "loss": 0.1315,
      "num_tokens": 1495055967.0,
      "reward": 1.12841796875,
      "reward_std": 0.4585619866847992,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.08203125,
      "rewards/format_reward/std": 0.2746807038784027,
      "rewards/tag_count_reward/mean": 0.90576171875,
      "rewards/tag_count_reward/std": 0.2093251794576645,
      "step": 2610
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1165.01953125,
      "completions/mean_terminated_length": 1086.1148681640625,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.891354442263378,
      "grad_norm": 2.893400192260742,
      "kl": 2.41796875,
      "learning_rate": 1.3213182538888146e-07,
      "loss": 0.1541,
      "num_tokens": 1495735145.0,
      "reward": 1.07421875,
      "reward_std": 0.3993414342403412,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.08984375,
      "rewards/format_reward/std": 0.2862374484539032,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.21027308702468872,
      "step": 2611
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 1105.142578125,
      "completions/mean_terminated_length": 1040.185791015625,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "epoch": 0.8916958265767688,
      "grad_norm": 2.8259124755859375,
      "kl": 2.91015625,
      "learning_rate": 1.31933101139129e-07,
      "loss": 0.1368,
      "num_tokens": 1496373522.0,
      "reward": 1.076171875,
      "reward_std": 0.3546481430530548,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.900390625,
      "rewards/tag_count_reward/std": 0.22138561308383942,
      "step": 2612
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1137.958984375,
      "completions/mean_terminated_length": 1060.8369140625,
      "completions/min_length": 332.0,
      "completions/min_terminated_length": 332.0,
      "epoch": 0.8920372108901596,
      "grad_norm": 3.939441442489624,
      "kl": 2.822265625,
      "learning_rate": 1.317349707091638e-07,
      "loss": 0.1316,
      "num_tokens": 1497039709.0,
      "reward": 1.03759765625,
      "reward_std": 0.37869730591773987,
      "rewards/accuracy_reward/mean": 0.04296875,
      "rewards/accuracy_reward/std": 0.2029850035905838,
      "rewards/format_reward/mean": 0.091796875,
      "rewards/format_reward/std": 0.289021372795105,
      "rewards/tag_count_reward/mean": 0.90283203125,
      "rewards/tag_count_reward/std": 0.21089871227741241,
      "step": 2613
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1123.126953125,
      "completions/mean_terminated_length": 1059.4091796875,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.8923785952035505,
      "grad_norm": 2.58689284324646,
      "kl": 2.357421875,
      "learning_rate": 1.315374343804092e-07,
      "loss": 0.1303,
      "num_tokens": 1497690430.0,
      "reward": 1.12890625,
      "reward_std": 0.42655646800994873,
      "rewards/accuracy_reward/mean": 0.12298387289047241,
      "rewards/accuracy_reward/std": 0.32875028252601624,
      "rewards/format_reward/mean": 0.095703125,
      "rewards/format_reward/std": 0.2944713830947876,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.1995285600423813,
      "step": 2614
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1085.357421875,
      "completions/mean_terminated_length": 1016.8848876953125,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.8927199795169412,
      "grad_norm": 4.555649280548096,
      "kl": 2.8046875,
      "learning_rate": 1.313404924334447e-07,
      "loss": 0.176,
      "num_tokens": 1498322373.0,
      "reward": 1.06640625,
      "reward_std": 0.37292221188545227,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.0546875,
      "rewards/format_reward/std": 0.2275916188955307,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.20571577548980713,
      "step": 2615
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1178.947265625,
      "completions/mean_terminated_length": 1097.241455078125,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.893061363830332,
      "grad_norm": 8.320698738098145,
      "kl": 2.2265625,
      "learning_rate": 1.3114414514800532e-07,
      "loss": 0.1673,
      "num_tokens": 1499009098.0,
      "reward": 1.04150390625,
      "reward_std": 0.37569621205329895,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.07421875,
      "rewards/format_reward/std": 0.2623828947544098,
      "rewards/tag_count_reward/mean": 0.90087890625,
      "rewards/tag_count_reward/std": 0.20940276980400085,
      "step": 2616
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1069.419921875,
      "completions/mean_terminated_length": 1014.9423217773438,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.8934027481437228,
      "grad_norm": 1.2287455797195435,
      "kl": 1.994140625,
      "learning_rate": 1.3094839280298182e-07,
      "loss": 0.082,
      "num_tokens": 1499631473.0,
      "reward": 1.13134765625,
      "reward_std": 0.4147496521472931,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.09375,
      "rewards/format_reward/std": 0.29176566004753113,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.20167149603366852,
      "step": 2617
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1022.142578125,
      "completions/mean_terminated_length": 980.4410400390625,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.8937441324571136,
      "grad_norm": 1.7126773595809937,
      "kl": 2.263671875,
      "learning_rate": 1.3075323567641945e-07,
      "loss": 0.1111,
      "num_tokens": 1500234602.0,
      "reward": 1.130859375,
      "reward_std": 0.394452303647995,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.18587233126163483,
      "step": 2618
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1160.025390625,
      "completions/mean_terminated_length": 1072.3712158203125,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.8940855167705044,
      "grad_norm": 9.404876708984375,
      "kl": 2.462890625,
      "learning_rate": 1.305586740455184e-07,
      "loss": 0.1667,
      "num_tokens": 1500910151.0,
      "reward": 1.00146484375,
      "reward_std": 0.35454005002975464,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.041015625,
      "rewards/format_reward/std": 0.19852031767368317,
      "rewards/tag_count_reward/mean": 0.89404296875,
      "rewards/tag_count_reward/std": 0.22907254099845886,
      "step": 2619
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1145.693359375,
      "completions/mean_terminated_length": 1069.2266845703125,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "epoch": 0.8944269010838952,
      "grad_norm": 7.759430408477783,
      "kl": 2.501953125,
      "learning_rate": 1.3036470818663282e-07,
      "loss": 0.11,
      "num_tokens": 1501580090.0,
      "reward": 1.1298828125,
      "reward_std": 0.4416842758655548,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.091796875,
      "rewards/format_reward/std": 0.289021372795105,
      "rewards/tag_count_reward/mean": 0.8994140625,
      "rewards/tag_count_reward/std": 0.2101617306470871,
      "step": 2620
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1070.552734375,
      "completions/mean_terminated_length": 1018.2612915039062,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.894768285397286,
      "grad_norm": 5.192171096801758,
      "kl": 2.466796875,
      "learning_rate": 1.3017133837527082e-07,
      "loss": 0.1407,
      "num_tokens": 1502207925.0,
      "reward": 1.05322265625,
      "reward_std": 0.3559301197528839,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.19488608837127686,
      "step": 2621
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1084.482421875,
      "completions/mean_terminated_length": 1032.9361572265625,
      "completions/min_length": 297.0,
      "completions/min_terminated_length": 297.0,
      "epoch": 0.8951096697106768,
      "grad_norm": 5.673861503601074,
      "kl": 2.029296875,
      "learning_rate": 1.299785648860936e-07,
      "loss": 0.118,
      "num_tokens": 1502847276.0,
      "reward": 1.0810546875,
      "reward_std": 0.36898016929626465,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.080078125,
      "rewards/format_reward/std": 0.271679550409317,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.1962425857782364,
      "step": 2622
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1175.01953125,
      "completions/mean_terminated_length": 1135.824462890625,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.8954510540240675,
      "grad_norm": 2.5258841514587402,
      "kl": 2.1328125,
      "learning_rate": 1.2978638799291557e-07,
      "loss": 0.0776,
      "num_tokens": 1503525014.0,
      "reward": 1.10498046875,
      "reward_std": 0.42201095819473267,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.09765625,
      "rewards/format_reward/std": 0.29713961482048035,
      "rewards/tag_count_reward/mean": 0.91357421875,
      "rewards/tag_count_reward/std": 0.19777707755565643,
      "step": 2623
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1058.30859375,
      "completions/mean_terminated_length": 1001.0536499023438,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.8957924383374584,
      "grad_norm": 2.5906670093536377,
      "kl": 2.328125,
      "learning_rate": 1.2959480796870362e-07,
      "loss": 0.1335,
      "num_tokens": 1504141012.0,
      "reward": 1.078125,
      "reward_std": 0.3664228320121765,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.08203125,
      "rewards/format_reward/std": 0.2746807038784027,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.19119404256343842,
      "step": 2624
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1042.99609375,
      "completions/mean_terminated_length": 964.7115478515625,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.8961338226508492,
      "grad_norm": 6.531774044036865,
      "kl": 2.51953125,
      "learning_rate": 1.2940382508557692e-07,
      "loss": 0.1831,
      "num_tokens": 1504751986.0,
      "reward": 1.140625,
      "reward_std": 0.41861116886138916,
      "rewards/accuracy_reward/mean": 0.15120968222618103,
      "rewards/accuracy_reward/std": 0.35861483216285706,
      "rewards/format_reward/mean": 0.080078125,
      "rewards/format_reward/std": 0.271679550409317,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.20793341100215912,
      "step": 2625
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1118.3515625,
      "completions/mean_terminated_length": 1037.4267578125,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.89647520696424,
      "grad_norm": 1.7829670906066895,
      "kl": 3.08203125,
      "learning_rate": 1.292134396148065e-07,
      "loss": 0.1634,
      "num_tokens": 1505408374.0,
      "reward": 1.11328125,
      "reward_std": 0.4727310538291931,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.083984375,
      "rewards/format_reward/std": 0.2776356339454651,
      "rewards/tag_count_reward/mean": 0.88671875,
      "rewards/tag_count_reward/std": 0.22742362320423126,
      "step": 2626
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1078.279296875,
      "completions/mean_terminated_length": 989.3710327148438,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.8968165912776308,
      "grad_norm": 6.372350215911865,
      "kl": 3.36328125,
      "learning_rate": 1.2902365182681476e-07,
      "loss": 0.178,
      "num_tokens": 1506035317.0,
      "reward": 1.06201171875,
      "reward_std": 0.3921143114566803,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.89794921875,
      "rewards/tag_count_reward/std": 0.21943418681621552,
      "step": 2627
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1055.701171875,
      "completions/mean_terminated_length": 1006.8995361328125,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "epoch": 0.8971579755910216,
      "grad_norm": 5.5959367752075195,
      "kl": 2.8515625,
      "learning_rate": 1.2883446199117506e-07,
      "loss": 0.1534,
      "num_tokens": 1506649404.0,
      "reward": 1.0791015625,
      "reward_std": 0.377570241689682,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.9130859375,
      "rewards/tag_count_reward/std": 0.20215243101119995,
      "step": 2628
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1062.7734375,
      "completions/mean_terminated_length": 994.897705078125,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.8974993599044124,
      "grad_norm": 3.3806042671203613,
      "kl": 2.58984375,
      "learning_rate": 1.286458703766117e-07,
      "loss": 0.1619,
      "num_tokens": 1507264616.0,
      "reward": 1.04833984375,
      "reward_std": 0.355716347694397,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.06640625,
      "rewards/format_reward/std": 0.2492343932390213,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.2048913985490799,
      "step": 2629
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1974.0,
      "completions/mean_length": 1039.947265625,
      "completions/mean_terminated_length": 970.4989624023438,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.8978407442178032,
      "grad_norm": 2.282097578048706,
      "kl": 3.45703125,
      "learning_rate": 1.2845787725099897e-07,
      "loss": 0.2178,
      "num_tokens": 1507880829.0,
      "reward": 1.07373046875,
      "reward_std": 0.3778243064880371,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.072265625,
      "rewards/format_reward/std": 0.2591804563999176,
      "rewards/tag_count_reward/mean": 0.90185546875,
      "rewards/tag_count_reward/std": 0.21617895364761353,
      "step": 2630
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1110.724609375,
      "completions/mean_terminated_length": 1060.582275390625,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.898182128531194,
      "grad_norm": 2.463353395462036,
      "kl": 2.1796875,
      "learning_rate": 1.2827048288136126e-07,
      "loss": 0.1131,
      "num_tokens": 1508524912.0,
      "reward": 1.14111328125,
      "reward_std": 0.4089772403240204,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.095703125,
      "rewards/format_reward/std": 0.2944713830947876,
      "rewards/tag_count_reward/mean": 0.93017578125,
      "rewards/tag_count_reward/std": 0.1820801943540573,
      "step": 2631
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1043.884765625,
      "completions/mean_terminated_length": 1009.4000244140625,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.8985235128445848,
      "grad_norm": 4.780738353729248,
      "kl": 2.07421875,
      "learning_rate": 1.2808368753387248e-07,
      "loss": 0.0874,
      "num_tokens": 1509138645.0,
      "reward": 1.05615234375,
      "reward_std": 0.3105568587779999,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.93896484375,
      "rewards/tag_count_reward/std": 0.1664358228445053,
      "step": 2632
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1094.533203125,
      "completions/mean_terminated_length": 1041.45361328125,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.8988648971579756,
      "grad_norm": 5.698365688323975,
      "kl": 2.8203125,
      "learning_rate": 1.2789749147385562e-07,
      "loss": 0.1062,
      "num_tokens": 1509777366.0,
      "reward": 1.11328125,
      "reward_std": 0.41584059596061707,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.09375,
      "rewards/format_reward/std": 0.29176566004753113,
      "rewards/tag_count_reward/mean": 0.900390625,
      "rewards/tag_count_reward/std": 0.20652242004871368,
      "step": 2633
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1027.255859375,
      "completions/mean_terminated_length": 985.7621459960938,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.8992062814713664,
      "grad_norm": 2.0969462394714355,
      "kl": 2.55859375,
      "learning_rate": 1.2771189496578248e-07,
      "loss": 0.113,
      "num_tokens": 1510378521.0,
      "reward": 1.1416015625,
      "reward_std": 0.46402841806411743,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.099609375,
      "rewards/format_reward/std": 0.29977133870124817,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.18861530721187592,
      "step": 2634
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1066.6328125,
      "completions/mean_terminated_length": 999.0230102539062,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.8995476657847572,
      "grad_norm": 5.536674976348877,
      "kl": 3.5859375,
      "learning_rate": 1.275268982732733e-07,
      "loss": 0.1671,
      "num_tokens": 1510998749.0,
      "reward": 1.095703125,
      "reward_std": 0.42561477422714233,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.095703125,
      "rewards/format_reward/std": 0.2944713830947876,
      "rewards/tag_count_reward/mean": 0.884765625,
      "rewards/tag_count_reward/std": 0.22535543143749237,
      "step": 2635
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 1108.541015625,
      "completions/mean_terminated_length": 1041.717529296875,
      "completions/min_length": 357.0,
      "completions/min_terminated_length": 357.0,
      "epoch": 0.899889050098148,
      "grad_norm": 3.360011100769043,
      "kl": 2.890625,
      "learning_rate": 1.2734250165909624e-07,
      "loss": 0.1511,
      "num_tokens": 1511649058.0,
      "reward": 1.103515625,
      "reward_std": 0.4231613874435425,
      "rewards/accuracy_reward/mean": 0.09677419066429138,
      "rewards/accuracy_reward/std": 0.2959485352039337,
      "rewards/format_reward/mean": 0.1015625,
      "rewards/format_reward/std": 0.30236753821372986,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.20895110070705414,
      "step": 2636
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1984.0,
      "completions/mean_length": 1032.490234375,
      "completions/mean_terminated_length": 991.2092895507812,
      "completions/min_length": 308.0,
      "completions/min_terminated_length": 308.0,
      "epoch": 0.9002304344115388,
      "grad_norm": 5.832035064697266,
      "kl": 2.755859375,
      "learning_rate": 1.2715870538516713e-07,
      "loss": 0.0993,
      "num_tokens": 1512259261.0,
      "reward": 1.12451171875,
      "reward_std": 0.4120340943336487,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.09765625,
      "rewards/format_reward/std": 0.29713961482048035,
      "rewards/tag_count_reward/mean": 0.91943359375,
      "rewards/tag_count_reward/std": 0.19085827469825745,
      "step": 2637
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1086.95703125,
      "completions/mean_terminated_length": 1043.80810546875,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.9005718187249296,
      "grad_norm": 3.8658218383789062,
      "kl": 2.185546875,
      "learning_rate": 1.269755097125492e-07,
      "loss": 0.0796,
      "num_tokens": 1512894551.0,
      "reward": 1.10986328125,
      "reward_std": 0.4367341995239258,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.1015625,
      "rewards/format_reward/std": 0.30236753821372986,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18640044331550598,
      "step": 2638
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1143.248046875,
      "completions/mean_terminated_length": 1080.91650390625,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "epoch": 0.9009132030383203,
      "grad_norm": 1.6574437618255615,
      "kl": 3.41796875,
      "learning_rate": 1.2679291490145267e-07,
      "loss": 0.1824,
      "num_tokens": 1513561430.0,
      "reward": 1.134765625,
      "reward_std": 0.44155943393707275,
      "rewards/accuracy_reward/mean": 0.14717741310596466,
      "rewards/accuracy_reward/std": 0.354640394449234,
      "rewards/format_reward/mean": 0.09375,
      "rewards/format_reward/std": 0.29176566004753113,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.21770349144935608,
      "step": 2639
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1087.01953125,
      "completions/mean_terminated_length": 1031.425537109375,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.9012545873517112,
      "grad_norm": 5.300570487976074,
      "kl": 2.517578125,
      "learning_rate": 1.2661092121123387e-07,
      "loss": 0.1722,
      "num_tokens": 1514200272.0,
      "reward": 1.09716796875,
      "reward_std": 0.4066402316093445,
      "rewards/accuracy_reward/mean": 0.1270161271095276,
      "rewards/accuracy_reward/std": 0.3333272337913513,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.20725619792938232,
      "step": 2640
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 1002.271484375,
      "completions/mean_terminated_length": 959.7621459960938,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.901595971665102,
      "grad_norm": 2.8814470767974854,
      "kl": 2.66015625,
      "learning_rate": 1.2642952890039577e-07,
      "loss": 0.1415,
      "num_tokens": 1514788667.0,
      "reward": 1.12548828125,
      "reward_std": 0.3859245777130127,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.92236328125,
      "rewards/tag_count_reward/std": 0.18493369221687317,
      "step": 2641
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1075.18359375,
      "completions/mean_terminated_length": 1029.4273681640625,
      "completions/min_length": 306.0,
      "completions/min_terminated_length": 306.0,
      "epoch": 0.9019373559784928,
      "grad_norm": 2.086258888244629,
      "kl": 1.462890625,
      "learning_rate": 1.262487382265868e-07,
      "loss": 0.0566,
      "num_tokens": 1515417945.0,
      "reward": 1.107421875,
      "reward_std": 0.3736908435821533,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.9375,
      "rewards/tag_count_reward/std": 0.15718287229537964,
      "step": 2642
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2010.0,
      "completions/mean_length": 1031.48828125,
      "completions/mean_terminated_length": 968.219970703125,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.9022787402918836,
      "grad_norm": 4.667018890380859,
      "kl": 2.376953125,
      "learning_rate": 1.2606854944660113e-07,
      "loss": 0.122,
      "num_tokens": 1516030291.0,
      "reward": 1.11328125,
      "reward_std": 0.44415283203125,
      "rewards/accuracy_reward/mean": 0.14516128599643707,
      "rewards/accuracy_reward/std": 0.3526190221309662,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.904296875,
      "rewards/tag_count_reward/std": 0.20777709782123566,
      "step": 2643
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1126.814453125,
      "completions/mean_terminated_length": 1073.522705078125,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.9026201246052744,
      "grad_norm": 5.649810791015625,
      "kl": 2.70703125,
      "learning_rate": 1.2588896281637765e-07,
      "loss": 0.1474,
      "num_tokens": 1516688196.0,
      "reward": 1.07763671875,
      "reward_std": 0.42246103286743164,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.12109375,
      "rewards/format_reward/std": 0.3265552520751953,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.19911566376686096,
      "step": 2644
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 968.8359375,
      "completions/mean_terminated_length": 929.5142211914062,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.9029615089186652,
      "grad_norm": 4.944515228271484,
      "kl": 2.92578125,
      "learning_rate": 1.2570997859100044e-07,
      "loss": 0.1965,
      "num_tokens": 1517258368.0,
      "reward": 1.1064453125,
      "reward_std": 0.3886204957962036,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.068359375,
      "rewards/format_reward/std": 0.25260838866233826,
      "rewards/tag_count_reward/mean": 0.9267578125,
      "rewards/tag_count_reward/std": 0.18374989926815033,
      "step": 2645
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1052.685546875,
      "completions/mean_terminated_length": 1012.2255859375,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.903302893232056,
      "grad_norm": 1.7116081714630127,
      "kl": 1.90625,
      "learning_rate": 1.2553159702469743e-07,
      "loss": 0.0879,
      "num_tokens": 1517880719.0,
      "reward": 1.0712890625,
      "reward_std": 0.3728310167789459,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.07421875,
      "rewards/format_reward/std": 0.2623828947544098,
      "rewards/tag_count_reward/mean": 0.9228515625,
      "rewards/tag_count_reward/std": 0.1848077028989792,
      "step": 2646
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 1052.8671875,
      "completions/mean_terminated_length": 1014.5151977539062,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.9036442775454467,
      "grad_norm": 1.2536317110061646,
      "kl": 2.392578125,
      "learning_rate": 1.2535381837084092e-07,
      "loss": 0.0877,
      "num_tokens": 1518496299.0,
      "reward": 1.1474609375,
      "reward_std": 0.4637940526008606,
      "rewards/accuracy_reward/mean": 0.1270161271095276,
      "rewards/accuracy_reward/std": 0.33332720398902893,
      "rewards/format_reward/mean": 0.103515625,
      "rewards/format_reward/std": 0.30492907762527466,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.1879250556230545,
      "step": 2647
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.029296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2004.0,
      "completions/mean_length": 1041.8671875,
      "completions/mean_terminated_length": 1011.5009765625,
      "completions/min_length": 323.0,
      "completions/min_terminated_length": 323.0,
      "epoch": 0.9039856618588376,
      "grad_norm": 4.721194744110107,
      "kl": 1.619140625,
      "learning_rate": 1.251766428819465e-07,
      "loss": 0.0775,
      "num_tokens": 1519111911.0,
      "reward": 1.13916015625,
      "reward_std": 0.40613314509391785,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.099609375,
      "rewards/format_reward/std": 0.29977133870124817,
      "rewards/tag_count_reward/mean": 0.94189453125,
      "rewards/tag_count_reward/std": 0.1615353375673294,
      "step": 2648
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1093.201171875,
      "completions/mean_terminated_length": 1037.96484375,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.9043270461722284,
      "grad_norm": 2.5431466102600098,
      "kl": 2.1025390625,
      "learning_rate": 1.2500007080967335e-07,
      "loss": 0.0873,
      "num_tokens": 1519753774.0,
      "reward": 1.05712890625,
      "reward_std": 0.38261714577674866,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.08984375,
      "rewards/format_reward/std": 0.2862374484539032,
      "rewards/tag_count_reward/mean": 0.91650390625,
      "rewards/tag_count_reward/std": 0.19531220197677612,
      "step": 2649
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.009765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 987.685546875,
      "completions/mean_terminated_length": 977.2288208007812,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.9046684304856192,
      "grad_norm": 8.41772747039795,
      "kl": 1.630859375,
      "learning_rate": 1.2482410240482323e-07,
      "loss": 0.0244,
      "num_tokens": 1520332477.0,
      "reward": 1.17626953125,
      "reward_std": 0.4130568504333496,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.099609375,
      "rewards/format_reward/std": 0.29977133870124817,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.16680285334587097,
      "step": 2650
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1002.05078125,
      "completions/mean_terminated_length": 943.8226928710938,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.90500981479901,
      "grad_norm": 2.3477649688720703,
      "kl": 2.3359375,
      "learning_rate": 1.2464873791734088e-07,
      "loss": 0.1176,
      "num_tokens": 1520916919.0,
      "reward": 1.1591796875,
      "reward_std": 0.3943057656288147,
      "rewards/accuracy_reward/mean": 0.177734375,
      "rewards/accuracy_reward/std": 0.3826628625392914,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.9111328125,
      "rewards/tag_count_reward/std": 0.19885456562042236,
      "step": 2651
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1065.58984375,
      "completions/mean_terminated_length": 986.8311767578125,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.9053511991124008,
      "grad_norm": 2.826422929763794,
      "kl": 3.2109375,
      "learning_rate": 1.244739775963128e-07,
      "loss": 0.1928,
      "num_tokens": 1521540069.0,
      "reward": 1.10400390625,
      "reward_std": 0.40402260422706604,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.10546875,
      "rewards/format_reward/std": 0.3074568510055542,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.21408694982528687,
      "step": 2652
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1101.953125,
      "completions/mean_terminated_length": 1069.462646484375,
      "completions/min_length": 336.0,
      "completions/min_terminated_length": 336.0,
      "epoch": 0.9056925834257916,
      "grad_norm": 4.190649032592773,
      "kl": 1.921875,
      "learning_rate": 1.242998216899677e-07,
      "loss": 0.0674,
      "num_tokens": 1522180973.0,
      "reward": 1.103515625,
      "reward_std": 0.41256994009017944,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.109375,
      "rewards/format_reward/std": 0.31241437792778015,
      "rewards/tag_count_reward/mean": 0.927734375,
      "rewards/tag_count_reward/std": 0.1787441074848175,
      "step": 2653
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1007.587890625,
      "completions/mean_terminated_length": 967.4908447265625,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.9060339677391824,
      "grad_norm": 1.3401790857315063,
      "kl": 2.173828125,
      "learning_rate": 1.2412627044567542e-07,
      "loss": 0.1253,
      "num_tokens": 1522764010.0,
      "reward": 1.1474609375,
      "reward_std": 0.41852399706840515,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.19115155935287476,
      "step": 2654
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1138.1640625,
      "completions/mean_terminated_length": 1035.31298828125,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.9063753520525731,
      "grad_norm": 4.066878795623779,
      "kl": 2.392578125,
      "learning_rate": 1.2395332410994732e-07,
      "loss": 0.1628,
      "num_tokens": 1523427326.0,
      "reward": 1.041015625,
      "reward_std": 0.40300118923187256,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.888671875,
      "rewards/tag_count_reward/std": 0.22838793694972992,
      "step": 2655
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1004.39453125,
      "completions/mean_terminated_length": 948.5637817382812,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.906716736365964,
      "grad_norm": 3.056931495666504,
      "kl": 2.033203125,
      "learning_rate": 1.237809829284352e-07,
      "loss": 0.1233,
      "num_tokens": 1524009432.0,
      "reward": 1.1435546875,
      "reward_std": 0.36671286821365356,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.0625,
      "rewards/format_reward/std": 0.2422981858253479,
      "rewards/tag_count_reward/mean": 0.9208984375,
      "rewards/tag_count_reward/std": 0.18464216589927673,
      "step": 2656
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1082.41796875,
      "completions/mean_terminated_length": 1047.23486328125,
      "completions/min_length": 350.0,
      "completions/min_terminated_length": 350.0,
      "epoch": 0.9070581206793548,
      "grad_norm": 3.420994520187378,
      "kl": 1.841796875,
      "learning_rate": 1.2360924714593165e-07,
      "loss": 0.0808,
      "num_tokens": 1524642862.0,
      "reward": 1.146484375,
      "reward_std": 0.4280458688735962,
      "rewards/accuracy_reward/mean": 0.1270161271095276,
      "rewards/accuracy_reward/std": 0.33332720398902893,
      "rewards/format_reward/mean": 0.1015625,
      "rewards/format_reward/std": 0.30236753821372986,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.1830647885799408,
      "step": 2657
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1168.869140625,
      "completions/mean_terminated_length": 1073.72509765625,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "epoch": 0.9073995049927456,
      "grad_norm": 3.849257230758667,
      "kl": 3.12890625,
      "learning_rate": 1.2343811700636902e-07,
      "loss": 0.1874,
      "num_tokens": 1525317803.0,
      "reward": 1.095703125,
      "reward_std": 0.408250629901886,
      "rewards/accuracy_reward/mean": 0.13671875,
      "rewards/accuracy_reward/std": 0.3438861668109894,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.888671875,
      "rewards/tag_count_reward/std": 0.21343934535980225,
      "step": 2658
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1083.3203125,
      "completions/mean_terminated_length": 1046.1419677734375,
      "completions/min_length": 281.0,
      "completions/min_terminated_length": 281.0,
      "epoch": 0.9077408893061364,
      "grad_norm": 2.9929521083831787,
      "kl": 1.86328125,
      "learning_rate": 1.2326759275281966e-07,
      "loss": 0.1114,
      "num_tokens": 1525948943.0,
      "reward": 1.146484375,
      "reward_std": 0.3887425661087036,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.078125,
      "rewards/format_reward/std": 0.26863065361976624,
      "rewards/tag_count_reward/mean": 0.921875,
      "rewards/tag_count_reward/std": 0.18505829572677612,
      "step": 2659
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1934.0,
      "completions/mean_length": 938.794921875,
      "completions/mean_terminated_length": 907.6124267578125,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.9080822736195272,
      "grad_norm": 1.695146083831787,
      "kl": 2.24609375,
      "learning_rate": 1.2309767462749515e-07,
      "loss": 0.1372,
      "num_tokens": 1526501206.0,
      "reward": 1.06884765625,
      "reward_std": 0.32772374153137207,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.064453125,
      "rewards/format_reward/std": 0.24579854309558868,
      "rewards/tag_count_reward/mean": 0.93603515625,
      "rewards/tag_count_reward/std": 0.17042970657348633,
      "step": 2660
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1036.87109375,
      "completions/mean_terminated_length": 987.1433715820312,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.908423657932918,
      "grad_norm": 7.301959991455078,
      "kl": 2.72265625,
      "learning_rate": 1.2292836287174631e-07,
      "loss": 0.1366,
      "num_tokens": 1527104676.0,
      "reward": 1.0634765625,
      "reward_std": 0.3880910277366638,
      "rewards/accuracy_reward/mean": 0.04296875,
      "rewards/accuracy_reward/std": 0.2029850035905838,
      "rewards/format_reward/mean": 0.103515625,
      "rewards/format_reward/std": 0.30492907762527466,
      "rewards/tag_count_reward/mean": 0.9169921875,
      "rewards/tag_count_reward/std": 0.19077126681804657,
      "step": 2661
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1976.0,
      "completions/mean_length": 1045.271484375,
      "completions/mean_terminated_length": 993.7967529296875,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.9087650422463088,
      "grad_norm": 1.512845754623413,
      "kl": 2.232421875,
      "learning_rate": 1.2275965772606242e-07,
      "loss": 0.1188,
      "num_tokens": 1527718607.0,
      "reward": 1.15673828125,
      "reward_std": 0.42630091309547424,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.103515625,
      "rewards/format_reward/std": 0.30492907762527466,
      "rewards/tag_count_reward/mean": 0.91455078125,
      "rewards/tag_count_reward/std": 0.18610802292823792,
      "step": 2662
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1136.9296875,
      "completions/mean_terminated_length": 1070.07958984375,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.9091064265596995,
      "grad_norm": 2.511873483657837,
      "kl": 2.28515625,
      "learning_rate": 1.2259155943007143e-07,
      "loss": 0.1329,
      "num_tokens": 1528379931.0,
      "reward": 1.07275390625,
      "reward_std": 0.40728020668029785,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.09375,
      "rewards/format_reward/std": 0.29176566004753113,
      "rewards/tag_count_reward/mean": 0.90673828125,
      "rewards/tag_count_reward/std": 0.1996045708656311,
      "step": 2663
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.01953125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2004.0,
      "completions/mean_length": 920.001953125,
      "completions/mean_terminated_length": 897.5319213867188,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.9094478108730903,
      "grad_norm": 2.4876606464385986,
      "kl": 2.080078125,
      "learning_rate": 1.2242406822253908e-07,
      "loss": 0.1094,
      "num_tokens": 1528923036.0,
      "reward": 1.1728515625,
      "reward_std": 0.4149667024612427,
      "rewards/accuracy_reward/mean": 0.1640625,
      "rewards/accuracy_reward/std": 0.37069445848464966,
      "rewards/format_reward/mean": 0.080078125,
      "rewards/format_reward/std": 0.271679550409317,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.1784525215625763,
      "step": 2664
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1119.171875,
      "completions/mean_terminated_length": 1038.3184814453125,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.9097891951864812,
      "grad_norm": 3.452432632446289,
      "kl": 3.208984375,
      "learning_rate": 1.22257184341369e-07,
      "loss": 0.1466,
      "num_tokens": 1529579892.0,
      "reward": 1.046875,
      "reward_std": 0.4089784622192383,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.091796875,
      "rewards/format_reward/std": 0.289021372795105,
      "rewards/tag_count_reward/mean": 0.884765625,
      "rewards/tag_count_reward/std": 0.22643831372261047,
      "step": 2665
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1078.55078125,
      "completions/mean_terminated_length": 1041.1885986328125,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.910130579499872,
      "grad_norm": 2.5023417472839355,
      "kl": 2.568359375,
      "learning_rate": 1.2209090802360198e-07,
      "loss": 0.1428,
      "num_tokens": 1530206622.0,
      "reward": 1.07861328125,
      "reward_std": 0.38993924856185913,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.09375,
      "rewards/format_reward/std": 0.29176566004753113,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.18574312329292297,
      "step": 2666
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1015.810546875,
      "completions/mean_terminated_length": 960.5905151367188,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.9104719638132628,
      "grad_norm": 1.8152896165847778,
      "kl": 2.134765625,
      "learning_rate": 1.21925239505416e-07,
      "loss": 0.0948,
      "num_tokens": 1530799197.0,
      "reward": 1.1875,
      "reward_std": 0.45548373460769653,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.1015625,
      "rewards/format_reward/std": 0.30236753821372986,
      "rewards/tag_count_reward/mean": 0.923828125,
      "rewards/tag_count_reward/std": 0.18587233126163483,
      "step": 2667
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1110.693359375,
      "completions/mean_terminated_length": 1039.8046875,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.9108133481266536,
      "grad_norm": 1.882718563079834,
      "kl": 2.916015625,
      "learning_rate": 1.217601790221257e-07,
      "loss": 0.1425,
      "num_tokens": 1531450560.0,
      "reward": 1.0771484375,
      "reward_std": 0.43762797117233276,
      "rewards/accuracy_reward/mean": 0.07459677755832672,
      "rewards/accuracy_reward/std": 0.263004869222641,
      "rewards/format_reward/mean": 0.111328125,
      "rewards/format_reward/std": 0.31484565138816833,
      "rewards/tag_count_reward/mean": 0.8935546875,
      "rewards/tag_count_reward/std": 0.21134056150913239,
      "step": 2668
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.103515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1175.927734375,
      "completions/mean_terminated_length": 1075.23095703125,
      "completions/min_length": 281.0,
      "completions/min_terminated_length": 281.0,
      "epoch": 0.9111547324400444,
      "grad_norm": 3.359076976776123,
      "kl": 2.97265625,
      "learning_rate": 1.2159572680818183e-07,
      "loss": 0.1653,
      "num_tokens": 1532142395.0,
      "reward": 1.08984375,
      "reward_std": 0.47652333974838257,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.1171875,
      "rewards/format_reward/std": 0.32195815443992615,
      "rewards/tag_count_reward/mean": 0.880859375,
      "rewards/tag_count_reward/std": 0.22549107670783997,
      "step": 2669
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1986.0,
      "completions/mean_length": 1115.564453125,
      "completions/mean_terminated_length": 1040.8121337890625,
      "completions/min_length": 375.0,
      "completions/min_terminated_length": 375.0,
      "epoch": 0.9114961167534352,
      "grad_norm": 1.5530048608779907,
      "kl": 2.1484375,
      "learning_rate": 1.214318830971716e-07,
      "loss": 0.0883,
      "num_tokens": 1532792268.0,
      "reward": 1.08056640625,
      "reward_std": 0.4171370267868042,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.091796875,
      "rewards/format_reward/std": 0.289021372795105,
      "rewards/tag_count_reward/mean": 0.89501953125,
      "rewards/tag_count_reward/std": 0.22083191573619843,
      "step": 2670
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1140.28515625,
      "completions/mean_terminated_length": 1059.170166015625,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "epoch": 0.9118375010668259,
      "grad_norm": 3.5011441707611084,
      "kl": 2.86328125,
      "learning_rate": 1.2126864812181754e-07,
      "loss": 0.128,
      "num_tokens": 1533451374.0,
      "reward": 1.07763671875,
      "reward_std": 0.4584527909755707,
      "rewards/accuracy_reward/mean": 0.08064515888690948,
      "rewards/accuracy_reward/std": 0.2725643217563629,
      "rewards/format_reward/mean": 0.11328125,
      "rewards/format_reward/std": 0.3172462284564972,
      "rewards/tag_count_reward/mean": 0.88623046875,
      "rewards/tag_count_reward/std": 0.22744829952716827,
      "step": 2671
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1096.646484375,
      "completions/mean_terminated_length": 1041.6094970703125,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.9121788853802167,
      "grad_norm": 2.4744904041290283,
      "kl": 2.205078125,
      "learning_rate": 1.2110602211397773e-07,
      "loss": 0.0815,
      "num_tokens": 1534086953.0,
      "reward": 1.103515625,
      "reward_std": 0.44481056928634644,
      "rewards/accuracy_reward/mean": 0.08467742055654526,
      "rewards/accuracy_reward/std": 0.278682142496109,
      "rewards/format_reward/mean": 0.107421875,
      "rewards/format_reward/std": 0.30995169281959534,
      "rewards/tag_count_reward/mean": 0.9140625,
      "rewards/tag_count_reward/std": 0.1901114583015442,
      "step": 2672
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1099.828125,
      "completions/mean_terminated_length": 1059.2750244140625,
      "completions/min_length": 283.0,
      "completions/min_terminated_length": 283.0,
      "epoch": 0.9125202696936076,
      "grad_norm": 1.8155720233917236,
      "kl": 2.060546875,
      "learning_rate": 1.2094400530464508e-07,
      "loss": 0.0958,
      "num_tokens": 1534724625.0,
      "reward": 1.115234375,
      "reward_std": 0.42107412219047546,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.09765625,
      "rewards/format_reward/std": 0.29713961482048035,
      "rewards/tag_count_reward/mean": 0.91015625,
      "rewards/tag_count_reward/std": 0.20147298276424408,
      "step": 2673
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1023.72265625,
      "completions/mean_terminated_length": 950.8660888671875,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.9128616540069984,
      "grad_norm": 2.5986690521240234,
      "kl": 3.55078125,
      "learning_rate": 1.2078259792394745e-07,
      "loss": 0.2231,
      "num_tokens": 1535331459.0,
      "reward": 1.07763671875,
      "reward_std": 0.4224942624568939,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.0703125,
      "rewards/format_reward/std": 0.25592297315597534,
      "rewards/tag_count_reward/mean": 0.88623046875,
      "rewards/tag_count_reward/std": 0.2327636331319809,
      "step": 2674
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1084.291015625,
      "completions/mean_terminated_length": 1026.4285888671875,
      "completions/min_length": 303.0,
      "completions/min_terminated_length": 303.0,
      "epoch": 0.9132030383203892,
      "grad_norm": 3.9908597469329834,
      "kl": 1.9140625,
      "learning_rate": 1.2062180020114684e-07,
      "loss": 0.0654,
      "num_tokens": 1535968472.0,
      "reward": 1.22998046875,
      "reward_std": 0.4509434103965759,
      "rewards/accuracy_reward/mean": 0.181640625,
      "rewards/accuracy_reward/std": 0.38592514395713806,
      "rewards/format_reward/mean": 0.130859375,
      "rewards/format_reward/std": 0.33757632970809937,
      "rewards/tag_count_reward/mean": 0.91748046875,
      "rewards/tag_count_reward/std": 0.19635149836540222,
      "step": 2675
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 1122.892578125,
      "completions/mean_terminated_length": 1052.926513671875,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.91354442263378,
      "grad_norm": 3.2811944484710693,
      "kl": 2.09375,
      "learning_rate": 1.204616123646394e-07,
      "loss": 0.0985,
      "num_tokens": 1536621441.0,
      "reward": 1.0654296875,
      "reward_std": 0.4020102024078369,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.1015625,
      "rewards/format_reward/std": 0.30236753821372986,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.2108335644006729,
      "step": 2676
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1105.826171875,
      "completions/mean_terminated_length": 990.12060546875,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.9138858069471708,
      "grad_norm": 5.379909992218018,
      "kl": 2.9140625,
      "learning_rate": 1.203020346419551e-07,
      "loss": 0.1967,
      "num_tokens": 1537274232.0,
      "reward": 1.13818359375,
      "reward_std": 0.4906888008117676,
      "rewards/accuracy_reward/mean": 0.154296875,
      "rewards/accuracy_reward/std": 0.36158639192581177,
      "rewards/format_reward/mean": 0.1015625,
      "rewards/format_reward/std": 0.30236753821372986,
      "rewards/tag_count_reward/mean": 0.88232421875,
      "rewards/tag_count_reward/std": 0.23344410955905914,
      "step": 2677
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 992.142578125,
      "completions/mean_terminated_length": 953.6700439453125,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.9142271912605616,
      "grad_norm": 9.234182357788086,
      "kl": 2.689453125,
      "learning_rate": 1.2014306725975718e-07,
      "loss": 0.0825,
      "num_tokens": 1537863921.0,
      "reward": 1.1611328125,
      "reward_std": 0.4584944248199463,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.125,
      "rewards/format_reward/std": 0.3310423493385315,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.19871997833251953,
      "step": 2678
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1027.912109375,
      "completions/mean_terminated_length": 986.445068359375,
      "completions/min_length": 361.0,
      "completions/min_terminated_length": 361.0,
      "epoch": 0.9145685755739523,
      "grad_norm": 1.985854983329773,
      "kl": 1.501953125,
      "learning_rate": 1.1998471044384193e-07,
      "loss": 0.0678,
      "num_tokens": 1538469444.0,
      "reward": 1.15087890625,
      "reward_std": 0.37759196758270264,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.107421875,
      "rewards/format_reward/std": 0.30995169281959534,
      "rewards/tag_count_reward/mean": 0.94580078125,
      "rewards/tag_count_reward/std": 0.16512742638587952,
      "step": 2679
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1044.900390625,
      "completions/mean_terminated_length": 971.2976684570312,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.9149099598873431,
      "grad_norm": 6.8311543464660645,
      "kl": 3.8671875,
      "learning_rate": 1.1982696441913848e-07,
      "loss": 0.1944,
      "num_tokens": 1539086721.0,
      "reward": 1.140625,
      "reward_std": 0.4593971371650696,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.12109375,
      "rewards/format_reward/std": 0.3265552520751953,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.20353971421718597,
      "step": 2680
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1076.14453125,
      "completions/mean_terminated_length": 1009.1900024414062,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.915251344200734,
      "grad_norm": 4.175885200500488,
      "kl": 2.83984375,
      "learning_rate": 1.1966982940970833e-07,
      "loss": 0.1206,
      "num_tokens": 1539727067.0,
      "reward": 1.158203125,
      "reward_std": 0.45506709814071655,
      "rewards/accuracy_reward/mean": 0.125,
      "rewards/accuracy_reward/std": 0.3310423493385315,
      "rewards/format_reward/mean": 0.130859375,
      "rewards/format_reward/std": 0.33757632970809937,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.20388682186603546,
      "step": 2681
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1207.693359375,
      "completions/mean_terminated_length": 1138.407958984375,
      "completions/min_length": 305.0,
      "completions/min_terminated_length": 305.0,
      "epoch": 0.9155927285141248,
      "grad_norm": 4.638640403747559,
      "kl": 2.34375,
      "learning_rate": 1.1951330563874515e-07,
      "loss": 0.0931,
      "num_tokens": 1540425598.0,
      "reward": 1.08642578125,
      "reward_std": 0.45741555094718933,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.130859375,
      "rewards/format_reward/std": 0.33757632970809937,
      "rewards/tag_count_reward/mean": 0.89697265625,
      "rewards/tag_count_reward/std": 0.2063227891921997,
      "step": 2682
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1007.828125,
      "completions/mean_terminated_length": 958.9038696289062,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.9159341128275156,
      "grad_norm": 6.307188034057617,
      "kl": 1.75,
      "learning_rate": 1.1935739332857443e-07,
      "loss": 0.1102,
      "num_tokens": 1541013158.0,
      "reward": 1.1845703125,
      "reward_std": 0.39395949244499207,
      "rewards/accuracy_reward/mean": 0.171875,
      "rewards/accuracy_reward/std": 0.3776407241821289,
      "rewards/format_reward/mean": 0.08203125,
      "rewards/format_reward/std": 0.2746807038784027,
      "rewards/tag_count_reward/mean": 0.9306640625,
      "rewards/tag_count_reward/std": 0.1750793755054474,
      "step": 2683
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1113.744140625,
      "completions/mean_terminated_length": 1061.7340087890625,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "epoch": 0.9162754971409064,
      "grad_norm": 2.4510347843170166,
      "kl": 3.064453125,
      "learning_rate": 1.192020927006531e-07,
      "loss": 0.1723,
      "num_tokens": 1541657747.0,
      "reward": 1.11962890625,
      "reward_std": 0.4408426582813263,
      "rewards/accuracy_reward/mean": 0.11895161122083664,
      "rewards/accuracy_reward/std": 0.3240584135055542,
      "rewards/format_reward/mean": 0.09765625,
      "rewards/format_reward/std": 0.29713961482048035,
      "rewards/tag_count_reward/mean": 0.90673828125,
      "rewards/tag_count_reward/std": 0.20623478293418884,
      "step": 2684
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1030.4375,
      "completions/mean_terminated_length": 958.0585327148438,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.9166168814542972,
      "grad_norm": 5.178215980529785,
      "kl": 2.7890625,
      "learning_rate": 1.1904740397556923e-07,
      "loss": 0.1737,
      "num_tokens": 1542258099.0,
      "reward": 1.11181640625,
      "reward_std": 0.41829195618629456,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.1015625,
      "rewards/format_reward/std": 0.30236753821372986,
      "rewards/tag_count_reward/mean": 0.90869140625,
      "rewards/tag_count_reward/std": 0.2047327607870102,
      "step": 2685
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1103.9296875,
      "completions/mean_terminated_length": 1045.170166015625,
      "completions/min_length": 306.0,
      "completions/min_terminated_length": 306.0,
      "epoch": 0.916958265767688,
      "grad_norm": 2.2769551277160645,
      "kl": 2.41796875,
      "learning_rate": 1.1889332737304179e-07,
      "loss": 0.105,
      "num_tokens": 1542894095.0,
      "reward": 1.103515625,
      "reward_std": 0.43565478920936584,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.1171875,
      "rewards/format_reward/std": 0.32195815443992615,
      "rewards/tag_count_reward/mean": 0.90234375,
      "rewards/tag_count_reward/std": 0.20448583364486694,
      "step": 2686
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 1023.865234375,
      "completions/mean_terminated_length": 995.0742797851562,
      "completions/min_length": 268.0,
      "completions/min_terminated_length": 268.0,
      "epoch": 0.9172996500810787,
      "grad_norm": 1.287642478942871,
      "kl": 1.798828125,
      "learning_rate": 1.187398631119203e-07,
      "loss": 0.0665,
      "num_tokens": 1543484842.0,
      "reward": 1.14990234375,
      "reward_std": 0.4154220223426819,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.103515625,
      "rewards/format_reward/std": 0.30492907762527466,
      "rewards/tag_count_reward/mean": 0.92333984375,
      "rewards/tag_count_reward/std": 0.18268270790576935,
      "step": 2687
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1111.095703125,
      "completions/mean_terminated_length": 1074.98779296875,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.9176410343944695,
      "grad_norm": 7.189255237579346,
      "kl": 1.904296875,
      "learning_rate": 1.1858701141018451e-07,
      "loss": 0.0443,
      "num_tokens": 1544126731.0,
      "reward": 1.08447265625,
      "reward_std": 0.41187939047813416,
      "rewards/accuracy_reward/mean": 0.03515625,
      "rewards/accuracy_reward/std": 0.1843547374010086,
      "rewards/format_reward/mean": 0.140625,
      "rewards/format_reward/std": 0.3479743003845215,
      "rewards/tag_count_reward/mean": 0.90869140625,
      "rewards/tag_count_reward/std": 0.19619084894657135,
      "step": 2688
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1200.916015625,
      "completions/mean_terminated_length": 1142.5574951171875,
      "completions/min_length": 356.0,
      "completions/min_terminated_length": 356.0,
      "epoch": 0.9179824187078603,
      "grad_norm": 2.024338722229004,
      "kl": 2.0703125,
      "learning_rate": 1.1843477248494401e-07,
      "loss": 0.0654,
      "num_tokens": 1544811136.0,
      "reward": 1.17529296875,
      "reward_std": 0.4895121455192566,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.162109375,
      "rewards/format_reward/std": 0.3689115643501282,
      "rewards/tag_count_reward/mean": 0.90966796875,
      "rewards/tag_count_reward/std": 0.2057616412639618,
      "step": 2689
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1079.283203125,
      "completions/mean_terminated_length": 1029.554443359375,
      "completions/min_length": 358.0,
      "completions/min_terminated_length": 358.0,
      "epoch": 0.9183238030212512,
      "grad_norm": 1.5518217086791992,
      "kl": 2.501953125,
      "learning_rate": 1.1828314655243826e-07,
      "loss": 0.1402,
      "num_tokens": 1545447745.0,
      "reward": 1.123046875,
      "reward_std": 0.4509558081626892,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.126953125,
      "rewards/format_reward/std": 0.33324605226516724,
      "rewards/tag_count_reward/mean": 0.916015625,
      "rewards/tag_count_reward/std": 0.19666332006454468,
      "step": 2690
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1154.5390625,
      "completions/mean_terminated_length": 1096.956298828125,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.918665187334642,
      "grad_norm": 1.7109220027923584,
      "kl": 2.2421875,
      "learning_rate": 1.1813213382803569e-07,
      "loss": 0.0852,
      "num_tokens": 1546110213.0,
      "reward": 1.1630859375,
      "reward_std": 0.4548121392726898,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.15625,
      "rewards/format_reward/std": 0.36344730854034424,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.2073236107826233,
      "step": 2691
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1093.4609375,
      "completions/mean_terminated_length": 1036.1490478515625,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.9190065716480328,
      "grad_norm": 2.703613519668579,
      "kl": 2.705078125,
      "learning_rate": 1.1798173452623397e-07,
      "loss": 0.1685,
      "num_tokens": 1546740737.0,
      "reward": 1.1728515625,
      "reward_std": 0.46241694688796997,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.109375,
      "rewards/format_reward/std": 0.31241437792778015,
      "rewards/tag_count_reward/mean": 0.9052734375,
      "rewards/tag_count_reward/std": 0.2052670568227768,
      "step": 2692
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1032.85546875,
      "completions/mean_terminated_length": 985.1083374023438,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.9193479559614236,
      "grad_norm": 4.711479663848877,
      "kl": 2.115234375,
      "learning_rate": 1.1783194886065931e-07,
      "loss": 0.0682,
      "num_tokens": 1547350871.0,
      "reward": 1.21533203125,
      "reward_std": 0.46634024381637573,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.134765625,
      "rewards/format_reward/std": 0.3418070077896118,
      "rewards/tag_count_reward/mean": 0.92431640625,
      "rewards/tag_count_reward/std": 0.1928505003452301,
      "step": 2693
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1100.568359375,
      "completions/mean_terminated_length": 1037.40625,
      "completions/min_length": 268.0,
      "completions/min_terminated_length": 268.0,
      "epoch": 0.9196893402748144,
      "grad_norm": 2.458343982696533,
      "kl": 2.51171875,
      "learning_rate": 1.1768277704406647e-07,
      "loss": 0.129,
      "num_tokens": 1547995530.0,
      "reward": 1.10595703125,
      "reward_std": 0.4494969844818115,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.1171875,
      "rewards/format_reward/std": 0.32195815443992615,
      "rewards/tag_count_reward/mean": 0.89306640625,
      "rewards/tag_count_reward/std": 0.21933400630950928,
      "step": 2694
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1987.0,
      "completions/mean_length": 1025.275390625,
      "completions/mean_terminated_length": 990.1515502929688,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.9200307245882051,
      "grad_norm": 4.200669765472412,
      "kl": 1.921875,
      "learning_rate": 1.1753421928833825e-07,
      "loss": 0.1133,
      "num_tokens": 1548589511.0,
      "reward": 1.197265625,
      "reward_std": 0.4646907448768616,
      "rewards/accuracy_reward/mean": 0.134765625,
      "rewards/accuracy_reward/std": 0.3418070077896118,
      "rewards/format_reward/mean": 0.1328125,
      "rewards/format_reward/std": 0.33970388770103455,
      "rewards/tag_count_reward/mean": 0.9296875,
      "rewards/tag_count_reward/std": 0.17398715019226074,
      "step": 2695
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1151.126953125,
      "completions/mean_terminated_length": 1068.897705078125,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "epoch": 0.9203721089015959,
      "grad_norm": 2.1564042568206787,
      "kl": 3.02734375,
      "learning_rate": 1.1738627580448519e-07,
      "loss": 0.164,
      "num_tokens": 1549260424.0,
      "reward": 1.0966796875,
      "reward_std": 0.46539485454559326,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.12890625,
      "rewards/format_reward/std": 0.33542385697364807,
      "rewards/tag_count_reward/mean": 0.8876953125,
      "rewards/tag_count_reward/std": 0.22575154900550842,
      "step": 2696
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1087.74609375,
      "completions/mean_terminated_length": 1008.57080078125,
      "completions/min_length": 306.0,
      "completions/min_terminated_length": 306.0,
      "epoch": 0.9207134932149867,
      "grad_norm": 3.5450525283813477,
      "kl": 1.59375,
      "learning_rate": 1.1723894680264526e-07,
      "loss": 0.0863,
      "num_tokens": 1549899158.0,
      "reward": 1.10009765625,
      "reward_std": 0.4532034397125244,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.103515625,
      "rewards/format_reward/std": 0.30492907762527466,
      "rewards/tag_count_reward/mean": 0.89697265625,
      "rewards/tag_count_reward/std": 0.2104315161705017,
      "step": 2697
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1097.822265625,
      "completions/mean_terminated_length": 1057.183349609375,
      "completions/min_length": 288.0,
      "completions/min_terminated_length": 288.0,
      "epoch": 0.9210548775283776,
      "grad_norm": 3.134887456893921,
      "kl": 2.40234375,
      "learning_rate": 1.170922324920839e-07,
      "loss": 0.125,
      "num_tokens": 1550534603.0,
      "reward": 1.142578125,
      "reward_std": 0.4391120970249176,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.142578125,
      "rewards/format_reward/std": 0.3499840497970581,
      "rewards/tag_count_reward/mean": 0.91796875,
      "rewards/tag_count_reward/std": 0.19246920943260193,
      "step": 2698
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1094.44140625,
      "completions/mean_terminated_length": 1039.27685546875,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.9213962618417684,
      "grad_norm": 1.6496870517730713,
      "kl": 2.35546875,
      "learning_rate": 1.1694613308119312e-07,
      "loss": 0.1116,
      "num_tokens": 1551178861.0,
      "reward": 1.154296875,
      "reward_std": 0.4800220727920532,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.154296875,
      "rewards/format_reward/std": 0.36158639192581177,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.20392431318759918,
      "step": 2699
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1087.705078125,
      "completions/mean_terminated_length": 1008.5264282226562,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.9217376461551592,
      "grad_norm": 2.2735061645507812,
      "kl": 2.35546875,
      "learning_rate": 1.1680064877749168e-07,
      "loss": 0.1228,
      "num_tokens": 1551815974.0,
      "reward": 1.1103515625,
      "reward_std": 0.4287722110748291,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.123046875,
      "rewards/format_reward/std": 0.32881227135658264,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.21141289174556732,
      "step": 2700
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1089.296875,
      "completions/mean_terminated_length": 1021.1045532226562,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.92207903046855,
      "grad_norm": 3.1619954109191895,
      "kl": 2.251953125,
      "learning_rate": 1.1665577978762473e-07,
      "loss": 0.095,
      "num_tokens": 1552447006.0,
      "reward": 1.14501953125,
      "reward_std": 0.4418213963508606,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.13671875,
      "rewards/format_reward/std": 0.3438861668109894,
      "rewards/tag_count_reward/mean": 0.90673828125,
      "rewards/tag_count_reward/std": 0.1914730817079544,
      "step": 2701
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1098.712890625,
      "completions/mean_terminated_length": 1049.9815673828125,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "epoch": 0.9224204147819408,
      "grad_norm": 3.9778926372528076,
      "kl": 2.37890625,
      "learning_rate": 1.165115263173633e-07,
      "loss": 0.0651,
      "num_tokens": 1553083307.0,
      "reward": 1.189453125,
      "reward_std": 0.5304901003837585,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.16015625,
      "rewards/format_reward/std": 0.3671095669269562,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.20690147578716278,
      "step": 2702
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1104.154296875,
      "completions/mean_terminated_length": 1039.1295166015625,
      "completions/min_length": 278.0,
      "completions/min_terminated_length": 278.0,
      "epoch": 0.9227617990953315,
      "grad_norm": 1.8726797103881836,
      "kl": 2.634765625,
      "learning_rate": 1.1636788857160406e-07,
      "loss": 0.1127,
      "num_tokens": 1553726298.0,
      "reward": 1.162109375,
      "reward_std": 0.4818079471588135,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.162109375,
      "rewards/format_reward/std": 0.3689115643501282,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.20180471241474152,
      "step": 2703
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1077.169921875,
      "completions/mean_terminated_length": 1014.600830078125,
      "completions/min_length": 261.0,
      "completions/min_terminated_length": 261.0,
      "epoch": 0.9231031834087223,
      "grad_norm": 3.472248077392578,
      "kl": 2.671875,
      "learning_rate": 1.1622486675436945e-07,
      "loss": 0.1208,
      "num_tokens": 1554359937.0,
      "reward": 1.18212890625,
      "reward_std": 0.5241494178771973,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.171875,
      "rewards/format_reward/std": 0.3776407241821289,
      "rewards/tag_count_reward/mean": 0.90673828125,
      "rewards/tag_count_reward/std": 0.21380557119846344,
      "step": 2704
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1064.9609375,
      "completions/mean_terminated_length": 1010.235107421875,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.9234445677221131,
      "grad_norm": 2.5503907203674316,
      "kl": 1.939453125,
      "learning_rate": 1.1608246106880662e-07,
      "loss": 0.0969,
      "num_tokens": 1554984797.0,
      "reward": 1.123046875,
      "reward_std": 0.4415420889854431,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.12890625,
      "rewards/format_reward/std": 0.33542385697364807,
      "rewards/tag_count_reward/mean": 0.90625,
      "rewards/tag_count_reward/std": 0.2104184627532959,
      "step": 2705
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1136.271484375,
      "completions/mean_terminated_length": 1063.1793212890625,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.923785952035504,
      "grad_norm": 2.1283445358276367,
      "kl": 2.53515625,
      "learning_rate": 1.1594067171718788e-07,
      "loss": 0.1347,
      "num_tokens": 1555643960.0,
      "reward": 1.216796875,
      "reward_std": 0.5272696018218994,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.16015625,
      "rewards/format_reward/std": 0.3671095669269562,
      "rewards/tag_count_reward/mean": 0.89453125,
      "rewards/tag_count_reward/std": 0.21067261695861816,
      "step": 2706
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1044.380859375,
      "completions/mean_terminated_length": 954.6957397460938,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.9241273363488948,
      "grad_norm": 3.392817497253418,
      "kl": 3.81640625,
      "learning_rate": 1.1579949890090993e-07,
      "loss": 0.2627,
      "num_tokens": 1556261515.0,
      "reward": 1.1630859375,
      "reward_std": 0.4517636299133301,
      "rewards/accuracy_reward/mean": 0.16015625,
      "rewards/accuracy_reward/std": 0.3671095669269562,
      "rewards/format_reward/mean": 0.111328125,
      "rewards/format_reward/std": 0.31484565138816833,
      "rewards/tag_count_reward/mean": 0.8916015625,
      "rewards/tag_count_reward/std": 0.22711879014968872,
      "step": 2707
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1028.248046875,
      "completions/mean_terminated_length": 975.8994140625,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.9244687206622856,
      "grad_norm": 2.8030009269714355,
      "kl": 2.7734375,
      "learning_rate": 1.15658942820494e-07,
      "loss": 0.1118,
      "num_tokens": 1556861162.0,
      "reward": 1.083984375,
      "reward_std": 0.46771833300590515,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.126953125,
      "rewards/format_reward/std": 0.33324605226516724,
      "rewards/tag_count_reward/mean": 0.896484375,
      "rewards/tag_count_reward/std": 0.21677981317043304,
      "step": 2708
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1135.125,
      "completions/mean_terminated_length": 1072.23388671875,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.9248101049756764,
      "grad_norm": 3.146209239959717,
      "kl": 2.8984375,
      "learning_rate": 1.1551900367558484e-07,
      "loss": 0.1272,
      "num_tokens": 1557525034.0,
      "reward": 1.08349609375,
      "reward_std": 0.46234554052352905,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.1328125,
      "rewards/format_reward/std": 0.33970388770103455,
      "rewards/tag_count_reward/mean": 0.88427734375,
      "rewards/tag_count_reward/std": 0.22860905528068542,
      "step": 2709
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1149.5,
      "completions/mean_terminated_length": 1067.12158203125,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.9251514892890672,
      "grad_norm": 2.067101240158081,
      "kl": 2.736328125,
      "learning_rate": 1.1537968166495146e-07,
      "loss": 0.1577,
      "num_tokens": 1558194986.0,
      "reward": 1.12158203125,
      "reward_std": 0.4547417163848877,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.154296875,
      "rewards/format_reward/std": 0.36158639192581177,
      "rewards/tag_count_reward/mean": 0.89111328125,
      "rewards/tag_count_reward/std": 0.21668227016925812,
      "step": 2710
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1128.544921875,
      "completions/mean_terminated_length": 1052.733642578125,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.925492873602458,
      "grad_norm": 77.16455078125,
      "kl": 5.73828125,
      "learning_rate": 1.1524097698648583e-07,
      "loss": 0.283,
      "num_tokens": 1558857841.0,
      "reward": 1.11376953125,
      "reward_std": 0.5110874772071838,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.15234375,
      "rewards/format_reward/std": 0.35970520973205566,
      "rewards/tag_count_reward/mean": 0.86962890625,
      "rewards/tag_count_reward/std": 0.24524930119514465,
      "step": 2711
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 979.322265625,
      "completions/mean_terminated_length": 933.6151123046875,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.9258342579158487,
      "grad_norm": 1.4812023639678955,
      "kl": 2.18359375,
      "learning_rate": 1.1510288983720338e-07,
      "loss": 0.0687,
      "num_tokens": 1559434406.0,
      "reward": 1.21630859375,
      "reward_std": 0.45011234283447266,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.146484375,
      "rewards/format_reward/std": 0.35393697023391724,
      "rewards/tag_count_reward/mean": 0.93115234375,
      "rewards/tag_count_reward/std": 0.17906923592090607,
      "step": 2712
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1081.162109375,
      "completions/mean_terminated_length": 1033.6126708984375,
      "completions/min_length": 294.0,
      "completions/min_terminated_length": 294.0,
      "epoch": 0.9261756422292395,
      "grad_norm": 1.109947681427002,
      "kl": 1.9453125,
      "learning_rate": 1.1496542041324228e-07,
      "loss": 0.0464,
      "num_tokens": 1560063833.0,
      "reward": 1.18896484375,
      "reward_std": 0.5248522758483887,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.181640625,
      "rewards/format_reward/std": 0.38592514395713806,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.20127783715724945,
      "step": 2713
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1113.748046875,
      "completions/mean_terminated_length": 1036.7166748046875,
      "completions/min_length": 271.0,
      "completions/min_terminated_length": 271.0,
      "epoch": 0.9265170265426304,
      "grad_norm": 2.1435954570770264,
      "kl": 1.86328125,
      "learning_rate": 1.1482856890986333e-07,
      "loss": 0.0855,
      "num_tokens": 1560709000.0,
      "reward": 1.1064453125,
      "reward_std": 0.44914382696151733,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.1328125,
      "rewards/format_reward/std": 0.33970388770103455,
      "rewards/tag_count_reward/mean": 0.9013671875,
      "rewards/tag_count_reward/std": 0.20580634474754333,
      "step": 2714
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1126.5859375,
      "completions/mean_terminated_length": 1050.613037109375,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.9268584108560212,
      "grad_norm": 1.5562067031860352,
      "kl": 2.54296875,
      "learning_rate": 1.1469233552144955e-07,
      "loss": 0.1206,
      "num_tokens": 1561361652.0,
      "reward": 1.1826171875,
      "reward_std": 0.509443461894989,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.15234375,
      "rewards/format_reward/std": 0.35970520973205566,
      "rewards/tag_count_reward/mean": 0.8974609375,
      "rewards/tag_count_reward/std": 0.21554872393608093,
      "step": 2715
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1995.0,
      "completions/mean_length": 1095.123046875,
      "completions/mean_terminated_length": 1037.9110107421875,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.927199795169412,
      "grad_norm": 2.301633834838867,
      "kl": 2.78515625,
      "learning_rate": 1.1455672044150609e-07,
      "loss": 0.1299,
      "num_tokens": 1562002195.0,
      "reward": 1.16845703125,
      "reward_std": 0.5061001181602478,
      "rewards/accuracy_reward/mean": 0.0947580635547638,
      "rewards/accuracy_reward/std": 0.29317617416381836,
      "rewards/format_reward/mean": 0.17578125,
      "rewards/format_reward/std": 0.3810062110424042,
      "rewards/tag_count_reward/mean": 0.90087890625,
      "rewards/tag_count_reward/std": 0.21345220506191254,
      "step": 2716
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1084.818359375,
      "completions/mean_terminated_length": 1003.1928100585938,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.9275411794828028,
      "grad_norm": 2.4795172214508057,
      "kl": 3.16015625,
      "learning_rate": 1.1442172386265972e-07,
      "loss": 0.1624,
      "num_tokens": 1562629190.0,
      "reward": 1.13037109375,
      "reward_std": 0.48734521865844727,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.123046875,
      "rewards/format_reward/std": 0.32881227135658264,
      "rewards/tag_count_reward/mean": 0.88623046875,
      "rewards/tag_count_reward/std": 0.22690992057323456,
      "step": 2717
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1045.966796875,
      "completions/mean_terminated_length": 1013.6431274414062,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "epoch": 0.9278825637961936,
      "grad_norm": 1.6832196712493896,
      "kl": 2.1953125,
      "learning_rate": 1.142873459766589e-07,
      "loss": 0.0979,
      "num_tokens": 1563250133.0,
      "reward": 1.1728515625,
      "reward_std": 0.4586141109466553,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.1484375,
      "rewards/format_reward/std": 0.35588082671165466,
      "rewards/tag_count_reward/mean": 0.9287109375,
      "rewards/tag_count_reward/std": 0.1804969757795334,
      "step": 2718
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1994.0,
      "completions/mean_length": 1067.73828125,
      "completions/mean_terminated_length": 1032.020263671875,
      "completions/min_length": 311.0,
      "completions/min_terminated_length": 311.0,
      "epoch": 0.9282239481095844,
      "grad_norm": 1.448181390762329,
      "kl": 1.884765625,
      "learning_rate": 1.1415358697437315e-07,
      "loss": 0.0796,
      "num_tokens": 1563874863.0,
      "reward": 1.1162109375,
      "reward_std": 0.43645647168159485,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.146484375,
      "rewards/format_reward/std": 0.35393697023391724,
      "rewards/tag_count_reward/mean": 0.9150390625,
      "rewards/tag_count_reward/std": 0.19561834633350372,
      "step": 2719
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1046.33203125,
      "completions/mean_terminated_length": 999.2188110351562,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.9285653324229751,
      "grad_norm": 1.838381290435791,
      "kl": 2.22265625,
      "learning_rate": 1.1402044704579305e-07,
      "loss": 0.0953,
      "num_tokens": 1564481913.0,
      "reward": 1.16845703125,
      "reward_std": 0.4816431701183319,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.169921875,
      "rewards/format_reward/std": 0.3759314715862274,
      "rewards/tag_count_reward/mean": 0.91845703125,
      "rewards/tag_count_reward/std": 0.19362683594226837,
      "step": 2720
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1982.0,
      "completions/mean_length": 1145.505859375,
      "completions/mean_terminated_length": 1079.2850341796875,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.9289067167363659,
      "grad_norm": 2.999922513961792,
      "kl": 3.14453125,
      "learning_rate": 1.1388792638002969e-07,
      "loss": 0.1356,
      "num_tokens": 1565146556.0,
      "reward": 1.10546875,
      "reward_std": 0.49174898862838745,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.130859375,
      "rewards/format_reward/std": 0.33757632970809937,
      "rewards/tag_count_reward/mean": 0.8828125,
      "rewards/tag_count_reward/std": 0.2307935357093811,
      "step": 2721
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1031.849609375,
      "completions/mean_terminated_length": 988.3890380859375,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.9292481010497567,
      "grad_norm": 5.153967380523682,
      "kl": 2.70703125,
      "learning_rate": 1.1375602516531472e-07,
      "loss": 0.1467,
      "num_tokens": 1565752559.0,
      "reward": 1.25146484375,
      "reward_std": 0.5501196384429932,
      "rewards/accuracy_reward/mean": 0.1796875,
      "rewards/accuracy_reward/std": 0.38430243730545044,
      "rewards/format_reward/mean": 0.169921875,
      "rewards/format_reward/std": 0.3759314715862274,
      "rewards/tag_count_reward/mean": 0.90185546875,
      "rewards/tag_count_reward/std": 0.22121235728263855,
      "step": 2722
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1080.392578125,
      "completions/mean_terminated_length": 1002.8206176757812,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.9295894853631476,
      "grad_norm": 4.036587238311768,
      "kl": 2.759765625,
      "learning_rate": 1.136247435889998e-07,
      "loss": 0.1497,
      "num_tokens": 1566383848.0,
      "reward": 1.1806640625,
      "reward_std": 0.5243150591850281,
      "rewards/accuracy_reward/mean": 0.13508065044879913,
      "rewards/accuracy_reward/std": 0.3421548008918762,
      "rewards/format_reward/mean": 0.1640625,
      "rewards/format_reward/std": 0.37069445848464966,
      "rewards/tag_count_reward/mean": 0.8857421875,
      "rewards/tag_count_reward/std": 0.22693359851837158,
      "step": 2723
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1043.9921875,
      "completions/mean_terminated_length": 977.0584106445312,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.9299308696765384,
      "grad_norm": 1.3248389959335327,
      "kl": 3.14453125,
      "learning_rate": 1.134940818375565e-07,
      "loss": 0.1424,
      "num_tokens": 1566993764.0,
      "reward": 1.1865234375,
      "reward_std": 0.5169667601585388,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.185546875,
      "rewards/format_reward/std": 0.38912075757980347,
      "rewards/tag_count_reward/mean": 0.8916015625,
      "rewards/tag_count_reward/std": 0.22000661492347717,
      "step": 2724
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1090.9296875,
      "completions/mean_terminated_length": 1016.37890625,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.9302722539899292,
      "grad_norm": 3.957882881164551,
      "kl": 3.3046875,
      "learning_rate": 1.1336404009657603e-07,
      "loss": 0.1403,
      "num_tokens": 1567639552.0,
      "reward": 1.17138671875,
      "reward_std": 0.48888540267944336,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.125,
      "rewards/format_reward/std": 0.3310423493385315,
      "rewards/tag_count_reward/mean": 0.88818359375,
      "rewards/tag_count_reward/std": 0.22244861721992493,
      "step": 2725
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1106.685546875,
      "completions/mean_terminated_length": 1033.362060546875,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "epoch": 0.93061363830332,
      "grad_norm": 2.481177806854248,
      "kl": 3.6015625,
      "learning_rate": 1.1323461855076901e-07,
      "loss": 0.2086,
      "num_tokens": 1568292239.0,
      "reward": 1.1142578125,
      "reward_std": 0.5196710228919983,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.146484375,
      "rewards/format_reward/std": 0.35393697023391724,
      "rewards/tag_count_reward/mean": 0.8583984375,
      "rewards/tag_count_reward/std": 0.2506698966026306,
      "step": 2726
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1073.060546875,
      "completions/mean_terminated_length": 1003.71337890625,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.9309550226167108,
      "grad_norm": 2.6814558506011963,
      "kl": 3.03515625,
      "learning_rate": 1.1310581738396499e-07,
      "loss": 0.1548,
      "num_tokens": 1568922462.0,
      "reward": 1.18408203125,
      "reward_std": 0.5056514143943787,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.197265625,
      "rewards/format_reward/std": 0.3983237147331238,
      "rewards/tag_count_reward/mean": 0.89111328125,
      "rewards/tag_count_reward/std": 0.21724599599838257,
      "step": 2727
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1047.892578125,
      "completions/mean_terminated_length": 981.2188110351562,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.9312964069301015,
      "grad_norm": 2.15360689163208,
      "kl": 3.21484375,
      "learning_rate": 1.1297763677911238e-07,
      "loss": 0.166,
      "num_tokens": 1569537047.0,
      "reward": 1.1748046875,
      "reward_std": 0.517542839050293,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.197265625,
      "rewards/format_reward/std": 0.3983237147331238,
      "rewards/tag_count_reward/mean": 0.8935546875,
      "rewards/tag_count_reward/std": 0.21648648381233215,
      "step": 2728
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1109.849609375,
      "completions/mean_terminated_length": 1053.521728515625,
      "completions/min_length": 341.0,
      "completions/min_terminated_length": 341.0,
      "epoch": 0.9316377912434923,
      "grad_norm": 1.6677082777023315,
      "kl": 2.0546875,
      "learning_rate": 1.128500769182781e-07,
      "loss": 0.0769,
      "num_tokens": 1570185770.0,
      "reward": 1.251953125,
      "reward_std": 0.4941042959690094,
      "rewards/accuracy_reward/mean": 0.15625,
      "rewards/accuracy_reward/std": 0.36344730854034424,
      "rewards/format_reward/mean": 0.1875,
      "rewards/format_reward/std": 0.39069411158561707,
      "rewards/tag_count_reward/mean": 0.908203125,
      "rewards/tag_count_reward/std": 0.19249899685382843,
      "step": 2729
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1051.677734375,
      "completions/mean_terminated_length": 991.857177734375,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.9319791755568831,
      "grad_norm": 2.0316929817199707,
      "kl": 2.61328125,
      "learning_rate": 1.1272313798264753e-07,
      "loss": 0.0963,
      "num_tokens": 1570800597.0,
      "reward": 1.1689453125,
      "reward_std": 0.5213490724563599,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.189453125,
      "rewards/format_reward/std": 0.3922513723373413,
      "rewards/tag_count_reward/mean": 0.8876953125,
      "rewards/tag_count_reward/std": 0.2284444123506546,
      "step": 2730
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1155.177734375,
      "completions/mean_terminated_length": 1097.63623046875,
      "completions/min_length": 352.0,
      "completions/min_terminated_length": 352.0,
      "epoch": 0.932320559870274,
      "grad_norm": 2.86479115486145,
      "kl": 2.783203125,
      "learning_rate": 1.1259682015252397e-07,
      "loss": 0.1178,
      "num_tokens": 1571467504.0,
      "reward": 1.13916015625,
      "reward_std": 0.5090773105621338,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.15234375,
      "rewards/format_reward/std": 0.35970520973205566,
      "rewards/tag_count_reward/mean": 0.88720703125,
      "rewards/tag_count_reward/std": 0.2214023321866989,
      "step": 2731
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1029.146484375,
      "completions/mean_terminated_length": 981.2249145507812,
      "completions/min_length": 292.0,
      "completions/min_terminated_length": 292.0,
      "epoch": 0.9326619441836648,
      "grad_norm": 1.5832064151763916,
      "kl": 2.611328125,
      "learning_rate": 1.1247112360732859e-07,
      "loss": 0.1164,
      "num_tokens": 1572070379.0,
      "reward": 1.18212890625,
      "reward_std": 0.5231274366378784,
      "rewards/accuracy_reward/mean": 0.142578125,
      "rewards/accuracy_reward/std": 0.3499840497970581,
      "rewards/format_reward/mean": 0.13671875,
      "rewards/format_reward/std": 0.3438861668109894,
      "rewards/tag_count_reward/mean": 0.90283203125,
      "rewards/tag_count_reward/std": 0.21205542981624603,
      "step": 2732
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1109.66015625,
      "completions/mean_terminated_length": 1053.3209228515625,
      "completions/min_length": 299.0,
      "completions/min_terminated_length": 299.0,
      "epoch": 0.9330033284970556,
      "grad_norm": 1.6788402795791626,
      "kl": 2.033203125,
      "learning_rate": 1.1234604852559989e-07,
      "loss": 0.0908,
      "num_tokens": 1572709597.0,
      "reward": 1.19482421875,
      "reward_std": 0.5316367745399475,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.169921875,
      "rewards/format_reward/std": 0.3759314715862274,
      "rewards/tag_count_reward/mean": 0.90380859375,
      "rewards/tag_count_reward/std": 0.19634664058685303,
      "step": 2733
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1961.0,
      "completions/mean_length": 1055.7265625,
      "completions/mean_terminated_length": 982.918212890625,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.9333447128104464,
      "grad_norm": 2.4923200607299805,
      "kl": 2.9921875,
      "learning_rate": 1.122215950849939e-07,
      "loss": 0.142,
      "num_tokens": 1573334385.0,
      "reward": 1.18798828125,
      "reward_std": 0.48628371953964233,
      "rewards/accuracy_reward/mean": 0.140625,
      "rewards/accuracy_reward/std": 0.3479743003845215,
      "rewards/format_reward/mean": 0.16015625,
      "rewards/format_reward/std": 0.3671095669269562,
      "rewards/tag_count_reward/mean": 0.88720703125,
      "rewards/tag_count_reward/std": 0.21973879635334015,
      "step": 2734
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1067.77734375,
      "completions/mean_terminated_length": 1013.2083129882812,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.9336860971238372,
      "grad_norm": 1.6817021369934082,
      "kl": 2.51171875,
      "learning_rate": 1.1209776346228351e-07,
      "loss": 0.0897,
      "num_tokens": 1573955423.0,
      "reward": 1.19482421875,
      "reward_std": 0.5526976585388184,
      "rewards/accuracy_reward/mean": 0.1088709682226181,
      "rewards/accuracy_reward/std": 0.31179171800613403,
      "rewards/format_reward/mean": 0.201171875,
      "rewards/format_reward/std": 0.4012683033943176,
      "rewards/tag_count_reward/mean": 0.88818359375,
      "rewards/tag_count_reward/std": 0.2207929641008377,
      "step": 2735
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1046.78515625,
      "completions/mean_terminated_length": 1001.8325805664062,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "epoch": 0.9340274814372279,
      "grad_norm": 2.0370399951934814,
      "kl": 2.21484375,
      "learning_rate": 1.1197455383335848e-07,
      "loss": 0.1041,
      "num_tokens": 1574565777.0,
      "reward": 1.17138671875,
      "reward_std": 0.49347296357154846,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.1640625,
      "rewards/format_reward/std": 0.37069445848464966,
      "rewards/tag_count_reward/mean": 0.90771484375,
      "rewards/tag_count_reward/std": 0.20369400084018707,
      "step": 2736
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1053.767578125,
      "completions/mean_terminated_length": 998.4185791015625,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.9343688657506187,
      "grad_norm": 1.7936569452285767,
      "kl": 2.51171875,
      "learning_rate": 1.11851966373225e-07,
      "loss": 0.1205,
      "num_tokens": 1575179690.0,
      "reward": 1.13525390625,
      "reward_std": 0.49340930581092834,
      "rewards/accuracy_reward/mean": 0.11088709533214569,
      "rewards/accuracy_reward/std": 0.3143092691898346,
      "rewards/format_reward/mean": 0.134765625,
      "rewards/format_reward/std": 0.3418070077896118,
      "rewards/tag_count_reward/mean": 0.89306640625,
      "rewards/tag_count_reward/std": 0.20963992178440094,
      "step": 2737
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1107.134765625,
      "completions/mean_terminated_length": 1029.55810546875,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.9347102500640095,
      "grad_norm": 3.862917900085449,
      "kl": 2.65625,
      "learning_rate": 1.1173000125600561e-07,
      "loss": 0.1732,
      "num_tokens": 1575828975.0,
      "reward": 1.17724609375,
      "reward_std": 0.5306399464607239,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.1640625,
      "rewards/format_reward/std": 0.37069445848464966,
      "rewards/tag_count_reward/mean": 0.88427734375,
      "rewards/tag_count_reward/std": 0.2328498363494873,
      "step": 2738
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1991.0,
      "completions/mean_length": 1073.4140625,
      "completions/mean_terminated_length": 1010.6029052734375,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.9350516343774004,
      "grad_norm": 2.2169547080993652,
      "kl": 2.798828125,
      "learning_rate": 1.1160865865493885e-07,
      "loss": 0.1225,
      "num_tokens": 1576452851.0,
      "reward": 1.13037109375,
      "reward_std": 0.5240286588668823,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.189453125,
      "rewards/format_reward/std": 0.3922513723373413,
      "rewards/tag_count_reward/mean": 0.87646484375,
      "rewards/tag_count_reward/std": 0.22932685911655426,
      "step": 2739
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1095.41015625,
      "completions/mean_terminated_length": 1010.2850952148438,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.9353930186907912,
      "grad_norm": 2.004274606704712,
      "kl": 2.70703125,
      "learning_rate": 1.1148793874237905e-07,
      "loss": 0.1281,
      "num_tokens": 1577095269.0,
      "reward": 1.14111328125,
      "reward_std": 0.5007473230361938,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.16796875,
      "rewards/format_reward/std": 0.374204158782959,
      "rewards/tag_count_reward/mean": 0.88134765625,
      "rewards/tag_count_reward/std": 0.22977641224861145,
      "step": 2740
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1053.6796875,
      "completions/mean_terminated_length": 1000.485595703125,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.935734403004182,
      "grad_norm": 3.298950433731079,
      "kl": 3.109375,
      "learning_rate": 1.1136784168979604e-07,
      "loss": 0.1366,
      "num_tokens": 1577707297.0,
      "reward": 1.212890625,
      "reward_std": 0.536832869052887,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.1953125,
      "rewards/format_reward/std": 0.3968288004398346,
      "rewards/tag_count_reward/mean": 0.888671875,
      "rewards/tag_count_reward/std": 0.22020848095417023,
      "step": 2741
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1070.462890625,
      "completions/mean_terminated_length": 987.6207885742188,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.9360757873175728,
      "grad_norm": 2.6163384914398193,
      "kl": 2.541015625,
      "learning_rate": 1.1124836766777502e-07,
      "loss": 0.1166,
      "num_tokens": 1578332878.0,
      "reward": 1.18310546875,
      "reward_std": 0.5336445569992065,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.1875,
      "rewards/format_reward/std": 0.39069411158561707,
      "rewards/tag_count_reward/mean": 0.87841796875,
      "rewards/tag_count_reward/std": 0.22930601239204407,
      "step": 2742
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1067.251953125,
      "completions/mean_terminated_length": 1008.366455078125,
      "completions/min_length": 279.0,
      "completions/min_terminated_length": 279.0,
      "epoch": 0.9364171716309636,
      "grad_norm": 2.0988738536834717,
      "kl": 3.109375,
      "learning_rate": 1.1112951684601616e-07,
      "loss": 0.1381,
      "num_tokens": 1578960895.0,
      "reward": 1.27490234375,
      "reward_std": 0.6136878728866577,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.244140625,
      "rewards/format_reward/std": 0.42999663949012756,
      "rewards/tag_count_reward/mean": 0.89208984375,
      "rewards/tag_count_reward/std": 0.22546088695526123,
      "step": 2743
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 1039.001953125,
      "completions/mean_terminated_length": 980.630126953125,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "epoch": 0.9367585559443543,
      "grad_norm": 2.491743564605713,
      "kl": 2.580078125,
      "learning_rate": 1.1101128939333448e-07,
      "loss": 0.1241,
      "num_tokens": 1579575472.0,
      "reward": 1.25390625,
      "reward_std": 0.5565868616104126,
      "rewards/accuracy_reward/mean": 0.16796875,
      "rewards/accuracy_reward/std": 0.374204158782959,
      "rewards/format_reward/mean": 0.1875,
      "rewards/format_reward/std": 0.39069411158561707,
      "rewards/tag_count_reward/mean": 0.8984375,
      "rewards/tag_count_reward/std": 0.2085207849740982,
      "step": 2744
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1001.1796875,
      "completions/mean_terminated_length": 967.4112548828125,
      "completions/min_length": 292.0,
      "completions/min_terminated_length": 292.0,
      "epoch": 0.9370999402577451,
      "grad_norm": 4.4087700843811035,
      "kl": 2.06640625,
      "learning_rate": 1.1089368547765956e-07,
      "loss": 0.0792,
      "num_tokens": 1580160828.0,
      "reward": 1.203125,
      "reward_std": 0.5256979465484619,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.177734375,
      "rewards/format_reward/std": 0.3826628625392914,
      "rewards/tag_count_reward/mean": 0.912109375,
      "rewards/tag_count_reward/std": 0.2017289400100708,
      "step": 2745
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1098.75390625,
      "completions/mean_terminated_length": 993.7396850585938,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.9374413245711359,
      "grad_norm": 2.1992671489715576,
      "kl": 3.25390625,
      "learning_rate": 1.1077670526603537e-07,
      "loss": 0.1646,
      "num_tokens": 1580816414.0,
      "reward": 1.11669921875,
      "reward_std": 0.5224183201789856,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.189453125,
      "rewards/format_reward/std": 0.3922513723373413,
      "rewards/tag_count_reward/mean": 0.87060546875,
      "rewards/tag_count_reward/std": 0.23404096066951752,
      "step": 2746
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1102.56640625,
      "completions/mean_terminated_length": 1033.1949462890625,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.9377827088845268,
      "grad_norm": 2.437163829803467,
      "kl": 2.75390625,
      "learning_rate": 1.1066034892461983e-07,
      "loss": 0.1322,
      "num_tokens": 1581463696.0,
      "reward": 1.146484375,
      "reward_std": 0.5082423686981201,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.203125,
      "rewards/format_reward/std": 0.4027182459831238,
      "rewards/tag_count_reward/mean": 0.884765625,
      "rewards/tag_count_reward/std": 0.22317391633987427,
      "step": 2747
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1058.5859375,
      "completions/mean_terminated_length": 1020.454345703125,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "epoch": 0.9381240931979176,
      "grad_norm": 4.850437641143799,
      "kl": 2.16015625,
      "learning_rate": 1.105446166186849e-07,
      "loss": 0.0444,
      "num_tokens": 1582075884.0,
      "reward": 1.18408203125,
      "reward_std": 0.5133605003356934,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.220703125,
      "rewards/format_reward/std": 0.4151262938976288,
      "rewards/tag_count_reward/mean": 0.90869140625,
      "rewards/tag_count_reward/std": 0.20111636817455292,
      "step": 2748
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 1021.609375,
      "completions/mean_terminated_length": 973.3333129882812,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.9384654775113084,
      "grad_norm": 3.285113573074341,
      "kl": 3.16796875,
      "learning_rate": 1.1042950851261594e-07,
      "loss": 0.1494,
      "num_tokens": 1582673668.0,
      "reward": 1.16943359375,
      "reward_std": 0.527377724647522,
      "rewards/accuracy_reward/mean": 0.12083332985639572,
      "rewards/accuracy_reward/std": 0.32627353072166443,
      "rewards/format_reward/mean": 0.171875,
      "rewards/format_reward/std": 0.3776407241821289,
      "rewards/tag_count_reward/mean": 0.88427734375,
      "rewards/tag_count_reward/std": 0.21764588356018066,
      "step": 2749
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.095703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1115.119140625,
      "completions/mean_terminated_length": 1016.3909301757812,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.9388068618246992,
      "grad_norm": 3.8029723167419434,
      "kl": 2.419921875,
      "learning_rate": 1.1031502476991205e-07,
      "loss": 0.11,
      "num_tokens": 1583321697.0,
      "reward": 1.17822265625,
      "reward_std": 0.5240421295166016,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.220703125,
      "rewards/format_reward/std": 0.4151262938976288,
      "rewards/tag_count_reward/mean": 0.87158203125,
      "rewards/tag_count_reward/std": 0.2271624505519867,
      "step": 2750
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1056.69140625,
      "completions/mean_terminated_length": 979.4736328125,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.93914824613809,
      "grad_norm": 3.1952877044677734,
      "kl": 3.875,
      "learning_rate": 1.1020116555318504e-07,
      "loss": 0.2257,
      "num_tokens": 1583942483.0,
      "reward": 1.1064453125,
      "reward_std": 0.49217334389686584,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.158203125,
      "rewards/format_reward/std": 0.36528825759887695,
      "rewards/tag_count_reward/mean": 0.8583984375,
      "rewards/tag_count_reward/std": 0.2432408630847931,
      "step": 2751
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1151.240234375,
      "completions/mean_terminated_length": 1079.3480224609375,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.9394896304514807,
      "grad_norm": 1.4473960399627686,
      "kl": 2.91796875,
      "learning_rate": 1.1008793102416005e-07,
      "loss": 0.1289,
      "num_tokens": 1584621726.0,
      "reward": 1.2216796875,
      "reward_std": 0.5785197615623474,
      "rewards/accuracy_reward/mean": 0.0859375,
      "rewards/accuracy_reward/std": 0.28054583072662354,
      "rewards/format_reward/mean": 0.25390625,
      "rewards/format_reward/std": 0.43567025661468506,
      "rewards/tag_count_reward/mean": 0.8818359375,
      "rewards/tag_count_reward/std": 0.22654588520526886,
      "step": 2752
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03515625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 975.556640625,
      "completions/mean_terminated_length": 936.4797973632812,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.9398310147648715,
      "grad_norm": 4.085820198059082,
      "kl": 2.693359375,
      "learning_rate": 1.0997532134367466e-07,
      "loss": 0.1461,
      "num_tokens": 1585202443.0,
      "reward": 1.29345703125,
      "reward_std": 0.54472815990448,
      "rewards/accuracy_reward/mean": 0.158203125,
      "rewards/accuracy_reward/std": 0.36528825759887695,
      "rewards/format_reward/mean": 0.23046875,
      "rewards/format_reward/std": 0.42154473066329956,
      "rewards/tag_count_reward/mean": 0.90478515625,
      "rewards/tag_count_reward/std": 0.21121110022068024,
      "step": 2753
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1983.0,
      "completions/mean_length": 980.50390625,
      "completions/mean_terminated_length": 946.0685424804688,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.9401723990782623,
      "grad_norm": 3.333768129348755,
      "kl": 2.78515625,
      "learning_rate": 1.0986333667167905e-07,
      "loss": 0.0896,
      "num_tokens": 1585780701.0,
      "reward": 1.2021484375,
      "reward_std": 0.5328149199485779,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.203125,
      "rewards/format_reward/std": 0.4027182459831238,
      "rewards/tag_count_reward/mean": 0.8955078125,
      "rewards/tag_count_reward/std": 0.21346396207809448,
      "step": 2754
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1016.177734375,
      "completions/mean_terminated_length": 967.6461791992188,
      "completions/min_length": 299.0,
      "completions/min_terminated_length": 299.0,
      "epoch": 0.9405137833916531,
      "grad_norm": 3.897737503051758,
      "kl": 2.857421875,
      "learning_rate": 1.0975197716723546e-07,
      "loss": 0.1074,
      "num_tokens": 1586379256.0,
      "reward": 1.23828125,
      "reward_std": 0.5745152831077576,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.22265625,
      "rewards/format_reward/std": 0.41643625497817993,
      "rewards/tag_count_reward/mean": 0.892578125,
      "rewards/tag_count_reward/std": 0.21026401221752167,
      "step": 2755
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 1052.517578125,
      "completions/mean_terminated_length": 1012.05078125,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.940855167705044,
      "grad_norm": 3.8902318477630615,
      "kl": 2.205078125,
      "learning_rate": 1.0964124298851851e-07,
      "loss": 0.1018,
      "num_tokens": 1586997313.0,
      "reward": 1.34619140625,
      "reward_std": 0.5808758735656738,
      "rewards/accuracy_reward/mean": 0.197265625,
      "rewards/accuracy_reward/std": 0.3983237147331238,
      "rewards/format_reward/mean": 0.25,
      "rewards/format_reward/std": 0.43343618512153625,
      "rewards/tag_count_reward/mean": 0.89892578125,
      "rewards/tag_count_reward/std": 0.20905111730098724,
      "step": 2756
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1041.39453125,
      "completions/mean_terminated_length": 983.1611328125,
      "completions/min_length": 272.0,
      "completions/min_terminated_length": 272.0,
      "epoch": 0.9411965520184348,
      "grad_norm": 2.0232720375061035,
      "kl": 3.09375,
      "learning_rate": 1.0953113429281422e-07,
      "loss": 0.1605,
      "num_tokens": 1587611819.0,
      "reward": 1.25,
      "reward_std": 0.5445467233657837,
      "rewards/accuracy_reward/mean": 0.162109375,
      "rewards/accuracy_reward/std": 0.3689115643501282,
      "rewards/format_reward/mean": 0.19140625,
      "rewards/format_reward/std": 0.3937928080558777,
      "rewards/tag_count_reward/mean": 0.896484375,
      "rewards/tag_count_reward/std": 0.2057807892560959,
      "step": 2757
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1053.44921875,
      "completions/mean_terminated_length": 980.4737548828125,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.9415379363318256,
      "grad_norm": 2.105117082595825,
      "kl": 3.0703125,
      "learning_rate": 1.0942165123652037e-07,
      "loss": 0.1172,
      "num_tokens": 1588230609.0,
      "reward": 1.1865234375,
      "reward_std": 0.5329842567443848,
      "rewards/accuracy_reward/mean": 0.07258064299821854,
      "rewards/accuracy_reward/std": 0.25970885157585144,
      "rewards/format_reward/mean": 0.23046875,
      "rewards/format_reward/std": 0.42154473066329956,
      "rewards/tag_count_reward/mean": 0.8857421875,
      "rewards/tag_count_reward/std": 0.22476740181446075,
      "step": 2758
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2004.0,
      "completions/mean_length": 1088.666015625,
      "completions/mean_terminated_length": 1031.0662841796875,
      "completions/min_length": 323.0,
      "completions/min_terminated_length": 323.0,
      "epoch": 0.9418793206452164,
      "grad_norm": 6.0164408683776855,
      "kl": 2.8671875,
      "learning_rate": 1.0931279397514603e-07,
      "loss": 0.0856,
      "num_tokens": 1588880950.0,
      "reward": 1.1689453125,
      "reward_std": 0.5427096486091614,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.212890625,
      "rewards/format_reward/std": 0.409751296043396,
      "rewards/tag_count_reward/mean": 0.8818359375,
      "rewards/tag_count_reward/std": 0.2137681394815445,
      "step": 2759
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1085.111328125,
      "completions/mean_terminated_length": 1029.406982421875,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.9422207049586071,
      "grad_norm": 4.037320613861084,
      "kl": 2.6484375,
      "learning_rate": 1.0920456266331154e-07,
      "loss": 0.0629,
      "num_tokens": 1589512879.0,
      "reward": 1.26806640625,
      "reward_std": 0.6067713499069214,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.2578125,
      "rewards/format_reward/std": 0.43785804510116577,
      "rewards/tag_count_reward/mean": 0.89501953125,
      "rewards/tag_count_reward/std": 0.21972140669822693,
      "step": 2760
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1985.0,
      "completions/mean_length": 1106.484375,
      "completions/mean_terminated_length": 1056.115234375,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.9425620892719979,
      "grad_norm": 3.344714403152466,
      "kl": 3.28515625,
      "learning_rate": 1.0909695745474783e-07,
      "loss": 0.1226,
      "num_tokens": 1590168711.0,
      "reward": 1.1669921875,
      "reward_std": 0.5766034126281738,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.25390625,
      "rewards/format_reward/std": 0.43567025661468506,
      "rewards/tag_count_reward/mean": 0.8583984375,
      "rewards/tag_count_reward/std": 0.2427375167608261,
      "step": 2761
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1011.427734375,
      "completions/mean_terminated_length": 971.4786987304688,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "epoch": 0.9429034735853887,
      "grad_norm": 1.6095952987670898,
      "kl": 2.8359375,
      "learning_rate": 1.0898997850229693e-07,
      "loss": 0.1003,
      "num_tokens": 1590760978.0,
      "reward": 1.25634765625,
      "reward_std": 0.567395031452179,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.234375,
      "rewards/format_reward/std": 0.42402184009552,
      "rewards/tag_count_reward/mean": 0.89501953125,
      "rewards/tag_count_reward/std": 0.21804504096508026,
      "step": 2762
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1061.474609375,
      "completions/mean_terminated_length": 1021.3718872070312,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.9432448578987795,
      "grad_norm": 3.225815773010254,
      "kl": 2.94921875,
      "learning_rate": 1.0888362595791095e-07,
      "loss": 0.0884,
      "num_tokens": 1591382949.0,
      "reward": 1.2587890625,
      "reward_std": 0.5945134162902832,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.275390625,
      "rewards/format_reward/std": 0.44714778661727905,
      "rewards/tag_count_reward/mean": 0.9033203125,
      "rewards/tag_count_reward/std": 0.2108335644006729,
      "step": 2763
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 998.7890625,
      "completions/mean_terminated_length": 944.9281616210938,
      "completions/min_length": 249.0,
      "completions/min_terminated_length": 249.0,
      "epoch": 0.9435862422121704,
      "grad_norm": 3.073822498321533,
      "kl": 2.8203125,
      "learning_rate": 1.0877789997265255e-07,
      "loss": 0.0874,
      "num_tokens": 1591970425.0,
      "reward": 1.23876953125,
      "reward_std": 0.5180349349975586,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.21875,
      "rewards/format_reward/std": 0.41380295157432556,
      "rewards/tag_count_reward/mean": 0.90283203125,
      "rewards/tag_count_reward/std": 0.20140598714351654,
      "step": 2764
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1043.767578125,
      "completions/mean_terminated_length": 974.5824584960938,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "epoch": 0.9439276265255612,
      "grad_norm": 3.5396907329559326,
      "kl": 3.5703125,
      "learning_rate": 1.0867280069669415e-07,
      "loss": 0.1635,
      "num_tokens": 1592578418.0,
      "reward": 1.1357421875,
      "reward_std": 0.5693184733390808,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.23046875,
      "rewards/format_reward/std": 0.42154473066329956,
      "rewards/tag_count_reward/mean": 0.8525390625,
      "rewards/tag_count_reward/std": 0.24972273409366608,
      "step": 2765
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1045.017578125,
      "completions/mean_terminated_length": 989.1814575195312,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.944269010838952,
      "grad_norm": 2.6293399333953857,
      "kl": 3.0390625,
      "learning_rate": 1.0856832827931831e-07,
      "loss": 0.1342,
      "num_tokens": 1593184843.0,
      "reward": 1.2998046875,
      "reward_std": 0.6106535196304321,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.263671875,
      "rewards/format_reward/std": 0.4410543739795685,
      "rewards/tag_count_reward/mean": 0.8896484375,
      "rewards/tag_count_reward/std": 0.22290615737438202,
      "step": 2766
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1011.826171875,
      "completions/mean_terminated_length": 982.69677734375,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.9446103951523428,
      "grad_norm": 2.308115005493164,
      "kl": 2.875,
      "learning_rate": 1.0846448286891689e-07,
      "loss": 0.1141,
      "num_tokens": 1593773458.0,
      "reward": 1.240234375,
      "reward_std": 0.5799919366836548,
      "rewards/accuracy_reward/mean": 0.13306452333927155,
      "rewards/accuracy_reward/std": 0.3399873673915863,
      "rewards/format_reward/mean": 0.22265625,
      "rewards/format_reward/std": 0.41643625497817993,
      "rewards/tag_count_reward/mean": 0.888671875,
      "rewards/tag_count_reward/std": 0.2151515930891037,
      "step": 2767
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1041.376953125,
      "completions/mean_terminated_length": 965.245849609375,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.9449517794657335,
      "grad_norm": 1.818924069404602,
      "kl": 3.015625,
      "learning_rate": 1.0836126461299149e-07,
      "loss": 0.1301,
      "num_tokens": 1594384643.0,
      "reward": 1.26171875,
      "reward_std": 0.5729702115058899,
      "rewards/accuracy_reward/mean": 0.12890625,
      "rewards/accuracy_reward/std": 0.33542385697364807,
      "rewards/format_reward/mean": 0.251953125,
      "rewards/format_reward/std": 0.43455907702445984,
      "rewards/tag_count_reward/mean": 0.880859375,
      "rewards/tag_count_reward/std": 0.22494801878929138,
      "step": 2768
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1101.626953125,
      "completions/mean_terminated_length": 1025.75732421875,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.9452931637791243,
      "grad_norm": 2.682219982147217,
      "kl": 3.25,
      "learning_rate": 1.0825867365815255e-07,
      "loss": 0.1575,
      "num_tokens": 1595020692.0,
      "reward": 1.2353515625,
      "reward_std": 0.601554274559021,
      "rewards/accuracy_reward/mean": 0.146484375,
      "rewards/accuracy_reward/std": 0.35393697023391724,
      "rewards/format_reward/mean": 0.232421875,
      "rewards/format_reward/std": 0.42278963327407837,
      "rewards/tag_count_reward/mean": 0.8564453125,
      "rewards/tag_count_reward/std": 0.24460412561893463,
      "step": 2769
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2017.0,
      "completions/mean_length": 1100.462890625,
      "completions/mean_terminated_length": 1043.5714111328125,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.9456345480925151,
      "grad_norm": 2.309095621109009,
      "kl": 3.31640625,
      "learning_rate": 1.081567101501198e-07,
      "loss": 0.1757,
      "num_tokens": 1595669617.0,
      "reward": 1.18505859375,
      "reward_std": 0.5600747466087341,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.25390625,
      "rewards/format_reward/std": 0.43567025661468506,
      "rewards/tag_count_reward/mean": 0.87255859375,
      "rewards/tag_count_reward/std": 0.23563192784786224,
      "step": 2770
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1082.302734375,
      "completions/mean_terminated_length": 1011.4443969726562,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.9459759324059059,
      "grad_norm": 4.329871654510498,
      "kl": 3.125,
      "learning_rate": 1.0805537423372147e-07,
      "loss": 0.1466,
      "num_tokens": 1596301820.0,
      "reward": 1.20849609375,
      "reward_std": 0.5813396573066711,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.23828125,
      "rewards/format_reward/std": 0.42644867300987244,
      "rewards/tag_count_reward/mean": 0.87451171875,
      "rewards/tag_count_reward/std": 0.23039521276950836,
      "step": 2771
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1178.52734375,
      "completions/mean_terminated_length": 1090.6451416015625,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "epoch": 0.9463173167192968,
      "grad_norm": 2.0258078575134277,
      "kl": 3.59375,
      "learning_rate": 1.0795466605289464e-07,
      "loss": 0.1915,
      "num_tokens": 1596995098.0,
      "reward": 1.15673828125,
      "reward_std": 0.5912457704544067,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.255859375,
      "rewards/format_reward/std": 0.43676990270614624,
      "rewards/tag_count_reward/mean": 0.85400390625,
      "rewards/tag_count_reward/std": 0.25180092453956604,
      "step": 2772
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2007.0,
      "completions/mean_length": 953.5625,
      "completions/mean_terminated_length": 904.4244384765625,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.9466587010326876,
      "grad_norm": 3.5342416763305664,
      "kl": 2.94140625,
      "learning_rate": 1.0785458575068455e-07,
      "loss": 0.136,
      "num_tokens": 1597561098.0,
      "reward": 1.2333984375,
      "reward_std": 0.5430473685264587,
      "rewards/accuracy_reward/mean": 0.15234375,
      "rewards/accuracy_reward/std": 0.35970520973205566,
      "rewards/format_reward/mean": 0.193359375,
      "rewards/format_reward/std": 0.39531853795051575,
      "rewards/tag_count_reward/mean": 0.8876953125,
      "rewards/tag_count_reward/std": 0.2163451910018921,
      "step": 2773
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1153.875,
      "completions/mean_terminated_length": 1071.897705078125,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.9470000853460784,
      "grad_norm": 2.321030616760254,
      "kl": 3.16015625,
      "learning_rate": 1.0775513346924465e-07,
      "loss": 0.1424,
      "num_tokens": 1598229066.0,
      "reward": 1.16162109375,
      "reward_std": 0.6021189093589783,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.24609375,
      "rewards/format_reward/std": 0.4311550557613373,
      "rewards/tag_count_reward/mean": 0.83740234375,
      "rewards/tag_count_reward/std": 0.2532614767551422,
      "step": 2774
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2031.0,
      "completions/mean_length": 1071.234375,
      "completions/mean_terminated_length": 981.68017578125,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.9473414696594692,
      "grad_norm": 3.479919910430908,
      "kl": 3.70703125,
      "learning_rate": 1.0765630934983644e-07,
      "loss": 0.2046,
      "num_tokens": 1598848850.0,
      "reward": 1.12548828125,
      "reward_std": 0.5567803382873535,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.216796875,
      "rewards/format_reward/std": 0.4124660789966583,
      "rewards/tag_count_reward/mean": 0.85205078125,
      "rewards/tag_count_reward/std": 0.2491879016160965,
      "step": 2775
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1008.603515625,
      "completions/mean_terminated_length": 920.51904296875,
      "completions/min_length": 276.0,
      "completions/min_terminated_length": 276.0,
      "epoch": 0.9476828539728599,
      "grad_norm": 3.2040023803710938,
      "kl": 3.359375,
      "learning_rate": 1.0755811353282915e-07,
      "loss": 0.186,
      "num_tokens": 1599440983.0,
      "reward": 1.2060546875,
      "reward_std": 0.5739580988883972,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.2109375,
      "rewards/format_reward/std": 0.4083731174468994,
      "rewards/tag_count_reward/mean": 0.8642578125,
      "rewards/tag_count_reward/std": 0.24457286298274994,
      "step": 2776
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1097.33984375,
      "completions/mean_terminated_length": 1018.95556640625,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.9480242382862507,
      "grad_norm": 2.2169642448425293,
      "kl": 3.494140625,
      "learning_rate": 1.0746054615769942e-07,
      "loss": 0.1788,
      "num_tokens": 1600085237.0,
      "reward": 1.1337890625,
      "reward_std": 0.5671852827072144,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.205078125,
      "rewards/format_reward/std": 0.4041535556316376,
      "rewards/tag_count_reward/mean": 0.8544921875,
      "rewards/tag_count_reward/std": 0.24193312227725983,
      "step": 2777
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1036.962890625,
      "completions/mean_terminated_length": 969.5604858398438,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.9483656225996415,
      "grad_norm": 2.867576837539673,
      "kl": 2.802734375,
      "learning_rate": 1.0736360736303154e-07,
      "loss": 0.1205,
      "num_tokens": 1600696050.0,
      "reward": 1.2236328125,
      "reward_std": 0.5877913236618042,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.244140625,
      "rewards/format_reward/std": 0.42999663949012756,
      "rewards/tag_count_reward/mean": 0.8681640625,
      "rewards/tag_count_reward/std": 0.22976237535476685,
      "step": 2778
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1051.27734375,
      "completions/mean_terminated_length": 1004.396728515625,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.9487070069130323,
      "grad_norm": 5.901501655578613,
      "kl": 2.703125,
      "learning_rate": 1.0726729728651671e-07,
      "loss": 0.1447,
      "num_tokens": 1601320720.0,
      "reward": 1.3369140625,
      "reward_std": 0.6024371981620789,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.3046875,
      "rewards/format_reward/std": 0.4607250988483429,
      "rewards/tag_count_reward/mean": 0.9013671875,
      "rewards/tag_count_reward/std": 0.21166585385799408,
      "step": 2779
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1097.009765625,
      "completions/mean_terminated_length": 1022.9325561523438,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "epoch": 0.9490483912264231,
      "grad_norm": 3.2750980854034424,
      "kl": 2.8515625,
      "learning_rate": 1.0717161606495317e-07,
      "loss": 0.1102,
      "num_tokens": 1601962901.0,
      "reward": 1.22119140625,
      "reward_std": 0.6123496294021606,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.25,
      "rewards/format_reward/std": 0.43343618512153625,
      "rewards/tag_count_reward/mean": 0.85986328125,
      "rewards/tag_count_reward/std": 0.2428334504365921,
      "step": 2780
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1058.763671875,
      "completions/mean_terminated_length": 988.3995361328125,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.949389775539814,
      "grad_norm": 1.626927137374878,
      "kl": 3.265625,
      "learning_rate": 1.0707656383424609e-07,
      "loss": 0.1438,
      "num_tokens": 1602588748.0,
      "reward": 1.20703125,
      "reward_std": 0.5813268423080444,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.240234375,
      "rewards/format_reward/std": 0.4276435375213623,
      "rewards/tag_count_reward/mean": 0.88671875,
      "rewards/tag_count_reward/std": 0.23009692132472992,
      "step": 2781
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1012.14453125,
      "completions/mean_terminated_length": 976.5697631835938,
      "completions/min_length": 304.0,
      "completions/min_terminated_length": 304.0,
      "epoch": 0.9497311598532048,
      "grad_norm": 2.6105847358703613,
      "kl": 3.15234375,
      "learning_rate": 1.0698214072940701e-07,
      "loss": 0.15,
      "num_tokens": 1603180614.0,
      "reward": 1.21240234375,
      "reward_std": 0.5675527453422546,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.23828125,
      "rewards/format_reward/std": 0.42644867300987244,
      "rewards/tag_count_reward/mean": 0.89404296875,
      "rewards/tag_count_reward/std": 0.2209184318780899,
      "step": 2782
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 972.1484375,
      "completions/mean_terminated_length": 928.4146118164062,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.9500725441665956,
      "grad_norm": 2.4629106521606445,
      "kl": 3.3984375,
      "learning_rate": 1.0688834688455399e-07,
      "loss": 0.1527,
      "num_tokens": 1603749186.0,
      "reward": 1.23876953125,
      "reward_std": 0.5696773529052734,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.23828125,
      "rewards/format_reward/std": 0.42644867300987244,
      "rewards/tag_count_reward/mean": 0.89892578125,
      "rewards/tag_count_reward/std": 0.21253253519535065,
      "step": 2783
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.037109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1052.49609375,
      "completions/mean_terminated_length": 1014.1298217773438,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.9504139284799863,
      "grad_norm": 1.5237226486206055,
      "kl": 3.01171875,
      "learning_rate": 1.0679518243291127e-07,
      "loss": 0.1283,
      "num_tokens": 1604357296.0,
      "reward": 1.201171875,
      "reward_std": 0.5628089904785156,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.263671875,
      "rewards/format_reward/std": 0.4410543739795685,
      "rewards/tag_count_reward/mean": 0.876953125,
      "rewards/tag_count_reward/std": 0.2282540202140808,
      "step": 2784
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1008.515625,
      "completions/mean_terminated_length": 964.0570678710938,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.9507553127933771,
      "grad_norm": 2.4121291637420654,
      "kl": 3.20703125,
      "learning_rate": 1.0670264750680906e-07,
      "loss": 0.1476,
      "num_tokens": 1604959800.0,
      "reward": 1.19091796875,
      "reward_std": 0.546492338180542,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.25,
      "rewards/format_reward/std": 0.43343618512153625,
      "rewards/tag_count_reward/mean": 0.88818359375,
      "rewards/tag_count_reward/std": 0.21232111752033234,
      "step": 2785
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1025.025390625,
      "completions/mean_terminated_length": 956.8271484375,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.9510966971067679,
      "grad_norm": 2.8969452381134033,
      "kl": 4.3046875,
      "learning_rate": 1.0661074223768346e-07,
      "loss": 0.2122,
      "num_tokens": 1605561253.0,
      "reward": 1.234375,
      "reward_std": 0.5958242416381836,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.232421875,
      "rewards/format_reward/std": 0.42278963327407837,
      "rewards/tag_count_reward/mean": 0.86328125,
      "rewards/tag_count_reward/std": 0.23793669044971466,
      "step": 2786
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1088.86328125,
      "completions/mean_terminated_length": 996.4411010742188,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.9514380814201587,
      "grad_norm": 3.4848549365997314,
      "kl": 4.12109375,
      "learning_rate": 1.0651946675607618e-07,
      "loss": 0.1972,
      "num_tokens": 1606196815.0,
      "reward": 1.193359375,
      "reward_std": 0.6197876930236816,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.220703125,
      "rewards/format_reward/std": 0.4151262938976288,
      "rewards/tag_count_reward/mean": 0.85546875,
      "rewards/tag_count_reward/std": 0.2475108504295349,
      "step": 2787
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1105.27734375,
      "completions/mean_terminated_length": 1042.42919921875,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.9517794657335495,
      "grad_norm": 2.801020383834839,
      "kl": 3.41015625,
      "learning_rate": 1.064288211916344e-07,
      "loss": 0.1365,
      "num_tokens": 1606842589.0,
      "reward": 1.2197265625,
      "reward_std": 0.6192061305046082,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.28515625,
      "rewards/format_reward/std": 0.45193037390708923,
      "rewards/tag_count_reward/mean": 0.8642578125,
      "rewards/tag_count_reward/std": 0.23900854587554932,
      "step": 2788
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1058.421875,
      "completions/mean_terminated_length": 999.0062255859375,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.9521208500469404,
      "grad_norm": 4.1184258460998535,
      "kl": 3.03515625,
      "learning_rate": 1.0633880567311049e-07,
      "loss": 0.1369,
      "num_tokens": 1607463365.0,
      "reward": 1.30419921875,
      "reward_std": 0.6136320233345032,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.345703125,
      "rewards/format_reward/std": 0.4760620892047882,
      "rewards/tag_count_reward/mean": 0.88623046875,
      "rewards/tag_count_reward/std": 0.2241986095905304,
      "step": 2789
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1144.951171875,
      "completions/mean_terminated_length": 1051.5323486328125,
      "completions/min_length": 303.0,
      "completions/min_terminated_length": 303.0,
      "epoch": 0.9524622343603312,
      "grad_norm": 2.695028305053711,
      "kl": 3.61328125,
      "learning_rate": 1.0624942032836199e-07,
      "loss": 0.168,
      "num_tokens": 1608136124.0,
      "reward": 1.22216796875,
      "reward_std": 0.6235449314117432,
      "rewards/accuracy_reward/mean": 0.103515625,
      "rewards/accuracy_reward/std": 0.30492907762527466,
      "rewards/format_reward/mean": 0.26953125,
      "rewards/format_reward/std": 0.44415023922920227,
      "rewards/tag_count_reward/mean": 0.84912109375,
      "rewards/tag_count_reward/std": 0.2484082579612732,
      "step": 2790
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1049.470703125,
      "completions/mean_terminated_length": 969.4197998046875,
      "completions/min_length": 271.0,
      "completions/min_terminated_length": 271.0,
      "epoch": 0.952803618673722,
      "grad_norm": 5.9639458656311035,
      "kl": 3.34375,
      "learning_rate": 1.0616066528435134e-07,
      "loss": 0.153,
      "num_tokens": 1608754717.0,
      "reward": 1.3115234375,
      "reward_std": 0.6267759203910828,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.3125,
      "rewards/format_reward/std": 0.4639657139778137,
      "rewards/tag_count_reward/mean": 0.8837890625,
      "rewards/tag_count_reward/std": 0.22593770921230316,
      "step": 2791
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1054.849609375,
      "completions/mean_terminated_length": 986.427978515625,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.9531450029871127,
      "grad_norm": 2.85768461227417,
      "kl": 3.4921875,
      "learning_rate": 1.0607254066714566e-07,
      "loss": 0.1562,
      "num_tokens": 1609373296.0,
      "reward": 1.23828125,
      "reward_std": 0.622559666633606,
      "rewards/accuracy_reward/mean": 0.08669354766607285,
      "rewards/accuracy_reward/std": 0.281669557094574,
      "rewards/format_reward/mean": 0.283203125,
      "rewards/format_reward/std": 0.4509948492050171,
      "rewards/tag_count_reward/mean": 0.87109375,
      "rewards/tag_count_reward/std": 0.23716437816619873,
      "step": 2792
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1033.12109375,
      "completions/mean_terminated_length": 972.1863403320312,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.9534863873005035,
      "grad_norm": 2.3304545879364014,
      "kl": 2.82421875,
      "learning_rate": 1.0598504660191671e-07,
      "loss": 0.1105,
      "num_tokens": 1609980014.0,
      "reward": 1.27587890625,
      "reward_std": 0.6237931251525879,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.263671875,
      "rewards/format_reward/std": 0.4410543739795685,
      "rewards/tag_count_reward/mean": 0.88134765625,
      "rewards/tag_count_reward/std": 0.21775121986865997,
      "step": 2793
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1108.966796875,
      "completions/mean_terminated_length": 1027.22509765625,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "epoch": 0.9538277716138943,
      "grad_norm": 1.865417718887329,
      "kl": 3.73828125,
      "learning_rate": 1.0589818321294048e-07,
      "loss": 0.1846,
      "num_tokens": 1610626973.0,
      "reward": 1.21337890625,
      "reward_std": 0.5856899619102478,
      "rewards/accuracy_reward/mean": 0.05040322616696358,
      "rewards/accuracy_reward/std": 0.21899642050266266,
      "rewards/format_reward/mean": 0.296875,
      "rewards/format_reward/std": 0.45732781291007996,
      "rewards/tag_count_reward/mean": 0.86767578125,
      "rewards/tag_count_reward/std": 0.2318669855594635,
      "step": 2794
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 1058.859375,
      "completions/mean_terminated_length": 997.294677734375,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.9541691559272851,
      "grad_norm": 4.216657638549805,
      "kl": 4.24609375,
      "learning_rate": 1.058119506235973e-07,
      "loss": 0.1657,
      "num_tokens": 1611247205.0,
      "reward": 1.2275390625,
      "reward_std": 0.642439603805542,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.255859375,
      "rewards/format_reward/std": 0.43676990270614624,
      "rewards/tag_count_reward/mean": 0.8603515625,
      "rewards/tag_count_reward/std": 0.24436962604522705,
      "step": 2795
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1035.455078125,
      "completions/mean_terminated_length": 979.0866088867188,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.9545105402406759,
      "grad_norm": 6.128505706787109,
      "kl": 4.03515625,
      "learning_rate": 1.0572634895637133e-07,
      "loss": 0.1991,
      "num_tokens": 1611850062.0,
      "reward": 1.18798828125,
      "reward_std": 0.5878502130508423,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.23828125,
      "rewards/format_reward/std": 0.42644867300987244,
      "rewards/tag_count_reward/mean": 0.85791015625,
      "rewards/tag_count_reward/std": 0.24370937049388885,
      "step": 2796
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1099.015625,
      "completions/mean_terminated_length": 1007.5717163085938,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.9548519245540668,
      "grad_norm": 4.615504264831543,
      "kl": 3.4765625,
      "learning_rate": 1.0564137833285074e-07,
      "loss": 0.1322,
      "num_tokens": 1612498342.0,
      "reward": 1.25146484375,
      "reward_std": 0.6047146916389465,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.275390625,
      "rewards/format_reward/std": 0.44714778661727905,
      "rewards/tag_count_reward/mean": 0.87841796875,
      "rewards/tag_count_reward/std": 0.23037032783031464,
      "step": 2797
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1088.919921875,
      "completions/mean_terminated_length": 1035.52783203125,
      "completions/min_length": 279.0,
      "completions/min_terminated_length": 279.0,
      "epoch": 0.9551933088674576,
      "grad_norm": 4.33992338180542,
      "kl": 3.74609375,
      "learning_rate": 1.0555703887372733e-07,
      "loss": 0.1356,
      "num_tokens": 1613128189.0,
      "reward": 1.22509765625,
      "reward_std": 0.6068856120109558,
      "rewards/accuracy_reward/mean": 0.03515625,
      "rewards/accuracy_reward/std": 0.1843547374010086,
      "rewards/format_reward/mean": 0.330078125,
      "rewards/format_reward/std": 0.47070086002349854,
      "rewards/tag_count_reward/mean": 0.85986328125,
      "rewards/tag_count_reward/std": 0.23515698313713074,
      "step": 2798
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.033203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 971.728515625,
      "completions/mean_terminated_length": 934.7656860351562,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.9555346931808484,
      "grad_norm": 3.814810276031494,
      "kl": 3.359375,
      "learning_rate": 1.0547333069879628e-07,
      "loss": 0.1431,
      "num_tokens": 1613701026.0,
      "reward": 1.3251953125,
      "reward_std": 0.6407530903816223,
      "rewards/accuracy_reward/mean": 0.13508065044879913,
      "rewards/accuracy_reward/std": 0.3421548008918762,
      "rewards/format_reward/mean": 0.30859375,
      "rewards/format_reward/std": 0.4623647928237915,
      "rewards/tag_count_reward/mean": 0.8857421875,
      "rewards/tag_count_reward/std": 0.21813978254795074,
      "step": 2799
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2022.0,
      "completions/mean_length": 1090.88671875,
      "completions/mean_terminated_length": 1016.3325805664062,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.9558760774942391,
      "grad_norm": 2.81024432182312,
      "kl": 3.55078125,
      "learning_rate": 1.053902539269563e-07,
      "loss": 0.1487,
      "num_tokens": 1614333288.0,
      "reward": 1.23779296875,
      "reward_std": 0.5979641675949097,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.298828125,
      "rewards/format_reward/std": 0.45819199085235596,
      "rewards/tag_count_reward/mean": 0.86474609375,
      "rewards/tag_count_reward/std": 0.2301669865846634,
      "step": 2800
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1172.650390625,
      "completions/mean_terminated_length": 1082.096923828125,
      "completions/min_length": 324.0,
      "completions/min_terminated_length": 324.0,
      "epoch": 0.9562174618076299,
      "grad_norm": 2.8505945205688477,
      "kl": 3.390625,
      "learning_rate": 1.0530780867620914e-07,
      "loss": 0.1327,
      "num_tokens": 1615016165.0,
      "reward": 1.2001953125,
      "reward_std": 0.624879002571106,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.298828125,
      "rewards/format_reward/std": 0.45819199085235596,
      "rewards/tag_count_reward/mean": 0.8408203125,
      "rewards/tag_count_reward/std": 0.2532638609409332,
      "step": 2801
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1063.912109375,
      "completions/mean_terminated_length": 982.7716674804688,
      "completions/min_length": 271.0,
      "completions/min_terminated_length": 271.0,
      "epoch": 0.9565588461210207,
      "grad_norm": 3.750340700149536,
      "kl": 3.97265625,
      "learning_rate": 1.0522599506365953e-07,
      "loss": 0.1588,
      "num_tokens": 1615637864.0,
      "reward": 1.2666015625,
      "reward_std": 0.6450583934783936,
      "rewards/accuracy_reward/mean": 0.123046875,
      "rewards/accuracy_reward/std": 0.32881227135658264,
      "rewards/format_reward/mean": 0.2890625,
      "rewards/format_reward/std": 0.45377036929130554,
      "rewards/tag_count_reward/mean": 0.8544921875,
      "rewards/tag_count_reward/std": 0.24193312227725983,
      "step": 2802
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1051.740234375,
      "completions/mean_terminated_length": 955.7409057617188,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.9569002304344115,
      "grad_norm": 3.2822134494781494,
      "kl": 3.2734375,
      "learning_rate": 1.0514481320551505e-07,
      "loss": 0.1663,
      "num_tokens": 1616253795.0,
      "reward": 1.22607421875,
      "reward_std": 0.5891274213790894,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.23828125,
      "rewards/format_reward/std": 0.42644867300987244,
      "rewards/tag_count_reward/mean": 0.87255859375,
      "rewards/tag_count_reward/std": 0.22337453067302704,
      "step": 2803
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1047.03125,
      "completions/mean_terminated_length": 997.80322265625,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.9572416147478023,
      "grad_norm": 1.7874726057052612,
      "kl": 3.38671875,
      "learning_rate": 1.0506426321708588e-07,
      "loss": 0.1271,
      "num_tokens": 1616869011.0,
      "reward": 1.30029296875,
      "reward_std": 0.6030961275100708,
      "rewards/accuracy_reward/mean": 0.1328125,
      "rewards/accuracy_reward/std": 0.33970388770103455,
      "rewards/format_reward/mean": 0.283203125,
      "rewards/format_reward/std": 0.4509948492050171,
      "rewards/tag_count_reward/mean": 0.88427734375,
      "rewards/tag_count_reward/std": 0.21595340967178345,
      "step": 2804
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1000.15625,
      "completions/mean_terminated_length": 957.5609130859375,
      "completions/min_length": 268.0,
      "completions/min_terminated_length": 268.0,
      "epoch": 0.9575829990611932,
      "grad_norm": 2.0482962131500244,
      "kl": 3.28515625,
      "learning_rate": 1.0498434521278483e-07,
      "loss": 0.1503,
      "num_tokens": 1617457635.0,
      "reward": 1.19140625,
      "reward_std": 0.5965229868888855,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.25390625,
      "rewards/format_reward/std": 0.43567025661468506,
      "rewards/tag_count_reward/mean": 0.85546875,
      "rewards/tag_count_reward/std": 0.24402722716331482,
      "step": 2805
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2012.0,
      "completions/mean_length": 1155.318359375,
      "completions/mean_terminated_length": 1087.8046875,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.957924383374584,
      "grad_norm": 3.1690008640289307,
      "kl": 3.2265625,
      "learning_rate": 1.0490505930612697e-07,
      "loss": 0.1477,
      "num_tokens": 1618128694.0,
      "reward": 1.21728515625,
      "reward_std": 0.6101462841033936,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.291015625,
      "rewards/format_reward/std": 0.45467492938041687,
      "rewards/tag_count_reward/mean": 0.85400390625,
      "rewards/tag_count_reward/std": 0.24689576029777527,
      "step": 2806
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1047.83203125,
      "completions/mean_terminated_length": 1000.7893676757812,
      "completions/min_length": 250.0,
      "completions/min_terminated_length": 250.0,
      "epoch": 0.9582657676879748,
      "grad_norm": 2.6651482582092285,
      "kl": 3.17578125,
      "learning_rate": 1.0482640560972955e-07,
      "loss": 0.1164,
      "num_tokens": 1618743280.0,
      "reward": 1.2900390625,
      "reward_std": 0.6120122671127319,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.306640625,
      "rewards/format_reward/std": 0.4615498185157776,
      "rewards/tag_count_reward/mean": 0.8818359375,
      "rewards/tag_count_reward/std": 0.22546352446079254,
      "step": 2807
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1096.685546875,
      "completions/mean_terminated_length": 1013.8748168945312,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.9586071520013656,
      "grad_norm": 2.6078107357025146,
      "kl": 3.40625,
      "learning_rate": 1.0474838423531176e-07,
      "loss": 0.158,
      "num_tokens": 1619385663.0,
      "reward": 1.244140625,
      "reward_std": 0.6563979387283325,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.310546875,
      "rewards/format_reward/std": 0.46317005157470703,
      "rewards/tag_count_reward/mean": 0.83984375,
      "rewards/tag_count_reward/std": 0.26168274879455566,
      "step": 2808
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2016.0,
      "completions/mean_length": 1014.033203125,
      "completions/mean_terminated_length": 949.678466796875,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.9589485363147563,
      "grad_norm": 5.4195122718811035,
      "kl": 2.94921875,
      "learning_rate": 1.0467099529369473e-07,
      "loss": 0.1527,
      "num_tokens": 1619982608.0,
      "reward": 1.216796875,
      "reward_std": 0.5864124298095703,
      "rewards/accuracy_reward/mean": 0.060546875,
      "rewards/accuracy_reward/std": 0.2387305200099945,
      "rewards/format_reward/mean": 0.287109375,
      "rewards/format_reward/std": 0.45285552740097046,
      "rewards/tag_count_reward/mean": 0.869140625,
      "rewards/tag_count_reward/std": 0.22872239351272583,
      "step": 2809
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1155.8359375,
      "completions/mean_terminated_length": 1100.30712890625,
      "completions/min_length": 297.0,
      "completions/min_terminated_length": 297.0,
      "epoch": 0.9592899206281471,
      "grad_norm": 1.3648179769515991,
      "kl": 2.8046875,
      "learning_rate": 1.0459423889480126e-07,
      "loss": 0.0923,
      "num_tokens": 1620652988.0,
      "reward": 1.21630859375,
      "reward_std": 0.6065263152122498,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.296875,
      "rewards/format_reward/std": 0.45732781291007996,
      "rewards/tag_count_reward/mean": 0.86669921875,
      "rewards/tag_count_reward/std": 0.2286466658115387,
      "step": 2810
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1092.21875,
      "completions/mean_terminated_length": 1009.0191650390625,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "epoch": 0.9596313049415379,
      "grad_norm": 2.480170726776123,
      "kl": 3.28125,
      "learning_rate": 1.0451811514765569e-07,
      "loss": 0.1393,
      "num_tokens": 1621300348.0,
      "reward": 1.35693359375,
      "reward_std": 0.6668035984039307,
      "rewards/accuracy_reward/mean": 0.169921875,
      "rewards/accuracy_reward/std": 0.3759314715862274,
      "rewards/format_reward/mean": 0.322265625,
      "rewards/format_reward/std": 0.46780112385749817,
      "rewards/tag_count_reward/mean": 0.86474609375,
      "rewards/tag_count_reward/std": 0.2374899983406067,
      "step": 2811
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.095703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1169.443359375,
      "completions/mean_terminated_length": 1076.46435546875,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.9599726892549287,
      "grad_norm": 3.8796234130859375,
      "kl": 2.658203125,
      "learning_rate": 1.0444262416038376e-07,
      "loss": 0.1199,
      "num_tokens": 1621979359.0,
      "reward": 1.2578125,
      "reward_std": 0.6507127285003662,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.3515625,
      "rewards/format_reward/std": 0.4779251217842102,
      "rewards/tag_count_reward/mean": 0.853515625,
      "rewards/tag_count_reward/std": 0.24980881810188293,
      "step": 2812
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1084.6171875,
      "completions/mean_terminated_length": 998.5276489257812,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.9603140735683195,
      "grad_norm": 3.1738040447235107,
      "kl": 3.515625,
      "learning_rate": 1.0436776604021244e-07,
      "loss": 0.1825,
      "num_tokens": 1622620331.0,
      "reward": 1.2802734375,
      "reward_std": 0.6633602976799011,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.33203125,
      "rewards/format_reward/std": 0.47140273451805115,
      "rewards/tag_count_reward/mean": 0.8564453125,
      "rewards/tag_count_reward/std": 0.24659612774848938,
      "step": 2813
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1077.306640625,
      "completions/mean_terminated_length": 1016.8900756835938,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.9606554578817104,
      "grad_norm": 3.4238946437835693,
      "kl": 3.609375,
      "learning_rate": 1.0429354089346976e-07,
      "loss": 0.1616,
      "num_tokens": 1623247736.0,
      "reward": 1.28662109375,
      "reward_std": 0.6705954074859619,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.34375,
      "rewards/format_reward/std": 0.4754233956336975,
      "rewards/tag_count_reward/mean": 0.85498046875,
      "rewards/tag_count_reward/std": 0.24448835849761963,
      "step": 2814
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1046.07421875,
      "completions/mean_terminated_length": 968.0294189453125,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.9609968421951012,
      "grad_norm": 3.464841842651367,
      "kl": 4.03125,
      "learning_rate": 1.0421994882558466e-07,
      "loss": 0.1979,
      "num_tokens": 1623863294.0,
      "reward": 1.193359375,
      "reward_std": 0.6017947196960449,
      "rewards/accuracy_reward/mean": 0.0234375,
      "rewards/accuracy_reward/std": 0.15143637359142303,
      "rewards/format_reward/mean": 0.3125,
      "rewards/format_reward/std": 0.4639657139778137,
      "rewards/tag_count_reward/mean": 0.857421875,
      "rewards/tag_count_reward/std": 0.24216407537460327,
      "step": 2815
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1066.017578125,
      "completions/mean_terminated_length": 1021.9285278320312,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.961338226508492,
      "grad_norm": 4.695958614349365,
      "kl": 3.55078125,
      "learning_rate": 1.0414698994108689e-07,
      "loss": 0.1653,
      "num_tokens": 1624488951.0,
      "reward": 1.33544921875,
      "reward_std": 0.657383382320404,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.380859375,
      "rewards/format_reward/std": 0.48607301712036133,
      "rewards/tag_count_reward/mean": 0.87060546875,
      "rewards/tag_count_reward/std": 0.23869800567626953,
      "step": 2816
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1063.79296875,
      "completions/mean_terminated_length": 1011.139892578125,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.9616796108218827,
      "grad_norm": 3.1592657566070557,
      "kl": 4.0546875,
      "learning_rate": 1.0407466434360689e-07,
      "loss": 0.1743,
      "num_tokens": 1625106493.0,
      "reward": 1.3359375,
      "reward_std": 0.6510826349258423,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.38671875,
      "rewards/format_reward/std": 0.48747459053993225,
      "rewards/tag_count_reward/mean": 0.8671875,
      "rewards/tag_count_reward/std": 0.2365511655807495,
      "step": 2817
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1111.603515625,
      "completions/mean_terminated_length": 1034.3953857421875,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.9620209951352735,
      "grad_norm": 1.8703370094299316,
      "kl": 3.9296875,
      "learning_rate": 1.0400297213587539e-07,
      "loss": 0.1829,
      "num_tokens": 1625749170.0,
      "reward": 1.2568359375,
      "reward_std": 0.6568077206611633,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.349609375,
      "rewards/format_reward/std": 0.47731292247772217,
      "rewards/tag_count_reward/mean": 0.8505859375,
      "rewards/tag_count_reward/std": 0.24658063054084778,
      "step": 2818
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1029.09375,
      "completions/mean_terminated_length": 965.6763916015625,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.9623623794486643,
      "grad_norm": 5.221717357635498,
      "kl": 4.828125,
      "learning_rate": 1.0393191341972373e-07,
      "loss": 0.2061,
      "num_tokens": 1626348114.0,
      "reward": 1.24267578125,
      "reward_std": 0.6536946296691895,
      "rewards/accuracy_reward/mean": 0.07459677755832672,
      "rewards/accuracy_reward/std": 0.263004869222641,
      "rewards/format_reward/mean": 0.328125,
      "rewards/format_reward/std": 0.4699897766113281,
      "rewards/tag_count_reward/mean": 0.84228515625,
      "rewards/tag_count_reward/std": 0.24611273407936096,
      "step": 2819
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1034.189453125,
      "completions/mean_terminated_length": 971.0892333984375,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.9627037637620551,
      "grad_norm": 2.284738540649414,
      "kl": 4.3984375,
      "learning_rate": 1.0386148829608319e-07,
      "loss": 0.1933,
      "num_tokens": 1626947875.0,
      "reward": 1.34326171875,
      "reward_std": 0.680327296257019,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.37890625,
      "rewards/format_reward/std": 0.4855891764163971,
      "rewards/tag_count_reward/mean": 0.85302734375,
      "rewards/tag_count_reward/std": 0.24432024359703064,
      "step": 2820
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 1019.501953125,
      "completions/mean_terminated_length": 934.6997680664062,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.963045148075446,
      "grad_norm": 2.2609078884124756,
      "kl": 4.0078125,
      "learning_rate": 1.0379169686498522e-07,
      "loss": 0.1632,
      "num_tokens": 1627542692.0,
      "reward": 1.3291015625,
      "reward_std": 0.6488129496574402,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.353515625,
      "rewards/format_reward/std": 0.47852855920791626,
      "rewards/tag_count_reward/mean": 0.8681640625,
      "rewards/tag_count_reward/std": 0.23135384917259216,
      "step": 2821
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 1045.08203125,
      "completions/mean_terminated_length": 997.9099731445312,
      "completions/min_length": 285.0,
      "completions/min_terminated_length": 285.0,
      "epoch": 0.9633865323888368,
      "grad_norm": 2.919736862182617,
      "kl": 4.4921875,
      "learning_rate": 1.0372253922556121e-07,
      "loss": 0.1851,
      "num_tokens": 1628162430.0,
      "reward": 1.3046875,
      "reward_std": 0.6720693111419678,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.34375,
      "rewards/format_reward/std": 0.4754233956336975,
      "rewards/tag_count_reward/mean": 0.8515625,
      "rewards/tag_count_reward/std": 0.24468418955802917,
      "step": 2822
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1126.09765625,
      "completions/mean_terminated_length": 1045.84716796875,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.9637279167022276,
      "grad_norm": 2.1116275787353516,
      "kl": 4.6640625,
      "learning_rate": 1.0365401547604226e-07,
      "loss": 0.1899,
      "num_tokens": 1628813040.0,
      "reward": 1.28955078125,
      "reward_std": 0.6486604809761047,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.380859375,
      "rewards/format_reward/std": 0.48607301712036133,
      "rewards/tag_count_reward/mean": 0.85791015625,
      "rewards/tag_count_reward/std": 0.24017061293125153,
      "step": 2823
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1088.59765625,
      "completions/mean_terminated_length": 1000.6354370117188,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.9640693010156184,
      "grad_norm": 2.6560699939727783,
      "kl": 3.765625,
      "learning_rate": 1.0358612571375903e-07,
      "loss": 0.1343,
      "num_tokens": 1629455266.0,
      "reward": 1.29248046875,
      "reward_std": 0.6589604616165161,
      "rewards/accuracy_reward/mean": 0.068359375,
      "rewards/accuracy_reward/std": 0.25260838866233826,
      "rewards/format_reward/mean": 0.373046875,
      "rewards/format_reward/std": 0.48408737778663635,
      "rewards/tag_count_reward/mean": 0.85107421875,
      "rewards/tag_count_reward/std": 0.2395850569009781,
      "step": 2824
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1092.1015625,
      "completions/mean_terminated_length": 1004.4605712890625,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.9644106853290091,
      "grad_norm": 2.799614906311035,
      "kl": 4.515625,
      "learning_rate": 1.0351887003514184e-07,
      "loss": 0.2249,
      "num_tokens": 1630095574.0,
      "reward": 1.35498046875,
      "reward_std": 0.6816108226776123,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.38671875,
      "rewards/format_reward/std": 0.48747459053993225,
      "rewards/tag_count_reward/mean": 0.84912109375,
      "rewards/tag_count_reward/std": 0.25134512782096863,
      "step": 2825
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1085.35546875,
      "completions/mean_terminated_length": 1012.5504760742188,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.9647520696423999,
      "grad_norm": 6.948239326477051,
      "kl": 5.015625,
      "learning_rate": 1.0345224853572018e-07,
      "loss": 0.2017,
      "num_tokens": 1630732796.0,
      "reward": 1.28564453125,
      "reward_std": 0.6930222511291504,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.380859375,
      "rewards/format_reward/std": 0.48607301712036133,
      "rewards/tag_count_reward/mean": 0.83056640625,
      "rewards/tag_count_reward/std": 0.25790491700172424,
      "step": 2826
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1062.279296875,
      "completions/mean_terminated_length": 994.3695678710938,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.9650934539557907,
      "grad_norm": 1.7742729187011719,
      "kl": 5.0546875,
      "learning_rate": 1.0338626131012295e-07,
      "loss": 0.2409,
      "num_tokens": 1631349355.0,
      "reward": 1.28955078125,
      "reward_std": 0.6635084748268127,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.373046875,
      "rewards/format_reward/std": 0.48408737778663635,
      "rewards/tag_count_reward/mean": 0.85205078125,
      "rewards/tag_count_reward/std": 0.2467215359210968,
      "step": 2827
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1079.55859375,
      "completions/mean_terminated_length": 1001.9197998046875,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.9654348382691815,
      "grad_norm": 2.163330316543579,
      "kl": 4.65625,
      "learning_rate": 1.0332090845207793e-07,
      "loss": 0.2526,
      "num_tokens": 1631992185.0,
      "reward": 1.265625,
      "reward_std": 0.6679297685623169,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.349609375,
      "rewards/format_reward/std": 0.47731292247772217,
      "rewards/tag_count_reward/mean": 0.833984375,
      "rewards/tag_count_reward/std": 0.25609469413757324,
      "step": 2828
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1021.9296875,
      "completions/mean_terminated_length": 953.5250244140625,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.9657762225825723,
      "grad_norm": 4.428511619567871,
      "kl": 4.60546875,
      "learning_rate": 1.0325619005441191e-07,
      "loss": 0.2033,
      "num_tokens": 1632595589.0,
      "reward": 1.34423828125,
      "reward_std": 0.6817231178283691,
      "rewards/accuracy_reward/mean": 0.138671875,
      "rewards/accuracy_reward/std": 0.34594178199768066,
      "rewards/format_reward/mean": 0.353515625,
      "rewards/format_reward/std": 0.47852855920791626,
      "rewards/tag_count_reward/mean": 0.85205078125,
      "rewards/tag_count_reward/std": 0.24771103262901306,
      "step": 2829
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1016.11328125,
      "completions/mean_terminated_length": 951.8880004882812,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.9661176068959632,
      "grad_norm": 2.3535547256469727,
      "kl": 4.171875,
      "learning_rate": 1.0319210620905063e-07,
      "loss": 0.1894,
      "num_tokens": 1633197071.0,
      "reward": 1.32666015625,
      "reward_std": 0.6631171107292175,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.37890625,
      "rewards/format_reward/std": 0.4855891764163971,
      "rewards/tag_count_reward/mean": 0.85986328125,
      "rewards/tag_count_reward/std": 0.2483120709657669,
      "step": 2830
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1085.890625,
      "completions/mean_terminated_length": 1026.00830078125,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "epoch": 0.966458991209354,
      "grad_norm": 1.8867931365966797,
      "kl": 3.953125,
      "learning_rate": 1.0312865700701835e-07,
      "loss": 0.1655,
      "num_tokens": 1633828999.0,
      "reward": 1.3857421875,
      "reward_std": 0.676786482334137,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.41015625,
      "rewards/format_reward/std": 0.49234291911125183,
      "rewards/tag_count_reward/mean": 0.8583984375,
      "rewards/tag_count_reward/std": 0.24122115969657898,
      "step": 2831
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 1037.892578125,
      "completions/mean_terminated_length": 970.5521240234375,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.9668003755227448,
      "grad_norm": 3.9254069328308105,
      "kl": 4.59765625,
      "learning_rate": 1.0306584253843792e-07,
      "loss": 0.2023,
      "num_tokens": 1634438288.0,
      "reward": 1.34326171875,
      "reward_std": 0.7044610381126404,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.38671875,
      "rewards/format_reward/std": 0.48747459053993225,
      "rewards/tag_count_reward/mean": 0.83544921875,
      "rewards/tag_count_reward/std": 0.25632545351982117,
      "step": 2832
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1042.408203125,
      "completions/mean_terminated_length": 988.611083984375,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "epoch": 0.9671417598361355,
      "grad_norm": 2.477076530456543,
      "kl": 4.23828125,
      "learning_rate": 1.030036628925307e-07,
      "loss": 0.1836,
      "num_tokens": 1635041505.0,
      "reward": 1.28271484375,
      "reward_std": 0.6709230542182922,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.373046875,
      "rewards/format_reward/std": 0.48408737778663635,
      "rewards/tag_count_reward/mean": 0.83935546875,
      "rewards/tag_count_reward/std": 0.2491648942232132,
      "step": 2833
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1065.828125,
      "completions/mean_terminated_length": 1019.6318969726562,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.9674831441495263,
      "grad_norm": 4.711578369140625,
      "kl": 3.0859375,
      "learning_rate": 1.0294211815761628e-07,
      "loss": 0.0797,
      "num_tokens": 1635663081.0,
      "reward": 1.35498046875,
      "reward_std": 0.6483269929885864,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.416015625,
      "rewards/format_reward/std": 0.493378221988678,
      "rewards/tag_count_reward/mean": 0.88232421875,
      "rewards/tag_count_reward/std": 0.22051148116588593,
      "step": 2834
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1058.396484375,
      "completions/mean_terminated_length": 1016.0713500976562,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.9678245284629171,
      "grad_norm": 2.1096463203430176,
      "kl": 3.28125,
      "learning_rate": 1.028812084211124e-07,
      "loss": 0.1047,
      "num_tokens": 1636272836.0,
      "reward": 1.318359375,
      "reward_std": 0.6351197957992554,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.38671875,
      "rewards/format_reward/std": 0.48747459053993225,
      "rewards/tag_count_reward/mean": 0.876953125,
      "rewards/tag_count_reward/std": 0.21951310336589813,
      "step": 2835
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.041015625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1119.1875,
      "completions/mean_terminated_length": 1079.46240234375,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "epoch": 0.9681659127763079,
      "grad_norm": 3.1537880897521973,
      "kl": 3.49609375,
      "learning_rate": 1.0282093376953499e-07,
      "loss": 0.1405,
      "num_tokens": 1636925700.0,
      "reward": 1.40771484375,
      "reward_std": 0.7227873802185059,
      "rewards/accuracy_reward/mean": 0.109375,
      "rewards/accuracy_reward/std": 0.31241437792778015,
      "rewards/format_reward/mean": 0.4453125,
      "rewards/format_reward/std": 0.49748632311820984,
      "rewards/tag_count_reward/mean": 0.85302734375,
      "rewards/tag_count_reward/std": 0.24730566143989563,
      "step": 2836
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1109.056640625,
      "completions/mean_terminated_length": 1048.5426025390625,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "epoch": 0.9685072970896987,
      "grad_norm": 1.5795732736587524,
      "kl": 4.00390625,
      "learning_rate": 1.0276129428849773e-07,
      "loss": 0.1678,
      "num_tokens": 1637570209.0,
      "reward": 1.31787109375,
      "reward_std": 0.702187180519104,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.3984375,
      "rewards/format_reward/std": 0.4900552034378052,
      "rewards/tag_count_reward/mean": 0.84716796875,
      "rewards/tag_count_reward/std": 0.24472275376319885,
      "step": 2837
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.083984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1118.322265625,
      "completions/mean_terminated_length": 1033.0853271484375,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.9688486814030896,
      "grad_norm": 4.263636589050293,
      "kl": 4.15625,
      "learning_rate": 1.0270229006271222e-07,
      "loss": 0.2146,
      "num_tokens": 1638225366.0,
      "reward": 1.33203125,
      "reward_std": 0.6862621307373047,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.421875,
      "rewards/format_reward/std": 0.49434176087379456,
      "rewards/tag_count_reward/mean": 0.833984375,
      "rewards/tag_count_reward/std": 0.25417712330818176,
      "step": 2838
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2026.0,
      "completions/mean_length": 1137.435546875,
      "completions/mean_terminated_length": 1058.1719970703125,
      "completions/min_length": 25.0,
      "completions/min_terminated_length": 25.0,
      "epoch": 0.9691900657164804,
      "grad_norm": 2.7013702392578125,
      "kl": 3.9921875,
      "learning_rate": 1.0264392117598772e-07,
      "loss": 0.1759,
      "num_tokens": 1638884069.0,
      "reward": 1.38916015625,
      "reward_std": 0.6746758222579956,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.435546875,
      "rewards/format_reward/std": 0.49631330370903015,
      "rewards/tag_count_reward/mean": 0.85791015625,
      "rewards/tag_count_reward/std": 0.24421072006225586,
      "step": 2839
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1086.07421875,
      "completions/mean_terminated_length": 1021.9458618164062,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.9695314500298712,
      "grad_norm": 3.3814971446990967,
      "kl": 3.69921875,
      "learning_rate": 1.02586187711231e-07,
      "loss": 0.1626,
      "num_tokens": 1639522875.0,
      "reward": 1.31689453125,
      "reward_std": 0.6733240485191345,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.41015625,
      "rewards/format_reward/std": 0.49234291911125183,
      "rewards/tag_count_reward/mean": 0.85595703125,
      "rewards/tag_count_reward/std": 0.24154724180698395,
      "step": 2840
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1067.599609375,
      "completions/mean_terminated_length": 970.8218994140625,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.9698728343432619,
      "grad_norm": 3.728794813156128,
      "kl": 4.0,
      "learning_rate": 1.0252908975044645e-07,
      "loss": 0.1748,
      "num_tokens": 1640150446.0,
      "reward": 1.3662109375,
      "reward_std": 0.6644833087921143,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.404296875,
      "rewards/format_reward/std": 0.4912354052066803,
      "rewards/tag_count_reward/mean": 0.8623046875,
      "rewards/tag_count_reward/std": 0.23478132486343384,
      "step": 2841
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 1089.369140625,
      "completions/mean_terminated_length": 1033.9111328125,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.9702142186566527,
      "grad_norm": 1.847825288772583,
      "kl": 3.90234375,
      "learning_rate": 1.0247262737473563e-07,
      "loss": 0.1608,
      "num_tokens": 1640794267.0,
      "reward": 1.33154296875,
      "reward_std": 0.6865270137786865,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.412109375,
      "rewards/format_reward/std": 0.49269601702690125,
      "rewards/tag_count_reward/mean": 0.86083984375,
      "rewards/tag_count_reward/std": 0.23728874325752258,
      "step": 2842
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1052.69921875,
      "completions/mean_terminated_length": 1003.7499389648438,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.9705556029700435,
      "grad_norm": 2.42067289352417,
      "kl": 4.890625,
      "learning_rate": 1.0241680066429735e-07,
      "loss": 0.2124,
      "num_tokens": 1641408737.0,
      "reward": 1.435546875,
      "reward_std": 0.6897906064987183,
      "rewards/accuracy_reward/mean": 0.11328125,
      "rewards/accuracy_reward/std": 0.3172462284564972,
      "rewards/format_reward/mean": 0.44921875,
      "rewards/format_reward/std": 0.497901052236557,
      "rewards/tag_count_reward/mean": 0.873046875,
      "rewards/tag_count_reward/std": 0.23038743436336517,
      "step": 2843
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1121.724609375,
      "completions/mean_terminated_length": 1062.0269775390625,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.9708969872834343,
      "grad_norm": 4.917789936065674,
      "kl": 4.2890625,
      "learning_rate": 1.0236160969842753e-07,
      "loss": 0.152,
      "num_tokens": 1642063188.0,
      "reward": 1.3212890625,
      "reward_std": 0.7013719081878662,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.396484375,
      "rewards/format_reward/std": 0.4896455705165863,
      "rewards/tag_count_reward/mean": 0.8349609375,
      "rewards/tag_count_reward/std": 0.25094419717788696,
      "step": 2844
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1015.5859375,
      "completions/mean_terminated_length": 962.5872802734375,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.9712383715968251,
      "grad_norm": 2.033177375793457,
      "kl": 3.83203125,
      "learning_rate": 1.0230705455551917e-07,
      "loss": 0.1485,
      "num_tokens": 1642664896.0,
      "reward": 1.3798828125,
      "reward_std": 0.6810930967330933,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.4296875,
      "rewards/format_reward/std": 0.4955156147480011,
      "rewards/tag_count_reward/mean": 0.8603515625,
      "rewards/tag_count_reward/std": 0.23570743203163147,
      "step": 2845
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1961.0,
      "completions/mean_length": 1061.58203125,
      "completions/mean_terminated_length": 968.8419189453125,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.971579755910216,
      "grad_norm": 1.648969292640686,
      "kl": 5.1640625,
      "learning_rate": 1.0225313531306198e-07,
      "loss": 0.2459,
      "num_tokens": 1643286714.0,
      "reward": 1.359375,
      "reward_std": 0.6877593994140625,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.44140625,
      "rewards/format_reward/std": 0.4970405399799347,
      "rewards/tag_count_reward/mean": 0.853515625,
      "rewards/tag_count_reward/std": 0.24083462357521057,
      "step": 2846
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1001.361328125,
      "completions/mean_terminated_length": 929.2546997070312,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.9719211402236068,
      "grad_norm": 6.081742286682129,
      "kl": 4.93359375,
      "learning_rate": 1.0219985204764262e-07,
      "loss": 0.2209,
      "num_tokens": 1643877683.0,
      "reward": 1.35546875,
      "reward_std": 0.7026700973510742,
      "rewards/accuracy_reward/mean": 0.130859375,
      "rewards/accuracy_reward/std": 0.33757632970809937,
      "rewards/format_reward/mean": 0.37890625,
      "rewards/format_reward/std": 0.4855891764163971,
      "rewards/tag_count_reward/mean": 0.845703125,
      "rewards/tag_count_reward/std": 0.25048112869262695,
      "step": 2847
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1057.79296875,
      "completions/mean_terminated_length": 991.7792358398438,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.9722625245369976,
      "grad_norm": 1.79745614528656,
      "kl": 4.734375,
      "learning_rate": 1.0214720483494425e-07,
      "loss": 0.2126,
      "num_tokens": 1644501641.0,
      "reward": 1.4091796875,
      "reward_std": 0.7045381665229797,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.458984375,
      "rewards/format_reward/std": 0.49880221486091614,
      "rewards/tag_count_reward/mean": 0.8447265625,
      "rewards/tag_count_reward/std": 0.24889487028121948,
      "step": 2848
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1130.638671875,
      "completions/mean_terminated_length": 1063.3270263671875,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.9726039088503883,
      "grad_norm": 2.316469669342041,
      "kl": 4.7578125,
      "learning_rate": 1.0209519374974673e-07,
      "loss": 0.2448,
      "num_tokens": 1645166288.0,
      "reward": 1.3291015625,
      "reward_std": 0.7262699604034424,
      "rewards/accuracy_reward/mean": 0.07459677755832672,
      "rewards/accuracy_reward/std": 0.263004869222641,
      "rewards/format_reward/mean": 0.4296875,
      "rewards/format_reward/std": 0.4955156147480011,
      "rewards/tag_count_reward/mean": 0.8271484375,
      "rewards/tag_count_reward/std": 0.2666294574737549,
      "step": 2849
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2041.0,
      "completions/mean_length": 1098.19140625,
      "completions/mean_terminated_length": 1032.7557373046875,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "epoch": 0.9729452931637791,
      "grad_norm": 4.359287261962891,
      "kl": 5.09375,
      "learning_rate": 1.0204381886592631e-07,
      "loss": 0.2407,
      "num_tokens": 1645806354.0,
      "reward": 1.318359375,
      "reward_std": 0.7137932777404785,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.39453125,
      "rewards/format_reward/std": 0.4892277717590332,
      "rewards/tag_count_reward/mean": 0.826171875,
      "rewards/tag_count_reward/std": 0.26553234457969666,
      "step": 2850
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1104.623046875,
      "completions/mean_terminated_length": 1039.6304931640625,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.9732866774771699,
      "grad_norm": 1.8686693906784058,
      "kl": 4.0078125,
      "learning_rate": 1.0199308025645555e-07,
      "loss": 0.1525,
      "num_tokens": 1646461057.0,
      "reward": 1.38720703125,
      "reward_std": 0.6902011632919312,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.455078125,
      "rewards/format_reward/std": 0.4984649419784546,
      "rewards/tag_count_reward/mean": 0.85009765625,
      "rewards/tag_count_reward/std": 0.24801558256149292,
      "step": 2851
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1100.45703125,
      "completions/mean_terminated_length": 1028.794189453125,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.9736280617905607,
      "grad_norm": 1.9374486207962036,
      "kl": 4.16796875,
      "learning_rate": 1.0194297799340319e-07,
      "loss": 0.1853,
      "num_tokens": 1647110491.0,
      "reward": 1.349609375,
      "reward_std": 0.6790359616279602,
      "rewards/accuracy_reward/mean": 0.087890625,
      "rewards/accuracy_reward/std": 0.2834126651287079,
      "rewards/format_reward/mean": 0.41015625,
      "rewards/format_reward/std": 0.49234291911125183,
      "rewards/tag_count_reward/mean": 0.8515625,
      "rewards/tag_count_reward/std": 0.2461792230606079,
      "step": 2852
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1069.001953125,
      "completions/mean_terminated_length": 1001.5553588867188,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.9739694461039515,
      "grad_norm": 4.581700801849365,
      "kl": 4.55078125,
      "learning_rate": 1.0189351214793437e-07,
      "loss": 0.2019,
      "num_tokens": 1647739180.0,
      "reward": 1.36181640625,
      "reward_std": 0.660216212272644,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.416015625,
      "rewards/format_reward/std": 0.493378221988678,
      "rewards/tag_count_reward/mean": 0.84619140625,
      "rewards/tag_count_reward/std": 0.24310480058193207,
      "step": 2853
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1096.3515625,
      "completions/mean_terminated_length": 1013.51171875,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.9743108304173423,
      "grad_norm": 2.6207141876220703,
      "kl": 4.6484375,
      "learning_rate": 1.0184468279030992e-07,
      "loss": 0.2122,
      "num_tokens": 1648383136.0,
      "reward": 1.2822265625,
      "reward_std": 0.6821188926696777,
      "rewards/accuracy_reward/mean": 0.029296875,
      "rewards/accuracy_reward/std": 0.16880230605602264,
      "rewards/format_reward/mean": 0.412109375,
      "rewards/format_reward/std": 0.49269601702690125,
      "rewards/tag_count_reward/mean": 0.8408203125,
      "rewards/tag_count_reward/std": 0.25229611992836,
      "step": 2854
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1013.330078125,
      "completions/mean_terminated_length": 962.4446411132812,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.9746522147307332,
      "grad_norm": 1.7399166822433472,
      "kl": 4.52734375,
      "learning_rate": 1.0179648998988694e-07,
      "loss": 0.2159,
      "num_tokens": 1648978969.0,
      "reward": 1.36865234375,
      "reward_std": 0.712919294834137,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.423828125,
      "rewards/format_reward/std": 0.4946470856666565,
      "rewards/tag_count_reward/mean": 0.84716796875,
      "rewards/tag_count_reward/std": 0.24472275376319885,
      "step": 2855
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1048.41015625,
      "completions/mean_terminated_length": 970.5473022460938,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "epoch": 0.974993599044124,
      "grad_norm": 2.0213963985443115,
      "kl": 5.03125,
      "learning_rate": 1.0174893381511803e-07,
      "loss": 0.2574,
      "num_tokens": 1649591643.0,
      "reward": 1.34033203125,
      "reward_std": 0.7047779560089111,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.4140625,
      "rewards/format_reward/std": 0.49304109811782837,
      "rewards/tag_count_reward/mean": 0.83251953125,
      "rewards/tag_count_reward/std": 0.25441715121269226,
      "step": 2856
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1066.361328125,
      "completions/mean_terminated_length": 971.7708740234375,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.9753349833575147,
      "grad_norm": 1.7970101833343506,
      "kl": 4.8515625,
      "learning_rate": 1.0170201433355185e-07,
      "loss": 0.2311,
      "num_tokens": 1650222308.0,
      "reward": 1.3046875,
      "reward_std": 0.7138506770133972,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.37890625,
      "rewards/format_reward/std": 0.4855891764163971,
      "rewards/tag_count_reward/mean": 0.826171875,
      "rewards/tag_count_reward/std": 0.26135390996932983,
      "step": 2857
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1065.8515625,
      "completions/mean_terminated_length": 987.1138916015625,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.9756763676709055,
      "grad_norm": 2.336575508117676,
      "kl": 4.5390625,
      "learning_rate": 1.0165573161183246e-07,
      "loss": 0.2254,
      "num_tokens": 1650843976.0,
      "reward": 1.34765625,
      "reward_std": 0.6703216433525085,
      "rewards/accuracy_reward/mean": 0.080078125,
      "rewards/accuracy_reward/std": 0.271679550409317,
      "rewards/format_reward/mean": 0.4296875,
      "rewards/format_reward/std": 0.4955156147480011,
      "rewards/tag_count_reward/mean": 0.837890625,
      "rewards/tag_count_reward/std": 0.25669097900390625,
      "step": 2858
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1100.978515625,
      "completions/mean_terminated_length": 1037.84375,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "epoch": 0.9760177519842963,
      "grad_norm": 3.625345230102539,
      "kl": 4.2421875,
      "learning_rate": 1.016100857156996e-07,
      "loss": 0.1964,
      "num_tokens": 1651491709.0,
      "reward": 1.33203125,
      "reward_std": 0.7000211477279663,
      "rewards/accuracy_reward/mean": 0.0546875,
      "rewards/accuracy_reward/std": 0.2275916188955307,
      "rewards/format_reward/mean": 0.4296875,
      "rewards/format_reward/std": 0.4955156147480011,
      "rewards/tag_count_reward/mean": 0.84765625,
      "rewards/tag_count_reward/std": 0.24377650022506714,
      "step": 2859
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 1104.259765625,
      "completions/mean_terminated_length": 1037.1317138671875,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.9763591362976871,
      "grad_norm": 4.727302551269531,
      "kl": 3.3359375,
      "learning_rate": 1.0156507670998842e-07,
      "loss": 0.134,
      "num_tokens": 1652132018.0,
      "reward": 1.44091796875,
      "reward_std": 0.6813417673110962,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.50390625,
      "rewards/format_reward/std": 0.5004737377166748,
      "rewards/tag_count_reward/mean": 0.87255859375,
      "rewards/tag_count_reward/std": 0.22555410861968994,
      "step": 2860
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1024.431640625,
      "completions/mean_terminated_length": 953.9144287109375,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.9767005206110779,
      "grad_norm": 3.09757924079895,
      "kl": 4.69140625,
      "learning_rate": 1.0152070465862951e-07,
      "loss": 0.2032,
      "num_tokens": 1652731855.0,
      "reward": 1.3427734375,
      "reward_std": 0.6981798410415649,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.431640625,
      "rewards/format_reward/std": 0.4957893490791321,
      "rewards/tag_count_reward/mean": 0.8408203125,
      "rewards/tag_count_reward/std": 0.24690592288970947,
      "step": 2861
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1107.91796875,
      "completions/mean_terminated_length": 1026.0849609375,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.9770419049244687,
      "grad_norm": 2.9012365341186523,
      "kl": 4.4140625,
      "learning_rate": 1.0147696962464861e-07,
      "loss": 0.2215,
      "num_tokens": 1653380245.0,
      "reward": 1.33837890625,
      "reward_std": 0.7225753664970398,
      "rewards/accuracy_reward/mean": 0.064453125,
      "rewards/accuracy_reward/std": 0.24579854309558868,
      "rewards/format_reward/mean": 0.447265625,
      "rewards/format_reward/std": 0.4976975917816162,
      "rewards/tag_count_reward/mean": 0.82666015625,
      "rewards/tag_count_reward/std": 0.2595668137073517,
      "step": 2862
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2042.0,
      "completions/mean_length": 1079.482421875,
      "completions/mean_terminated_length": 1029.763916015625,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.9773832892378596,
      "grad_norm": 2.338446617126465,
      "kl": 4.78125,
      "learning_rate": 1.0143387167016674e-07,
      "loss": 0.2336,
      "num_tokens": 1654010396.0,
      "reward": 1.36328125,
      "reward_std": 0.6864089369773865,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.421875,
      "rewards/format_reward/std": 0.49434176087379456,
      "rewards/tag_count_reward/mean": 0.83984375,
      "rewards/tag_count_reward/std": 0.24972465634346008,
      "step": 2863
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 1116.798828125,
      "completions/mean_terminated_length": 1050.562744140625,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.9777246735512504,
      "grad_norm": 2.406902551651001,
      "kl": 4.09765625,
      "learning_rate": 1.0139141085639992e-07,
      "loss": 0.1757,
      "num_tokens": 1654660453.0,
      "reward": 1.4404296875,
      "reward_std": 0.7518150806427002,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.501953125,
      "rewards/format_reward/std": 0.5004851818084717,
      "rewards/tag_count_reward/mean": 0.8310546875,
      "rewards/tag_count_reward/std": 0.2603483498096466,
      "step": 2864
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1085.56640625,
      "completions/mean_terminated_length": 992.8265380859375,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.9780660578646411,
      "grad_norm": 1.7805724143981934,
      "kl": 4.25,
      "learning_rate": 1.0134958724365934e-07,
      "loss": 0.2031,
      "num_tokens": 1655285847.0,
      "reward": 1.38623046875,
      "reward_std": 0.7169825434684753,
      "rewards/accuracy_reward/mean": 0.1015625,
      "rewards/accuracy_reward/std": 0.30236753821372986,
      "rewards/format_reward/mean": 0.451171875,
      "rewards/format_reward/std": 0.498096764087677,
      "rewards/tag_count_reward/mean": 0.83349609375,
      "rewards/tag_count_reward/std": 0.2536158859729767,
      "step": 2865
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.107421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2027.0,
      "completions/mean_length": 1144.73046875,
      "completions/mean_terminated_length": 1036.0218505859375,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "epoch": 0.9784074421780319,
      "grad_norm": 2.1228413581848145,
      "kl": 5.125,
      "learning_rate": 1.01308400891351e-07,
      "loss": 0.2461,
      "num_tokens": 1655959021.0,
      "reward": 1.33056640625,
      "reward_std": 0.7182646989822388,
      "rewards/accuracy_reward/mean": 0.08064515888690948,
      "rewards/accuracy_reward/std": 0.2725643217563629,
      "rewards/format_reward/mean": 0.427734375,
      "rewards/format_reward/std": 0.4952339828014374,
      "rewards/tag_count_reward/mean": 0.82470703125,
      "rewards/tag_count_reward/std": 0.25966617465019226,
      "step": 2866
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.056640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2010.0,
      "completions/mean_length": 1160.169921875,
      "completions/mean_terminated_length": 1106.8634033203125,
      "completions/min_length": 317.0,
      "completions/min_terminated_length": 317.0,
      "epoch": 0.9787488264914227,
      "grad_norm": 3.094758987426758,
      "kl": 3.78125,
      "learning_rate": 1.0126785185797567e-07,
      "loss": 0.1167,
      "num_tokens": 1656628436.0,
      "reward": 1.45458984375,
      "reward_std": 0.7193611860275269,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.505859375,
      "rewards/format_reward/std": 0.5004546642303467,
      "rewards/tag_count_reward/mean": 0.85498046875,
      "rewards/tag_count_reward/std": 0.2384096086025238,
      "step": 2867
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1095.970703125,
      "completions/mean_terminated_length": 1028.2530517578125,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.9790902108048135,
      "grad_norm": 2.7481472492218018,
      "kl": 4.37890625,
      "learning_rate": 1.01227940201129e-07,
      "loss": 0.2079,
      "num_tokens": 1657271541.0,
      "reward": 1.3837890625,
      "reward_std": 0.7567757964134216,
      "rewards/accuracy_reward/mean": 0.12298387289047241,
      "rewards/accuracy_reward/std": 0.32875028252601624,
      "rewards/format_reward/mean": 0.435546875,
      "rewards/format_reward/std": 0.49631330370903015,
      "rewards/tag_count_reward/mean": 0.8291015625,
      "rewards/tag_count_reward/std": 0.25859543681144714,
      "step": 2868
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2025.0,
      "completions/mean_length": 1061.5703125,
      "completions/mean_terminated_length": 993.6116943359375,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.9794315951182043,
      "grad_norm": 2.116703510284424,
      "kl": 4.3046875,
      "learning_rate": 1.0118866597750134e-07,
      "loss": 0.1898,
      "num_tokens": 1657888569.0,
      "reward": 1.45947265625,
      "reward_std": 0.7092756032943726,
      "rewards/accuracy_reward/mean": 0.091796875,
      "rewards/accuracy_reward/std": 0.289021372795105,
      "rewards/format_reward/mean": 0.513671875,
      "rewards/format_reward/std": 0.5003018379211426,
      "rewards/tag_count_reward/mean": 0.85400390625,
      "rewards/tag_count_reward/std": 0.24540509283542633,
      "step": 2869
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1057.89453125,
      "completions/mean_terminated_length": 980.7705078125,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.9797729794315951,
      "grad_norm": 2.7645609378814697,
      "kl": 4.390625,
      "learning_rate": 1.011500292428775e-07,
      "loss": 0.2122,
      "num_tokens": 1658517443.0,
      "reward": 1.3759765625,
      "reward_std": 0.6637743711471558,
      "rewards/accuracy_reward/mean": 0.08266129344701767,
      "rewards/accuracy_reward/std": 0.2756475806236267,
      "rewards/format_reward/mean": 0.44921875,
      "rewards/format_reward/std": 0.497901052236557,
      "rewards/tag_count_reward/mean": 0.8466796875,
      "rewards/tag_count_reward/std": 0.2466581165790558,
      "step": 2870
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.087890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1116.96875,
      "completions/mean_terminated_length": 1027.2547607421875,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.980114363744986,
      "grad_norm": 2.9820592403411865,
      "kl": 5.0546875,
      "learning_rate": 1.0111203005213692e-07,
      "loss": 0.2683,
      "num_tokens": 1659168595.0,
      "reward": 1.3203125,
      "reward_std": 0.6986395120620728,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.44140625,
      "rewards/format_reward/std": 0.4970405399799347,
      "rewards/tag_count_reward/mean": 0.833984375,
      "rewards/tag_count_reward/std": 0.26455172896385193,
      "step": 2871
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1054.677734375,
      "completions/mean_terminated_length": 1005.8257446289062,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.9804557480583768,
      "grad_norm": 1.3698443174362183,
      "kl": 4.43359375,
      "learning_rate": 1.0107466845925335e-07,
      "loss": 0.1976,
      "num_tokens": 1659785166.0,
      "reward": 1.41943359375,
      "reward_std": 0.7365034222602844,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.501953125,
      "rewards/format_reward/std": 0.5004851818084717,
      "rewards/tag_count_reward/mean": 0.84326171875,
      "rewards/tag_count_reward/std": 0.24920323491096497,
      "step": 2872
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1023.806640625,
      "completions/mean_terminated_length": 966.7897338867188,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.9807971323717675,
      "grad_norm": 2.4540865421295166,
      "kl": 5.06640625,
      "learning_rate": 1.0103794451729503e-07,
      "loss": 0.2646,
      "num_tokens": 1660384155.0,
      "reward": 1.38525390625,
      "reward_std": 0.6727242469787598,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.458984375,
      "rewards/format_reward/std": 0.49880221486091614,
      "rewards/tag_count_reward/mean": 0.85595703125,
      "rewards/tag_count_reward/std": 0.24104034900665283,
      "step": 2873
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1044.15234375,
      "completions/mean_terminated_length": 972.7489013671875,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.9811385166851583,
      "grad_norm": 3.191431999206543,
      "kl": 5.3125,
      "learning_rate": 1.0100185827842445e-07,
      "loss": 0.2621,
      "num_tokens": 1660993305.0,
      "reward": 1.3095703125,
      "reward_std": 0.70173180103302,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.412109375,
      "rewards/format_reward/std": 0.49269601702690125,
      "rewards/tag_count_reward/mean": 0.8134765625,
      "rewards/tag_count_reward/std": 0.2624102234840393,
      "step": 2874
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.091796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 1146.390625,
      "completions/mean_terminated_length": 1055.26025390625,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.9814799009985491,
      "grad_norm": 1.661904215812683,
      "kl": 4.5078125,
      "learning_rate": 1.009664097938983e-07,
      "loss": 0.2103,
      "num_tokens": 1661666289.0,
      "reward": 1.42138671875,
      "reward_std": 0.7657043933868408,
      "rewards/accuracy_reward/mean": 0.12298387289047241,
      "rewards/accuracy_reward/std": 0.32875028252601624,
      "rewards/format_reward/mean": 0.46875,
      "rewards/format_reward/std": 0.4995105266571045,
      "rewards/tag_count_reward/mean": 0.83349609375,
      "rewards/tag_count_reward/std": 0.259809672832489,
      "step": 2875
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1152.697265625,
      "completions/mean_terminated_length": 1074.76220703125,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.9818212853119399,
      "grad_norm": 1.9984285831451416,
      "kl": 5.171875,
      "learning_rate": 1.0093159911406735e-07,
      "loss": 0.2399,
      "num_tokens": 1662330470.0,
      "reward": 1.35888671875,
      "reward_std": 0.701007068157196,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.46484375,
      "rewards/format_reward/std": 0.49925029277801514,
      "rewards/tag_count_reward/mean": 0.83544921875,
      "rewards/tag_count_reward/std": 0.24460558593273163,
      "step": 2876
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1085.359375,
      "completions/mean_terminated_length": 1023.318115234375,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.9821626696253307,
      "grad_norm": 3.819279432296753,
      "kl": 4.95703125,
      "learning_rate": 1.0089742628837653e-07,
      "loss": 0.2147,
      "num_tokens": 1662962254.0,
      "reward": 1.388671875,
      "reward_std": 0.7131758332252502,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.462890625,
      "rewards/format_reward/std": 0.4991086423397064,
      "rewards/tag_count_reward/mean": 0.84765625,
      "rewards/tag_count_reward/std": 0.2402387410402298,
      "step": 2877
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1065.890625,
      "completions/mean_terminated_length": 1015.474365234375,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.9825040539387215,
      "grad_norm": 2.106335401535034,
      "kl": 4.5390625,
      "learning_rate": 1.0086389136536468e-07,
      "loss": 0.2047,
      "num_tokens": 1663584246.0,
      "reward": 1.4228515625,
      "reward_std": 0.6858218312263489,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.494140625,
      "rewards/format_reward/std": 0.5004546642303467,
      "rewards/tag_count_reward/mean": 0.8564453125,
      "rewards/tag_count_reward/std": 0.24460412561893463,
      "step": 2878
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1058.419921875,
      "completions/mean_terminated_length": 1003.3299560546875,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.9828454382521123,
      "grad_norm": 2.9348325729370117,
      "kl": 4.3515625,
      "learning_rate": 1.0083099439266465e-07,
      "loss": 0.2216,
      "num_tokens": 1664203789.0,
      "reward": 1.46923828125,
      "reward_std": 0.7266461849212646,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.51953125,
      "rewards/format_reward/std": 0.5001069903373718,
      "rewards/tag_count_reward/mean": 0.85400390625,
      "rewards/tag_count_reward/std": 0.2423962652683258,
      "step": 2879
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2014.0,
      "completions/mean_length": 1095.396484375,
      "completions/mean_terminated_length": 1042.364990234375,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.9831868225655032,
      "grad_norm": 1.8103909492492676,
      "kl": 4.58203125,
      "learning_rate": 1.0079873541700307e-07,
      "loss": 0.2265,
      "num_tokens": 1664832952.0,
      "reward": 1.380859375,
      "reward_std": 0.7209969162940979,
      "rewards/accuracy_reward/mean": 0.058467742055654526,
      "rewards/accuracy_reward/std": 0.23486268520355225,
      "rewards/format_reward/mean": 0.490234375,
      "rewards/format_reward/std": 0.5003935098648071,
      "rewards/tag_count_reward/mean": 0.833984375,
      "rewards/tag_count_reward/std": 0.25321289896965027,
      "step": 2880
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2005.0,
      "completions/mean_length": 1063.86328125,
      "completions/mean_terminated_length": 1019.677490234375,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.9835282068788939,
      "grad_norm": 1.8105005025863647,
      "kl": 4.3203125,
      "learning_rate": 1.0076711448420045e-07,
      "loss": 0.1692,
      "num_tokens": 1665459794.0,
      "reward": 1.46533203125,
      "reward_std": 0.6987200379371643,
      "rewards/accuracy_reward/mean": 0.10546875,
      "rewards/accuracy_reward/std": 0.3074568510055542,
      "rewards/format_reward/mean": 0.505859375,
      "rewards/format_reward/std": 0.5004546642303467,
      "rewards/tag_count_reward/mean": 0.85400390625,
      "rewards/tag_count_reward/std": 0.2434033453464508,
      "step": 2881
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1126.685546875,
      "completions/mean_terminated_length": 1057.00634765625,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.9838695911922847,
      "grad_norm": 1.7949726581573486,
      "kl": 4.37890625,
      "learning_rate": 1.0073613163917094e-07,
      "loss": 0.2072,
      "num_tokens": 1666110545.0,
      "reward": 1.43603515625,
      "reward_std": 0.710891842842102,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.51171875,
      "rewards/format_reward/std": 0.5003514885902405,
      "rewards/tag_count_reward/mean": 0.84228515625,
      "rewards/tag_count_reward/std": 0.25681331753730774,
      "step": 2882
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1081.509765625,
      "completions/mean_terminated_length": 1012.7635498046875,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.9842109755056755,
      "grad_norm": 2.2907166481018066,
      "kl": 4.96875,
      "learning_rate": 1.0070578692592245e-07,
      "loss": 0.2262,
      "num_tokens": 1666746646.0,
      "reward": 1.44482421875,
      "reward_std": 0.7225590944290161,
      "rewards/accuracy_reward/mean": 0.08467742055654526,
      "rewards/accuracy_reward/std": 0.278682142496109,
      "rewards/format_reward/mean": 0.517578125,
      "rewards/format_reward/std": 0.5001795887947083,
      "rewards/tag_count_reward/mean": 0.84521484375,
      "rewards/tag_count_reward/std": 0.24993453919887543,
      "step": 2883
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.099609375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1183.615234375,
      "completions/mean_terminated_length": 1087.9891357421875,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.9845523598190663,
      "grad_norm": 2.2633111476898193,
      "kl": 4.625,
      "learning_rate": 1.0067608038755635e-07,
      "loss": 0.2051,
      "num_tokens": 1667438673.0,
      "reward": 1.44091796875,
      "reward_std": 0.7243264317512512,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.505859375,
      "rewards/format_reward/std": 0.5004546642303467,
      "rewards/tag_count_reward/mean": 0.84130859375,
      "rewards/tag_count_reward/std": 0.2562098503112793,
      "step": 2884
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.109375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1152.09765625,
      "completions/mean_terminated_length": 1042.0745849609375,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.9848937441324571,
      "grad_norm": 2.941580295562744,
      "kl": 5.625,
      "learning_rate": 1.0064701206626763e-07,
      "loss": 0.2918,
      "num_tokens": 1668111651.0,
      "reward": 1.40673828125,
      "reward_std": 0.7130698561668396,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.48828125,
      "rewards/format_reward/std": 0.5003514885902405,
      "rewards/tag_count_reward/mean": 0.81884765625,
      "rewards/tag_count_reward/std": 0.26081544160842896,
      "step": 2885
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1122.66796875,
      "completions/mean_terminated_length": 1058.9185791015625,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "epoch": 0.9852351284458479,
      "grad_norm": 3.773594856262207,
      "kl": 4.875,
      "learning_rate": 1.0061858200334487e-07,
      "loss": 0.2015,
      "num_tokens": 1668766969.0,
      "reward": 1.4404296875,
      "reward_std": 0.7245013117790222,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.5234375,
      "rewards/format_reward/std": 0.49993884563446045,
      "rewards/tag_count_reward/mean": 0.8505859375,
      "rewards/tag_count_reward/std": 0.2505173683166504,
      "step": 2886
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 1112.455078125,
      "completions/mean_terminated_length": 1041.6995849609375,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.9855765127592387,
      "grad_norm": 1.5365434885025024,
      "kl": 5.15625,
      "learning_rate": 1.0059079023916987e-07,
      "loss": 0.241,
      "num_tokens": 1669411634.0,
      "reward": 1.447265625,
      "reward_std": 0.7264338731765747,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.546875,
      "rewards/format_reward/std": 0.4982847273349762,
      "rewards/tag_count_reward/mean": 0.84375,
      "rewards/tag_count_reward/std": 0.24330566823482513,
      "step": 2887
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2006.0,
      "completions/mean_length": 1021.29296875,
      "completions/mean_terminated_length": 964.1361083984375,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.9859178970726296,
      "grad_norm": 3.0063259601593018,
      "kl": 4.765625,
      "learning_rate": 1.0056363681321794e-07,
      "loss": 0.2098,
      "num_tokens": 1670011768.0,
      "reward": 1.4716796875,
      "reward_std": 0.7069277763366699,
      "rewards/accuracy_reward/mean": 0.111328125,
      "rewards/accuracy_reward/std": 0.31484565138816833,
      "rewards/format_reward/mean": 0.494140625,
      "rewards/format_reward/std": 0.5004546642303467,
      "rewards/tag_count_reward/mean": 0.8662109375,
      "rewards/tag_count_reward/std": 0.22539570927619934,
      "step": 2888
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1055.076171875,
      "completions/mean_terminated_length": 988.8812866210938,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.9862592813860203,
      "grad_norm": 2.745061159133911,
      "kl": 5.0703125,
      "learning_rate": 1.0053712176405765e-07,
      "loss": 0.2317,
      "num_tokens": 1670634639.0,
      "reward": 1.36376953125,
      "reward_std": 0.707394003868103,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.466796875,
      "rewards/format_reward/std": 0.4993842542171478,
      "rewards/tag_count_reward/mean": 0.82666015625,
      "rewards/tag_count_reward/std": 0.25433072447776794,
      "step": 2889
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.076171875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1114.408203125,
      "completions/mean_terminated_length": 1037.4312744140625,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.9866006656994111,
      "grad_norm": 1.5224727392196655,
      "kl": 4.16015625,
      "learning_rate": 1.0051124512935078e-07,
      "loss": 0.1663,
      "num_tokens": 1671281008.0,
      "reward": 1.3974609375,
      "reward_std": 0.7200717926025391,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.474609375,
      "rewards/format_reward/std": 0.4998432695865631,
      "rewards/tag_count_reward/mean": 0.8408203125,
      "rewards/tag_count_reward/std": 0.24690592288970947,
      "step": 2890
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1123.869140625,
      "completions/mean_terminated_length": 1051.8841552734375,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.9869420500128019,
      "grad_norm": 1.4512288570404053,
      "kl": 4.5078125,
      "learning_rate": 1.0048600694585238e-07,
      "loss": 0.2019,
      "num_tokens": 1671934381.0,
      "reward": 1.462890625,
      "reward_std": 0.7399915456771851,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.51171875,
      "rewards/format_reward/std": 0.5003514885902405,
      "rewards/tag_count_reward/mean": 0.8359375,
      "rewards/tag_count_reward/std": 0.25592297315597534,
      "step": 2891
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1145.53515625,
      "completions/mean_terminated_length": 1087.3721923828125,
      "completions/min_length": 292.0,
      "completions/min_terminated_length": 292.0,
      "epoch": 0.9872834343261927,
      "grad_norm": 4.025757789611816,
      "kl": 4.54296875,
      "learning_rate": 1.0046140724941062e-07,
      "loss": 0.1532,
      "num_tokens": 1672599327.0,
      "reward": 1.36376953125,
      "reward_std": 0.6686165928840637,
      "rewards/accuracy_reward/mean": 0.04032257944345474,
      "rewards/accuracy_reward/std": 0.19691328704357147,
      "rewards/format_reward/mean": 0.482421875,
      "rewards/format_reward/std": 0.5001795887947083,
      "rewards/tag_count_reward/mean": 0.84228515625,
      "rewards/tag_count_reward/std": 0.24461729824543,
      "step": 2892
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1149.36328125,
      "completions/mean_terminated_length": 1091.447021484375,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.9876248186395835,
      "grad_norm": 1.9770722389221191,
      "kl": 4.10546875,
      "learning_rate": 1.0043744607496673e-07,
      "loss": 0.1691,
      "num_tokens": 1673270969.0,
      "reward": 1.47509765625,
      "reward_std": 0.7299438714981079,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.529296875,
      "rewards/format_reward/std": 0.49962911009788513,
      "rewards/tag_count_reward/mean": 0.85205078125,
      "rewards/tag_count_reward/std": 0.23814493417739868,
      "step": 2893
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1063.9140625,
      "completions/mean_terminated_length": 1011.2674560546875,
      "completions/min_length": 320.0,
      "completions/min_terminated_length": 320.0,
      "epoch": 0.9879662029529743,
      "grad_norm": 1.9249495267868042,
      "kl": 4.734375,
      "learning_rate": 1.0041412345655508e-07,
      "loss": 0.208,
      "num_tokens": 1673891469.0,
      "reward": 1.45263671875,
      "reward_std": 0.7657089233398438,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.50390625,
      "rewards/format_reward/std": 0.5004737377166748,
      "rewards/tag_count_reward/mean": 0.83349609375,
      "rewards/tag_count_reward/std": 0.25409770011901855,
      "step": 2894
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.048828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1075.15625,
      "completions/mean_terminated_length": 1025.2156982421875,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "epoch": 0.9883075872663651,
      "grad_norm": 2.2972631454467773,
      "kl": 4.29296875,
      "learning_rate": 1.0039143942730297e-07,
      "loss": 0.1586,
      "num_tokens": 1674521021.0,
      "reward": 1.42138671875,
      "reward_std": 0.7152012586593628,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.4609375,
      "rewards/format_reward/std": 0.4989593029022217,
      "rewards/tag_count_reward/mean": 0.84521484375,
      "rewards/tag_count_reward/std": 0.24499201774597168,
      "step": 2895
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2040.0,
      "completions/mean_length": 1000.658203125,
      "completions/mean_terminated_length": 942.3526000976562,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.988648971579756,
      "grad_norm": 3.8505115509033203,
      "kl": 5.3515625,
      "learning_rate": 1.0036939401943061e-07,
      "loss": 0.2489,
      "num_tokens": 1675103246.0,
      "reward": 1.388671875,
      "reward_std": 0.6745654344558716,
      "rewards/accuracy_reward/mean": 0.072265625,
      "rewards/accuracy_reward/std": 0.2591804563999176,
      "rewards/format_reward/mean": 0.466796875,
      "rewards/format_reward/std": 0.4993842542171478,
      "rewards/tag_count_reward/mean": 0.849609375,
      "rewards/tag_count_reward/std": 0.24598506093025208,
      "step": 2896
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.044921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1998.0,
      "completions/mean_length": 1066.171875,
      "completions/mean_terminated_length": 1019.9918212890625,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.9889903558931467,
      "grad_norm": 2.734149217605591,
      "kl": 4.4296875,
      "learning_rate": 1.0034798726425117e-07,
      "loss": 0.2073,
      "num_tokens": 1675722518.0,
      "reward": 1.46044921875,
      "reward_std": 0.7051781415939331,
      "rewards/accuracy_reward/mean": 0.09375,
      "rewards/accuracy_reward/std": 0.29176566004753113,
      "rewards/format_reward/mean": 0.498046875,
      "rewards/format_reward/std": 0.5004851818084717,
      "rewards/tag_count_reward/mean": 0.86865234375,
      "rewards/tag_count_reward/std": 0.23294830322265625,
      "step": 2897
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08984375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1173.54296875,
      "completions/mean_terminated_length": 1087.22314453125,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.9893317402065375,
      "grad_norm": 2.5757877826690674,
      "kl": 3.921875,
      "learning_rate": 1.0032721919217075e-07,
      "loss": 0.154,
      "num_tokens": 1676411564.0,
      "reward": 1.38427734375,
      "reward_std": 0.662421464920044,
      "rewards/accuracy_reward/mean": 0.025390625,
      "rewards/accuracy_reward/std": 0.15746226906776428,
      "rewards/format_reward/mean": 0.50390625,
      "rewards/format_reward/std": 0.5004737377166748,
      "rewards/tag_count_reward/mean": 0.85498046875,
      "rewards/tag_count_reward/std": 0.2464812994003296,
      "step": 2898
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 1136.310546875,
      "completions/mean_terminated_length": 1069.4150390625,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.9896731245199283,
      "grad_norm": 3.2525949478149414,
      "kl": 4.234375,
      "learning_rate": 1.0030708983268821e-07,
      "loss": 0.2026,
      "num_tokens": 1677063963.0,
      "reward": 1.4033203125,
      "reward_std": 0.7334499955177307,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.5078125,
      "rewards/format_reward/std": 0.5004279017448425,
      "rewards/tag_count_reward/mean": 0.8193359375,
      "rewards/tag_count_reward/std": 0.26325365900993347,
      "step": 2899
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.095703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1192.21875,
      "completions/mean_terminated_length": 1101.6500244140625,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.9900145088333191,
      "grad_norm": 5.6985249519348145,
      "kl": 4.06640625,
      "learning_rate": 1.0028759921439508e-07,
      "loss": 0.2313,
      "num_tokens": 1677748443.0,
      "reward": 1.43896484375,
      "reward_std": 0.743380606174469,
      "rewards/accuracy_reward/mean": 0.05078125,
      "rewards/accuracy_reward/std": 0.21976542472839355,
      "rewards/format_reward/mean": 0.544921875,
      "rewards/format_reward/std": 0.4984649419784546,
      "rewards/tag_count_reward/mean": 0.84326171875,
      "rewards/tag_count_reward/std": 0.2516452670097351,
      "step": 2900
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2048.0,
      "completions/mean_length": 1215.958984375,
      "completions/mean_terminated_length": 1143.5308837890625,
      "completions/min_length": 323.0,
      "completions/min_terminated_length": 323.0,
      "epoch": 0.9903558931467099,
      "grad_norm": 2.1337475776672363,
      "kl": 4.109375,
      "learning_rate": 1.0026874736497576e-07,
      "loss": 0.1691,
      "num_tokens": 1678451766.0,
      "reward": 1.37109375,
      "reward_std": 0.6828578114509583,
      "rewards/accuracy_reward/mean": 0.044921875,
      "rewards/accuracy_reward/std": 0.20733514428138733,
      "rewards/format_reward/mean": 0.4921875,
      "rewards/format_reward/std": 0.5004279017448425,
      "rewards/tag_count_reward/mean": 0.833984375,
      "rewards/tag_count_reward/std": 0.24685366451740265,
      "step": 2901
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1128.314453125,
      "completions/mean_terminated_length": 1077.115478515625,
      "completions/min_length": 302.0,
      "completions/min_terminated_length": 302.0,
      "epoch": 0.9906972774601007,
      "grad_norm": 3.13985538482666,
      "kl": 4.28515625,
      "learning_rate": 1.0025053431120732e-07,
      "loss": 0.1655,
      "num_tokens": 1679107511.0,
      "reward": 1.43994140625,
      "reward_std": 0.6925660371780396,
      "rewards/accuracy_reward/mean": 0.08203125,
      "rewards/accuracy_reward/std": 0.2746807038784027,
      "rewards/format_reward/mean": 0.50390625,
      "rewards/format_reward/std": 0.5004737377166748,
      "rewards/tag_count_reward/mean": 0.85400390625,
      "rewards/tag_count_reward/std": 0.24390532076358795,
      "step": 2902
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.072265625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2023.0,
      "completions/mean_length": 1146.12890625,
      "completions/mean_terminated_length": 1075.8778076171875,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.9910386617734915,
      "grad_norm": 3.5519700050354004,
      "kl": 3.953125,
      "learning_rate": 1.0023296007895951e-07,
      "loss": 0.168,
      "num_tokens": 1679778617.0,
      "reward": 1.41552734375,
      "reward_std": 0.7182472348213196,
      "rewards/accuracy_reward/mean": 0.052734375,
      "rewards/accuracy_reward/std": 0.22372129559516907,
      "rewards/format_reward/mean": 0.51171875,
      "rewards/format_reward/std": 0.5003514885902405,
      "rewards/tag_count_reward/mean": 0.85107421875,
      "rewards/tag_count_reward/std": 0.24363486468791962,
      "step": 2903
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 1054.701171875,
      "completions/mean_terminated_length": 986.2693481445312,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.9913800460868823,
      "grad_norm": 2.2591214179992676,
      "kl": 4.38671875,
      "learning_rate": 1.0021602469319456e-07,
      "loss": 0.2079,
      "num_tokens": 1680397904.0,
      "reward": 1.474609375,
      "reward_std": 0.6892572641372681,
      "rewards/accuracy_reward/mean": 0.0703125,
      "rewards/accuracy_reward/std": 0.25592297315597534,
      "rewards/format_reward/mean": 0.544921875,
      "rewards/format_reward/std": 0.4984649419784546,
      "rewards/tag_count_reward/mean": 0.859375,
      "rewards/tag_count_reward/std": 0.24179288744926453,
      "step": 2904
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.080078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1137.544921875,
      "completions/mean_terminated_length": 1058.2908935546875,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.9917214304002732,
      "grad_norm": 2.848632335662842,
      "kl": 4.9609375,
      "learning_rate": 1.0019972817796753e-07,
      "loss": 0.2393,
      "num_tokens": 1681049303.0,
      "reward": 1.39794921875,
      "reward_std": 0.707427978515625,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.509765625,
      "rewards/format_reward/std": 0.5003935098648071,
      "rewards/tag_count_reward/mean": 0.84130859375,
      "rewards/tag_count_reward/std": 0.2562098503112793,
      "step": 2905
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2032.0,
      "completions/mean_length": 1041.3125,
      "completions/mean_terminated_length": 996.1142578125,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.9920628147136639,
      "grad_norm": 1.3245724439620972,
      "kl": 4.35546875,
      "learning_rate": 1.001840705564258e-07,
      "loss": 0.172,
      "num_tokens": 1681662167.0,
      "reward": 1.52001953125,
      "reward_std": 0.7332930564880371,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.552734375,
      "rewards/format_reward/std": 0.4976975917816162,
      "rewards/tag_count_reward/mean": 0.85009765625,
      "rewards/tag_count_reward/std": 0.25192990899086,
      "step": 2906
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 1026.3125,
      "completions/mean_terminated_length": 958.2000732421875,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.9924041990270547,
      "grad_norm": 5.573750019073486,
      "kl": 6.0625,
      "learning_rate": 1.0016905185080935e-07,
      "loss": 0.2786,
      "num_tokens": 1682265879.0,
      "reward": 1.46044921875,
      "reward_std": 0.7700638771057129,
      "rewards/accuracy_reward/mean": 0.119140625,
      "rewards/accuracy_reward/std": 0.32427072525024414,
      "rewards/format_reward/mean": 0.505859375,
      "rewards/format_reward/std": 0.5004546642303467,
      "rewards/tag_count_reward/mean": 0.83544921875,
      "rewards/tag_count_reward/std": 0.26011475920677185,
      "step": 2907
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1132.71484375,
      "completions/mean_terminated_length": 1046.6624755859375,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "epoch": 0.9927455833404455,
      "grad_norm": 2.484156370162964,
      "kl": 5.0234375,
      "learning_rate": 1.0015467208245076e-07,
      "loss": 0.2461,
      "num_tokens": 1682919989.0,
      "reward": 1.4169921875,
      "reward_std": 0.7475748062133789,
      "rewards/accuracy_reward/mean": 0.076171875,
      "rewards/accuracy_reward/std": 0.26553234457969666,
      "rewards/format_reward/mean": 0.51171875,
      "rewards/format_reward/std": 0.5003514885902405,
      "rewards/tag_count_reward/mean": 0.8291015625,
      "rewards/tag_count_reward/std": 0.2523718476295471,
      "step": 2908
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.046875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 1080.0625,
      "completions/mean_terminated_length": 1032.458984375,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.9930869676538363,
      "grad_norm": 6.493854999542236,
      "kl": 5.6953125,
      "learning_rate": 1.0014093127177493e-07,
      "loss": 0.2422,
      "num_tokens": 1683553493.0,
      "reward": 1.39404296875,
      "reward_std": 0.7597787380218506,
      "rewards/accuracy_reward/mean": 0.08984375,
      "rewards/accuracy_reward/std": 0.2862374484539032,
      "rewards/format_reward/mean": 0.486328125,
      "rewards/format_reward/std": 0.5003018379211426,
      "rewards/tag_count_reward/mean": 0.81787109375,
      "rewards/tag_count_reward/std": 0.26663437485694885,
      "step": 2909
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.08203125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1144.462890625,
      "completions/mean_terminated_length": 1063.72119140625,
      "completions/min_length": 301.0,
      "completions/min_terminated_length": 301.0,
      "epoch": 0.9934283519672271,
      "grad_norm": 1.711689829826355,
      "kl": 4.6953125,
      "learning_rate": 1.0012782943829913e-07,
      "loss": 0.2221,
      "num_tokens": 1684225410.0,
      "reward": 1.49365234375,
      "reward_std": 0.7310701608657837,
      "rewards/accuracy_reward/mean": 0.09765625,
      "rewards/accuracy_reward/std": 0.29713961482048035,
      "rewards/format_reward/mean": 0.537109375,
      "rewards/format_reward/std": 0.4991086423397064,
      "rewards/tag_count_reward/mean": 0.85888671875,
      "rewards/tag_count_reward/std": 0.23561164736747742,
      "step": 2910
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.04296875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1073.982421875,
      "completions/mean_terminated_length": 1030.2509765625,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "epoch": 0.9937697362806179,
      "grad_norm": 2.9198687076568604,
      "kl": 4.81640625,
      "learning_rate": 1.0011536660063326e-07,
      "loss": 0.21,
      "num_tokens": 1684858281.0,
      "reward": 1.4697265625,
      "reward_std": 0.7562755346298218,
      "rewards/accuracy_reward/mean": 0.11491935700178146,
      "rewards/accuracy_reward/std": 0.3192465901374817,
      "rewards/format_reward/mean": 0.517578125,
      "rewards/format_reward/std": 0.5001795887947083,
      "rewards/tag_count_reward/mean": 0.8408203125,
      "rewards/tag_count_reward/std": 0.24139538407325745,
      "step": 2911
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.052734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1074.673828125,
      "completions/mean_terminated_length": 1020.4887084960938,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.9941111205940087,
      "grad_norm": 3.068920850753784,
      "kl": 5.625,
      "learning_rate": 1.0010354277647939e-07,
      "loss": 0.2637,
      "num_tokens": 1685483730.0,
      "reward": 1.48046875,
      "reward_std": 0.741915225982666,
      "rewards/accuracy_reward/mean": 0.095703125,
      "rewards/accuracy_reward/std": 0.2944713830947876,
      "rewards/format_reward/mean": 0.533203125,
      "rewards/format_reward/std": 0.4993842542171478,
      "rewards/tag_count_reward/mean": 0.8515625,
      "rewards/tag_count_reward/std": 0.24014326930046082,
      "step": 2912
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 1126.357421875,
      "completions/mean_terminated_length": 1066.9583740234375,
      "completions/min_length": 283.0,
      "completions/min_terminated_length": 283.0,
      "epoch": 0.9944525049073996,
      "grad_norm": 1.6450693607330322,
      "kl": 4.46484375,
      "learning_rate": 1.0009235798263205e-07,
      "loss": 0.1867,
      "num_tokens": 1686131001.0,
      "reward": 1.423828125,
      "reward_std": 0.7515327334403992,
      "rewards/accuracy_reward/mean": 0.08467742055654526,
      "rewards/accuracy_reward/std": 0.278682142496109,
      "rewards/format_reward/mean": 0.505859375,
      "rewards/format_reward/std": 0.5004546642303467,
      "rewards/tag_count_reward/mean": 0.8359375,
      "rewards/tag_count_reward/std": 0.2535221576690674,
      "step": 2913
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.07421875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1158.17578125,
      "completions/mean_terminated_length": 1086.839599609375,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.9947938892207903,
      "grad_norm": 3.201535940170288,
      "kl": 5.1484375,
      "learning_rate": 1.00081812234978e-07,
      "loss": 0.2303,
      "num_tokens": 1686801395.0,
      "reward": 1.43017578125,
      "reward_std": 0.7791985273361206,
      "rewards/accuracy_reward/mean": 0.1171875,
      "rewards/accuracy_reward/std": 0.32195815443992615,
      "rewards/format_reward/mean": 0.498046875,
      "rewards/format_reward/std": 0.5004851818084717,
      "rewards/tag_count_reward/mean": 0.81494140625,
      "rewards/tag_count_reward/std": 0.2636793553829193,
      "step": 2914
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.06640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1126.201171875,
      "completions/mean_terminated_length": 1060.6339111328125,
      "completions/min_length": 279.0,
      "completions/min_terminated_length": 279.0,
      "epoch": 0.9951352735341811,
      "grad_norm": 3.7891156673431396,
      "kl": 4.2421875,
      "learning_rate": 1.0007190554849646e-07,
      "loss": 0.1891,
      "num_tokens": 1687450010.0,
      "reward": 1.51318359375,
      "reward_std": 0.7274699211120605,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.568359375,
      "rewards/format_reward/std": 0.4957893490791321,
      "rewards/tag_count_reward/mean": 0.86083984375,
      "rewards/tag_count_reward/std": 0.23625560104846954,
      "step": 2915
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0859375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2046.0,
      "completions/mean_length": 1238.1640625,
      "completions/mean_terminated_length": 1162.0257568359375,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.9954766578475719,
      "grad_norm": 3.015854835510254,
      "kl": 4.83984375,
      "learning_rate": 1.0006263793725872e-07,
      "loss": 0.2123,
      "num_tokens": 1688169486.0,
      "reward": 1.4375,
      "reward_std": 0.7634412050247192,
      "rewards/accuracy_reward/mean": 0.083984375,
      "rewards/accuracy_reward/std": 0.2776356339454651,
      "rewards/format_reward/mean": 0.541015625,
      "rewards/format_reward/std": 0.49880221486091614,
      "rewards/tag_count_reward/mean": 0.8125,
      "rewards/tag_count_reward/std": 0.26726123690605164,
      "step": 2916
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.060546875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1082.146484375,
      "completions/mean_terminated_length": 1019.8981323242188,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "epoch": 0.9958180421609627,
      "grad_norm": 4.808913230895996,
      "kl": 4.3046875,
      "learning_rate": 1.0005400941442848e-07,
      "loss": 0.1963,
      "num_tokens": 1688799961.0,
      "reward": 1.5009765625,
      "reward_std": 0.7337645292282104,
      "rewards/accuracy_reward/mean": 0.07421875,
      "rewards/accuracy_reward/std": 0.2623828947544098,
      "rewards/format_reward/mean": 0.58984375,
      "rewards/format_reward/std": 0.49234291911125183,
      "rewards/tag_count_reward/mean": 0.8369140625,
      "rewards/tag_count_reward/std": 0.2640654742717743,
      "step": 2917
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2038.0,
      "completions/mean_length": 1098.517578125,
      "completions/mean_terminated_length": 1035.21875,
      "completions/min_length": 289.0,
      "completions/min_terminated_length": 289.0,
      "epoch": 0.9961594264743535,
      "grad_norm": 5.332459926605225,
      "kl": 3.953125,
      "learning_rate": 1.0004601999226164e-07,
      "loss": 0.1689,
      "num_tokens": 1689433970.0,
      "reward": 1.45751953125,
      "reward_std": 0.72110515832901,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.548828125,
      "rewards/format_reward/std": 0.498096764087677,
      "rewards/tag_count_reward/mean": 0.84228515625,
      "rewards/tag_count_reward/std": 0.24956724047660828,
      "step": 2918
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1160.478515625,
      "completions/mean_terminated_length": 1085.264892578125,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.9965008107877443,
      "grad_norm": 3.012641429901123,
      "kl": 4.609375,
      "learning_rate": 1.0003866968210636e-07,
      "loss": 0.2057,
      "num_tokens": 1690104791.0,
      "reward": 1.53515625,
      "reward_std": 0.7460612058639526,
      "rewards/accuracy_reward/mean": 0.115234375,
      "rewards/accuracy_reward/std": 0.3196168541908264,
      "rewards/format_reward/mean": 0.56640625,
      "rewards/format_reward/std": 0.4960552453994751,
      "rewards/tag_count_reward/mean": 0.853515625,
      "rewards/tag_count_reward/std": 0.23673690855503082,
      "step": 2919
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1164.921875,
      "completions/mean_terminated_length": 1090.084716796875,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.9968421951011351,
      "grad_norm": 2.2774465084075928,
      "kl": 4.9296875,
      "learning_rate": 1.0003195849440295e-07,
      "loss": 0.2602,
      "num_tokens": 1690791375.0,
      "reward": 1.416015625,
      "reward_std": 0.7490825653076172,
      "rewards/accuracy_reward/mean": 0.099609375,
      "rewards/accuracy_reward/std": 0.29977133870124817,
      "rewards/format_reward/mean": 0.490234375,
      "rewards/format_reward/std": 0.5003935098648071,
      "rewards/tag_count_reward/mean": 0.826171875,
      "rewards/tag_count_reward/std": 0.26041626930236816,
      "step": 2920
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2029.0,
      "completions/mean_length": 1138.990234375,
      "completions/mean_terminated_length": 1076.3653564453125,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.997183579414526,
      "grad_norm": 1.4758949279785156,
      "kl": 4.5078125,
      "learning_rate": 1.0002588643868397e-07,
      "loss": 0.2073,
      "num_tokens": 1691450042.0,
      "reward": 1.4814453125,
      "reward_std": 0.8069281578063965,
      "rewards/accuracy_reward/mean": 0.12109375,
      "rewards/accuracy_reward/std": 0.3265552520751953,
      "rewards/format_reward/mean": 0.541015625,
      "rewards/format_reward/std": 0.49880221486091614,
      "rewards/tag_count_reward/mean": 0.8193359375,
      "rewards/tag_count_reward/std": 0.2664860486984253,
      "step": 2921
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1990.0,
      "completions/mean_length": 1090.2578125,
      "completions/mean_terminated_length": 1039.0205078125,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.9975249637279167,
      "grad_norm": 3.482325553894043,
      "kl": 4.80078125,
      "learning_rate": 1.0002045352357407e-07,
      "loss": 0.1939,
      "num_tokens": 1692086078.0,
      "reward": 1.43798828125,
      "reward_std": 0.7056668996810913,
      "rewards/accuracy_reward/mean": 0.078125,
      "rewards/accuracy_reward/std": 0.26863065361976624,
      "rewards/format_reward/mean": 0.521484375,
      "rewards/format_reward/std": 0.5000267624855042,
      "rewards/tag_count_reward/mean": 0.83837890625,
      "rewards/tag_count_reward/std": 0.25388702750205994,
      "step": 2922
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0390625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1032.2109375,
      "completions/mean_terminated_length": 990.9186401367188,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.9978663480413075,
      "grad_norm": 3.0966458320617676,
      "kl": 4.8515625,
      "learning_rate": 1.000156597567902e-07,
      "loss": 0.1938,
      "num_tokens": 1692684794.0,
      "reward": 1.4345703125,
      "reward_std": 0.6710656881332397,
      "rewards/accuracy_reward/mean": 0.056640625,
      "rewards/accuracy_reward/std": 0.23138070106506348,
      "rewards/format_reward/mean": 0.525390625,
      "rewards/format_reward/std": 0.4998432695865631,
      "rewards/tag_count_reward/mean": 0.8525390625,
      "rewards/tag_count_reward/std": 0.2427690029144287,
      "step": 2923
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2034.0,
      "completions/mean_length": 1119.09765625,
      "completions/mean_terminated_length": 1069.4033203125,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.9982077323546983,
      "grad_norm": 3.7675349712371826,
      "kl": 4.26171875,
      "learning_rate": 1.000115051451414e-07,
      "loss": 0.1967,
      "num_tokens": 1693328540.0,
      "reward": 1.52392578125,
      "reward_std": 0.7720863223075867,
      "rewards/accuracy_reward/mean": 0.126953125,
      "rewards/accuracy_reward/std": 0.33324605226516724,
      "rewards/format_reward/mean": 0.55078125,
      "rewards/format_reward/std": 0.497901052236557,
      "rewards/tag_count_reward/mean": 0.84619140625,
      "rewards/tag_count_reward/std": 0.24510899186134338,
      "step": 2924
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.068359375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2035.0,
      "completions/mean_length": 1150.630859375,
      "completions/mean_terminated_length": 1084.7861328125,
      "completions/min_length": 311.0,
      "completions/min_terminated_length": 311.0,
      "epoch": 0.9985491166680891,
      "grad_norm": 2.030956506729126,
      "kl": 4.17578125,
      "learning_rate": 1.0000798969452879e-07,
      "loss": 0.166,
      "num_tokens": 1693997695.0,
      "reward": 1.52294921875,
      "reward_std": 0.7646929025650024,
      "rewards/accuracy_reward/mean": 0.107421875,
      "rewards/accuracy_reward/std": 0.30995169281959534,
      "rewards/format_reward/mean": 0.572265625,
      "rewards/format_reward/std": 0.4952339828014374,
      "rewards/tag_count_reward/mean": 0.84326171875,
      "rewards/tag_count_reward/std": 0.25261548161506653,
      "step": 2925
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.05078125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1045.6171875,
      "completions/mean_terminated_length": 991.9917602539062,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.9988905009814799,
      "grad_norm": 2.6360840797424316,
      "kl": 5.2109375,
      "learning_rate": 1.0000511340994572e-07,
      "loss": 0.2644,
      "num_tokens": 1694607659.0,
      "reward": 1.3779296875,
      "reward_std": 0.7198290824890137,
      "rewards/accuracy_reward/mean": 0.046875,
      "rewards/accuracy_reward/std": 0.21157780289649963,
      "rewards/format_reward/mean": 0.5,
      "rewards/format_reward/std": 0.5004889965057373,
      "rewards/tag_count_reward/mean": 0.8310546875,
      "rewards/tag_count_reward/std": 0.2608177363872528,
      "step": 2926
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2045.0,
      "completions/mean_length": 1169.10546875,
      "completions/mean_terminated_length": 1108.5552978515625,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.9992318852948707,
      "grad_norm": 3.7356173992156982,
      "kl": 3.8125,
      "learning_rate": 1.0000287629547764e-07,
      "loss": 0.181,
      "num_tokens": 1695280161.0,
      "reward": 1.4658203125,
      "reward_std": 0.7172948122024536,
      "rewards/accuracy_reward/mean": 0.05859375,
      "rewards/accuracy_reward/std": 0.23509246110916138,
      "rewards/format_reward/mean": 0.560546875,
      "rewards/format_reward/std": 0.49680593609809875,
      "rewards/tag_count_reward/mean": 0.8466796875,
      "rewards/tag_count_reward/std": 0.25253841280937195,
      "step": 2927
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.064453125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1133.03515625,
      "completions/mean_terminated_length": 1070.0,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.9995732696082615,
      "grad_norm": 2.1725656986236572,
      "kl": 4.5546875,
      "learning_rate": 1.0000127835430222e-07,
      "loss": 0.2092,
      "num_tokens": 1695930499.0,
      "reward": 1.4501953125,
      "reward_std": 0.7432597875595093,
      "rewards/accuracy_reward/mean": 0.07258064299821854,
      "rewards/accuracy_reward/std": 0.25970885157585144,
      "rewards/format_reward/mean": 0.552734375,
      "rewards/format_reward/std": 0.4976975917816162,
      "rewards/tag_count_reward/mean": 0.8271484375,
      "rewards/tag_count_reward/std": 0.260597825050354,
      "step": 2928
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1973.0,
      "completions/max_terminated_length": 1973.0,
      "completions/mean_length": 883.189208984375,
      "completions/mean_terminated_length": 883.189208984375,
      "completions/min_length": 322.0,
      "completions/min_terminated_length": 322.0,
      "epoch": 0.9999146539216524,
      "grad_norm": 3.4660446643829346,
      "kl": 4.16796875,
      "learning_rate": 1.0000031958868901e-07,
      "loss": 0.1983,
      "num_tokens": 1696584447.0,
      "reward": 1.42431640625,
      "reward_std": 0.7108050584793091,
      "rewards/accuracy_reward/mean": 0.06640625,
      "rewards/accuracy_reward/std": 0.2492343932390213,
      "rewards/format_reward/mean": 0.525390625,
      "rewards/format_reward/std": 0.4998432695865631,
      "rewards/tag_count_reward/mean": 0.83251953125,
      "rewards/tag_count_reward/std": 0.2587076425552368,
      "step": 2929
    },
    {
      "epoch": 0.9999146539216524,
      "step": 2929,
      "total_flos": 0.0,
      "train_loss": 0.3349957286366559,
      "train_runtime": 80571.461,
      "train_samples_per_second": 1.163,
      "train_steps_per_second": 0.036
    }
  ],
  "logging_steps": 1,
  "max_steps": 2929,
  "num_input_tokens_seen": 1696584447,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}