{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 820,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 788.5000305175781,
      "epoch": 0.0012195121951219512,
      "grad_norm": 0.3571978509426117,
      "kl": 0.0,
      "learning_rate": 3.658536585365854e-08,
      "loss": 0.0178,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 1
    },
    {
      "completion_length": 595.1875305175781,
      "epoch": 0.0024390243902439024,
      "grad_norm": 0.3311821520328522,
      "kl": 0.0,
      "learning_rate": 7.317073170731708e-08,
      "loss": -0.006,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 2
    },
    {
      "completion_length": 894.6041870117188,
      "epoch": 0.003658536585365854,
      "grad_norm": 0.5522251129150391,
      "kl": 0.00023651123046875,
      "learning_rate": 1.097560975609756e-07,
      "loss": -0.0317,
      "reward": 0.1875000074505806,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 3
    },
    {
      "completion_length": 913.2083435058594,
      "epoch": 0.004878048780487805,
      "grad_norm": 0.2455306351184845,
      "kl": 0.00029087066650390625,
      "learning_rate": 1.4634146341463415e-07,
      "loss": -0.0142,
      "reward": 0.1666666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 4
    },
    {
      "completion_length": 645.5625,
      "epoch": 0.006097560975609756,
      "grad_norm": 0.20754282176494598,
      "kl": 0.0003032684326171875,
      "learning_rate": 1.8292682926829268e-07,
      "loss": -0.0035,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 5
    },
    {
      "completion_length": 825.25,
      "epoch": 0.007317073170731708,
      "grad_norm": 0.33052483201026917,
      "kl": 0.000278472900390625,
      "learning_rate": 2.195121951219512e-07,
      "loss": 0.0511,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 6
    },
    {
      "completion_length": 646.5208435058594,
      "epoch": 0.00853658536585366,
      "grad_norm": 0.6244280934333801,
      "kl": 0.00029754638671875,
      "learning_rate": 2.5609756097560976e-07,
      "loss": -0.0356,
      "reward": 0.06250000186264515,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 7
    },
    {
      "completion_length": 723.1041870117188,
      "epoch": 0.00975609756097561,
      "grad_norm": 0.3806585371494293,
      "kl": 0.00030422210693359375,
      "learning_rate": 2.926829268292683e-07,
      "loss": 0.0408,
      "reward": 0.1250000037252903,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 8
    },
    {
      "completion_length": 752.7083435058594,
      "epoch": 0.01097560975609756,
      "grad_norm": 0.3775721490383148,
      "kl": 0.00028228759765625,
      "learning_rate": 3.2926829268292686e-07,
      "loss": 0.0091,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 9
    },
    {
      "completion_length": 880.8541870117188,
      "epoch": 0.012195121951219513,
      "grad_norm": 0.16199147701263428,
      "kl": 0.00026607513427734375,
      "learning_rate": 3.6585365853658536e-07,
      "loss": 0.0043,
      "reward": 0.1666666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 10
    },
    {
      "completion_length": 752.1458435058594,
      "epoch": 0.013414634146341463,
      "grad_norm": 0.5467624068260193,
      "kl": 0.000339508056640625,
      "learning_rate": 4.0243902439024396e-07,
      "loss": -0.056,
      "reward": 0.1666666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 11
    },
    {
      "completion_length": 790.125,
      "epoch": 0.014634146341463415,
      "grad_norm": 0.3221971392631531,
      "kl": 0.0002956390380859375,
      "learning_rate": 4.390243902439024e-07,
      "loss": -0.0217,
      "reward": 0.2500000074505806,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/format_reward": 0.0,
      "step": 12
    },
    {
      "completion_length": 661.7291870117188,
      "epoch": 0.015853658536585366,
      "grad_norm": 0.5072605609893799,
      "kl": 0.00029659271240234375,
      "learning_rate": 4.75609756097561e-07,
      "loss": -0.0177,
      "reward": 0.1041666679084301,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 13
    },
    {
      "completion_length": 620.8750305175781,
      "epoch": 0.01707317073170732,
      "grad_norm": 0.32282891869544983,
      "kl": 0.00041866302490234375,
      "learning_rate": 5.121951219512195e-07,
      "loss": 0.0156,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 14
    },
    {
      "completion_length": 821.2291870117188,
      "epoch": 0.018292682926829267,
      "grad_norm": 0.2993911802768707,
      "kl": 0.00032138824462890625,
      "learning_rate": 5.48780487804878e-07,
      "loss": 0.0265,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 15
    },
    {
      "completion_length": 632.0416870117188,
      "epoch": 0.01951219512195122,
      "grad_norm": 0.1648959368467331,
      "kl": 0.000415802001953125,
      "learning_rate": 5.853658536585366e-07,
      "loss": -0.0027,
      "reward": 0.1666666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 16
    },
    {
      "completion_length": 606.5208435058594,
      "epoch": 0.020731707317073172,
      "grad_norm": 0.4805357754230499,
      "kl": 0.0004749298095703125,
      "learning_rate": 6.219512195121951e-07,
      "loss": -0.0221,
      "reward": 0.2291666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 17
    },
    {
      "completion_length": 603.0625305175781,
      "epoch": 0.02195121951219512,
      "grad_norm": 0.09931223839521408,
      "kl": 0.0008544921875,
      "learning_rate": 6.585365853658537e-07,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 18
    },
    {
      "completion_length": 764.8125305175781,
      "epoch": 0.023170731707317073,
      "grad_norm": 0.02471252717077732,
      "kl": 0.0004911422729492188,
      "learning_rate": 6.951219512195122e-07,
      "loss": 0.0,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 19
    },
    {
      "completion_length": 608.6875305175781,
      "epoch": 0.024390243902439025,
      "grad_norm": 0.4140380918979645,
      "kl": 0.0008373260498046875,
      "learning_rate": 7.317073170731707e-07,
      "loss": -0.0022,
      "reward": 0.1250000037252903,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 20
    },
    {
      "completion_length": 810.7292175292969,
      "epoch": 0.025609756097560974,
      "grad_norm": 0.43750235438346863,
      "kl": 0.001323699951171875,
      "learning_rate": 7.682926829268293e-07,
      "loss": -0.0126,
      "reward": 0.229166679084301,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/format_reward": 0.0,
      "step": 21
    },
    {
      "completion_length": 733.875,
      "epoch": 0.026829268292682926,
      "grad_norm": 0.0427839532494545,
      "kl": 0.0009918212890625,
      "learning_rate": 8.048780487804879e-07,
      "loss": 0.0,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 22
    },
    {
      "completion_length": 719.0208435058594,
      "epoch": 0.02804878048780488,
      "grad_norm": 0.3788954019546509,
      "kl": 0.005901336669921875,
      "learning_rate": 8.414634146341464e-07,
      "loss": -0.0154,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 23
    },
    {
      "completion_length": 668.7708435058594,
      "epoch": 0.02926829268292683,
      "grad_norm": 0.6176497936248779,
      "kl": 0.00179290771484375,
      "learning_rate": 8.780487804878048e-07,
      "loss": 0.0085,
      "reward": 0.06250000186264515,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 24
    },
    {
      "completion_length": 859.4166870117188,
      "epoch": 0.03048780487804878,
      "grad_norm": 0.34154024720191956,
      "kl": 0.0024566650390625,
      "learning_rate": 9.146341463414634e-07,
      "loss": 0.0001,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 25
    },
    {
      "completion_length": 600.7708435058594,
      "epoch": 0.03170731707317073,
      "grad_norm": 0.6522072553634644,
      "kl": 0.005767822265625,
      "learning_rate": 9.51219512195122e-07,
      "loss": -0.0238,
      "reward": 0.14583333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 26
    },
    {
      "completion_length": 773.3541870117188,
      "epoch": 0.032926829268292684,
      "grad_norm": 0.07703638821840286,
      "kl": 0.00222015380859375,
      "learning_rate": 9.878048780487806e-07,
      "loss": 0.0001,
      "reward": 0.3125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 0.0,
      "step": 27
    },
    {
      "completion_length": 944.4583435058594,
      "epoch": 0.03414634146341464,
      "grad_norm": 0.37970709800720215,
      "kl": 0.001628875732421875,
      "learning_rate": 1.024390243902439e-06,
      "loss": -0.0156,
      "reward": 0.291666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.291666679084301,
      "rewards/format_reward": 0.0,
      "step": 28
    },
    {
      "completion_length": 838.8333435058594,
      "epoch": 0.03536585365853658,
      "grad_norm": 0.06090879812836647,
      "kl": 0.001903533935546875,
      "learning_rate": 1.0609756097560976e-06,
      "loss": 0.0001,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 29
    },
    {
      "completion_length": 771.0833435058594,
      "epoch": 0.036585365853658534,
      "grad_norm": 0.3602464199066162,
      "kl": 0.00479888916015625,
      "learning_rate": 1.097560975609756e-06,
      "loss": 0.0039,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 30
    },
    {
      "completion_length": 664.7500305175781,
      "epoch": 0.03780487804878049,
      "grad_norm": 0.4147832691669464,
      "kl": 0.0021514892578125,
      "learning_rate": 1.1341463414634146e-06,
      "loss": 0.0062,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 31
    },
    {
      "completion_length": 860.0208740234375,
      "epoch": 0.03902439024390244,
      "grad_norm": 0.03816133737564087,
      "kl": 0.00128936767578125,
      "learning_rate": 1.1707317073170732e-06,
      "loss": 0.0,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 32
    },
    {
      "completion_length": 725.3125,
      "epoch": 0.04024390243902439,
      "grad_norm": 0.0702565535902977,
      "kl": 0.002208709716796875,
      "learning_rate": 1.2073170731707318e-06,
      "loss": 0.0001,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 33
    },
    {
      "completion_length": 651.3958435058594,
      "epoch": 0.041463414634146344,
      "grad_norm": 0.04627303034067154,
      "kl": 0.001392364501953125,
      "learning_rate": 1.2439024390243902e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 34
    },
    {
      "completion_length": 865.2291870117188,
      "epoch": 0.042682926829268296,
      "grad_norm": 0.35550418496131897,
      "kl": 0.002017974853515625,
      "learning_rate": 1.2804878048780488e-06,
      "loss": -0.0023,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 35
    },
    {
      "completion_length": 950.8333435058594,
      "epoch": 0.04390243902439024,
      "grad_norm": 0.3738349974155426,
      "kl": 0.001232147216796875,
      "learning_rate": 1.3170731707317074e-06,
      "loss": -0.0004,
      "reward": 0.06250000186264515,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 36
    },
    {
      "completion_length": 663.4375305175781,
      "epoch": 0.045121951219512194,
      "grad_norm": 0.5210116505622864,
      "kl": 0.002288818359375,
      "learning_rate": 1.3536585365853658e-06,
      "loss": 0.0308,
      "reward": 0.229166679084301,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/format_reward": 0.0,
      "step": 37
    },
    {
      "completion_length": 690.5,
      "epoch": 0.046341463414634146,
      "grad_norm": 0.39043503999710083,
      "kl": 0.009716033935546875,
      "learning_rate": 1.3902439024390244e-06,
      "loss": 0.0009,
      "reward": 0.2083333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 38
    },
    {
      "completion_length": 679.2916870117188,
      "epoch": 0.0475609756097561,
      "grad_norm": 0.20443572103977203,
      "kl": 0.00389862060546875,
      "learning_rate": 1.4268292682926828e-06,
      "loss": 0.0001,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 39
    },
    {
      "completion_length": 637.7708740234375,
      "epoch": 0.04878048780487805,
      "grad_norm": 0.3915785551071167,
      "kl": 0.001926422119140625,
      "learning_rate": 1.4634146341463414e-06,
      "loss": 0.0156,
      "reward": 0.1458333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/format_reward": 0.0,
      "step": 40
    },
    {
      "completion_length": 742.4166870117188,
      "epoch": 0.05,
      "grad_norm": 0.4709751009941101,
      "kl": 0.002841949462890625,
      "learning_rate": 1.5e-06,
      "loss": 0.0118,
      "reward": 0.16666667722165585,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 41
    },
    {
      "completion_length": 794.6666870117188,
      "epoch": 0.05121951219512195,
      "grad_norm": 0.09043405950069427,
      "kl": 0.001739501953125,
      "learning_rate": 1.5365853658536586e-06,
      "loss": 0.0001,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 42
    },
    {
      "completion_length": 653.7708740234375,
      "epoch": 0.0524390243902439,
      "grad_norm": 0.4868049919605255,
      "kl": 0.001434326171875,
      "learning_rate": 1.5731707317073172e-06,
      "loss": 0.0249,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 43
    },
    {
      "completion_length": 551.6458435058594,
      "epoch": 0.05365853658536585,
      "grad_norm": 0.3079073429107666,
      "kl": 0.00128173828125,
      "learning_rate": 1.6097560975609759e-06,
      "loss": 0.0083,
      "reward": 0.2916666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/format_reward": 0.0,
      "step": 44
    },
    {
      "completion_length": 794.8333435058594,
      "epoch": 0.054878048780487805,
      "grad_norm": 0.5330808758735657,
      "kl": 0.000972747802734375,
      "learning_rate": 1.6463414634146342e-06,
      "loss": -0.0414,
      "reward": 0.1666666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 45
    },
    {
      "completion_length": 604.5833435058594,
      "epoch": 0.05609756097560976,
      "grad_norm": 0.5505648851394653,
      "kl": 0.00283050537109375,
      "learning_rate": 1.6829268292682928e-06,
      "loss": -0.0118,
      "reward": 0.2291666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 46
    },
    {
      "completion_length": 541.2291717529297,
      "epoch": 0.05731707317073171,
      "grad_norm": 0.6158074736595154,
      "kl": 0.00244903564453125,
      "learning_rate": 1.719512195121951e-06,
      "loss": 0.0012,
      "reward": 0.1875000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 47
    },
    {
      "completion_length": 671.0416870117188,
      "epoch": 0.05853658536585366,
      "grad_norm": 0.1726604402065277,
      "kl": 0.005340576171875,
      "learning_rate": 1.7560975609756096e-06,
      "loss": 0.0001,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 48
    },
    {
      "completion_length": 757.9166870117188,
      "epoch": 0.05975609756097561,
      "grad_norm": 0.08531015366315842,
      "kl": 0.002162933349609375,
      "learning_rate": 1.7926829268292682e-06,
      "loss": 0.0001,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 49
    },
    {
      "completion_length": 729.4583740234375,
      "epoch": 0.06097560975609756,
      "grad_norm": 0.42457133531570435,
      "kl": 0.0019073486328125,
      "learning_rate": 1.8292682926829268e-06,
      "loss": -0.033,
      "reward": 0.1458333395421505,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 50
    },
    {
      "completion_length": 641.375,
      "epoch": 0.06219512195121951,
      "grad_norm": 0.04091706499457359,
      "kl": 0.002422332763671875,
      "learning_rate": 1.8658536585365854e-06,
      "loss": 0.0001,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 51
    },
    {
      "completion_length": 760.2708740234375,
      "epoch": 0.06341463414634146,
      "grad_norm": 0.3898300528526306,
      "kl": 0.00279998779296875,
      "learning_rate": 1.902439024390244e-06,
      "loss": -0.0003,
      "reward": 0.2500000074505806,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/format_reward": 0.0,
      "step": 52
    },
    {
      "completion_length": 744.9375305175781,
      "epoch": 0.06463414634146342,
      "grad_norm": 0.09664002805948257,
      "kl": 0.0029296875,
      "learning_rate": 1.9390243902439024e-06,
      "loss": 0.0018,
      "reward": 0.3333333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.0,
      "step": 53
    },
    {
      "completion_length": 771.5625,
      "epoch": 0.06585365853658537,
      "grad_norm": 0.644061803817749,
      "kl": 0.00276947021484375,
      "learning_rate": 1.9756097560975613e-06,
      "loss": -0.0595,
      "reward": 0.2500000149011612,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 54
    },
    {
      "completion_length": 714.1041870117188,
      "epoch": 0.06707317073170732,
      "grad_norm": 0.4097103178501129,
      "kl": 0.00342559814453125,
      "learning_rate": 2.0121951219512197e-06,
      "loss": 0.0054,
      "reward": 0.2083333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 55
    },
    {
      "completion_length": 667.5625305175781,
      "epoch": 0.06829268292682927,
      "grad_norm": 0.690647304058075,
      "kl": 0.0050201416015625,
      "learning_rate": 2.048780487804878e-06,
      "loss": 0.0823,
      "reward": 0.1666666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 56
    },
    {
      "completion_length": 631.9375,
      "epoch": 0.06951219512195123,
      "grad_norm": 0.21440348029136658,
      "kl": 0.0043792724609375,
      "learning_rate": 2.0853658536585364e-06,
      "loss": 0.0048,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 57
    },
    {
      "completion_length": 617.8958435058594,
      "epoch": 0.07073170731707316,
      "grad_norm": 0.363092303276062,
      "kl": 0.005340576171875,
      "learning_rate": 2.1219512195121953e-06,
      "loss": 0.0056,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 58
    },
    {
      "completion_length": 794.4375,
      "epoch": 0.07195121951219512,
      "grad_norm": 0.46107953786849976,
      "kl": 0.008514404296875,
      "learning_rate": 2.1585365853658537e-06,
      "loss": 0.012,
      "reward": 0.1458333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 59
    },
    {
      "completion_length": 769.2083740234375,
      "epoch": 0.07317073170731707,
      "grad_norm": 0.6187219023704529,
      "kl": 0.0089111328125,
      "learning_rate": 2.195121951219512e-06,
      "loss": 0.0335,
      "reward": 0.1041666679084301,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 60
    },
    {
      "completion_length": 766.9791870117188,
      "epoch": 0.07439024390243902,
      "grad_norm": 0.5316298007965088,
      "kl": 0.005126953125,
      "learning_rate": 2.231707317073171e-06,
      "loss": -0.0355,
      "reward": 0.2083333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 61
    },
    {
      "completion_length": 622.1041870117188,
      "epoch": 0.07560975609756097,
      "grad_norm": 0.6351970434188843,
      "kl": 0.0066375732421875,
      "learning_rate": 2.2682926829268293e-06,
      "loss": 0.0001,
      "reward": 0.1666666679084301,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 62
    },
    {
      "completion_length": 640.4791870117188,
      "epoch": 0.07682926829268293,
      "grad_norm": 0.4834135174751282,
      "kl": 0.0060577392578125,
      "learning_rate": 2.304878048780488e-06,
      "loss": -0.0195,
      "reward": 0.3125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 0.0,
      "step": 63
    },
    {
      "completion_length": 700.7708435058594,
      "epoch": 0.07804878048780488,
      "grad_norm": 0.34847137331962585,
      "kl": 0.00543975830078125,
      "learning_rate": 2.3414634146341465e-06,
      "loss": 0.0004,
      "reward": 0.1041666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 64
    },
    {
      "completion_length": 704.4583435058594,
      "epoch": 0.07926829268292683,
      "grad_norm": 0.5386676788330078,
      "kl": 0.005706787109375,
      "learning_rate": 2.378048780487805e-06,
      "loss": -0.0559,
      "reward": 0.1458333358168602,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 65
    },
    {
      "completion_length": 825.2083740234375,
      "epoch": 0.08048780487804878,
      "grad_norm": 0.6664050817489624,
      "kl": 0.0067596435546875,
      "learning_rate": 2.4146341463414637e-06,
      "loss": 0.0535,
      "reward": 0.1458333358168602,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 66
    },
    {
      "completion_length": 743.7916717529297,
      "epoch": 0.08170731707317073,
      "grad_norm": 0.6769405603408813,
      "kl": 0.0077056884765625,
      "learning_rate": 2.451219512195122e-06,
      "loss": 0.0357,
      "reward": 0.2083333432674408,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 67
    },
    {
      "completion_length": 681.4166870117188,
      "epoch": 0.08292682926829269,
      "grad_norm": 0.11391153931617737,
      "kl": 0.005401611328125,
      "learning_rate": 2.4878048780487805e-06,
      "loss": 0.0002,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 68
    },
    {
      "completion_length": 906.8125305175781,
      "epoch": 0.08414634146341464,
      "grad_norm": 0.48767825961112976,
      "kl": 0.01153564453125,
      "learning_rate": 2.524390243902439e-06,
      "loss": -0.0238,
      "reward": 0.4166666865348816,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/format_reward": 0.0,
      "step": 69
    },
    {
      "completion_length": 617.2916717529297,
      "epoch": 0.08536585365853659,
      "grad_norm": 0.8901994228363037,
      "kl": 0.015533447265625,
      "learning_rate": 2.5609756097560977e-06,
      "loss": -0.0081,
      "reward": 0.1875000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 70
    },
    {
      "completion_length": 775.3541870117188,
      "epoch": 0.08658536585365853,
      "grad_norm": 0.5658962726593018,
      "kl": 0.014251708984375,
      "learning_rate": 2.597560975609756e-06,
      "loss": 0.0227,
      "reward": 0.3125,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 0.0,
      "step": 71
    },
    {
      "completion_length": 717.9375305175781,
      "epoch": 0.08780487804878048,
      "grad_norm": 0.5440481305122375,
      "kl": 0.009857177734375,
      "learning_rate": 2.634146341463415e-06,
      "loss": -0.0534,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 72
    },
    {
      "completion_length": 718.6458740234375,
      "epoch": 0.08902439024390243,
      "grad_norm": 0.6130486130714417,
      "kl": 0.012054443359375,
      "learning_rate": 2.6707317073170733e-06,
      "loss": 0.0151,
      "reward": 0.2708333432674408,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 73
    },
    {
      "completion_length": 813.5625305175781,
      "epoch": 0.09024390243902439,
      "grad_norm": 0.11815643310546875,
      "kl": 0.0111541748046875,
      "learning_rate": 2.7073170731707317e-06,
      "loss": 0.0004,
      "reward": 0.1875,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 74
    },
    {
      "completion_length": 825.8541870117188,
      "epoch": 0.09146341463414634,
      "grad_norm": 395.2074279785156,
      "kl": 4.0714111328125,
      "learning_rate": 2.7439024390243905e-06,
      "loss": 0.1267,
      "reward": 0.2500000074505806,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/format_reward": 0.0,
      "step": 75
    },
    {
      "completion_length": 799.9583435058594,
      "epoch": 0.09268292682926829,
      "grad_norm": 0.4025568664073944,
      "kl": 0.013458251953125,
      "learning_rate": 2.780487804878049e-06,
      "loss": -0.0142,
      "reward": 0.3333333432674408,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.0,
      "step": 76
    },
    {
      "completion_length": 971.3333435058594,
      "epoch": 0.09390243902439024,
      "grad_norm": 0.5087530016899109,
      "kl": 0.016357421875,
      "learning_rate": 2.8170731707317073e-06,
      "loss": -0.0119,
      "reward": 0.10416666977107525,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 77
    },
    {
      "completion_length": 587.6041870117188,
      "epoch": 0.0951219512195122,
      "grad_norm": 0.38013386726379395,
      "kl": 0.01312255859375,
      "learning_rate": 2.8536585365853657e-06,
      "loss": 0.0125,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 78
    },
    {
      "completion_length": 659.6041870117188,
      "epoch": 0.09634146341463415,
      "grad_norm": 0.058323778212070465,
      "kl": 0.013397216796875,
      "learning_rate": 2.8902439024390245e-06,
      "loss": 0.0004,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 79
    },
    {
      "completion_length": 680.1041870117188,
      "epoch": 0.0975609756097561,
      "grad_norm": 0.39666855335235596,
      "kl": 0.01202392578125,
      "learning_rate": 2.926829268292683e-06,
      "loss": 0.0016,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 80
    },
    {
      "completion_length": 898.7708740234375,
      "epoch": 0.09878048780487805,
      "grad_norm": 0.5175566673278809,
      "kl": 0.01434326171875,
      "learning_rate": 2.9634146341463417e-06,
      "loss": 0.018,
      "reward": 0.14583333395421505,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 81
    },
    {
      "completion_length": 584.2083435058594,
      "epoch": 0.1,
      "grad_norm": 0.25543463230133057,
      "kl": 0.01416015625,
      "learning_rate": 3e-06,
      "loss": 0.0109,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 82
    },
    {
      "completion_length": 652.0416870117188,
      "epoch": 0.10121951219512196,
      "grad_norm": 0.5867159962654114,
      "kl": 0.0198974609375,
      "learning_rate": 2.9999864091183917e-06,
      "loss": -0.0393,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 83
    },
    {
      "completion_length": 657.2708740234375,
      "epoch": 0.1024390243902439,
      "grad_norm": 0.5001187324523926,
      "kl": 0.014007568359375,
      "learning_rate": 2.999945636719849e-06,
      "loss": 0.0109,
      "reward": 0.1875000111758709,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/format_reward": 0.0,
      "step": 84
    },
    {
      "completion_length": 672.2916870117188,
      "epoch": 0.10365853658536585,
      "grad_norm": 0.2978525757789612,
      "kl": 0.014129638671875,
      "learning_rate": 2.999877683543216e-06,
      "loss": -0.017,
      "reward": 0.1041666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 85
    },
    {
      "completion_length": 654.8958435058594,
      "epoch": 0.1048780487804878,
      "grad_norm": 0.4366808533668518,
      "kl": 0.009307861328125,
      "learning_rate": 2.999782550819884e-06,
      "loss": -0.0144,
      "reward": 0.3333333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.0,
      "step": 86
    },
    {
      "completion_length": 725.7083435058594,
      "epoch": 0.10609756097560975,
      "grad_norm": 0.332344651222229,
      "kl": 0.012420654296875,
      "learning_rate": 2.99966024027377e-06,
      "loss": 0.0065,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 87
    },
    {
      "completion_length": 814.4583435058594,
      "epoch": 0.1073170731707317,
      "grad_norm": 0.4384961724281311,
      "kl": 0.010833740234375,
      "learning_rate": 2.9995107541212846e-06,
      "loss": -0.0281,
      "reward": 0.0833333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 88
    },
    {
      "completion_length": 704.3125305175781,
      "epoch": 0.10853658536585366,
      "grad_norm": 0.32473617792129517,
      "kl": 0.011474609375,
      "learning_rate": 2.999334095071293e-06,
      "loss": 0.0134,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 89
    },
    {
      "completion_length": 691.3958435058594,
      "epoch": 0.10975609756097561,
      "grad_norm": 0.4972739517688751,
      "kl": 0.012054443359375,
      "learning_rate": 2.9991302663250642e-06,
      "loss": 0.0078,
      "reward": 0.2500000149011612,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 90
    },
    {
      "completion_length": 602.7916870117188,
      "epoch": 0.11097560975609756,
      "grad_norm": 0.06607077270746231,
      "kl": 0.01300048828125,
      "learning_rate": 2.9988992715762147e-06,
      "loss": 0.0005,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 91
    },
    {
      "completion_length": 793.6666870117188,
      "epoch": 0.11219512195121951,
      "grad_norm": 0.38537999987602234,
      "kl": 0.013641357421875,
      "learning_rate": 2.9986411150106423e-06,
      "loss": 0.021,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 92
    },
    {
      "completion_length": 774.5000305175781,
      "epoch": 0.11341463414634147,
      "grad_norm": 0.3016974925994873,
      "kl": 0.013336181640625,
      "learning_rate": 2.9983558013064455e-06,
      "loss": -0.0093,
      "reward": 0.2708333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2708333358168602,
      "rewards/format_reward": 0.0,
      "step": 93
    },
    {
      "completion_length": 645.1875305175781,
      "epoch": 0.11463414634146342,
      "grad_norm": 0.5931347012519836,
      "kl": 0.01019287109375,
      "learning_rate": 2.998043335633845e-06,
      "loss": 0.0087,
      "reward": 0.1875000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 94
    },
    {
      "completion_length": 724.2916870117188,
      "epoch": 0.11585365853658537,
      "grad_norm": 0.2517394721508026,
      "kl": 0.015899658203125,
      "learning_rate": 2.997703723655086e-06,
      "loss": 0.0087,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 95
    },
    {
      "completion_length": 671.7083740234375,
      "epoch": 0.11707317073170732,
      "grad_norm": 0.12199469655752182,
      "kl": 0.014068603515625,
      "learning_rate": 2.9973369715243363e-06,
      "loss": 0.0005,
      "reward": 0.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.0,
      "step": 96
    },
    {
      "completion_length": 665.0833435058594,
      "epoch": 0.11829268292682926,
      "grad_norm": 0.4756318926811218,
      "kl": 0.0115966796875,
      "learning_rate": 2.996943085887577e-06,
      "loss": -0.003,
      "reward": 0.2083333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 97
    },
    {
      "completion_length": 662.1250305175781,
      "epoch": 0.11951219512195121,
      "grad_norm": 0.3721674680709839,
      "kl": 0.01690673828125,
      "learning_rate": 2.996522073882477e-06,
      "loss": -0.0076,
      "reward": 0.0625,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 98
    },
    {
      "completion_length": 706.9791870117188,
      "epoch": 0.12073170731707317,
      "grad_norm": 0.4329390525817871,
      "kl": 0.011962890625,
      "learning_rate": 2.9960739431382697e-06,
      "loss": -0.0022,
      "reward": 0.16666667722165585,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 99
    },
    {
      "completion_length": 675.2708435058594,
      "epoch": 0.12195121951219512,
      "grad_norm": 0.08323477953672409,
      "kl": 0.01898193359375,
      "learning_rate": 2.9955987017756107e-06,
      "loss": 0.0007,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 100
    },
    {
      "completion_length": 774.4166870117188,
      "epoch": 0.12317073170731707,
      "grad_norm": 0.3017697334289551,
      "kl": 0.014556884765625,
      "learning_rate": 2.9950963584064327e-06,
      "loss": -0.0116,
      "reward": 0.25,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.0,
      "step": 101
    },
    {
      "completion_length": 690.4791870117188,
      "epoch": 0.12439024390243902,
      "grad_norm": 10.445072174072266,
      "kl": 0.10589599609375,
      "learning_rate": 2.9945669221337873e-06,
      "loss": -0.023,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 102
    },
    {
      "completion_length": 690.6666870117188,
      "epoch": 0.12560975609756098,
      "grad_norm": 0.24977770447731018,
      "kl": 0.016754150390625,
      "learning_rate": 2.994010402551682e-06,
      "loss": 0.0083,
      "reward": 0.2083333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 103
    },
    {
      "completion_length": 768.1458740234375,
      "epoch": 0.12682926829268293,
      "grad_norm": 0.5401036739349365,
      "kl": 0.0157470703125,
      "learning_rate": 2.9934268097449068e-06,
      "loss": -0.0023,
      "reward": 0.2083333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/format_reward": 0.0,
      "step": 104
    },
    {
      "completion_length": 716.8958435058594,
      "epoch": 0.12804878048780488,
      "grad_norm": 0.3317832350730896,
      "kl": 0.01983642578125,
      "learning_rate": 2.9928161542888487e-06,
      "loss": 0.0046,
      "reward": 0.06250000186264515,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 105
    },
    {
      "completion_length": 739.6458435058594,
      "epoch": 0.12926829268292683,
      "grad_norm": 0.2833709120750427,
      "kl": 0.0157470703125,
      "learning_rate": 2.9921784472493023e-06,
      "loss": 0.0306,
      "reward": 0.1041666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 106
    },
    {
      "completion_length": 685.7083435058594,
      "epoch": 0.13048780487804879,
      "grad_norm": 0.49674850702285767,
      "kl": 0.02630615234375,
      "learning_rate": 2.9915137001822686e-06,
      "loss": -0.0083,
      "reward": 0.1666666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 107
    },
    {
      "completion_length": 962.9166870117188,
      "epoch": 0.13170731707317074,
      "grad_norm": 0.23559360206127167,
      "kl": 0.01373291015625,
      "learning_rate": 2.9908219251337465e-06,
      "loss": 0.0306,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 108
    },
    {
      "completion_length": 756.2500305175781,
      "epoch": 0.1329268292682927,
      "grad_norm": 0.49854040145874023,
      "kl": 0.01385498046875,
      "learning_rate": 2.9901031346395125e-06,
      "loss": -0.0227,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 109
    },
    {
      "completion_length": 880.1458740234375,
      "epoch": 0.13414634146341464,
      "grad_norm": 0.35081374645233154,
      "kl": 0.01531982421875,
      "learning_rate": 2.9893573417248957e-06,
      "loss": 0.0152,
      "reward": 0.1458333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/format_reward": 0.0,
      "step": 110
    },
    {
      "completion_length": 783.8541870117188,
      "epoch": 0.1353658536585366,
      "grad_norm": 0.32845669984817505,
      "kl": 0.0166015625,
      "learning_rate": 2.98858455990454e-06,
      "loss": 0.0296,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 111
    },
    {
      "completion_length": 924.6666870117188,
      "epoch": 0.13658536585365855,
      "grad_norm": 0.8032549619674683,
      "kl": 0.05633544921875,
      "learning_rate": 2.987784803182161e-06,
      "loss": 0.0036,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 112
    },
    {
      "completion_length": 793.3958435058594,
      "epoch": 0.1378048780487805,
      "grad_norm": 0.03511551022529602,
      "kl": 0.013946533203125,
      "learning_rate": 2.9869580860502894e-06,
      "loss": 0.0005,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 113
    },
    {
      "completion_length": 724.6666870117188,
      "epoch": 0.13902439024390245,
      "grad_norm": 0.04026523232460022,
      "kl": 0.013092041015625,
      "learning_rate": 2.9861044234900125e-06,
      "loss": 0.0005,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 114
    },
    {
      "completion_length": 1096.5625610351562,
      "epoch": 0.1402439024390244,
      "grad_norm": 0.046590324491262436,
      "kl": 0.014556884765625,
      "learning_rate": 2.985223830970699e-06,
      "loss": 0.0005,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 115
    },
    {
      "completion_length": 756.1458740234375,
      "epoch": 0.14146341463414633,
      "grad_norm": 1.1626088619232178,
      "kl": 0.079345703125,
      "learning_rate": 2.98431632444972e-06,
      "loss": -0.0112,
      "reward": 0.1666666679084301,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 116
    },
    {
      "completion_length": 537.8125,
      "epoch": 0.14268292682926828,
      "grad_norm": 0.26080095767974854,
      "kl": 0.019287109375,
      "learning_rate": 2.9833819203721614e-06,
      "loss": 0.0128,
      "reward": 0.2083333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 117
    },
    {
      "completion_length": 636.1041870117188,
      "epoch": 0.14390243902439023,
      "grad_norm": 0.4711505174636841,
      "kl": 0.0189208984375,
      "learning_rate": 2.982420635670523e-06,
      "loss": 0.0116,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 118
    },
    {
      "completion_length": 633.5625305175781,
      "epoch": 0.14512195121951219,
      "grad_norm": 0.05762294679880142,
      "kl": 0.015533447265625,
      "learning_rate": 2.981432487764413e-06,
      "loss": 0.0006,
      "reward": 0.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.0,
      "step": 119
    },
    {
      "completion_length": 568.2291870117188,
      "epoch": 0.14634146341463414,
      "grad_norm": 0.5497531890869141,
      "kl": 0.01641845703125,
      "learning_rate": 2.980417494560234e-06,
      "loss": 0.0081,
      "reward": 0.16666667722165585,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 120
    },
    {
      "completion_length": 732.0416870117188,
      "epoch": 0.1475609756097561,
      "grad_norm": 0.5708346366882324,
      "kl": 0.015960693359375,
      "learning_rate": 2.979375674450855e-06,
      "loss": -0.0526,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 121
    },
    {
      "completion_length": 672.0208435058594,
      "epoch": 0.14878048780487804,
      "grad_norm": 0.21933433413505554,
      "kl": 0.01849365234375,
      "learning_rate": 2.9783070463152816e-06,
      "loss": 0.008,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 122
    },
    {
      "completion_length": 673.6875,
      "epoch": 0.15,
      "grad_norm": 0.5358403325080872,
      "kl": 0.02154541015625,
      "learning_rate": 2.9772116295183124e-06,
      "loss": -0.0399,
      "reward": 0.1875000074505806,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 123
    },
    {
      "completion_length": 678.8333740234375,
      "epoch": 0.15121951219512195,
      "grad_norm": 0.45023179054260254,
      "kl": 0.022705078125,
      "learning_rate": 2.9760894439101857e-06,
      "loss": 0.0313,
      "reward": 0.25,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.0,
      "step": 124
    },
    {
      "completion_length": 702.5000305175781,
      "epoch": 0.1524390243902439,
      "grad_norm": 0.20217838883399963,
      "kl": 0.013641357421875,
      "learning_rate": 2.974940509826225e-06,
      "loss": 0.0027,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 125
    },
    {
      "completion_length": 633.3541870117188,
      "epoch": 0.15365853658536585,
      "grad_norm": 0.37631967663764954,
      "kl": 0.02264404296875,
      "learning_rate": 2.973764848086466e-06,
      "loss": -0.0185,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 126
    },
    {
      "completion_length": 554.8750152587891,
      "epoch": 0.1548780487804878,
      "grad_norm": 0.3253299593925476,
      "kl": 0.02276611328125,
      "learning_rate": 2.9725624799952824e-06,
      "loss": -0.0038,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 127
    },
    {
      "completion_length": 584.6458587646484,
      "epoch": 0.15609756097560976,
      "grad_norm": 0.39743635058403015,
      "kl": 0.02117919921875,
      "learning_rate": 2.9713334273409965e-06,
      "loss": 0.0128,
      "reward": 0.25,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.0,
      "step": 128
    },
    {
      "completion_length": 737.2083435058594,
      "epoch": 0.1573170731707317,
      "grad_norm": 0.37635689973831177,
      "kl": 0.01800537109375,
      "learning_rate": 2.9700777123954867e-06,
      "loss": -0.0073,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 129
    },
    {
      "completion_length": 751.875,
      "epoch": 0.15853658536585366,
      "grad_norm": 0.7148156762123108,
      "kl": 0.0213623046875,
      "learning_rate": 2.968795357913784e-06,
      "loss": 0.0008,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 130
    },
    {
      "completion_length": 941.3125305175781,
      "epoch": 0.1597560975609756,
      "grad_norm": 0.10271207243204117,
      "kl": 0.019287109375,
      "learning_rate": 2.9674863871336603e-06,
      "loss": 0.0006,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 131
    },
    {
      "completion_length": 761.4375,
      "epoch": 0.16097560975609757,
      "grad_norm": 0.21008461713790894,
      "kl": 0.0179443359375,
      "learning_rate": 2.9661508237752034e-06,
      "loss": 0.0088,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 132
    },
    {
      "completion_length": 679.3541870117188,
      "epoch": 0.16219512195121952,
      "grad_norm": 0.3089422881603241,
      "kl": 0.0194091796875,
      "learning_rate": 2.9647886920403916e-06,
      "loss": 0.024,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 133
    },
    {
      "completion_length": 667.9166870117188,
      "epoch": 0.16341463414634147,
      "grad_norm": 0.07238946855068207,
      "kl": 0.015869140625,
      "learning_rate": 2.9634000166126534e-06,
      "loss": 0.0006,
      "reward": 0.375,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 0.0,
      "step": 134
    },
    {
      "completion_length": 620.2291870117188,
      "epoch": 0.16463414634146342,
      "grad_norm": 0.44060084223747253,
      "kl": 0.02508544921875,
      "learning_rate": 2.9619848226564196e-06,
      "loss": -0.0035,
      "reward": 0.1875000074505806,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 135
    },
    {
      "completion_length": 505.79168701171875,
      "epoch": 0.16585365853658537,
      "grad_norm": 0.60687255859375,
      "kl": 0.0185546875,
      "learning_rate": 2.9605431358166687e-06,
      "loss": -0.0126,
      "reward": 0.12500000558793545,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 136
    },
    {
      "completion_length": 592.6875305175781,
      "epoch": 0.16707317073170733,
      "grad_norm": 0.7305315136909485,
      "kl": 0.0240478515625,
      "learning_rate": 2.9590749822184602e-06,
      "loss": -0.0122,
      "reward": 0.2708333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 137
    },
    {
      "completion_length": 604.3750152587891,
      "epoch": 0.16829268292682928,
      "grad_norm": 0.5852400660514832,
      "kl": 0.0186767578125,
      "learning_rate": 2.9575803884664634e-06,
      "loss": 0.0194,
      "reward": 0.2708333432674408,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 138
    },
    {
      "completion_length": 675.6666870117188,
      "epoch": 0.16951219512195123,
      "grad_norm": 0.2013079971075058,
      "kl": 0.02276611328125,
      "learning_rate": 2.9560593816444746e-06,
      "loss": 0.0004,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 139
    },
    {
      "completion_length": 504.37501525878906,
      "epoch": 0.17073170731707318,
      "grad_norm": 0.4904243052005768,
      "kl": 0.0238037109375,
      "learning_rate": 2.9545119893149243e-06,
      "loss": -0.0117,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 140
    },
    {
      "completion_length": 681.2083435058594,
      "epoch": 0.1719512195121951,
      "grad_norm": 0.6175960302352905,
      "kl": 0.024658203125,
      "learning_rate": 2.9529382395183812e-06,
      "loss": -0.0032,
      "reward": 0.06250000186264515,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 141
    },
    {
      "completion_length": 726.3125,
      "epoch": 0.17317073170731706,
      "grad_norm": 0.07112989574670792,
      "kl": 0.01910400390625,
      "learning_rate": 2.9513381607730403e-06,
      "loss": 0.0007,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 142
    },
    {
      "completion_length": 650.2083740234375,
      "epoch": 0.174390243902439,
      "grad_norm": 0.37218180298805237,
      "kl": 0.0191650390625,
      "learning_rate": 2.949711782074211e-06,
      "loss": 0.0127,
      "reward": 0.1458333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/format_reward": 0.0,
      "step": 143
    },
    {
      "completion_length": 814.2708435058594,
      "epoch": 0.17560975609756097,
      "grad_norm": 0.05150744691491127,
      "kl": 0.01824951171875,
      "learning_rate": 2.948059132893786e-06,
      "loss": 0.0006,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 144
    },
    {
      "completion_length": 687.2291870117188,
      "epoch": 0.17682926829268292,
      "grad_norm": 0.2909289300441742,
      "kl": 0.02252197265625,
      "learning_rate": 2.9463802431797115e-06,
      "loss": 0.0009,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 145
    },
    {
      "completion_length": 607.1458740234375,
      "epoch": 0.17804878048780487,
      "grad_norm": 0.468717485666275,
      "kl": 0.0185546875,
      "learning_rate": 2.9446751433554426e-06,
      "loss": 0.0035,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 146
    },
    {
      "completion_length": 590.0833435058594,
      "epoch": 0.17926829268292682,
      "grad_norm": 0.2879053056240082,
      "kl": 0.01934814453125,
      "learning_rate": 2.942943864319392e-06,
      "loss": -0.0179,
      "reward": 0.06250000186264515,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 147
    },
    {
      "completion_length": 552.7083435058594,
      "epoch": 0.18048780487804877,
      "grad_norm": 0.11373342573642731,
      "kl": 0.019775390625,
      "learning_rate": 2.941186437444372e-06,
      "loss": 0.0008,
      "reward": 0.1875,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 148
    },
    {
      "completion_length": 507.62501525878906,
      "epoch": 0.18170731707317073,
      "grad_norm": 0.4177855849266052,
      "kl": 0.02447509765625,
      "learning_rate": 2.939402894577022e-06,
      "loss": 0.0069,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 149
    },
    {
      "completion_length": 425.4166717529297,
      "epoch": 0.18292682926829268,
      "grad_norm": 0.3714848458766937,
      "kl": 0.02252197265625,
      "learning_rate": 2.9375932680372358e-06,
      "loss": -0.0108,
      "reward": 0.2083333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 150
    },
    {
      "completion_length": 693.5000305175781,
      "epoch": 0.18414634146341463,
      "grad_norm": 0.3068605363368988,
      "kl": 0.0174560546875,
      "learning_rate": 2.935757590617574e-06,
      "loss": 0.0115,
      "reward": 0.1666666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 151
    },
    {
      "completion_length": 863.25,
      "epoch": 0.18536585365853658,
      "grad_norm": 0.07176525145769119,
      "kl": 0.014923095703125,
      "learning_rate": 2.9338958955826685e-06,
      "loss": 0.0006,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 152
    },
    {
      "completion_length": 561.2916870117188,
      "epoch": 0.18658536585365854,
      "grad_norm": 0.051739297807216644,
      "kl": 0.0205078125,
      "learning_rate": 2.9320082166686226e-06,
      "loss": 0.0007,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 153
    },
    {
      "completion_length": 621.0,
      "epoch": 0.1878048780487805,
      "grad_norm": 0.26465901732444763,
      "kl": 0.0167236328125,
      "learning_rate": 2.9300945880823955e-06,
      "loss": -0.0025,
      "reward": 0.0416666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 154
    },
    {
      "completion_length": 525.875,
      "epoch": 0.18902439024390244,
      "grad_norm": 0.6293399930000305,
      "kl": 0.0224609375,
      "learning_rate": 2.928155044501189e-06,
      "loss": -0.0075,
      "reward": 0.12500000558793545,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 155
    },
    {
      "completion_length": 561.7916870117188,
      "epoch": 0.1902439024390244,
      "grad_norm": 0.41370439529418945,
      "kl": 0.016876220703125,
      "learning_rate": 2.9261896210718106e-06,
      "loss": 0.0014,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 156
    },
    {
      "completion_length": 748.8750305175781,
      "epoch": 0.19146341463414634,
      "grad_norm": 0.04764688387513161,
      "kl": 0.0169677734375,
      "learning_rate": 2.924198353410044e-06,
      "loss": 0.0006,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 157
    },
    {
      "completion_length": 576.6666717529297,
      "epoch": 0.1926829268292683,
      "grad_norm": 0.5345750451087952,
      "kl": 0.02020263671875,
      "learning_rate": 2.9221812776000003e-06,
      "loss": 0.0161,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 158
    },
    {
      "completion_length": 717.7291870117188,
      "epoch": 0.19390243902439025,
      "grad_norm": 0.2683437168598175,
      "kl": 0.016448974609375,
      "learning_rate": 2.9201384301934632e-06,
      "loss": -0.0001,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 159
    },
    {
      "completion_length": 744.0833435058594,
      "epoch": 0.1951219512195122,
      "grad_norm": 0.05052180215716362,
      "kl": 0.0198974609375,
      "learning_rate": 2.9180698482092302e-06,
      "loss": 0.0007,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 160
    },
    {
      "completion_length": 791.9166870117188,
      "epoch": 0.19634146341463415,
      "grad_norm": 0.04119595140218735,
      "kl": 0.016937255859375,
      "learning_rate": 2.9159755691324377e-06,
      "loss": 0.0006,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 161
    },
    {
      "completion_length": 639.9375305175781,
      "epoch": 0.1975609756097561,
      "grad_norm": 0.37889334559440613,
      "kl": 0.020751953125,
      "learning_rate": 2.913855630913884e-06,
      "loss": -0.0038,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 162
    },
    {
      "completion_length": 868.8125,
      "epoch": 0.19878048780487806,
      "grad_norm": 0.27075132727622986,
      "kl": 0.01708984375,
      "learning_rate": 2.911710071969342e-06,
      "loss": 0.0158,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 163
    },
    {
      "completion_length": 890.9791870117188,
      "epoch": 0.2,
      "grad_norm": 0.285118043422699,
      "kl": 0.014984130859375,
      "learning_rate": 2.9095389311788626e-06,
      "loss": -0.0051,
      "reward": 0.2291666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 164
    },
    {
      "completion_length": 745.7916870117188,
      "epoch": 0.20121951219512196,
      "grad_norm": 0.4438501000404358,
      "kl": 0.016265869140625,
      "learning_rate": 2.9073422478860678e-06,
      "loss": -0.0643,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 165
    },
    {
      "completion_length": 664.1666870117188,
      "epoch": 0.20243902439024392,
      "grad_norm": 0.26312437653541565,
      "kl": 0.02099609375,
      "learning_rate": 2.9051200618974418e-06,
      "loss": 0.0026,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 166
    },
    {
      "completion_length": 731.6875,
      "epoch": 0.20365853658536584,
      "grad_norm": 0.34627678990364075,
      "kl": 0.01849365234375,
      "learning_rate": 2.9028724134816064e-06,
      "loss": -0.0197,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 167
    },
    {
      "completion_length": 688.1041870117188,
      "epoch": 0.2048780487804878,
      "grad_norm": 0.4049510657787323,
      "kl": 0.017578125,
      "learning_rate": 2.9005993433685932e-06,
      "loss": 0.013,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 168
    },
    {
      "completion_length": 683.3750305175781,
      "epoch": 0.20609756097560974,
      "grad_norm": 0.5772159099578857,
      "kl": 0.01739501953125,
      "learning_rate": 2.8983008927491046e-06,
      "loss": 0.0063,
      "reward": 0.2708333432674408,
      "reward_std": 0.10825318098068237,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 169
    },
    {
      "completion_length": 693.4583740234375,
      "epoch": 0.2073170731707317,
      "grad_norm": 0.3611339032649994,
      "kl": 0.0157470703125,
      "learning_rate": 2.8959771032737673e-06,
      "loss": -0.0406,
      "reward": 0.0833333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 170
    },
    {
      "completion_length": 630.0000305175781,
      "epoch": 0.20853658536585365,
      "grad_norm": 0.33315309882164,
      "kl": 0.01806640625,
      "learning_rate": 2.8936280170523784e-06,
      "loss": -0.016,
      "reward": 0.16666667722165585,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 171
    },
    {
      "completion_length": 736.4166870117188,
      "epoch": 0.2097560975609756,
      "grad_norm": 0.5158050060272217,
      "kl": 0.0198974609375,
      "learning_rate": 2.8912536766531423e-06,
      "loss": -0.0491,
      "reward": 0.125,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 172
    },
    {
      "completion_length": 731.9166870117188,
      "epoch": 0.21097560975609755,
      "grad_norm": 0.22972215712070465,
      "kl": 0.017333984375,
      "learning_rate": 2.8888541251018963e-06,
      "loss": -0.0104,
      "reward": 0.1458333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/format_reward": 0.0,
      "step": 173
    },
    {
      "completion_length": 803.3333435058594,
      "epoch": 0.2121951219512195,
      "grad_norm": 0.7990434169769287,
      "kl": 0.02093505859375,
      "learning_rate": 2.8864294058813364e-06,
      "loss": -0.112,
      "reward": 0.2500000149011612,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 174
    },
    {
      "completion_length": 572.9583740234375,
      "epoch": 0.21341463414634146,
      "grad_norm": 0.4772682189941406,
      "kl": 0.02081298828125,
      "learning_rate": 2.883979562930225e-06,
      "loss": -0.0108,
      "reward": 0.2083333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 175
    },
    {
      "completion_length": 669.0208435058594,
      "epoch": 0.2146341463414634,
      "grad_norm": 0.05744696035981178,
      "kl": 0.02032470703125,
      "learning_rate": 2.8815046406425954e-06,
      "loss": 0.0007,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 176
    },
    {
      "completion_length": 815.25,
      "epoch": 0.21585365853658536,
      "grad_norm": 0.2521149516105652,
      "kl": 0.01373291015625,
      "learning_rate": 2.8790046838669493e-06,
      "loss": 0.0314,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 177
    },
    {
      "completion_length": 688.3750305175781,
      "epoch": 0.21707317073170732,
      "grad_norm": 0.6815643906593323,
      "kl": 0.02545166015625,
      "learning_rate": 2.876479737905442e-06,
      "loss": -0.0403,
      "reward": 0.1041666679084301,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 178
    },
    {
      "completion_length": 618.25,
      "epoch": 0.21829268292682927,
      "grad_norm": 0.5136005878448486,
      "kl": 0.02203369140625,
      "learning_rate": 2.8739298485130627e-06,
      "loss": -0.0078,
      "reward": 0.2083333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/format_reward": 0.0,
      "step": 179
    },
    {
      "completion_length": 671.2500305175781,
      "epoch": 0.21951219512195122,
      "grad_norm": 0.4481271803379059,
      "kl": 0.0186767578125,
      "learning_rate": 2.8713550618968034e-06,
      "loss": 0.0089,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 180
    },
    {
      "completion_length": 777.4791870117188,
      "epoch": 0.22073170731707317,
      "grad_norm": 0.3541518449783325,
      "kl": 0.02325439453125,
      "learning_rate": 2.8687554247148247e-06,
      "loss": 0.0262,
      "reward": 0.12500000558793545,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 181
    },
    {
      "completion_length": 725.6875305175781,
      "epoch": 0.22195121951219512,
      "grad_norm": 0.09448660165071487,
      "kl": 0.0201416015625,
      "learning_rate": 2.8661309840756093e-06,
      "loss": 0.0008,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 182
    },
    {
      "completion_length": 852.5833435058594,
      "epoch": 0.22317073170731708,
      "grad_norm": 0.30420514941215515,
      "kl": 0.018310546875,
      "learning_rate": 2.863481787537105e-06,
      "loss": 0.005,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 183
    },
    {
      "completion_length": 676.0833435058594,
      "epoch": 0.22439024390243903,
      "grad_norm": 0.7469632029533386,
      "kl": 0.0177001953125,
      "learning_rate": 2.8608078831058682e-06,
      "loss": 0.015,
      "reward": 0.1875000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 184
    },
    {
      "completion_length": 737.5833740234375,
      "epoch": 0.22560975609756098,
      "grad_norm": 0.4696647822856903,
      "kl": 0.0260009765625,
      "learning_rate": 2.8581093192361895e-06,
      "loss": 0.0463,
      "reward": 0.2291666716337204,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 185
    },
    {
      "completion_length": 859.0,
      "epoch": 0.22682926829268293,
      "grad_norm": 0.04222070053219795,
      "kl": 0.0218505859375,
      "learning_rate": 2.8553861448292185e-06,
      "loss": 0.0008,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 186
    },
    {
      "completion_length": 733.7708435058594,
      "epoch": 0.2280487804878049,
      "grad_norm": 0.4025222659111023,
      "kl": 0.0279541015625,
      "learning_rate": 2.852638409232077e-06,
      "loss": 0.0001,
      "reward": 0.1041666679084301,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 187
    },
    {
      "completion_length": 564.2916717529297,
      "epoch": 0.22926829268292684,
      "grad_norm": 0.32440370321273804,
      "kl": 0.0225830078125,
      "learning_rate": 2.8498661622369637e-06,
      "loss": 0.0085,
      "reward": 0.14583333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 188
    },
    {
      "completion_length": 830.2500305175781,
      "epoch": 0.2304878048780488,
      "grad_norm": 0.2527843117713928,
      "kl": 0.0234375,
      "learning_rate": 2.8470694540802527e-06,
      "loss": 0.0077,
      "reward": 0.0416666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 189
    },
    {
      "completion_length": 990.375,
      "epoch": 0.23170731707317074,
      "grad_norm": 0.5628884434700012,
      "kl": 0.04888916015625,
      "learning_rate": 2.8442483354415836e-06,
      "loss": 0.0041,
      "reward": 0.25,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.0,
      "step": 190
    },
    {
      "completion_length": 761.8125,
      "epoch": 0.2329268292682927,
      "grad_norm": 0.4500414729118347,
      "kl": 0.02325439453125,
      "learning_rate": 2.841402857442942e-06,
      "loss": -0.0141,
      "reward": 0.2083333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 191
    },
    {
      "completion_length": 928.3958740234375,
      "epoch": 0.23414634146341465,
      "grad_norm": 0.32092925906181335,
      "kl": 0.0218505859375,
      "learning_rate": 2.8385330716477335e-06,
      "loss": 0.0019,
      "reward": 0.06250000186264515,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 192
    },
    {
      "completion_length": 524.9375305175781,
      "epoch": 0.23536585365853657,
      "grad_norm": 0.08342643827199936,
      "kl": 0.128875732421875,
      "learning_rate": 2.835639030059851e-06,
      "loss": 0.0008,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 193
    },
    {
      "completion_length": 728.5833435058594,
      "epoch": 0.23658536585365852,
      "grad_norm": 0.43060678243637085,
      "kl": 0.0198974609375,
      "learning_rate": 2.8327207851227295e-06,
      "loss": 0.0183,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 194
    },
    {
      "completion_length": 804.6666870117188,
      "epoch": 0.23780487804878048,
      "grad_norm": 0.2729571461677551,
      "kl": 0.02264404296875,
      "learning_rate": 2.829778389718398e-06,
      "loss": 0.0081,
      "reward": 0.2708333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 195
    },
    {
      "completion_length": 701.6666870117188,
      "epoch": 0.23902439024390243,
      "grad_norm": 0.46106624603271484,
      "kl": 0.02728271484375,
      "learning_rate": 2.826811897166519e-06,
      "loss": -0.0018,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 196
    },
    {
      "completion_length": 764.1666870117188,
      "epoch": 0.24024390243902438,
      "grad_norm": 0.1949763149023056,
      "kl": 0.0191650390625,
      "learning_rate": 2.8238213612234255e-06,
      "loss": -0.0161,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 197
    },
    {
      "completion_length": 691.0625305175781,
      "epoch": 0.24146341463414633,
      "grad_norm": 0.05811993405222893,
      "kl": 0.0220947265625,
      "learning_rate": 2.8208068360811445e-06,
      "loss": 0.0008,
      "reward": 0.1875,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 198
    },
    {
      "completion_length": 981.8125,
      "epoch": 0.2426829268292683,
      "grad_norm": 0.40761807560920715,
      "kl": 0.02154541015625,
      "learning_rate": 2.8177683763664137e-06,
      "loss": -0.0305,
      "reward": 0.1458333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 199
    },
    {
      "completion_length": 962.7500305175781,
      "epoch": 0.24390243902439024,
      "grad_norm": 0.26158013939857483,
      "kl": 0.0181884765625,
      "learning_rate": 2.8147060371396953e-06,
      "loss": 0.034,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 200
    },
    {
      "completion_length": 662.2083435058594,
      "epoch": 0.2451219512195122,
      "grad_norm": 0.4212491512298584,
      "kl": 0.022216796875,
      "learning_rate": 2.8116198738941766e-06,
      "loss": -0.0079,
      "reward": 0.1041666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 201
    },
    {
      "completion_length": 836.3541870117188,
      "epoch": 0.24634146341463414,
      "grad_norm": 0.3516237437725067,
      "kl": 0.02349853515625,
      "learning_rate": 2.8085099425547627e-06,
      "loss": -0.004,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 202
    },
    {
      "completion_length": 744.4583435058594,
      "epoch": 0.2475609756097561,
      "grad_norm": 0.5145571827888489,
      "kl": 0.02130126953125,
      "learning_rate": 2.8053762994770646e-06,
      "loss": -0.0356,
      "reward": 0.16666667722165585,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 203
    },
    {
      "completion_length": 899.5416870117188,
      "epoch": 0.24878048780487805,
      "grad_norm": 1.0642642974853516,
      "kl": 0.0482177734375,
      "learning_rate": 2.8022190014463794e-06,
      "loss": 0.0028,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 204
    },
    {
      "completion_length": 656.0625,
      "epoch": 0.25,
      "grad_norm": 0.4658428132534027,
      "kl": 0.0225830078125,
      "learning_rate": 2.7990381056766585e-06,
      "loss": 0.0129,
      "reward": 0.1041666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 205
    },
    {
      "completion_length": 529.6041870117188,
      "epoch": 0.25121951219512195,
      "grad_norm": 0.6593291163444519,
      "kl": 0.02252197265625,
      "learning_rate": 2.795833669809471e-06,
      "loss": 0.0031,
      "reward": 0.2708333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2708333358168602,
      "rewards/format_reward": 0.0,
      "step": 206
    },
    {
      "completion_length": 883.5833740234375,
      "epoch": 0.2524390243902439,
      "grad_norm": 0.4920080900192261,
      "kl": 0.02020263671875,
      "learning_rate": 2.7926057519129634e-06,
      "loss": 0.0473,
      "reward": 0.1041666679084301,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 207
    },
    {
      "completion_length": 704.2083435058594,
      "epoch": 0.25365853658536586,
      "grad_norm": 0.3727148771286011,
      "kl": 0.01800537109375,
      "learning_rate": 2.7893544104808017e-06,
      "loss": -0.0068,
      "reward": 0.16666667722165585,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 208
    },
    {
      "completion_length": 555.1458587646484,
      "epoch": 0.2548780487804878,
      "grad_norm": 0.6752776503562927,
      "kl": 0.023681640625,
      "learning_rate": 2.7860797044311143e-06,
      "loss": 0.0138,
      "reward": 0.27083333395421505,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.27083333395421505,
      "rewards/format_reward": 0.0,
      "step": 209
    },
    {
      "completion_length": 644.2708740234375,
      "epoch": 0.25609756097560976,
      "grad_norm": 0.35868731141090393,
      "kl": 0.020751953125,
      "learning_rate": 2.7827816931054245e-06,
      "loss": -0.0067,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 210
    },
    {
      "completion_length": 760.9583740234375,
      "epoch": 0.2573170731707317,
      "grad_norm": 0.4104251265525818,
      "kl": 0.0220947265625,
      "learning_rate": 2.7794604362675733e-06,
      "loss": -0.0301,
      "reward": 0.1458333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 211
    },
    {
      "completion_length": 791.0625,
      "epoch": 0.25853658536585367,
      "grad_norm": 0.51336669921875,
      "kl": 0.02239990234375,
      "learning_rate": 2.7761159941026403e-06,
      "loss": 0.0342,
      "reward": 0.14583333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 212
    },
    {
      "completion_length": 577.2916870117188,
      "epoch": 0.2597560975609756,
      "grad_norm": 0.2733917534351349,
      "kl": 0.024169921875,
      "learning_rate": 2.772748427215848e-06,
      "loss": 0.0023,
      "reward": 0.14583333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 213
    },
    {
      "completion_length": 569.5000152587891,
      "epoch": 0.26097560975609757,
      "grad_norm": 0.63326495885849,
      "kl": 0.02398681640625,
      "learning_rate": 2.7693577966314664e-06,
      "loss": -0.0395,
      "reward": 0.2291666716337204,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 214
    },
    {
      "completion_length": 731.6875305175781,
      "epoch": 0.2621951219512195,
      "grad_norm": 0.5346475839614868,
      "kl": 0.0211181640625,
      "learning_rate": 2.7659441637917076e-06,
      "loss": 0.0211,
      "reward": 0.2916666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/format_reward": 0.0,
      "step": 215
    },
    {
      "completion_length": 870.7500610351562,
      "epoch": 0.2634146341463415,
      "grad_norm": 0.5171618461608887,
      "kl": 0.0230712890625,
      "learning_rate": 2.7625075905556117e-06,
      "loss": 0.0235,
      "reward": 0.1875000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 216
    },
    {
      "completion_length": 658.0,
      "epoch": 0.2646341463414634,
      "grad_norm": 0.2690303325653076,
      "kl": 0.03155517578125,
      "learning_rate": 2.7590481391979253e-06,
      "loss": 0.0162,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 217
    },
    {
      "completion_length": 802.6666870117188,
      "epoch": 0.2658536585365854,
      "grad_norm": 0.3439900875091553,
      "kl": 0.02734375,
      "learning_rate": 2.755565872407973e-06,
      "loss": 0.004,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 218
    },
    {
      "completion_length": 749.9375,
      "epoch": 0.26707317073170733,
      "grad_norm": 0.5028407573699951,
      "kl": 0.02398681640625,
      "learning_rate": 2.7520608532885228e-06,
      "loss": -0.0342,
      "reward": 0.2291666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 219
    },
    {
      "completion_length": 770.5,
      "epoch": 0.2682926829268293,
      "grad_norm": 0.1258758008480072,
      "kl": 0.0250244140625,
      "learning_rate": 2.7485331453546407e-06,
      "loss": 0.0009,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 220
    },
    {
      "completion_length": 976.0208740234375,
      "epoch": 0.26951219512195124,
      "grad_norm": 0.22799670696258545,
      "kl": 0.02197265625,
      "learning_rate": 2.744982812532542e-06,
      "loss": 0.0478,
      "reward": 0.2083333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 221
    },
    {
      "completion_length": 659.6458435058594,
      "epoch": 0.2707317073170732,
      "grad_norm": 0.35914433002471924,
      "kl": 0.0286865234375,
      "learning_rate": 2.7414099191584305e-06,
      "loss": -0.0094,
      "reward": 0.4166666865348816,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/format_reward": 0.0,
      "step": 222
    },
    {
      "completion_length": 730.8125,
      "epoch": 0.27195121951219514,
      "grad_norm": 0.4243104159832001,
      "kl": 0.02203369140625,
      "learning_rate": 2.7378145299773337e-06,
      "loss": 0.0084,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 223
    },
    {
      "completion_length": 587.3125305175781,
      "epoch": 0.2731707317073171,
      "grad_norm": 0.4017314016819,
      "kl": 0.02728271484375,
      "learning_rate": 2.7341967101419303e-06,
      "loss": 0.0112,
      "reward": 0.2500000149011612,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 224
    },
    {
      "completion_length": 661.5625305175781,
      "epoch": 0.27439024390243905,
      "grad_norm": 0.3526459038257599,
      "kl": 0.02374267578125,
      "learning_rate": 2.730556525211368e-06,
      "loss": -0.0158,
      "reward": 0.1875000111758709,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/format_reward": 0.0,
      "step": 225
    },
    {
      "completion_length": 649.7083435058594,
      "epoch": 0.275609756097561,
      "grad_norm": 0.12818405032157898,
      "kl": 0.0234375,
      "learning_rate": 2.726894041150077e-06,
      "loss": 0.001,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 226
    },
    {
      "completion_length": 956.9791870117188,
      "epoch": 0.27682926829268295,
      "grad_norm": 2.025303363800049,
      "kl": 0.09014892578125,
      "learning_rate": 2.7232093243265727e-06,
      "loss": 0.0229,
      "reward": 0.1875,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 227
    },
    {
      "completion_length": 624.3125305175781,
      "epoch": 0.2780487804878049,
      "grad_norm": 0.2305293083190918,
      "kl": 0.02728271484375,
      "learning_rate": 2.7195024415122565e-06,
      "loss": 0.0024,
      "reward": 0.1666666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 228
    },
    {
      "completion_length": 624.2916870117188,
      "epoch": 0.27926829268292686,
      "grad_norm": 0.5692446231842041,
      "kl": 0.02569580078125,
      "learning_rate": 2.715773459880202e-06,
      "loss": -0.0621,
      "reward": 0.2083333432674408,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 229
    },
    {
      "completion_length": 821.6875,
      "epoch": 0.2804878048780488,
      "grad_norm": 0.7158800959587097,
      "kl": 0.02783203125,
      "learning_rate": 2.7120224470039394e-06,
      "loss": -0.0085,
      "reward": 0.1458333358168602,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 230
    },
    {
      "completion_length": 608.7916870117188,
      "epoch": 0.2817073170731707,
      "grad_norm": 0.5108224153518677,
      "kl": 0.02252197265625,
      "learning_rate": 2.7082494708562316e-06,
      "loss": 0.0071,
      "reward": 0.1041666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 231
    },
    {
      "completion_length": 690.5833435058594,
      "epoch": 0.28292682926829266,
      "grad_norm": 0.3444475531578064,
      "kl": 0.0269775390625,
      "learning_rate": 2.7044545998078414e-06,
      "loss": 0.0132,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 232
    },
    {
      "completion_length": 780.3333740234375,
      "epoch": 0.2841463414634146,
      "grad_norm": 0.1466454416513443,
      "kl": 0.0250244140625,
      "learning_rate": 2.7006379026262924e-06,
      "loss": 0.0002,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 233
    },
    {
      "completion_length": 595.2083740234375,
      "epoch": 0.28536585365853656,
      "grad_norm": 0.051908962428569794,
      "kl": 0.08935546875,
      "learning_rate": 2.696799448474625e-06,
      "loss": 0.001,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 234
    },
    {
      "completion_length": 857.4166870117188,
      "epoch": 0.2865853658536585,
      "grad_norm": 0.3672059178352356,
      "kl": 0.030029296875,
      "learning_rate": 2.69293930691014e-06,
      "loss": 0.0098,
      "reward": 0.06250000186264515,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 235
    },
    {
      "completion_length": 766.4791870117188,
      "epoch": 0.28780487804878047,
      "grad_norm": 0.13399188220500946,
      "kl": 0.02374267578125,
      "learning_rate": 2.689057547883139e-06,
      "loss": 0.0001,
      "reward": 0.20833333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.20833333395421505,
      "rewards/format_reward": 0.0,
      "step": 236
    },
    {
      "completion_length": 666.7500305175781,
      "epoch": 0.2890243902439024,
      "grad_norm": 0.5673995614051819,
      "kl": 0.02789306640625,
      "learning_rate": 2.6851542417356605e-06,
      "loss": -0.0061,
      "reward": 0.229166679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/format_reward": 0.0,
      "step": 237
    },
    {
      "completion_length": 721.4375305175781,
      "epoch": 0.29024390243902437,
      "grad_norm": 0.31549733877182007,
      "kl": 0.02764892578125,
      "learning_rate": 2.6812294592001984e-06,
      "loss": -0.0241,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 238
    },
    {
      "completion_length": 702.8333435058594,
      "epoch": 0.2914634146341463,
      "grad_norm": 0.4895757734775543,
      "kl": 0.0269775390625,
      "learning_rate": 2.677283271398427e-06,
      "loss": 0.0011,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 239
    },
    {
      "completion_length": 734.9791870117188,
      "epoch": 0.2926829268292683,
      "grad_norm": 0.28384703397750854,
      "kl": 0.03662109375,
      "learning_rate": 2.673315749839907e-06,
      "loss": -0.0144,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 240
    },
    {
      "completion_length": 763.6666870117188,
      "epoch": 0.2939024390243902,
      "grad_norm": 0.4405684173107147,
      "kl": 0.027099609375,
      "learning_rate": 2.669326966420793e-06,
      "loss": 0.0024,
      "reward": 0.25,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.0,
      "step": 241
    },
    {
      "completion_length": 674.2708435058594,
      "epoch": 0.2951219512195122,
      "grad_norm": 0.6043628454208374,
      "kl": 0.03167724609375,
      "learning_rate": 2.6653169934225295e-06,
      "loss": -0.0699,
      "reward": 0.06250000186264515,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 242
    },
    {
      "completion_length": 645.2708435058594,
      "epoch": 0.29634146341463413,
      "grad_norm": 0.5713904500007629,
      "kl": 0.02581787109375,
      "learning_rate": 2.661285903510541e-06,
      "loss": -0.0441,
      "reward": 0.2291666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 243
    },
    {
      "completion_length": 781.5000305175781,
      "epoch": 0.2975609756097561,
      "grad_norm": 0.6145543456077576,
      "kl": 0.022705078125,
      "learning_rate": 2.6572337697329145e-06,
      "loss": -0.008,
      "reward": 0.2500000074505806,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/format_reward": 0.0,
      "step": 244
    },
    {
      "completion_length": 862.4375305175781,
      "epoch": 0.29878048780487804,
      "grad_norm": 0.36308160424232483,
      "kl": 0.02362060546875,
      "learning_rate": 2.6531606655190777e-06,
      "loss": 0.0404,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 245
    },
    {
      "completion_length": 779.2500305175781,
      "epoch": 0.3,
      "grad_norm": 0.5605431795120239,
      "kl": 0.0257568359375,
      "learning_rate": 2.649066664678467e-06,
      "loss": 0.0311,
      "reward": 0.1250000037252903,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 246
    },
    {
      "completion_length": 854.9375305175781,
      "epoch": 0.30121951219512194,
      "grad_norm": 0.4492291212081909,
      "kl": 0.02496337890625,
      "learning_rate": 2.64495184139919e-06,
      "loss": 0.0258,
      "reward": 0.125,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 247
    },
    {
      "completion_length": 865.6250610351562,
      "epoch": 0.3024390243902439,
      "grad_norm": 0.71879643201828,
      "kl": 0.02789306640625,
      "learning_rate": 2.640816270246681e-06,
      "loss": 0.0375,
      "reward": 0.1458333395421505,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 248
    },
    {
      "completion_length": 1087.0000305175781,
      "epoch": 0.30365853658536585,
      "grad_norm": 0.2714973986148834,
      "kl": 0.02093505859375,
      "learning_rate": 2.636660026162351e-06,
      "loss": -0.0026,
      "reward": 0.2291666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 249
    },
    {
      "completion_length": 963.3750305175781,
      "epoch": 0.3048780487804878,
      "grad_norm": 0.5230698585510254,
      "kl": 0.0335693359375,
      "learning_rate": 2.6324831844622278e-06,
      "loss": 0.0096,
      "reward": 0.1458333358168602,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 250
    },
    {
      "completion_length": 855.3541870117188,
      "epoch": 0.30609756097560975,
      "grad_norm": 0.34206509590148926,
      "kl": 0.0244140625,
      "learning_rate": 2.628285820835593e-06,
      "loss": 0.0278,
      "reward": 0.27083333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.27083333395421505,
      "rewards/format_reward": 0.0,
      "step": 251
    },
    {
      "completion_length": 850.0417175292969,
      "epoch": 0.3073170731707317,
      "grad_norm": 0.35433900356292725,
      "kl": 0.025390625,
      "learning_rate": 2.6240680113436096e-06,
      "loss": -0.0119,
      "reward": 0.0833333358168602,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 252
    },
    {
      "completion_length": 1090.8750610351562,
      "epoch": 0.30853658536585366,
      "grad_norm": 0.2618762254714966,
      "kl": 0.02801513671875,
      "learning_rate": 2.619829832417944e-06,
      "loss": 0.0758,
      "reward": 0.0625,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 253
    },
    {
      "completion_length": 679.8541870117188,
      "epoch": 0.3097560975609756,
      "grad_norm": 0.6165598034858704,
      "kl": 0.02508544921875,
      "learning_rate": 2.6155713608593796e-06,
      "loss": 0.0086,
      "reward": 0.3125000149011612,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.3125000149011612,
      "rewards/format_reward": 0.0,
      "step": 254
    },
    {
      "completion_length": 809.3125305175781,
      "epoch": 0.31097560975609756,
      "grad_norm": 0.2922210991382599,
      "kl": 0.02557373046875,
      "learning_rate": 2.6112926738364267e-06,
      "loss": 0.036,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 255
    },
    {
      "completion_length": 780.2291870117188,
      "epoch": 0.3121951219512195,
      "grad_norm": 0.4339911937713623,
      "kl": 0.03070068359375,
      "learning_rate": 2.606993848883924e-06,
      "loss": 0.041,
      "reward": 0.16666667722165585,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 256
    },
    {
      "completion_length": 943.6458740234375,
      "epoch": 0.31341463414634146,
      "grad_norm": 0.19445890188217163,
      "kl": 0.02685546875,
      "learning_rate": 2.6026749639016327e-06,
      "loss": 0.0082,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 257
    },
    {
      "completion_length": 870.3750305175781,
      "epoch": 0.3146341463414634,
      "grad_norm": 0.36287394165992737,
      "kl": 0.031494140625,
      "learning_rate": 2.5983360971528252e-06,
      "loss": 0.0174,
      "reward": 0.229166679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/format_reward": 0.0,
      "step": 258
    },
    {
      "completion_length": 649.9375,
      "epoch": 0.31585365853658537,
      "grad_norm": 0.5976565480232239,
      "kl": 0.02911376953125,
      "learning_rate": 2.5939773272628674e-06,
      "loss": 0.0043,
      "reward": 0.2708333432674408,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 259
    },
    {
      "completion_length": 733.9166870117188,
      "epoch": 0.3170731707317073,
      "grad_norm": 0.6212018728256226,
      "kl": 0.02813720703125,
      "learning_rate": 2.5895987332177935e-06,
      "loss": -0.0088,
      "reward": 0.125,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 260
    },
    {
      "completion_length": 699.7291870117188,
      "epoch": 0.3182926829268293,
      "grad_norm": 0.24755185842514038,
      "kl": 0.02996826171875,
      "learning_rate": 2.5852003943628746e-06,
      "loss": 0.0008,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 261
    },
    {
      "completion_length": 832.0625305175781,
      "epoch": 0.3195121951219512,
      "grad_norm": 0.28362536430358887,
      "kl": 0.0272216796875,
      "learning_rate": 2.5807823904011804e-06,
      "loss": 0.0071,
      "reward": 0.0416666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 262
    },
    {
      "completion_length": 752.9375,
      "epoch": 0.3207317073170732,
      "grad_norm": 0.6556203365325928,
      "kl": 0.0247802734375,
      "learning_rate": 2.576344801392137e-06,
      "loss": -0.006,
      "reward": 0.2500000149011612,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 263
    },
    {
      "completion_length": 812.4791870117188,
      "epoch": 0.32195121951219513,
      "grad_norm": 0.5754515528678894,
      "kl": 0.02923583984375,
      "learning_rate": 2.571887707750072e-06,
      "loss": -0.0423,
      "reward": 0.0833333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 264
    },
    {
      "completion_length": 936.2708435058594,
      "epoch": 0.3231707317073171,
      "grad_norm": 0.26100462675094604,
      "kl": 0.02996826171875,
      "learning_rate": 2.5674111902427625e-06,
      "loss": 0.023,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 265
    },
    {
      "completion_length": 683.9375305175781,
      "epoch": 0.32439024390243903,
      "grad_norm": 0.24268393218517303,
      "kl": 0.02978515625,
      "learning_rate": 2.5629153299899673e-06,
      "loss": -0.0018,
      "reward": 0.2291666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 266
    },
    {
      "completion_length": 757.6458435058594,
      "epoch": 0.325609756097561,
      "grad_norm": 0.5983391404151917,
      "kl": 0.05010986328125,
      "learning_rate": 2.5584002084619593e-06,
      "loss": 0.0316,
      "reward": 0.2916666716337204,
      "reward_std": 0.21650636196136475,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/format_reward": 0.0,
      "step": 267
    },
    {
      "completion_length": 1014.1458740234375,
      "epoch": 0.32682926829268294,
      "grad_norm": 0.23932863771915436,
      "kl": 0.028076171875,
      "learning_rate": 2.5538659074780484e-06,
      "loss": 0.0211,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 268
    },
    {
      "completion_length": 748.7708435058594,
      "epoch": 0.3280487804878049,
      "grad_norm": 0.4234470725059509,
      "kl": 0.03076171875,
      "learning_rate": 2.549312509205097e-06,
      "loss": 0.0318,
      "reward": 0.12500000558793545,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 269
    },
    {
      "completion_length": 779.1041870117188,
      "epoch": 0.32926829268292684,
      "grad_norm": 0.5329450964927673,
      "kl": 0.03021240234375,
      "learning_rate": 2.5447400961560355e-06,
      "loss": -0.0543,
      "reward": 0.1458333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 270
    },
    {
      "completion_length": 728.125,
      "epoch": 0.3304878048780488,
      "grad_norm": 0.5748668313026428,
      "kl": 0.0338134765625,
      "learning_rate": 2.5401487511883627e-06,
      "loss": -0.0385,
      "reward": 0.1875,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 271
    },
    {
      "completion_length": 635.1666870117188,
      "epoch": 0.33170731707317075,
      "grad_norm": 0.7328594326972961,
      "kl": 0.02838134765625,
      "learning_rate": 2.5355385575026464e-06,
      "loss": 0.0339,
      "reward": 0.229166679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/format_reward": 0.0,
      "step": 272
    },
    {
      "completion_length": 786.9166870117188,
      "epoch": 0.3329268292682927,
      "grad_norm": 0.056253425776958466,
      "kl": 0.0277099609375,
      "learning_rate": 2.5309095986410155e-06,
      "loss": 0.001,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 273
    },
    {
      "completion_length": 575.5208587646484,
      "epoch": 0.33414634146341465,
      "grad_norm": 0.05611734464764595,
      "kl": 0.0244140625,
      "learning_rate": 2.5262619584856456e-06,
      "loss": 0.0009,
      "reward": 0.3125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 0.0,
      "step": 274
    },
    {
      "completion_length": 632.1666870117188,
      "epoch": 0.3353658536585366,
      "grad_norm": 0.06363707035779953,
      "kl": 0.0218505859375,
      "learning_rate": 2.52159572125724e-06,
      "loss": 0.0008,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 275
    },
    {
      "completion_length": 915.6458435058594,
      "epoch": 0.33658536585365856,
      "grad_norm": 0.5183939933776855,
      "kl": 0.027587890625,
      "learning_rate": 2.5169109715135015e-06,
      "loss": 0.0111,
      "reward": 0.1458333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 276
    },
    {
      "completion_length": 791.625,
      "epoch": 0.3378048780487805,
      "grad_norm": 0.32279711961746216,
      "kl": 0.02484130859375,
      "learning_rate": 2.512207794147603e-06,
      "loss": 0.0133,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 277
    },
    {
      "completion_length": 712.0000305175781,
      "epoch": 0.33902439024390246,
      "grad_norm": 0.18284721672534943,
      "kl": 0.0255126953125,
      "learning_rate": 2.507486274386647e-06,
      "loss": -0.0013,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 278
    },
    {
      "completion_length": 719.6041870117188,
      "epoch": 0.3402439024390244,
      "grad_norm": 0.3969678580760956,
      "kl": 0.0311279296875,
      "learning_rate": 2.5027464977901206e-06,
      "loss": -0.0471,
      "reward": 0.0625,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 279
    },
    {
      "completion_length": 662.8125305175781,
      "epoch": 0.34146341463414637,
      "grad_norm": 0.278129518032074,
      "kl": 0.02740478515625,
      "learning_rate": 2.4979885502483478e-06,
      "loss": -0.0116,
      "reward": 0.1458333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/format_reward": 0.0,
      "step": 280
    },
    {
      "completion_length": 631.0833435058594,
      "epoch": 0.3426829268292683,
      "grad_norm": 0.49812057614326477,
      "kl": 0.0302734375,
      "learning_rate": 2.4932125179809316e-06,
      "loss": -0.0037,
      "reward": 0.1458333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 281
    },
    {
      "completion_length": 840.5208740234375,
      "epoch": 0.3439024390243902,
      "grad_norm": 0.6025025248527527,
      "kl": 0.03045654296875,
      "learning_rate": 2.4884184875351897e-06,
      "loss": 0.0369,
      "reward": 0.1458333395421505,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 282
    },
    {
      "completion_length": 601.2500305175781,
      "epoch": 0.34512195121951217,
      "grad_norm": 0.2603875696659088,
      "kl": 0.03564453125,
      "learning_rate": 2.48360654578459e-06,
      "loss": 0.0017,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 283
    },
    {
      "completion_length": 605.9791870117188,
      "epoch": 0.3463414634146341,
      "grad_norm": 0.4111523926258087,
      "kl": 0.02874755859375,
      "learning_rate": 2.4787767799271725e-06,
      "loss": 0.0172,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 284
    },
    {
      "completion_length": 581.3125,
      "epoch": 0.3475609756097561,
      "grad_norm": 0.3759603798389435,
      "kl": 0.03076171875,
      "learning_rate": 2.473929277483972e-06,
      "loss": -0.0094,
      "reward": 0.2083333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 285
    },
    {
      "completion_length": 815.0625305175781,
      "epoch": 0.348780487804878,
      "grad_norm": 0.30721497535705566,
      "kl": 0.0318603515625,
      "learning_rate": 2.4690641262974317e-06,
      "loss": 0.0639,
      "reward": 0.0625,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 286
    },
    {
      "completion_length": 812.2708435058594,
      "epoch": 0.35,
      "grad_norm": 0.05051800608634949,
      "kl": 0.02484130859375,
      "learning_rate": 2.464181414529809e-06,
      "loss": 0.001,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 287
    },
    {
      "completion_length": 760.7291870117188,
      "epoch": 0.35121951219512193,
      "grad_norm": 0.3336050510406494,
      "kl": 0.03076171875,
      "learning_rate": 2.4592812306615812e-06,
      "loss": -0.0171,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 288
    },
    {
      "completion_length": 664.7083740234375,
      "epoch": 0.3524390243902439,
      "grad_norm": 0.5336496829986572,
      "kl": 0.03125,
      "learning_rate": 2.4543636634898398e-06,
      "loss": 0.0195,
      "reward": 0.1041666679084301,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 289
    },
    {
      "completion_length": 866.4375,
      "epoch": 0.35365853658536583,
      "grad_norm": 0.29412227869033813,
      "kl": 0.02923583984375,
      "learning_rate": 2.4494288021266825e-06,
      "loss": 0.0126,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 290
    },
    {
      "completion_length": 922.4791870117188,
      "epoch": 0.3548780487804878,
      "grad_norm": 0.62317955493927,
      "kl": 0.0618896484375,
      "learning_rate": 2.444476735997598e-06,
      "loss": 0.0498,
      "reward": 0.2708333432674408,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 291
    },
    {
      "completion_length": 728.375,
      "epoch": 0.35609756097560974,
      "grad_norm": 0.48821818828582764,
      "kl": 0.03179931640625,
      "learning_rate": 2.439507554839846e-06,
      "loss": -0.0207,
      "reward": 0.2083333358168602,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 292
    },
    {
      "completion_length": 655.6458740234375,
      "epoch": 0.3573170731707317,
      "grad_norm": 0.3668544888496399,
      "kl": 0.028076171875,
      "learning_rate": 2.4345213487008296e-06,
      "loss": -0.0002,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 293
    },
    {
      "completion_length": 563.5625305175781,
      "epoch": 0.35853658536585364,
      "grad_norm": 0.2510969340801239,
      "kl": 0.029296875,
      "learning_rate": 2.4295182079364655e-06,
      "loss": 0.0075,
      "reward": 0.1666666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 294
    },
    {
      "completion_length": 640.6458740234375,
      "epoch": 0.3597560975609756,
      "grad_norm": 0.4731411635875702,
      "kl": 0.0267333984375,
      "learning_rate": 2.424498223209545e-06,
      "loss": 0.0057,
      "reward": 0.1666666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 295
    },
    {
      "completion_length": 784.1875305175781,
      "epoch": 0.36097560975609755,
      "grad_norm": 0.43168067932128906,
      "kl": 0.03045654296875,
      "learning_rate": 2.4194614854880937e-06,
      "loss": -0.0009,
      "reward": 0.06250000186264515,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 296
    },
    {
      "completion_length": 666.4791870117188,
      "epoch": 0.3621951219512195,
      "grad_norm": 0.41461437940597534,
      "kl": 0.0250244140625,
      "learning_rate": 2.4144080860437184e-06,
      "loss": 0.0125,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 297
    },
    {
      "completion_length": 742.7291870117188,
      "epoch": 0.36341463414634145,
      "grad_norm": 0.056942686438560486,
      "kl": 0.026123046875,
      "learning_rate": 2.409338116449957e-06,
      "loss": 0.001,
      "reward": 0.1875,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 298
    },
    {
      "completion_length": 702.1458435058594,
      "epoch": 0.3646341463414634,
      "grad_norm": 0.5765194296836853,
      "kl": 0.0224609375,
      "learning_rate": 2.404251668580619e-06,
      "loss": 0.0231,
      "reward": 0.3333333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.0,
      "step": 299
    },
    {
      "completion_length": 716.8333435058594,
      "epoch": 0.36585365853658536,
      "grad_norm": 0.5342187881469727,
      "kl": 0.02703857421875,
      "learning_rate": 2.3991488346081183e-06,
      "loss": -0.0256,
      "reward": 0.2916666865348816,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2916666865348816,
      "rewards/format_reward": 0.0,
      "step": 300
    },
    {
      "completion_length": 646.7291870117188,
      "epoch": 0.3670731707317073,
      "grad_norm": 0.07587277144193649,
      "kl": 0.0301513671875,
      "learning_rate": 2.3940297070018048e-06,
      "loss": 0.0012,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 301
    },
    {
      "completion_length": 719.8541870117188,
      "epoch": 0.36829268292682926,
      "grad_norm": 0.1976253092288971,
      "kl": 0.02813720703125,
      "learning_rate": 2.388894378526288e-06,
      "loss": 0.0088,
      "reward": 0.2083333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 302
    },
    {
      "completion_length": 654.0833740234375,
      "epoch": 0.3695121951219512,
      "grad_norm": 0.5830801725387573,
      "kl": 0.03106689453125,
      "learning_rate": 2.383742942239757e-06,
      "loss": 0.02,
      "reward": 0.1666666716337204,
      "reward_std": 0.14433757960796356,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 303
    },
    {
      "completion_length": 631.0,
      "epoch": 0.37073170731707317,
      "grad_norm": 1.7362228631973267,
      "kl": 0.0513916015625,
      "learning_rate": 2.3785754914922923e-06,
      "loss": 0.0032,
      "reward": 0.1875,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 304
    },
    {
      "completion_length": 704.5833435058594,
      "epoch": 0.3719512195121951,
      "grad_norm": 0.7385122776031494,
      "kl": 0.0291748046875,
      "learning_rate": 2.3733921199241755e-06,
      "loss": -0.0092,
      "reward": 0.2083333358168602,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 305
    },
    {
      "completion_length": 819.3750305175781,
      "epoch": 0.37317073170731707,
      "grad_norm": 0.3535645008087158,
      "kl": 0.03369140625,
      "learning_rate": 2.3681929214641924e-06,
      "loss": 0.0263,
      "reward": 0.229166679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/format_reward": 0.0,
      "step": 306
    },
    {
      "completion_length": 774.2083435058594,
      "epoch": 0.374390243902439,
      "grad_norm": 0.48355501890182495,
      "kl": 0.03045654296875,
      "learning_rate": 2.362977990327931e-06,
      "loss": -0.0385,
      "reward": 0.2500000149011612,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 307
    },
    {
      "completion_length": 787.75,
      "epoch": 0.375609756097561,
      "grad_norm": 0.5030492544174194,
      "kl": 0.02679443359375,
      "learning_rate": 2.357747421016073e-06,
      "loss": -0.07,
      "reward": 0.125,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 308
    },
    {
      "completion_length": 892.0625305175781,
      "epoch": 0.37682926829268293,
      "grad_norm": 0.1832209974527359,
      "kl": 0.02886962890625,
      "learning_rate": 2.3525013083126835e-06,
      "loss": -0.0045,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 309
    },
    {
      "completion_length": 713.125,
      "epoch": 0.3780487804878049,
      "grad_norm": 0.3876541554927826,
      "kl": 0.032470703125,
      "learning_rate": 2.34723974728349e-06,
      "loss": 0.0125,
      "reward": 0.229166679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/format_reward": 0.0,
      "step": 310
    },
    {
      "completion_length": 814.3541870117188,
      "epoch": 0.37926829268292683,
      "grad_norm": 0.2946406900882721,
      "kl": 0.03204345703125,
      "learning_rate": 2.341962833274165e-06,
      "loss": 0.0051,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 311
    },
    {
      "completion_length": 808.9583740234375,
      "epoch": 0.3804878048780488,
      "grad_norm": 0.1276874542236328,
      "kl": 0.03515625,
      "learning_rate": 2.336670661908592e-06,
      "loss": 0.0081,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 312
    },
    {
      "completion_length": 950.375,
      "epoch": 0.38170731707317074,
      "grad_norm": 0.2518679201602936,
      "kl": 0.02764892578125,
      "learning_rate": 2.3313633290871373e-06,
      "loss": -0.0234,
      "reward": 0.1875,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 313
    },
    {
      "completion_length": 734.1666870117188,
      "epoch": 0.3829268292682927,
      "grad_norm": 0.32292279601097107,
      "kl": 0.033447265625,
      "learning_rate": 2.3260409309849103e-06,
      "loss": -0.0036,
      "reward": 0.1875,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 314
    },
    {
      "completion_length": 892.4166870117188,
      "epoch": 0.38414634146341464,
      "grad_norm": 0.2906545400619507,
      "kl": 0.0340576171875,
      "learning_rate": 2.3207035640500206e-06,
      "loss": -0.0361,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 315
    },
    {
      "completion_length": 826.3333435058594,
      "epoch": 0.3853658536585366,
      "grad_norm": 0.500372052192688,
      "kl": 0.03460693359375,
      "learning_rate": 2.315351325001832e-06,
      "loss": 0.0285,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 316
    },
    {
      "completion_length": 968.1666870117188,
      "epoch": 0.38658536585365855,
      "grad_norm": 0.15128959715366364,
      "kl": 0.02838134765625,
      "learning_rate": 2.3099843108292062e-06,
      "loss": 0.0349,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 317
    },
    {
      "completion_length": 1018.5625,
      "epoch": 0.3878048780487805,
      "grad_norm": 0.25746986269950867,
      "kl": 0.0301513671875,
      "learning_rate": 2.3046026187887498e-06,
      "loss": -0.0357,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 318
    },
    {
      "completion_length": 822.1041870117188,
      "epoch": 0.38902439024390245,
      "grad_norm": 0.2673456072807312,
      "kl": 0.03369140625,
      "learning_rate": 2.2992063464030482e-06,
      "loss": -0.0471,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 319
    },
    {
      "completion_length": 761.8958435058594,
      "epoch": 0.3902439024390244,
      "grad_norm": 0.10515403747558594,
      "kl": 0.03021240234375,
      "learning_rate": 2.293795591458901e-06,
      "loss": 0.0011,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 320
    },
    {
      "completion_length": 594.7291870117188,
      "epoch": 0.39146341463414636,
      "grad_norm": 0.32800784707069397,
      "kl": 0.03155517578125,
      "learning_rate": 2.288370452005547e-06,
      "loss": -0.0235,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 321
    },
    {
      "completion_length": 684.8541870117188,
      "epoch": 0.3926829268292683,
      "grad_norm": 0.0611780546605587,
      "kl": 0.02734375,
      "learning_rate": 2.2829310263528907e-06,
      "loss": 0.001,
      "reward": 0.1875,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 322
    },
    {
      "completion_length": 779.6041870117188,
      "epoch": 0.39390243902439026,
      "grad_norm": 0.35459983348846436,
      "kl": 0.02886962890625,
      "learning_rate": 2.2774774130697184e-06,
      "loss": 0.0159,
      "reward": 0.2083333432674408,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 323
    },
    {
      "completion_length": 792.125,
      "epoch": 0.3951219512195122,
      "grad_norm": 0.49110984802246094,
      "kl": 0.03131103515625,
      "learning_rate": 2.2720097109819135e-06,
      "loss": 0.048,
      "reward": 0.1458333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 324
    },
    {
      "completion_length": 781.1458435058594,
      "epoch": 0.39634146341463417,
      "grad_norm": 0.9487172365188599,
      "kl": 0.0322265625,
      "learning_rate": 2.2665280191706656e-06,
      "loss": 0.0379,
      "reward": 0.25,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.0,
      "step": 325
    },
    {
      "completion_length": 823.6250305175781,
      "epoch": 0.3975609756097561,
      "grad_norm": 0.45459306240081787,
      "kl": 0.03363037109375,
      "learning_rate": 2.2610324369706735e-06,
      "loss": 0.0376,
      "reward": 0.1666666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 326
    },
    {
      "completion_length": 528.4791717529297,
      "epoch": 0.39878048780487807,
      "grad_norm": 0.35636627674102783,
      "kl": 0.03955078125,
      "learning_rate": 2.2555230639683464e-06,
      "loss": 0.0086,
      "reward": 0.2708333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 327
    },
    {
      "completion_length": 632.2083435058594,
      "epoch": 0.4,
      "grad_norm": 0.7059880495071411,
      "kl": 0.02734375,
      "learning_rate": 2.25e-06,
      "loss": -0.0038,
      "reward": 0.2083333358168602,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 328
    },
    {
      "completion_length": 597.8541717529297,
      "epoch": 0.401219512195122,
      "grad_norm": 0.45517703890800476,
      "kl": 0.03338623046875,
      "learning_rate": 2.2444633451500453e-06,
      "loss": 0.0128,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 329
    },
    {
      "completion_length": 750.7083435058594,
      "epoch": 0.4024390243902439,
      "grad_norm": 0.07014621794223785,
      "kl": 0.02850341796875,
      "learning_rate": 2.2389131997491756e-06,
      "loss": 0.001,
      "reward": 0.1875,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 330
    },
    {
      "completion_length": 736.0625,
      "epoch": 0.4036585365853659,
      "grad_norm": 0.37191396951675415,
      "kl": 0.02838134765625,
      "learning_rate": 2.2333496643725505e-06,
      "loss": 0.0431,
      "reward": 0.2083333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 331
    },
    {
      "completion_length": 845.6250305175781,
      "epoch": 0.40487804878048783,
      "grad_norm": 0.052367597818374634,
      "kl": 0.0240478515625,
      "learning_rate": 2.2277728398379705e-06,
      "loss": 0.0009,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 332
    },
    {
      "completion_length": 994.6250610351562,
      "epoch": 0.4060975609756098,
      "grad_norm": 0.31657665967941284,
      "kl": 0.03240966796875,
      "learning_rate": 2.2221828272040517e-06,
      "loss": 0.0022,
      "reward": 0.0833333358168602,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 333
    },
    {
      "completion_length": 674.9791870117188,
      "epoch": 0.4073170731707317,
      "grad_norm": 0.05391751974821091,
      "kl": 0.02685546875,
      "learning_rate": 2.2165797277683943e-06,
      "loss": 0.001,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 334
    },
    {
      "completion_length": 672.7291870117188,
      "epoch": 0.40853658536585363,
      "grad_norm": 0.2743265628814697,
      "kl": 0.03350830078125,
      "learning_rate": 2.2109636430657463e-06,
      "loss": 0.0015,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 335
    },
    {
      "completion_length": 604.9375,
      "epoch": 0.4097560975609756,
      "grad_norm": 0.40125370025634766,
      "kl": 0.03033447265625,
      "learning_rate": 2.2053346748661633e-06,
      "loss": 0.0156,
      "reward": 0.16666667722165585,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 336
    },
    {
      "completion_length": 1189.8125,
      "epoch": 0.41097560975609754,
      "grad_norm": 0.13064952194690704,
      "kl": 0.02838134765625,
      "learning_rate": 2.1996929251731665e-06,
      "loss": 0.002,
      "reward": 0.2083333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 337
    },
    {
      "completion_length": 603.6875305175781,
      "epoch": 0.4121951219512195,
      "grad_norm": 0.7183840274810791,
      "kl": 0.0283203125,
      "learning_rate": 2.194038496221892e-06,
      "loss": 0.0167,
      "reward": 0.2083333395421505,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/format_reward": 0.0,
      "step": 338
    },
    {
      "completion_length": 777.9375305175781,
      "epoch": 0.41341463414634144,
      "grad_norm": 0.042287491261959076,
      "kl": 0.0262451171875,
      "learning_rate": 2.188371490477239e-06,
      "loss": 0.0009,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 339
    },
    {
      "completion_length": 842.4792175292969,
      "epoch": 0.4146341463414634,
      "grad_norm": 0.29391470551490784,
      "kl": 0.0264892578125,
      "learning_rate": 2.182692010632013e-06,
      "loss": 0.0147,
      "reward": 0.1666666679084301,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 340
    },
    {
      "completion_length": 677.5833435058594,
      "epoch": 0.41585365853658535,
      "grad_norm": 0.4390711784362793,
      "kl": 0.0345458984375,
      "learning_rate": 2.177000159605065e-06,
      "loss": 0.0028,
      "reward": 0.1041666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 341
    },
    {
      "completion_length": 760.4791870117188,
      "epoch": 0.4170731707317073,
      "grad_norm": 0.3324912190437317,
      "kl": 0.02978515625,
      "learning_rate": 2.1712960405394265e-06,
      "loss": -0.0057,
      "reward": 0.1666666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 342
    },
    {
      "completion_length": 658.0208435058594,
      "epoch": 0.41829268292682925,
      "grad_norm": 0.42109569907188416,
      "kl": 0.0302734375,
      "learning_rate": 2.1655797568004397e-06,
      "loss": 0.0047,
      "reward": 0.2500000149011612,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 343
    },
    {
      "completion_length": 844.0208435058594,
      "epoch": 0.4195121951219512,
      "grad_norm": 0.5153623819351196,
      "kl": 0.029296875,
      "learning_rate": 2.1598514119738853e-06,
      "loss": 0.0467,
      "reward": 0.08333333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 344
    },
    {
      "completion_length": 1024.7292175292969,
      "epoch": 0.42073170731707316,
      "grad_norm": 0.32257041335105896,
      "kl": 0.0279541015625,
      "learning_rate": 2.154111109864105e-06,
      "loss": 0.0028,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 345
    },
    {
      "completion_length": 634.3541870117188,
      "epoch": 0.4219512195121951,
      "grad_norm": 0.43821436166763306,
      "kl": 0.0289306640625,
      "learning_rate": 2.1483589544921202e-06,
      "loss": 0.0102,
      "reward": 0.0625,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 346
    },
    {
      "completion_length": 988.8750305175781,
      "epoch": 0.42317073170731706,
      "grad_norm": 0.2754349410533905,
      "kl": 0.02734375,
      "learning_rate": 2.1425950500937493e-06,
      "loss": 0.0076,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 347
    },
    {
      "completion_length": 675.8541870117188,
      "epoch": 0.424390243902439,
      "grad_norm": 1.2542449235916138,
      "kl": 0.03582763671875,
      "learning_rate": 2.1368195011177142e-06,
      "loss": 0.0095,
      "reward": 0.2291666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 348
    },
    {
      "completion_length": 866.3750305175781,
      "epoch": 0.42560975609756097,
      "grad_norm": 0.4978950023651123,
      "kl": 0.03076171875,
      "learning_rate": 2.1310324122237512e-06,
      "loss": 0.0125,
      "reward": 0.06250000186264515,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 349
    },
    {
      "completion_length": 871.4375305175781,
      "epoch": 0.4268292682926829,
      "grad_norm": 0.4244663417339325,
      "kl": 0.02947998046875,
      "learning_rate": 2.125233888280715e-06,
      "loss": -0.0582,
      "reward": 0.1041666679084301,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 350
    },
    {
      "completion_length": 857.8333740234375,
      "epoch": 0.42804878048780487,
      "grad_norm": 0.5104000568389893,
      "kl": 0.02020263671875,
      "learning_rate": 2.1194240343646732e-06,
      "loss": -0.0086,
      "reward": 0.2500000149011612,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 351
    },
    {
      "completion_length": 779.0625305175781,
      "epoch": 0.4292682926829268,
      "grad_norm": 0.2433476448059082,
      "kl": 0.03094482421875,
      "learning_rate": 2.11360295575701e-06,
      "loss": 0.0085,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 352
    },
    {
      "completion_length": 1070.5625610351562,
      "epoch": 0.4304878048780488,
      "grad_norm": 0.24915798008441925,
      "kl": 0.026123046875,
      "learning_rate": 2.1077707579425114e-06,
      "loss": 0.0376,
      "reward": 0.14583333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 353
    },
    {
      "completion_length": 953.8541870117188,
      "epoch": 0.4317073170731707,
      "grad_norm": 0.4156853258609772,
      "kl": 0.0296630859375,
      "learning_rate": 2.1019275466074585e-06,
      "loss": 0.0097,
      "reward": 0.0833333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 354
    },
    {
      "completion_length": 1144.7916870117188,
      "epoch": 0.4329268292682927,
      "grad_norm": 0.2654878795146942,
      "kl": 0.0277099609375,
      "learning_rate": 2.0960734276377082e-06,
      "loss": -0.0253,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 355
    },
    {
      "completion_length": 1072.1458740234375,
      "epoch": 0.43414634146341463,
      "grad_norm": 0.2536885440349579,
      "kl": 0.05084228515625,
      "learning_rate": 2.0902085071167774e-06,
      "loss": -0.0073,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 356
    },
    {
      "completion_length": 804.7500305175781,
      "epoch": 0.4353658536585366,
      "grad_norm": 0.4465596675872803,
      "kl": 0.032470703125,
      "learning_rate": 2.0843328913239216e-06,
      "loss": -0.097,
      "reward": 0.2083333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/format_reward": 0.0,
      "step": 357
    },
    {
      "completion_length": 990.1666870117188,
      "epoch": 0.43658536585365854,
      "grad_norm": 679.5493774414062,
      "kl": 4.13946533203125,
      "learning_rate": 2.0784466867322037e-06,
      "loss": 0.0965,
      "reward": 0.16666667722165585,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 358
    },
    {
      "completion_length": 1086.2500610351562,
      "epoch": 0.4378048780487805,
      "grad_norm": 0.4612940549850464,
      "kl": 0.02392578125,
      "learning_rate": 2.0725500000065715e-06,
      "loss": 0.0144,
      "reward": 0.1666666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 359
    },
    {
      "completion_length": 880.9583435058594,
      "epoch": 0.43902439024390244,
      "grad_norm": 0.6914082765579224,
      "kl": 0.0379638671875,
      "learning_rate": 2.0666429380019185e-06,
      "loss": 0.0259,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 360
    },
    {
      "completion_length": 758.5000305175781,
      "epoch": 0.4402439024390244,
      "grad_norm": 0.5643234252929688,
      "kl": 0.038818359375,
      "learning_rate": 2.060725607761153e-06,
      "loss": -0.0063,
      "reward": 0.1458333358168602,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 361
    },
    {
      "completion_length": 842.0833435058594,
      "epoch": 0.44146341463414634,
      "grad_norm": 0.24680182337760925,
      "kl": 0.0428466796875,
      "learning_rate": 2.0547981165132547e-06,
      "loss": 0.0014,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 362
    },
    {
      "completion_length": 1108.1250610351562,
      "epoch": 0.4426829268292683,
      "grad_norm": 0.41155484318733215,
      "kl": 0.03021240234375,
      "learning_rate": 2.048860571671332e-06,
      "loss": -0.028,
      "reward": 0.1041666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 363
    },
    {
      "completion_length": 865.8125305175781,
      "epoch": 0.44390243902439025,
      "grad_norm": 0.2589362859725952,
      "kl": 0.0301513671875,
      "learning_rate": 2.0429130808306767e-06,
      "loss": 0.0356,
      "reward": 0.16666667722165585,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 364
    },
    {
      "completion_length": 799.2708435058594,
      "epoch": 0.4451219512195122,
      "grad_norm": 0.5328904390335083,
      "kl": 0.031005859375,
      "learning_rate": 2.036955751766815e-06,
      "loss": -0.0409,
      "reward": 0.2500000111758709,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2500000111758709,
      "rewards/format_reward": 0.0,
      "step": 365
    },
    {
      "completion_length": 863.5000305175781,
      "epoch": 0.44634146341463415,
      "grad_norm": 0.5315119624137878,
      "kl": 0.03106689453125,
      "learning_rate": 2.030988692433552e-06,
      "loss": 0.0315,
      "reward": 0.12500000558793545,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 366
    },
    {
      "completion_length": 1099.1875305175781,
      "epoch": 0.4475609756097561,
      "grad_norm": 0.3300071358680725,
      "kl": 0.030029296875,
      "learning_rate": 2.0250120109610155e-06,
      "loss": 0.0887,
      "reward": 0.2083333395421505,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/format_reward": 0.0,
      "step": 367
    },
    {
      "completion_length": 849.4583435058594,
      "epoch": 0.44878048780487806,
      "grad_norm": 0.30705785751342773,
      "kl": 0.029052734375,
      "learning_rate": 2.019025815653701e-06,
      "loss": -0.0104,
      "reward": 0.3333333432674408,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.0,
      "step": 368
    },
    {
      "completion_length": 746.2916870117188,
      "epoch": 0.45,
      "grad_norm": 0.5189336538314819,
      "kl": 0.032470703125,
      "learning_rate": 2.0130302149885033e-06,
      "loss": -0.0545,
      "reward": 0.1041666679084301,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 369
    },
    {
      "completion_length": 721.7291870117188,
      "epoch": 0.45121951219512196,
      "grad_norm": 0.21197453141212463,
      "kl": 0.03759765625,
      "learning_rate": 2.007025317612754e-06,
      "loss": 0.0083,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 370
    },
    {
      "completion_length": 923.8541870117188,
      "epoch": 0.4524390243902439,
      "grad_norm": 0.3330663740634918,
      "kl": 0.0364990234375,
      "learning_rate": 2.001011232342253e-06,
      "loss": -0.0072,
      "reward": 0.229166679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/format_reward": 0.0,
      "step": 371
    },
    {
      "completion_length": 1017.0833435058594,
      "epoch": 0.45365853658536587,
      "grad_norm": 0.5465441942214966,
      "kl": 0.0428466796875,
      "learning_rate": 1.994988068159294e-06,
      "loss": 0.0243,
      "reward": 0.2291666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 372
    },
    {
      "completion_length": 813.5833740234375,
      "epoch": 0.4548780487804878,
      "grad_norm": 0.37892287969589233,
      "kl": 0.03466796875,
      "learning_rate": 1.9889559342106926e-06,
      "loss": 0.0091,
      "reward": 0.1666666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 373
    },
    {
      "completion_length": 818.5833740234375,
      "epoch": 0.4560975609756098,
      "grad_norm": 0.06201218068599701,
      "kl": 0.031494140625,
      "learning_rate": 1.9829149398058068e-06,
      "loss": 0.0012,
      "reward": 0.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.0,
      "step": 374
    },
    {
      "completion_length": 808.6041870117188,
      "epoch": 0.4573170731707317,
      "grad_norm": 0.6525385975837708,
      "kl": 0.036376953125,
      "learning_rate": 1.976865194414555e-06,
      "loss": -0.0442,
      "reward": 0.1666666716337204,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 375
    },
    {
      "completion_length": 652.3125305175781,
      "epoch": 0.4585365853658537,
      "grad_norm": 0.5023518800735474,
      "kl": 0.0386962890625,
      "learning_rate": 1.9708068076654364e-06,
      "loss": -0.0344,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 376
    },
    {
      "completion_length": 729.75,
      "epoch": 0.45975609756097563,
      "grad_norm": 0.23177191615104675,
      "kl": 0.03369140625,
      "learning_rate": 1.9647398893435394e-06,
      "loss": 0.0079,
      "reward": 0.2291666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 377
    },
    {
      "completion_length": 752.1666870117188,
      "epoch": 0.4609756097560976,
      "grad_norm": 0.4666472375392914,
      "kl": 0.051513671875,
      "learning_rate": 1.9586645493885565e-06,
      "loss": -0.0459,
      "reward": 0.1666666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 378
    },
    {
      "completion_length": 664.6875305175781,
      "epoch": 0.46219512195121953,
      "grad_norm": 0.5903889536857605,
      "kl": 0.0306396484375,
      "learning_rate": 1.9525808978927886e-06,
      "loss": 0.0618,
      "reward": 0.1666666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 379
    },
    {
      "completion_length": 864.8541870117188,
      "epoch": 0.4634146341463415,
      "grad_norm": 0.34605127573013306,
      "kl": 0.02838134765625,
      "learning_rate": 1.946489045099152e-06,
      "loss": 0.0032,
      "reward": 0.06250000186264515,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 380
    },
    {
      "completion_length": 747.9166870117188,
      "epoch": 0.46463414634146344,
      "grad_norm": 0.5324747562408447,
      "kl": 0.032958984375,
      "learning_rate": 1.94038910139918e-06,
      "loss": 0.0287,
      "reward": 0.2291666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 381
    },
    {
      "completion_length": 593.4375,
      "epoch": 0.4658536585365854,
      "grad_norm": 0.550981879234314,
      "kl": 0.033447265625,
      "learning_rate": 1.934281177331023e-06,
      "loss": 0.0041,
      "reward": 0.1666666679084301,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 382
    },
    {
      "completion_length": 740.3958435058594,
      "epoch": 0.46707317073170734,
      "grad_norm": 0.26112014055252075,
      "kl": 0.03411865234375,
      "learning_rate": 1.928165383577445e-06,
      "loss": 0.0041,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 383
    },
    {
      "completion_length": 730.7291870117188,
      "epoch": 0.4682926829268293,
      "grad_norm": 0.6180046200752258,
      "kl": 0.030029296875,
      "learning_rate": 1.9220418309638175e-06,
      "loss": -0.0243,
      "reward": 0.1875,
      "reward_std": 0.18042196333408356,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 384
    },
    {
      "completion_length": 766.4375,
      "epoch": 0.4695121951219512,
      "grad_norm": 0.6600415706634521,
      "kl": 0.0411376953125,
      "learning_rate": 1.915910630456112e-06,
      "loss": 0.0005,
      "reward": 0.1666666716337204,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 385
    },
    {
      "completion_length": 723.0208587646484,
      "epoch": 0.47073170731707314,
      "grad_norm": 0.6182783842086792,
      "kl": 0.03955078125,
      "learning_rate": 1.909771893158889e-06,
      "loss": 0.0118,
      "reward": 0.10416666977107525,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 386
    },
    {
      "completion_length": 688.4583435058594,
      "epoch": 0.4719512195121951,
      "grad_norm": 0.42049577832221985,
      "kl": 0.02972412109375,
      "learning_rate": 1.9036257303132843e-06,
      "loss": -0.0022,
      "reward": 0.3750000223517418,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.3750000223517418,
      "rewards/format_reward": 0.0,
      "step": 387
    },
    {
      "completion_length": 921.5625305175781,
      "epoch": 0.47317073170731705,
      "grad_norm": 0.39355793595314026,
      "kl": 0.03167724609375,
      "learning_rate": 1.8974722532949929e-06,
      "loss": 0.0195,
      "reward": 0.1875000111758709,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/format_reward": 0.0,
      "step": 388
    },
    {
      "completion_length": 567.2291870117188,
      "epoch": 0.474390243902439,
      "grad_norm": 0.5436845421791077,
      "kl": 0.0390625,
      "learning_rate": 1.8913115736122519e-06,
      "loss": 0.0301,
      "reward": 0.2500000149011612,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 389
    },
    {
      "completion_length": 614.9791870117188,
      "epoch": 0.47560975609756095,
      "grad_norm": 0.5892400741577148,
      "kl": 0.03302001953125,
      "learning_rate": 1.8851438029038191e-06,
      "loss": 0.0559,
      "reward": 0.2916666865348816,
      "reward_std": 0.14433755725622177,
      "rewards/accuracy_reward": 0.2916666865348816,
      "rewards/format_reward": 0.0,
      "step": 390
    },
    {
      "completion_length": 885.6041870117188,
      "epoch": 0.4768292682926829,
      "grad_norm": 0.06690337508916855,
      "kl": 0.032470703125,
      "learning_rate": 1.8789690529369492e-06,
      "loss": 0.0011,
      "reward": 0.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.0,
      "step": 391
    },
    {
      "completion_length": 493.85418701171875,
      "epoch": 0.47804878048780486,
      "grad_norm": 0.6229822039604187,
      "kl": 0.034912109375,
      "learning_rate": 1.8727874356053706e-06,
      "loss": -0.0013,
      "reward": 0.2708333432674408,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 392
    },
    {
      "completion_length": 755.2916870117188,
      "epoch": 0.4792682926829268,
      "grad_norm": 0.31777453422546387,
      "kl": 0.036376953125,
      "learning_rate": 1.8665990629272555e-06,
      "loss": 0.0094,
      "reward": 0.0833333358168602,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 393
    },
    {
      "completion_length": 728.6250305175781,
      "epoch": 0.48048780487804876,
      "grad_norm": 0.4183621108531952,
      "kl": 0.03448486328125,
      "learning_rate": 1.8604040470431908e-06,
      "loss": -0.0205,
      "reward": 0.06250000186264515,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 394
    },
    {
      "completion_length": 554.4583435058594,
      "epoch": 0.4817073170731707,
      "grad_norm": 0.5221788287162781,
      "kl": 0.0399169921875,
      "learning_rate": 1.8542025002141474e-06,
      "loss": 0.0101,
      "reward": 0.1875000111758709,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/format_reward": 0.0,
      "step": 395
    },
    {
      "completion_length": 802.2291870117188,
      "epoch": 0.48292682926829267,
      "grad_norm": 0.22250708937644958,
      "kl": 0.03021240234375,
      "learning_rate": 1.8479945348194423e-06,
      "loss": 0.0055,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 396
    },
    {
      "completion_length": 646.2916870117188,
      "epoch": 0.4841463414634146,
      "grad_norm": 0.3303127586841583,
      "kl": 0.037109375,
      "learning_rate": 1.8417802633547067e-06,
      "loss": -0.0063,
      "reward": 0.1666666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 397
    },
    {
      "completion_length": 712.6666870117188,
      "epoch": 0.4853658536585366,
      "grad_norm": 0.6952998042106628,
      "kl": 0.042236328125,
      "learning_rate": 1.8355597984298435e-06,
      "loss": -0.0255,
      "reward": 0.14583333395421505,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 398
    },
    {
      "completion_length": 680.8541870117188,
      "epoch": 0.4865853658536585,
      "grad_norm": 0.6096604466438293,
      "kl": 0.03057861328125,
      "learning_rate": 1.8293332527669897e-06,
      "loss": 0.0025,
      "reward": 0.1875000074505806,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 399
    },
    {
      "completion_length": 697.625,
      "epoch": 0.4878048780487805,
      "grad_norm": 0.5263100266456604,
      "kl": 0.0400390625,
      "learning_rate": 1.823100739198472e-06,
      "loss": 0.0056,
      "reward": 0.1875,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 400
    },
    {
      "completion_length": 717.2916870117188,
      "epoch": 0.48902439024390243,
      "grad_norm": 0.2937505841255188,
      "kl": 0.0421142578125,
      "learning_rate": 1.816862370664762e-06,
      "loss": 0.0369,
      "reward": 0.1875000074505806,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 401
    },
    {
      "completion_length": 737.1250305175781,
      "epoch": 0.4902439024390244,
      "grad_norm": 0.5524131059646606,
      "kl": 0.03460693359375,
      "learning_rate": 1.8106182602124312e-06,
      "loss": -0.0016,
      "reward": 0.16666667722165585,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 402
    },
    {
      "completion_length": 689.3541870117188,
      "epoch": 0.49146341463414633,
      "grad_norm": 0.6056103110313416,
      "kl": 0.0382080078125,
      "learning_rate": 1.8043685209921002e-06,
      "loss": 0.0203,
      "reward": 0.1458333358168602,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 403
    },
    {
      "completion_length": 821.8958435058594,
      "epoch": 0.4926829268292683,
      "grad_norm": 0.770128607749939,
      "kl": 0.035400390625,
      "learning_rate": 1.7981132662563906e-06,
      "loss": 0.0777,
      "reward": 0.2500000149011612,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 404
    },
    {
      "completion_length": 869.4166870117188,
      "epoch": 0.49390243902439024,
      "grad_norm": 0.3313486576080322,
      "kl": 0.03070068359375,
      "learning_rate": 1.7918526093578702e-06,
      "loss": -0.0011,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 405
    },
    {
      "completion_length": 905.875,
      "epoch": 0.4951219512195122,
      "grad_norm": 0.29705655574798584,
      "kl": 0.0396728515625,
      "learning_rate": 1.7855866637470027e-06,
      "loss": -0.0047,
      "reward": 0.14583333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 406
    },
    {
      "completion_length": 667.7083740234375,
      "epoch": 0.49634146341463414,
      "grad_norm": 0.6838599443435669,
      "kl": 0.0286865234375,
      "learning_rate": 1.7793155429700868e-06,
      "loss": -0.0007,
      "reward": 0.2083333395421505,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/format_reward": 0.0,
      "step": 407
    },
    {
      "completion_length": 877.5625,
      "epoch": 0.4975609756097561,
      "grad_norm": 0.3647572100162506,
      "kl": 0.03082275390625,
      "learning_rate": 1.7730393606672033e-06,
      "loss": -0.0071,
      "reward": 0.2291666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 408
    },
    {
      "completion_length": 876.4791870117188,
      "epoch": 0.49878048780487805,
      "grad_norm": 0.46186333894729614,
      "kl": 0.03302001953125,
      "learning_rate": 1.7667582305701528e-06,
      "loss": -0.0742,
      "reward": 0.3333333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.0,
      "step": 409
    },
    {
      "completion_length": 639.5833740234375,
      "epoch": 0.5,
      "grad_norm": 0.5355751514434814,
      "kl": 0.0338134765625,
      "learning_rate": 1.7604722665003958e-06,
      "loss": -0.0021,
      "reward": 0.2083333432674408,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 410
    },
    {
      "completion_length": 850.5208740234375,
      "epoch": 0.501219512195122,
      "grad_norm": 0.4516288638114929,
      "kl": 0.033935546875,
      "learning_rate": 1.7541815823669903e-06,
      "loss": 0.02,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 411
    },
    {
      "completion_length": 691.6250305175781,
      "epoch": 0.5024390243902439,
      "grad_norm": 0.4676379859447479,
      "kl": 0.0311279296875,
      "learning_rate": 1.7478862921645273e-06,
      "loss": 0.0353,
      "reward": 0.14583333395421505,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 412
    },
    {
      "completion_length": 688.0,
      "epoch": 0.5036585365853659,
      "grad_norm": 0.4021396040916443,
      "kl": 0.03631591796875,
      "learning_rate": 1.7415865099710657e-06,
      "loss": 0.0129,
      "reward": 0.1250000037252903,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 413
    },
    {
      "completion_length": 838.8541870117188,
      "epoch": 0.5048780487804878,
      "grad_norm": 0.3340761363506317,
      "kl": 0.03106689453125,
      "learning_rate": 1.735282349946064e-06,
      "loss": 0.0196,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 414
    },
    {
      "completion_length": 763.1458740234375,
      "epoch": 0.5060975609756098,
      "grad_norm": 0.46428605914115906,
      "kl": 0.03955078125,
      "learning_rate": 1.7289739263283118e-06,
      "loss": 0.0211,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 415
    },
    {
      "completion_length": 724.7291870117188,
      "epoch": 0.5073170731707317,
      "grad_norm": 0.42527034878730774,
      "kl": 0.03302001953125,
      "learning_rate": 1.7226613534338608e-06,
      "loss": -0.0064,
      "reward": 0.12500000558793545,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 416
    },
    {
      "completion_length": 772.3541870117188,
      "epoch": 0.5085365853658537,
      "grad_norm": 0.16283953189849854,
      "kl": 0.02685546875,
      "learning_rate": 1.716344745653952e-06,
      "loss": 0.0059,
      "reward": 0.1666666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 417
    },
    {
      "completion_length": 788.2916870117188,
      "epoch": 0.5097560975609756,
      "grad_norm": 0.2448461353778839,
      "kl": 0.02716064453125,
      "learning_rate": 1.7100242174529439e-06,
      "loss": 0.0199,
      "reward": 0.1666666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 418
    },
    {
      "completion_length": 701.0625305175781,
      "epoch": 0.5109756097560976,
      "grad_norm": 0.544904351234436,
      "kl": 0.03387451171875,
      "learning_rate": 1.7036998833662359e-06,
      "loss": -0.0098,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 419
    },
    {
      "completion_length": 799.9166870117188,
      "epoch": 0.5121951219512195,
      "grad_norm": 0.06163305044174194,
      "kl": 0.02587890625,
      "learning_rate": 1.6973718579981973e-06,
      "loss": 0.001,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 420
    },
    {
      "completion_length": 742.2916870117188,
      "epoch": 0.5134146341463415,
      "grad_norm": 0.3775089979171753,
      "kl": 0.03271484375,
      "learning_rate": 1.6910402560200854e-06,
      "loss": -0.0004,
      "reward": 0.0625,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 421
    },
    {
      "completion_length": 830.2083435058594,
      "epoch": 0.5146341463414634,
      "grad_norm": 0.3336365222930908,
      "kl": 0.03155517578125,
      "learning_rate": 1.6847051921679702e-06,
      "loss": 0.0057,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 422
    },
    {
      "completion_length": 676.0416870117188,
      "epoch": 0.5158536585365854,
      "grad_norm": 0.493982195854187,
      "kl": 0.0255126953125,
      "learning_rate": 1.6783667812406569e-06,
      "loss": 0.0064,
      "reward": 0.2291666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 423
    },
    {
      "completion_length": 816.1041870117188,
      "epoch": 0.5170731707317073,
      "grad_norm": 0.3415720462799072,
      "kl": 0.02813720703125,
      "learning_rate": 1.672025138097601e-06,
      "loss": 0.0539,
      "reward": 0.1041666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 424
    },
    {
      "completion_length": 791.0625305175781,
      "epoch": 0.5182926829268293,
      "grad_norm": 0.756782591342926,
      "kl": 0.02923583984375,
      "learning_rate": 1.6656803776568307e-06,
      "loss": 0.0526,
      "reward": 0.2708333432674408,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 425
    },
    {
      "completion_length": 754.1666870117188,
      "epoch": 0.5195121951219512,
      "grad_norm": 0.4986019432544708,
      "kl": 0.0341796875,
      "learning_rate": 1.6593326148928643e-06,
      "loss": 0.001,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 426
    },
    {
      "completion_length": 776.0416870117188,
      "epoch": 0.5207317073170732,
      "grad_norm": 0.1987488865852356,
      "kl": 0.02716064453125,
      "learning_rate": 1.652981964834623e-06,
      "loss": 0.0324,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 427
    },
    {
      "completion_length": 732.1041870117188,
      "epoch": 0.5219512195121951,
      "grad_norm": 0.05336523428559303,
      "kl": 0.02783203125,
      "learning_rate": 1.6466285425633527e-06,
      "loss": 0.0011,
      "reward": 0.1875,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 428
    },
    {
      "completion_length": 686.9791870117188,
      "epoch": 0.5231707317073171,
      "grad_norm": 0.5836074948310852,
      "kl": 0.02978515625,
      "learning_rate": 1.6402724632105323e-06,
      "loss": 0.0141,
      "reward": 0.1875000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 429
    },
    {
      "completion_length": 660.0625305175781,
      "epoch": 0.524390243902439,
      "grad_norm": 0.3314565122127533,
      "kl": 0.03704833984375,
      "learning_rate": 1.6339138419557916e-06,
      "loss": 0.0029,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 430
    },
    {
      "completion_length": 806.9791870117188,
      "epoch": 0.525609756097561,
      "grad_norm": 0.3738638460636139,
      "kl": 0.0345458984375,
      "learning_rate": 1.6275527940248218e-06,
      "loss": 0.0445,
      "reward": 0.16666667722165585,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 431
    },
    {
      "completion_length": 1050.1250305175781,
      "epoch": 0.526829268292683,
      "grad_norm": 0.4248029589653015,
      "kl": 0.026611328125,
      "learning_rate": 1.6211894346872887e-06,
      "loss": -0.0202,
      "reward": 0.2083333432674408,
      "reward_std": 0.10825318098068237,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 432
    },
    {
      "completion_length": 839.0833435058594,
      "epoch": 0.5280487804878049,
      "grad_norm": 0.40769124031066895,
      "kl": 0.0311279296875,
      "learning_rate": 1.614823879254744e-06,
      "loss": -0.0006,
      "reward": 0.08333333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 433
    },
    {
      "completion_length": 747.9166870117188,
      "epoch": 0.5292682926829269,
      "grad_norm": 0.4294043183326721,
      "kl": 0.0472412109375,
      "learning_rate": 1.6084562430785336e-06,
      "loss": -0.0104,
      "reward": 0.2083333432674408,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 434
    },
    {
      "completion_length": 946.7708740234375,
      "epoch": 0.5304878048780488,
      "grad_norm": 0.3011494278907776,
      "kl": 0.034912109375,
      "learning_rate": 1.6020866415477108e-06,
      "loss": -0.0333,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 435
    },
    {
      "completion_length": 1171.1458740234375,
      "epoch": 0.5317073170731708,
      "grad_norm": 0.45685434341430664,
      "kl": 0.02496337890625,
      "learning_rate": 1.5957151900869425e-06,
      "loss": 0.0143,
      "reward": 0.125,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 436
    },
    {
      "completion_length": 731.5,
      "epoch": 0.5329268292682927,
      "grad_norm": 0.5969831943511963,
      "kl": 0.03338623046875,
      "learning_rate": 1.5893420041544193e-06,
      "loss": -0.0248,
      "reward": 0.1458333358168602,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 437
    },
    {
      "completion_length": 736.6041870117188,
      "epoch": 0.5341463414634147,
      "grad_norm": 0.4960964322090149,
      "kl": 0.02801513671875,
      "learning_rate": 1.582967199239761e-06,
      "loss": 0.081,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 438
    },
    {
      "completion_length": 662.6875305175781,
      "epoch": 0.5353658536585366,
      "grad_norm": 0.2524319291114807,
      "kl": 0.02606201171875,
      "learning_rate": 1.5765908908619258e-06,
      "loss": 0.0336,
      "reward": 0.2083333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 439
    },
    {
      "completion_length": 758.0208435058594,
      "epoch": 0.5365853658536586,
      "grad_norm": 0.21499498188495636,
      "kl": 0.0301513671875,
      "learning_rate": 1.5702131945671182e-06,
      "loss": -0.0047,
      "reward": 0.0416666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 440
    },
    {
      "completion_length": 931.4583435058594,
      "epoch": 0.5378048780487805,
      "grad_norm": 0.46516576409339905,
      "kl": 0.032470703125,
      "learning_rate": 1.5638342259266904e-06,
      "loss": -0.0083,
      "reward": 0.18750000558793545,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.18750000558793545,
      "rewards/format_reward": 0.0,
      "step": 441
    },
    {
      "completion_length": 762.7708435058594,
      "epoch": 0.5390243902439025,
      "grad_norm": 0.6176576614379883,
      "kl": 0.0413818359375,
      "learning_rate": 1.5574541005350532e-06,
      "loss": -0.0412,
      "reward": 0.1875,
      "reward_std": 0.10825318098068237,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 442
    },
    {
      "completion_length": 845.1666870117188,
      "epoch": 0.5402439024390244,
      "grad_norm": 0.36604827642440796,
      "kl": 0.0323486328125,
      "learning_rate": 1.5510729340075781e-06,
      "loss": 0.0028,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 443
    },
    {
      "completion_length": 822.5208435058594,
      "epoch": 0.5414634146341464,
      "grad_norm": 0.4656050205230713,
      "kl": 0.031494140625,
      "learning_rate": 1.544690841978504e-06,
      "loss": -0.0166,
      "reward": 0.1875000111758709,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/format_reward": 0.0,
      "step": 444
    },
    {
      "completion_length": 863.9791870117188,
      "epoch": 0.5426829268292683,
      "grad_norm": 0.5311189293861389,
      "kl": 0.0374755859375,
      "learning_rate": 1.5383079400988402e-06,
      "loss": -0.0338,
      "reward": 0.1458333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 445
    },
    {
      "completion_length": 712.3125305175781,
      "epoch": 0.5439024390243903,
      "grad_norm": 0.5392478704452515,
      "kl": 0.02532958984375,
      "learning_rate": 1.5319243440342713e-06,
      "loss": -0.0118,
      "reward": 0.0833333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 446
    },
    {
      "completion_length": 713.6666870117188,
      "epoch": 0.5451219512195122,
      "grad_norm": 0.6092529892921448,
      "kl": 0.0330810546875,
      "learning_rate": 1.5255401694630625e-06,
      "loss": 0.0047,
      "reward": 0.2916666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/format_reward": 0.0,
      "step": 447
    },
    {
      "completion_length": 767.2083435058594,
      "epoch": 0.5463414634146342,
      "grad_norm": 0.20800291001796722,
      "kl": 0.0302734375,
      "learning_rate": 1.5191555320739608e-06,
      "loss": 0.014,
      "reward": 0.14583333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 448
    },
    {
      "completion_length": 755.1875305175781,
      "epoch": 0.5475609756097561,
      "grad_norm": 0.605426549911499,
      "kl": 0.0333251953125,
      "learning_rate": 1.5127705475641014e-06,
      "loss": -0.0052,
      "reward": 0.3333333432674408,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.0,
      "step": 449
    },
    {
      "completion_length": 782.125,
      "epoch": 0.5487804878048781,
      "grad_norm": 0.37740781903266907,
      "kl": 0.02899169921875,
      "learning_rate": 1.5063853316369081e-06,
      "loss": 0.0065,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 450
    },
    {
      "completion_length": 802.1666870117188,
      "epoch": 0.55,
      "grad_norm": 0.07578609138727188,
      "kl": 0.02288818359375,
      "learning_rate": 1.5e-06,
      "loss": 0.0009,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 451
    },
    {
      "completion_length": 790.3125,
      "epoch": 0.551219512195122,
      "grad_norm": 0.4336966872215271,
      "kl": 0.02813720703125,
      "learning_rate": 1.4936146683630921e-06,
      "loss": 0.0157,
      "reward": 0.14583333395421505,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 452
    },
    {
      "completion_length": 895.9375,
      "epoch": 0.552439024390244,
      "grad_norm": 0.32502347230911255,
      "kl": 0.02935791015625,
      "learning_rate": 1.4872294524358989e-06,
      "loss": -0.0093,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 453
    },
    {
      "completion_length": 1040.1667175292969,
      "epoch": 0.5536585365853659,
      "grad_norm": 0.14283445477485657,
      "kl": 0.028076171875,
      "learning_rate": 1.4808444679260396e-06,
      "loss": 0.001,
      "reward": 0.25,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.0,
      "step": 454
    },
    {
      "completion_length": 1108.2500610351562,
      "epoch": 0.5548780487804879,
      "grad_norm": 0.30400022864341736,
      "kl": 0.03131103515625,
      "learning_rate": 1.4744598305369376e-06,
      "loss": 0.0327,
      "reward": 0.06250000186264515,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 455
    },
    {
      "completion_length": 726.125,
      "epoch": 0.5560975609756098,
      "grad_norm": 0.09212367236614227,
      "kl": 0.0345458984375,
      "learning_rate": 1.4680756559657292e-06,
      "loss": 0.0013,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 456
    },
    {
      "completion_length": 756.4166870117188,
      "epoch": 0.5573170731707318,
      "grad_norm": 0.49157455563545227,
      "kl": 0.03619384765625,
      "learning_rate": 1.4616920599011603e-06,
      "loss": 0.0927,
      "reward": 0.2083333358168602,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 457
    },
    {
      "completion_length": 990.3333435058594,
      "epoch": 0.5585365853658537,
      "grad_norm": 0.4339282512664795,
      "kl": 0.0247802734375,
      "learning_rate": 1.4553091580214963e-06,
      "loss": 0.0336,
      "reward": 0.0416666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 458
    },
    {
      "completion_length": 806.1666870117188,
      "epoch": 0.5597560975609757,
      "grad_norm": 0.5246623754501343,
      "kl": 0.0361328125,
      "learning_rate": 1.4489270659924222e-06,
      "loss": -0.029,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 459
    },
    {
      "completion_length": 801.8958435058594,
      "epoch": 0.5609756097560976,
      "grad_norm": 0.4816710948944092,
      "kl": 0.027099609375,
      "learning_rate": 1.442545899464947e-06,
      "loss": 0.0141,
      "reward": 0.2291666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 460
    },
    {
      "completion_length": 758.0833740234375,
      "epoch": 0.5621951219512196,
      "grad_norm": 0.20983240008354187,
      "kl": 0.029296875,
      "learning_rate": 1.4361657740733103e-06,
      "loss": 0.0403,
      "reward": 0.14583333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 461
    },
    {
      "completion_length": 829.5,
      "epoch": 0.5634146341463414,
      "grad_norm": 0.4363538324832916,
      "kl": 0.03021240234375,
      "learning_rate": 1.429786805432882e-06,
      "loss": 0.0002,
      "reward": 0.3125000149011612,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.3125000149011612,
      "rewards/format_reward": 0.0,
      "step": 462
    },
    {
      "completion_length": 1017.4166870117188,
      "epoch": 0.5646341463414634,
      "grad_norm": 0.0842226967215538,
      "kl": 0.027587890625,
      "learning_rate": 1.4234091091380743e-06,
      "loss": 0.001,
      "reward": 0.1875,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 463
    },
    {
      "completion_length": 803.875,
      "epoch": 0.5658536585365853,
      "grad_norm": 0.18806934356689453,
      "kl": 0.02984619140625,
      "learning_rate": 1.4170328007602395e-06,
      "loss": -0.0075,
      "reward": 0.0416666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 464
    },
    {
      "completion_length": 1089.1041870117188,
      "epoch": 0.5670731707317073,
      "grad_norm": 0.19883829355239868,
      "kl": 0.02545166015625,
      "learning_rate": 1.4106579958455812e-06,
      "loss": 0.0119,
      "reward": 0.0416666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 465
    },
    {
      "completion_length": 893.5000305175781,
      "epoch": 0.5682926829268292,
      "grad_norm": 0.4463866353034973,
      "kl": 0.0289306640625,
      "learning_rate": 1.4042848099130574e-06,
      "loss": 0.0065,
      "reward": 0.1041666679084301,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 466
    },
    {
      "completion_length": 734.5416870117188,
      "epoch": 0.5695121951219512,
      "grad_norm": 0.6711140275001526,
      "kl": 0.03326416015625,
      "learning_rate": 1.3979133584522893e-06,
      "loss": 0.0101,
      "reward": 0.2083333432674408,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 467
    },
    {
      "completion_length": 709.7083435058594,
      "epoch": 0.5707317073170731,
      "grad_norm": 0.7721737623214722,
      "kl": 0.02752685546875,
      "learning_rate": 1.391543756921467e-06,
      "loss": -0.0311,
      "reward": 0.16666667722165585,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 468
    },
    {
      "completion_length": 895.5625305175781,
      "epoch": 0.5719512195121951,
      "grad_norm": 0.05096851661801338,
      "kl": 0.02825927734375,
      "learning_rate": 1.3851761207452565e-06,
      "loss": 0.001,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 469
    },
    {
      "completion_length": 853.4583435058594,
      "epoch": 0.573170731707317,
      "grad_norm": 0.4231189787387848,
      "kl": 0.0272216796875,
      "learning_rate": 1.3788105653127118e-06,
      "loss": 0.0083,
      "reward": 0.06250000186264515,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 470
    },
    {
      "completion_length": 651.0833435058594,
      "epoch": 0.574390243902439,
      "grad_norm": 0.3461414575576782,
      "kl": 0.0380859375,
      "learning_rate": 1.3724472059751785e-06,
      "loss": 0.0157,
      "reward": 0.2083333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 471
    },
    {
      "completion_length": 867.8958435058594,
      "epoch": 0.5756097560975609,
      "grad_norm": 0.05793582275509834,
      "kl": 0.02783203125,
      "learning_rate": 1.3660861580442087e-06,
      "loss": 0.001,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 472
    },
    {
      "completion_length": 875.6875,
      "epoch": 0.5768292682926829,
      "grad_norm": 0.5400838851928711,
      "kl": 0.02728271484375,
      "learning_rate": 1.3597275367894676e-06,
      "loss": -0.0105,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 473
    },
    {
      "completion_length": 818.2500610351562,
      "epoch": 0.5780487804878048,
      "grad_norm": 0.7908319234848022,
      "kl": 0.03375244140625,
      "learning_rate": 1.3533714574366473e-06,
      "loss": 0.0058,
      "reward": 0.1458333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 474
    },
    {
      "completion_length": 815.2500305175781,
      "epoch": 0.5792682926829268,
      "grad_norm": 0.5779252052307129,
      "kl": 0.0318603515625,
      "learning_rate": 1.3470180351653773e-06,
      "loss": 0.0174,
      "reward": 0.10416666977107525,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 475
    },
    {
      "completion_length": 864.2916870117188,
      "epoch": 0.5804878048780487,
      "grad_norm": 0.3415527045726776,
      "kl": 0.02471923828125,
      "learning_rate": 1.3406673851071362e-06,
      "loss": 0.0053,
      "reward": 0.06250000186264515,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 476
    },
    {
      "completion_length": 960.3333435058594,
      "epoch": 0.5817073170731707,
      "grad_norm": 0.29808786511421204,
      "kl": 0.0283203125,
      "learning_rate": 1.3343196223431698e-06,
      "loss": 0.0058,
      "reward": 0.2708333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 477
    },
    {
      "completion_length": 946.3333740234375,
      "epoch": 0.5829268292682926,
      "grad_norm": 0.35267508029937744,
      "kl": 0.0269775390625,
      "learning_rate": 1.3279748619023995e-06,
      "loss": 0.0228,
      "reward": 0.1458333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 478
    },
    {
      "completion_length": 922.4375305175781,
      "epoch": 0.5841463414634146,
      "grad_norm": 0.29554396867752075,
      "kl": 0.02947998046875,
      "learning_rate": 1.3216332187593434e-06,
      "loss": -0.0132,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 479
    },
    {
      "completion_length": 858.0833435058594,
      "epoch": 0.5853658536585366,
      "grad_norm": 0.39898625016212463,
      "kl": 0.03106689453125,
      "learning_rate": 1.3152948078320297e-06,
      "loss": -0.0085,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 480
    },
    {
      "completion_length": 581.6041717529297,
      "epoch": 0.5865853658536585,
      "grad_norm": 0.7595959305763245,
      "kl": 0.0352783203125,
      "learning_rate": 1.3089597439799151e-06,
      "loss": -0.0163,
      "reward": 0.3541666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.3541666716337204,
      "rewards/format_reward": 0.0,
      "step": 481
    },
    {
      "completion_length": 935.5417175292969,
      "epoch": 0.5878048780487805,
      "grad_norm": 0.4653733968734741,
      "kl": 0.04296875,
      "learning_rate": 1.3026281420018034e-06,
      "loss": -0.0067,
      "reward": 0.1666666679084301,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 482
    },
    {
      "completion_length": 888.1041870117188,
      "epoch": 0.5890243902439024,
      "grad_norm": 0.18640004098415375,
      "kl": 0.034423828125,
      "learning_rate": 1.2963001166337642e-06,
      "loss": 0.0006,
      "reward": 0.12500000558793545,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 483
    },
    {
      "completion_length": 898.3542175292969,
      "epoch": 0.5902439024390244,
      "grad_norm": 0.6631487607955933,
      "kl": 0.02813720703125,
      "learning_rate": 1.2899757825470568e-06,
      "loss": -0.0036,
      "reward": 0.14583333395421505,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 484
    },
    {
      "completion_length": 723.5208435058594,
      "epoch": 0.5914634146341463,
      "grad_norm": 0.36477863788604736,
      "kl": 0.02996826171875,
      "learning_rate": 1.283655254346048e-06,
      "loss": -0.0048,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 485
    },
    {
      "completion_length": 887.1875305175781,
      "epoch": 0.5926829268292683,
      "grad_norm": 0.4081045389175415,
      "kl": 0.05609130859375,
      "learning_rate": 1.2773386465661395e-06,
      "loss": 0.0024,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 486
    },
    {
      "completion_length": 802.3333435058594,
      "epoch": 0.5939024390243902,
      "grad_norm": 0.25304004549980164,
      "kl": 0.028076171875,
      "learning_rate": 1.2710260736716882e-06,
      "loss": -0.0011,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 487
    },
    {
      "completion_length": 902.0833435058594,
      "epoch": 0.5951219512195122,
      "grad_norm": 0.3382227122783661,
      "kl": 0.02691650390625,
      "learning_rate": 1.264717650053936e-06,
      "loss": 0.0269,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 488
    },
    {
      "completion_length": 964.2291870117188,
      "epoch": 0.5963414634146341,
      "grad_norm": 0.5060334205627441,
      "kl": 0.02862548828125,
      "learning_rate": 1.2584134900289346e-06,
      "loss": -0.0156,
      "reward": 0.1666666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 489
    },
    {
      "completion_length": 1043.3958740234375,
      "epoch": 0.5975609756097561,
      "grad_norm": 0.2051764875650406,
      "kl": 0.0284423828125,
      "learning_rate": 1.2521137078354728e-06,
      "loss": 0.0004,
      "reward": 0.1666666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 490
    },
    {
      "completion_length": 929.3333740234375,
      "epoch": 0.598780487804878,
      "grad_norm": 0.4943280518054962,
      "kl": 0.02301025390625,
      "learning_rate": 1.2458184176330102e-06,
      "loss": 0.0281,
      "reward": 0.1875,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 491
    },
    {
      "completion_length": 832.5833740234375,
      "epoch": 0.6,
      "grad_norm": 0.11139194667339325,
      "kl": 0.02972412109375,
      "learning_rate": 1.2395277334996047e-06,
      "loss": 0.001,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 492
    },
    {
      "completion_length": 745.7708435058594,
      "epoch": 0.6012195121951219,
      "grad_norm": 0.04622248560190201,
      "kl": 0.0257568359375,
      "learning_rate": 1.2332417694298477e-06,
      "loss": 0.0008,
      "reward": 0.3125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 0.0,
      "step": 493
    },
    {
      "completion_length": 866.1458740234375,
      "epoch": 0.6024390243902439,
      "grad_norm": 0.06395512074232101,
      "kl": 0.0565185546875,
      "learning_rate": 1.2269606393327968e-06,
      "loss": 0.0012,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 494
    },
    {
      "completion_length": 779.8958740234375,
      "epoch": 0.6036585365853658,
      "grad_norm": 0.5273105502128601,
      "kl": 0.03179931640625,
      "learning_rate": 1.2206844570299133e-06,
      "loss": -0.112,
      "reward": 0.0833333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 495
    },
    {
      "completion_length": 780.1458740234375,
      "epoch": 0.6048780487804878,
      "grad_norm": 0.4124651849269867,
      "kl": 0.025634765625,
      "learning_rate": 1.2144133362529974e-06,
      "loss": -0.0126,
      "reward": 0.2708333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2708333358168602,
      "rewards/format_reward": 0.0,
      "step": 496
    },
    {
      "completion_length": 829.9791870117188,
      "epoch": 0.6060975609756097,
      "grad_norm": 0.7791106700897217,
      "kl": 0.03582763671875,
      "learning_rate": 1.2081473906421298e-06,
      "loss": 0.0441,
      "reward": 0.2291666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 497
    },
    {
      "completion_length": 690.7500305175781,
      "epoch": 0.6073170731707317,
      "grad_norm": 0.5013418793678284,
      "kl": 0.03131103515625,
      "learning_rate": 1.20188673374361e-06,
      "loss": 0.0256,
      "reward": 0.1875,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 498
    },
    {
      "completion_length": 727.9375305175781,
      "epoch": 0.6085365853658536,
      "grad_norm": 0.5570080280303955,
      "kl": 0.02862548828125,
      "learning_rate": 1.1956314790078998e-06,
      "loss": -0.0023,
      "reward": 0.2708333432674408,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 499
    },
    {
      "completion_length": 867.0416870117188,
      "epoch": 0.6097560975609756,
      "grad_norm": 0.04908730089664459,
      "kl": 0.02886962890625,
      "learning_rate": 1.189381739787569e-06,
      "loss": 0.0009,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 500
    },
    {
      "completion_length": 783.8333740234375,
      "epoch": 0.6109756097560975,
      "grad_norm": 0.3778320252895355,
      "kl": 0.02886962890625,
      "learning_rate": 1.1831376293352378e-06,
      "loss": 0.0196,
      "reward": 0.1875000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 501
    },
    {
      "completion_length": 792.1250305175781,
      "epoch": 0.6121951219512195,
      "grad_norm": 1.6423802375793457,
      "kl": 0.05072021484375,
      "learning_rate": 1.176899260801528e-06,
      "loss": -0.0162,
      "reward": 0.2083333358168602,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 502
    },
    {
      "completion_length": 828.8333740234375,
      "epoch": 0.6134146341463415,
      "grad_norm": 0.5353675484657288,
      "kl": 0.0289306640625,
      "learning_rate": 1.1706667472330101e-06,
      "loss": -0.0059,
      "reward": 0.1875000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 503
    },
    {
      "completion_length": 709.5000305175781,
      "epoch": 0.6146341463414634,
      "grad_norm": 0.4470565915107727,
      "kl": 0.026123046875,
      "learning_rate": 1.1644402015701568e-06,
      "loss": 0.0265,
      "reward": 0.1666666679084301,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 504
    },
    {
      "completion_length": 827.3541870117188,
      "epoch": 0.6158536585365854,
      "grad_norm": 0.5625233054161072,
      "kl": 0.0302734375,
      "learning_rate": 1.158219736645294e-06,
      "loss": 0.0489,
      "reward": 0.0833333358168602,
      "reward_std": 0.14433757960796356,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 505
    },
    {
      "completion_length": 803.9166870117188,
      "epoch": 0.6170731707317073,
      "grad_norm": 0.3888726532459259,
      "kl": 0.02508544921875,
      "learning_rate": 1.152005465180558e-06,
      "loss": 0.0052,
      "reward": 0.229166679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/format_reward": 0.0,
      "step": 506
    },
    {
      "completion_length": 900.4791870117188,
      "epoch": 0.6182926829268293,
      "grad_norm": 0.3920578956604004,
      "kl": 0.0260009765625,
      "learning_rate": 1.145797499785853e-06,
      "loss": -0.0216,
      "reward": 0.1458333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 507
    },
    {
      "completion_length": 784.7291870117188,
      "epoch": 0.6195121951219512,
      "grad_norm": 0.4152125418186188,
      "kl": 0.02838134765625,
      "learning_rate": 1.1395959529568088e-06,
      "loss": -0.0235,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 508
    },
    {
      "completion_length": 699.4583435058594,
      "epoch": 0.6207317073170732,
      "grad_norm": 0.3461558520793915,
      "kl": 0.0263671875,
      "learning_rate": 1.1334009370727446e-06,
      "loss": 0.0797,
      "reward": 0.2708333358168602,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2708333358168602,
      "rewards/format_reward": 0.0,
      "step": 509
    },
    {
      "completion_length": 560.3125,
      "epoch": 0.6219512195121951,
      "grad_norm": 0.6555963754653931,
      "kl": 0.02825927734375,
      "learning_rate": 1.127212564394629e-06,
      "loss": 0.0049,
      "reward": 0.375,
      "reward_std": 0.18042196333408356,
      "rewards/accuracy_reward": 0.375,
      "rewards/format_reward": 0.0,
      "step": 510
    },
    {
      "completion_length": 892.4166870117188,
      "epoch": 0.6231707317073171,
      "grad_norm": 0.4940139055252075,
      "kl": 0.02618408203125,
      "learning_rate": 1.1210309470630509e-06,
      "loss": 0.1071,
      "reward": 0.1875000111758709,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/format_reward": 0.0,
      "step": 511
    },
    {
      "completion_length": 854.7083435058594,
      "epoch": 0.624390243902439,
      "grad_norm": 0.5197833776473999,
      "kl": 0.0255126953125,
      "learning_rate": 1.1148561970961818e-06,
      "loss": -0.0257,
      "reward": 0.1458333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 512
    },
    {
      "completion_length": 963.0833740234375,
      "epoch": 0.625609756097561,
      "grad_norm": 0.26763102412223816,
      "kl": 0.0277099609375,
      "learning_rate": 1.1086884263877486e-06,
      "loss": 0.0028,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 513
    },
    {
      "completion_length": 795.7917175292969,
      "epoch": 0.6268292682926829,
      "grad_norm": 0.04478263109922409,
      "kl": 0.03985595703125,
      "learning_rate": 1.1025277467050079e-06,
      "loss": 0.001,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 514
    },
    {
      "completion_length": 962.8125305175781,
      "epoch": 0.6280487804878049,
      "grad_norm": 0.3781687915325165,
      "kl": 0.03082275390625,
      "learning_rate": 1.0963742696867162e-06,
      "loss": 0.0034,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 515
    },
    {
      "completion_length": 823.6250305175781,
      "epoch": 0.6292682926829268,
      "grad_norm": 0.44658133387565613,
      "kl": 0.031494140625,
      "learning_rate": 1.0902281068411114e-06,
      "loss": -0.0129,
      "reward": 0.2500000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/format_reward": 0.0,
      "step": 516
    },
    {
      "completion_length": 748.2916870117188,
      "epoch": 0.6304878048780488,
      "grad_norm": 0.44513779878616333,
      "kl": 0.0255126953125,
      "learning_rate": 1.084089369543888e-06,
      "loss": 0.0591,
      "reward": 0.1041666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 517
    },
    {
      "completion_length": 778.8333740234375,
      "epoch": 0.6317073170731707,
      "grad_norm": 0.35178038477897644,
      "kl": 0.030029296875,
      "learning_rate": 1.077958169036183e-06,
      "loss": -0.0142,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 518
    },
    {
      "completion_length": 889.2708435058594,
      "epoch": 0.6329268292682927,
      "grad_norm": 0.26045531034469604,
      "kl": 0.02838134765625,
      "learning_rate": 1.0718346164225556e-06,
      "loss": 0.0006,
      "reward": 0.2083333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 519
    },
    {
      "completion_length": 910.5416870117188,
      "epoch": 0.6341463414634146,
      "grad_norm": 0.47047415375709534,
      "kl": 0.02703857421875,
      "learning_rate": 1.0657188226689772e-06,
      "loss": 0.047,
      "reward": 0.10416666977107525,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 520
    },
    {
      "completion_length": 841.9792175292969,
      "epoch": 0.6353658536585366,
      "grad_norm": 0.2454436719417572,
      "kl": 0.02545166015625,
      "learning_rate": 1.0596108986008203e-06,
      "loss": 0.0034,
      "reward": 0.2708333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 521
    },
    {
      "completion_length": 791.6250305175781,
      "epoch": 0.6365853658536585,
      "grad_norm": 0.08019955456256866,
      "kl": 0.02874755859375,
      "learning_rate": 1.0535109549008482e-06,
      "loss": 0.0011,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 522
    },
    {
      "completion_length": 808.9791870117188,
      "epoch": 0.6378048780487805,
      "grad_norm": 0.3111408054828644,
      "kl": 0.03118896484375,
      "learning_rate": 1.0474191021072117e-06,
      "loss": -0.0016,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 523
    },
    {
      "completion_length": 816.1458435058594,
      "epoch": 0.6390243902439025,
      "grad_norm": 0.4471191167831421,
      "kl": 0.02532958984375,
      "learning_rate": 1.0413354506114434e-06,
      "loss": -0.0062,
      "reward": 0.1041666679084301,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 524
    },
    {
      "completion_length": 682.3750305175781,
      "epoch": 0.6402439024390244,
      "grad_norm": 0.44450777769088745,
      "kl": 0.025634765625,
      "learning_rate": 1.0352601106564607e-06,
      "loss": 0.0312,
      "reward": 0.20833333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.20833333395421505,
      "rewards/format_reward": 0.0,
      "step": 525
    },
    {
      "completion_length": 646.6875305175781,
      "epoch": 0.6414634146341464,
      "grad_norm": 0.5126345157623291,
      "kl": 0.0330810546875,
      "learning_rate": 1.0291931923345635e-06,
      "loss": 0.0703,
      "reward": 0.1666666679084301,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 526
    },
    {
      "completion_length": 702.7916870117188,
      "epoch": 0.6426829268292683,
      "grad_norm": 0.5051405429840088,
      "kl": 0.02252197265625,
      "learning_rate": 1.0231348055854452e-06,
      "loss": 0.0099,
      "reward": 0.2083333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/format_reward": 0.0,
      "step": 527
    },
    {
      "completion_length": 879.0625,
      "epoch": 0.6439024390243903,
      "grad_norm": 0.31973937153816223,
      "kl": 0.03155517578125,
      "learning_rate": 1.0170850601941937e-06,
      "loss": -0.0368,
      "reward": 0.2291666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 528
    },
    {
      "completion_length": 880.9791870117188,
      "epoch": 0.6451219512195122,
      "grad_norm": 0.25314292311668396,
      "kl": 0.0260009765625,
      "learning_rate": 1.0110440657893074e-06,
      "loss": -0.008,
      "reward": 0.3541666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.3541666716337204,
      "rewards/format_reward": 0.0,
      "step": 529
    },
    {
      "completion_length": 1073.8750610351562,
      "epoch": 0.6463414634146342,
      "grad_norm": 0.4375230669975281,
      "kl": 0.02862548828125,
      "learning_rate": 1.0050119318407061e-06,
      "loss": -0.0044,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 530
    },
    {
      "completion_length": 703.3750305175781,
      "epoch": 0.6475609756097561,
      "grad_norm": 0.4382186233997345,
      "kl": 0.0386962890625,
      "learning_rate": 9.98988767657747e-07,
      "loss": 0.0117,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 531
    },
    {
      "completion_length": 947.1041870117188,
      "epoch": 0.6487804878048781,
      "grad_norm": 0.3478910028934479,
      "kl": 0.02777099609375,
      "learning_rate": 9.929746823872462e-07,
      "loss": 0.0117,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 532
    },
    {
      "completion_length": 968.8333740234375,
      "epoch": 0.65,
      "grad_norm": 0.05612090975046158,
      "kl": 0.03887939453125,
      "learning_rate": 9.86969785011497e-07,
      "loss": 0.001,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 533
    },
    {
      "completion_length": 907.7500305175781,
      "epoch": 0.651219512195122,
      "grad_norm": 0.5268975496292114,
      "kl": 0.02972412109375,
      "learning_rate": 9.809741843462994e-07,
      "loss": 0.0468,
      "reward": 0.12500000558793545,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 534
    },
    {
      "completion_length": 785.0833435058594,
      "epoch": 0.6524390243902439,
      "grad_norm": 0.47635316848754883,
      "kl": 0.02850341796875,
      "learning_rate": 9.749879890389848e-07,
      "loss": -0.017,
      "reward": 0.1666666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 535
    },
    {
      "completion_length": 847.6875305175781,
      "epoch": 0.6536585365853659,
      "grad_norm": 0.18279653787612915,
      "kl": 0.02557373046875,
      "learning_rate": 9.690113075664488e-07,
      "loss": -0.002,
      "reward": 0.14583333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 536
    },
    {
      "completion_length": 901.2083740234375,
      "epoch": 0.6548780487804878,
      "grad_norm": 0.5397875905036926,
      "kl": 0.0302734375,
      "learning_rate": 9.630442482331853e-07,
      "loss": 0.0856,
      "reward": 0.18750000558793545,
      "reward_std": 0.25259073823690414,
      "rewards/accuracy_reward": 0.18750000558793545,
      "rewards/format_reward": 0.0,
      "step": 537
    },
    {
      "completion_length": 1034.0208435058594,
      "epoch": 0.6560975609756098,
      "grad_norm": 0.3381046950817108,
      "kl": 0.0242919921875,
      "learning_rate": 9.57086919169323e-07,
      "loss": 0.042,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 538
    },
    {
      "completion_length": 997.8125305175781,
      "epoch": 0.6573170731707317,
      "grad_norm": 0.64218670129776,
      "kl": 0.03057861328125,
      "learning_rate": 9.511394283286686e-07,
      "loss": 0.1128,
      "reward": 0.2083333432674408,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 539
    },
    {
      "completion_length": 717.875,
      "epoch": 0.6585365853658537,
      "grad_norm": 0.3277949392795563,
      "kl": 0.02752685546875,
      "learning_rate": 9.452018834867454e-07,
      "loss": 0.0327,
      "reward": 0.1666666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 540
    },
    {
      "completion_length": 1029.4583740234375,
      "epoch": 0.6597560975609756,
      "grad_norm": 0.24999314546585083,
      "kl": 0.025390625,
      "learning_rate": 9.392743922388469e-07,
      "loss": 0.0099,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 541
    },
    {
      "completion_length": 912.1458435058594,
      "epoch": 0.6609756097560976,
      "grad_norm": 0.1514778882265091,
      "kl": 0.02947998046875,
      "learning_rate": 9.333570619980818e-07,
      "loss": 0.0011,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 542
    },
    {
      "completion_length": 840.1458740234375,
      "epoch": 0.6621951219512195,
      "grad_norm": 0.3129235804080963,
      "kl": 0.02838134765625,
      "learning_rate": 9.27449999993429e-07,
      "loss": -0.0009,
      "reward": 0.1250000037252903,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 543
    },
    {
      "completion_length": 928.0000305175781,
      "epoch": 0.6634146341463415,
      "grad_norm": 0.4312836229801178,
      "kl": 0.02886962890625,
      "learning_rate": 9.215533132677969e-07,
      "loss": 0.0046,
      "reward": 0.229166679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/format_reward": 0.0,
      "step": 544
    },
    {
      "completion_length": 765.4167175292969,
      "epoch": 0.6646341463414634,
      "grad_norm": 0.7276366949081421,
      "kl": 0.02789306640625,
      "learning_rate": 9.156671086760788e-07,
      "loss": 0.0027,
      "reward": 0.2291666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2291666679084301,
      "rewards/format_reward": 0.0,
      "step": 545
    },
    {
      "completion_length": 906.8958435058594,
      "epoch": 0.6658536585365854,
      "grad_norm": 0.4692193269729614,
      "kl": 0.057373046875,
      "learning_rate": 9.097914928832228e-07,
      "loss": -0.084,
      "reward": 0.2708333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2708333358168602,
      "rewards/format_reward": 0.0,
      "step": 546
    },
    {
      "completion_length": 1031.8333740234375,
      "epoch": 0.6670731707317074,
      "grad_norm": 0.21384288370609283,
      "kl": 0.0313720703125,
      "learning_rate": 9.039265723622923e-07,
      "loss": 0.0179,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 547
    },
    {
      "completion_length": 984.6875,
      "epoch": 0.6682926829268293,
      "grad_norm": 0.32777276635169983,
      "kl": 0.03143310546875,
      "learning_rate": 8.980724533925419e-07,
      "loss": 0.0412,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 548
    },
    {
      "completion_length": 822.2291870117188,
      "epoch": 0.6695121951219513,
      "grad_norm": 0.06951643526554108,
      "kl": 0.02813720703125,
      "learning_rate": 8.922292420574888e-07,
      "loss": 0.0011,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 549
    },
    {
      "completion_length": 1072.8333740234375,
      "epoch": 0.6707317073170732,
      "grad_norm": 0.33174851536750793,
      "kl": 0.03363037109375,
      "learning_rate": 8.863970442429902e-07,
      "loss": 0.0145,
      "reward": 0.06250000186264515,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 550
    },
    {
      "completion_length": 718.5416870117188,
      "epoch": 0.6719512195121952,
      "grad_norm": 0.3611091375350952,
      "kl": 0.0299072265625,
      "learning_rate": 8.805759656353275e-07,
      "loss": 0.0043,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 551
    },
    {
      "completion_length": 1112.2917175292969,
      "epoch": 0.6731707317073171,
      "grad_norm": 0.23453758656978607,
      "kl": 0.03106689453125,
      "learning_rate": 8.74766111719286e-07,
      "loss": 0.0303,
      "reward": 0.1875000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 552
    },
    {
      "completion_length": 1011.8333740234375,
      "epoch": 0.6743902439024391,
      "grad_norm": 0.4298003613948822,
      "kl": 0.02471923828125,
      "learning_rate": 8.689675877762487e-07,
      "loss": 0.0376,
      "reward": 0.1875000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 553
    },
    {
      "completion_length": 880.875,
      "epoch": 0.675609756097561,
      "grad_norm": 0.2480362057685852,
      "kl": 0.02435302734375,
      "learning_rate": 8.631804988822859e-07,
      "loss": 0.0226,
      "reward": 0.1458333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/format_reward": 0.0,
      "step": 554
    },
    {
      "completion_length": 931.6666870117188,
      "epoch": 0.676829268292683,
      "grad_norm": 0.45659956336021423,
      "kl": 0.0318603515625,
      "learning_rate": 8.574049499062509e-07,
      "loss": 0.0662,
      "reward": 0.458333358168602,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.458333358168602,
      "rewards/format_reward": 0.0,
      "step": 555
    },
    {
      "completion_length": 1066.6458435058594,
      "epoch": 0.6780487804878049,
      "grad_norm": 0.3029688894748688,
      "kl": 0.02972412109375,
      "learning_rate": 8.516410455078793e-07,
      "loss": 0.0435,
      "reward": 0.1666666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 556
    },
    {
      "completion_length": 1015.1042175292969,
      "epoch": 0.6792682926829269,
      "grad_norm": 0.43346521258354187,
      "kl": 0.026611328125,
      "learning_rate": 8.458888901358958e-07,
      "loss": 0.0408,
      "reward": 0.1666666716337204,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 557
    },
    {
      "completion_length": 1045.7917175292969,
      "epoch": 0.6804878048780488,
      "grad_norm": 0.21469931304454803,
      "kl": 0.0299072265625,
      "learning_rate": 8.401485880261151e-07,
      "loss": 0.0019,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 558
    },
    {
      "completion_length": 825.8125305175781,
      "epoch": 0.6817073170731708,
      "grad_norm": 0.052236396819353104,
      "kl": 0.021240234375,
      "learning_rate": 8.344202431995604e-07,
      "loss": 0.0008,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 559
    },
    {
      "completion_length": 1029.2500610351562,
      "epoch": 0.6829268292682927,
      "grad_norm": 0.06884250044822693,
      "kl": 0.03179931640625,
      "learning_rate": 8.287039594605737e-07,
      "loss": 0.0012,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 560
    },
    {
      "completion_length": 837.125,
      "epoch": 0.6841463414634147,
      "grad_norm": 0.8303191661834717,
      "kl": 0.0313720703125,
      "learning_rate": 8.229998403949348e-07,
      "loss": 0.0064,
      "reward": 0.0625,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 561
    },
    {
      "completion_length": 1083.7708740234375,
      "epoch": 0.6853658536585366,
      "grad_norm": 0.4762817323207855,
      "kl": 0.03076171875,
      "learning_rate": 8.173079893679873e-07,
      "loss": -0.0835,
      "reward": 0.1458333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 562
    },
    {
      "completion_length": 942.0000305175781,
      "epoch": 0.6865853658536586,
      "grad_norm": 0.39529234170913696,
      "kl": 0.02484130859375,
      "learning_rate": 8.116285095227604e-07,
      "loss": 0.0101,
      "reward": 0.06250000186264515,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 563
    },
    {
      "completion_length": 1088.4166870117188,
      "epoch": 0.6878048780487804,
      "grad_norm": 0.35131967067718506,
      "kl": 0.0321044921875,
      "learning_rate": 8.05961503778108e-07,
      "loss": -0.0654,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 564
    },
    {
      "completion_length": 1007.2291870117188,
      "epoch": 0.6890243902439024,
      "grad_norm": 0.12090548872947693,
      "kl": 0.02606201171875,
      "learning_rate": 8.003070748268339e-07,
      "loss": 0.0043,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 565
    },
    {
      "completion_length": 940.6250305175781,
      "epoch": 0.6902439024390243,
      "grad_norm": 0.33971157670021057,
      "kl": 0.02880859375,
      "learning_rate": 7.94665325133837e-07,
      "loss": -0.0299,
      "reward": 0.1875000074505806,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 566
    },
    {
      "completion_length": 1149.3958435058594,
      "epoch": 0.6914634146341463,
      "grad_norm": 0.5320213437080383,
      "kl": 0.0594482421875,
      "learning_rate": 7.890363569342539e-07,
      "loss": 0.0018,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 567
    },
    {
      "completion_length": 644.1041870117188,
      "epoch": 0.6926829268292682,
      "grad_norm": 0.6505311727523804,
      "kl": 0.03271484375,
      "learning_rate": 7.834202722316054e-07,
      "loss": -0.0397,
      "reward": 0.12500000558793545,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 568
    },
    {
      "completion_length": 821.2500305175781,
      "epoch": 0.6939024390243902,
      "grad_norm": 0.28424742817878723,
      "kl": 0.02581787109375,
      "learning_rate": 7.778171727959482e-07,
      "loss": -0.0189,
      "reward": 0.2083333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 569
    },
    {
      "completion_length": 986.1458740234375,
      "epoch": 0.6951219512195121,
      "grad_norm": 0.3112906217575073,
      "kl": 0.02734375,
      "learning_rate": 7.722271601620293e-07,
      "loss": -0.0013,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 570
    },
    {
      "completion_length": 873.5833435058594,
      "epoch": 0.6963414634146341,
      "grad_norm": 0.04128978028893471,
      "kl": 0.0260009765625,
      "learning_rate": 7.6665033562745e-07,
      "loss": 0.0008,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 571
    },
    {
      "completion_length": 774.3750305175781,
      "epoch": 0.697560975609756,
      "grad_norm": 0.4388665556907654,
      "kl": 0.0338134765625,
      "learning_rate": 7.610868002508248e-07,
      "loss": -0.0205,
      "reward": 0.2083333432674408,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 572
    },
    {
      "completion_length": 771.5000305175781,
      "epoch": 0.698780487804878,
      "grad_norm": 5.242128372192383,
      "kl": 0.05743408203125,
      "learning_rate": 7.555366548499551e-07,
      "loss": 0.0609,
      "reward": 0.2916666865348816,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2916666865348816,
      "rewards/format_reward": 0.0,
      "step": 573
    },
    {
      "completion_length": 815.7916870117188,
      "epoch": 0.7,
      "grad_norm": 0.44563284516334534,
      "kl": 0.02752685546875,
      "learning_rate": 7.500000000000003e-07,
      "loss": 0.0092,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 574
    },
    {
      "completion_length": 963.7708740234375,
      "epoch": 0.7012195121951219,
      "grad_norm": 0.32968661189079285,
      "kl": 0.02679443359375,
      "learning_rate": 7.444769360316534e-07,
      "loss": 0.0105,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 575
    },
    {
      "completion_length": 969.4375,
      "epoch": 0.7024390243902439,
      "grad_norm": 0.4815066158771515,
      "kl": 0.025390625,
      "learning_rate": 7.389675630293269e-07,
      "loss": -0.0301,
      "reward": 0.1458333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 576
    },
    {
      "completion_length": 816.0000305175781,
      "epoch": 0.7036585365853658,
      "grad_norm": 0.2536729574203491,
      "kl": 0.03240966796875,
      "learning_rate": 7.334719808293342e-07,
      "loss": 0.0069,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 577
    },
    {
      "completion_length": 830.5833435058594,
      "epoch": 0.7048780487804878,
      "grad_norm": 0.3585840165615082,
      "kl": 0.02716064453125,
      "learning_rate": 7.279902890180865e-07,
      "loss": 0.0016,
      "reward": 0.25000000558793545,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.25000000558793545,
      "rewards/format_reward": 0.0,
      "step": 578
    },
    {
      "completion_length": 932.3750305175781,
      "epoch": 0.7060975609756097,
      "grad_norm": 0.5187066793441772,
      "kl": 0.02978515625,
      "learning_rate": 7.225225869302818e-07,
      "loss": -0.0782,
      "reward": 0.2708333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 579
    },
    {
      "completion_length": 1005.7083740234375,
      "epoch": 0.7073170731707317,
      "grad_norm": 0.313052237033844,
      "kl": 0.0267333984375,
      "learning_rate": 7.1706897364711e-07,
      "loss": 0.0132,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 580
    },
    {
      "completion_length": 745.5416870117188,
      "epoch": 0.7085365853658536,
      "grad_norm": 0.38321879506111145,
      "kl": 0.03131103515625,
      "learning_rate": 7.116295479944533e-07,
      "loss": 0.0082,
      "reward": 0.16666667722165585,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 581
    },
    {
      "completion_length": 1140.0000305175781,
      "epoch": 0.7097560975609756,
      "grad_norm": 0.6155075430870056,
      "kl": 0.03070068359375,
      "learning_rate": 7.062044085410991e-07,
      "loss": -0.084,
      "reward": 0.1666666716337204,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 582
    },
    {
      "completion_length": 850.8958435058594,
      "epoch": 0.7109756097560975,
      "grad_norm": 0.4988707900047302,
      "kl": 0.02691650390625,
      "learning_rate": 7.007936535969516e-07,
      "loss": 0.0107,
      "reward": 0.08333333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 583
    },
    {
      "completion_length": 1001.2083740234375,
      "epoch": 0.7121951219512195,
      "grad_norm": 0.4897194504737854,
      "kl": 0.03070068359375,
      "learning_rate": 6.9539738121125e-07,
      "loss": 0.0243,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 584
    },
    {
      "completion_length": 866.8125305175781,
      "epoch": 0.7134146341463414,
      "grad_norm": 0.5088192224502563,
      "kl": 0.03009033203125,
      "learning_rate": 6.90015689170794e-07,
      "loss": 0.05,
      "reward": 0.1458333395421505,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 585
    },
    {
      "completion_length": 1086.8958740234375,
      "epoch": 0.7146341463414634,
      "grad_norm": 0.391956090927124,
      "kl": 0.0238037109375,
      "learning_rate": 6.846486749981684e-07,
      "loss": 0.0635,
      "reward": 0.1666666679084301,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 586
    },
    {
      "completion_length": 1109.1875610351562,
      "epoch": 0.7158536585365853,
      "grad_norm": 0.5406737923622131,
      "kl": 0.03082275390625,
      "learning_rate": 6.792964359499794e-07,
      "loss": 0.0022,
      "reward": 0.2083333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 587
    },
    {
      "completion_length": 965.4583740234375,
      "epoch": 0.7170731707317073,
      "grad_norm": 0.472937673330307,
      "kl": 0.025146484375,
      "learning_rate": 6.739590690150903e-07,
      "loss": 0.027,
      "reward": 0.3333333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.0,
      "step": 588
    },
    {
      "completion_length": 740.2708435058594,
      "epoch": 0.7182926829268292,
      "grad_norm": 0.7443292140960693,
      "kl": 0.025390625,
      "learning_rate": 6.686366709128632e-07,
      "loss": 0.0367,
      "reward": 0.1458333395421505,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 589
    },
    {
      "completion_length": 623.6666870117188,
      "epoch": 0.7195121951219512,
      "grad_norm": 0.3671242594718933,
      "kl": 0.027099609375,
      "learning_rate": 6.633293380914087e-07,
      "loss": -0.0144,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 590
    },
    {
      "completion_length": 743.3541870117188,
      "epoch": 0.7207317073170731,
      "grad_norm": 0.4817129969596863,
      "kl": 0.0281982421875,
      "learning_rate": 6.580371667258349e-07,
      "loss": 0.0248,
      "reward": 0.1666666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 591
    },
    {
      "completion_length": 914.7708435058594,
      "epoch": 0.7219512195121951,
      "grad_norm": 0.6760240197181702,
      "kl": 0.03094482421875,
      "learning_rate": 6.527602527165099e-07,
      "loss": 0.0382,
      "reward": 0.0625,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 592
    },
    {
      "completion_length": 1096.8333740234375,
      "epoch": 0.723170731707317,
      "grad_norm": 0.40590059757232666,
      "kl": 0.0230712890625,
      "learning_rate": 6.474986916873168e-07,
      "loss": 0.0277,
      "reward": 0.1875000111758709,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/format_reward": 0.0,
      "step": 593
    },
    {
      "completion_length": 762.5625305175781,
      "epoch": 0.724390243902439,
      "grad_norm": 0.23105137050151825,
      "kl": 0.033935546875,
      "learning_rate": 6.422525789839273e-07,
      "loss": 0.0089,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 594
    },
    {
      "completion_length": 787.4375305175781,
      "epoch": 0.725609756097561,
      "grad_norm": 0.48707565665245056,
      "kl": 0.02789306640625,
      "learning_rate": 6.370220096720692e-07,
      "loss": -0.0576,
      "reward": 0.12500000558793545,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 595
    },
    {
      "completion_length": 706.9166870117188,
      "epoch": 0.7268292682926829,
      "grad_norm": 0.042059846222400665,
      "kl": 0.02459716796875,
      "learning_rate": 6.318070785358074e-07,
      "loss": 0.0009,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 596
    },
    {
      "completion_length": 860.6041870117188,
      "epoch": 0.7280487804878049,
      "grad_norm": 0.5042432546615601,
      "kl": 0.028564453125,
      "learning_rate": 6.266078800758249e-07,
      "loss": -0.0065,
      "reward": 0.2500000149011612,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 597
    },
    {
      "completion_length": 914.4583740234375,
      "epoch": 0.7292682926829268,
      "grad_norm": 0.3709144592285156,
      "kl": 0.029052734375,
      "learning_rate": 6.214245085077078e-07,
      "loss": 0.0667,
      "reward": 0.1875000074505806,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 598
    },
    {
      "completion_length": 767.2708740234375,
      "epoch": 0.7304878048780488,
      "grad_norm": 0.6649799346923828,
      "kl": 0.02618408203125,
      "learning_rate": 6.162570577602433e-07,
      "loss": -0.0633,
      "reward": 0.1458333395421505,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 599
    },
    {
      "completion_length": 687.1041870117188,
      "epoch": 0.7317073170731707,
      "grad_norm": 0.3504408299922943,
      "kl": 0.027099609375,
      "learning_rate": 6.11105621473712e-07,
      "loss": 0.0053,
      "reward": 0.1875,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 600
    },
    {
      "completion_length": 663.4791870117188,
      "epoch": 0.7329268292682927,
      "grad_norm": 0.33722177147865295,
      "kl": 0.031494140625,
      "learning_rate": 6.059702929981952e-07,
      "loss": 0.0021,
      "reward": 0.1041666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 601
    },
    {
      "completion_length": 927.5000305175781,
      "epoch": 0.7341463414634146,
      "grad_norm": 0.20690011978149414,
      "kl": 0.029296875,
      "learning_rate": 6.008511653918821e-07,
      "loss": 0.0659,
      "reward": 0.1041666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 602
    },
    {
      "completion_length": 945.1458740234375,
      "epoch": 0.7353658536585366,
      "grad_norm": 0.3113418519496918,
      "kl": 0.02423095703125,
      "learning_rate": 5.957483314193813e-07,
      "loss": -0.0218,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 603
    },
    {
      "completion_length": 1067.1250305175781,
      "epoch": 0.7365853658536585,
      "grad_norm": 0.16814640164375305,
      "kl": 0.02593994140625,
      "learning_rate": 5.906618835500434e-07,
      "loss": -0.0261,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 604
    },
    {
      "completion_length": 867.8333435058594,
      "epoch": 0.7378048780487805,
      "grad_norm": 0.46364933252334595,
      "kl": 0.0235595703125,
      "learning_rate": 5.855919139562815e-07,
      "loss": 0.0116,
      "reward": 0.1666666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 605
    },
    {
      "completion_length": 735.8750305175781,
      "epoch": 0.7390243902439024,
      "grad_norm": 0.2824901044368744,
      "kl": 0.025146484375,
      "learning_rate": 5.805385145119064e-07,
      "loss": 0.0078,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 606
    },
    {
      "completion_length": 648.3541870117188,
      "epoch": 0.7402439024390244,
      "grad_norm": 0.21588559448719025,
      "kl": 0.0252685546875,
      "learning_rate": 5.755017767904543e-07,
      "loss": -0.0065,
      "reward": 0.2708333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 607
    },
    {
      "completion_length": 936.625,
      "epoch": 0.7414634146341463,
      "grad_norm": 0.5255969166755676,
      "kl": 0.02447509765625,
      "learning_rate": 5.704817920635348e-07,
      "loss": 0.0084,
      "reward": 0.10416666977107525,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 608
    },
    {
      "completion_length": 646.2916870117188,
      "epoch": 0.7426829268292683,
      "grad_norm": 0.3593496084213257,
      "kl": 0.02374267578125,
      "learning_rate": 5.654786512991705e-07,
      "loss": -0.0195,
      "reward": 0.20833333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.20833333395421505,
      "rewards/format_reward": 0.0,
      "step": 609
    },
    {
      "completion_length": 762.4791870117188,
      "epoch": 0.7439024390243902,
      "grad_norm": 0.5494648814201355,
      "kl": 0.02764892578125,
      "learning_rate": 5.60492445160154e-07,
      "loss": 0.0277,
      "reward": 0.1458333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 610
    },
    {
      "completion_length": 615.0625,
      "epoch": 0.7451219512195122,
      "grad_norm": 0.4446452558040619,
      "kl": 0.02777099609375,
      "learning_rate": 5.555232640024021e-07,
      "loss": 0.0182,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 611
    },
    {
      "completion_length": 1102.7292175292969,
      "epoch": 0.7463414634146341,
      "grad_norm": 0.5812187194824219,
      "kl": 0.02154541015625,
      "learning_rate": 5.505711978733175e-07,
      "loss": 0.0239,
      "reward": 0.2291666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 612
    },
    {
      "completion_length": 718.625,
      "epoch": 0.7475609756097561,
      "grad_norm": 0.34378528594970703,
      "kl": 0.02716064453125,
      "learning_rate": 5.456363365101606e-07,
      "loss": 0.0557,
      "reward": 0.0833333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 613
    },
    {
      "completion_length": 839.0625,
      "epoch": 0.748780487804878,
      "grad_norm": 0.28123462200164795,
      "kl": 0.0296630859375,
      "learning_rate": 5.407187693384191e-07,
      "loss": -0.0126,
      "reward": 0.1666666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 614
    },
    {
      "completion_length": 853.4166870117188,
      "epoch": 0.75,
      "grad_norm": 0.2266978621482849,
      "kl": 0.02679443359375,
      "learning_rate": 5.358185854701909e-07,
      "loss": 0.0021,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 615
    },
    {
      "completion_length": 841.8541870117188,
      "epoch": 0.751219512195122,
      "grad_norm": 0.3853289783000946,
      "kl": 0.030029296875,
      "learning_rate": 5.309358737025682e-07,
      "loss": -0.006,
      "reward": 0.06250000186264515,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 616
    },
    {
      "completion_length": 699.5416870117188,
      "epoch": 0.7524390243902439,
      "grad_norm": 0.16332949697971344,
      "kl": 0.02691650390625,
      "learning_rate": 5.26070722516028e-07,
      "loss": -0.0019,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 617
    },
    {
      "completion_length": 603.0833435058594,
      "epoch": 0.7536585365853659,
      "grad_norm": 0.3333573043346405,
      "kl": 0.02734375,
      "learning_rate": 5.21223220072828e-07,
      "loss": 0.0047,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 618
    },
    {
      "completion_length": 825.9791870117188,
      "epoch": 0.7548780487804878,
      "grad_norm": 0.4847300350666046,
      "kl": 0.02606201171875,
      "learning_rate": 5.163934542154106e-07,
      "loss": -0.0903,
      "reward": 0.14583333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 619
    },
    {
      "completion_length": 893.6875,
      "epoch": 0.7560975609756098,
      "grad_norm": 0.3289225995540619,
      "kl": 0.0340576171875,
      "learning_rate": 5.115815124648103e-07,
      "loss": -0.023,
      "reward": 0.0625,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 620
    },
    {
      "completion_length": 945.3333740234375,
      "epoch": 0.7573170731707317,
      "grad_norm": 0.35044562816619873,
      "kl": 0.0244140625,
      "learning_rate": 5.067874820190684e-07,
      "loss": -0.0447,
      "reward": 0.1458333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/format_reward": 0.0,
      "step": 621
    },
    {
      "completion_length": 774.5625305175781,
      "epoch": 0.7585365853658537,
      "grad_norm": 0.23236961662769318,
      "kl": 0.02313232421875,
      "learning_rate": 5.020114497516521e-07,
      "loss": 0.0038,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 622
    },
    {
      "completion_length": 845.3541870117188,
      "epoch": 0.7597560975609756,
      "grad_norm": 0.5932947397232056,
      "kl": 0.02593994140625,
      "learning_rate": 4.972535022098795e-07,
      "loss": -0.0275,
      "reward": 0.3125000149011612,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.3125000149011612,
      "rewards/format_reward": 0.0,
      "step": 623
    },
    {
      "completion_length": 858.6875305175781,
      "epoch": 0.7609756097560976,
      "grad_norm": 0.04889252781867981,
      "kl": 0.02398681640625,
      "learning_rate": 4.925137256133533e-07,
      "loss": 0.0009,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 624
    },
    {
      "completion_length": 679.8333740234375,
      "epoch": 0.7621951219512195,
      "grad_norm": 0.5832393169403076,
      "kl": 0.02545166015625,
      "learning_rate": 4.877922058523971e-07,
      "loss": 0.022,
      "reward": 0.2083333432674408,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 625
    },
    {
      "completion_length": 909.9792175292969,
      "epoch": 0.7634146341463415,
      "grad_norm": 0.5005730986595154,
      "kl": 0.0291748046875,
      "learning_rate": 4.830890284864985e-07,
      "loss": 0.005,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 626
    },
    {
      "completion_length": 749.4583740234375,
      "epoch": 0.7646341463414634,
      "grad_norm": 0.39322492480278015,
      "kl": 0.0283203125,
      "learning_rate": 4.784042787427605e-07,
      "loss": -0.0427,
      "reward": 0.2083333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 627
    },
    {
      "completion_length": 819.6250305175781,
      "epoch": 0.7658536585365854,
      "grad_norm": 0.3320612609386444,
      "kl": 0.0233154296875,
      "learning_rate": 4.7373804151435456e-07,
      "loss": -0.0096,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 628
    },
    {
      "completion_length": 822.9791870117188,
      "epoch": 0.7670731707317073,
      "grad_norm": 0.23255078494548798,
      "kl": 0.02508544921875,
      "learning_rate": 4.6909040135898463e-07,
      "loss": 0.0098,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 629
    },
    {
      "completion_length": 744.3958740234375,
      "epoch": 0.7682926829268293,
      "grad_norm": 0.3943890333175659,
      "kl": 0.02325439453125,
      "learning_rate": 4.6446144249735345e-07,
      "loss": 0.0175,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 630
    },
    {
      "completion_length": 929.8333435058594,
      "epoch": 0.7695121951219512,
      "grad_norm": 0.2944657802581787,
      "kl": 0.02777099609375,
      "learning_rate": 4.598512488116376e-07,
      "loss": 0.003,
      "reward": 0.25,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.0,
      "step": 631
    },
    {
      "completion_length": 699.0416870117188,
      "epoch": 0.7707317073170732,
      "grad_norm": 0.5173816084861755,
      "kl": 0.02801513671875,
      "learning_rate": 4.552599038439651e-07,
      "loss": 0.0126,
      "reward": 0.1250000037252903,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 632
    },
    {
      "completion_length": 850.4166870117188,
      "epoch": 0.7719512195121951,
      "grad_norm": 0.46213850378990173,
      "kl": 0.0316162109375,
      "learning_rate": 4.506874907949034e-07,
      "loss": 0.0377,
      "reward": 0.0625,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 633
    },
    {
      "completion_length": 648.7500305175781,
      "epoch": 0.7731707317073171,
      "grad_norm": 0.3204668164253235,
      "kl": 0.02276611328125,
      "learning_rate": 4.461340925219522e-07,
      "loss": -0.0045,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 634
    },
    {
      "completion_length": 1001.9375305175781,
      "epoch": 0.774390243902439,
      "grad_norm": 0.1694246381521225,
      "kl": 0.02435302734375,
      "learning_rate": 4.4159979153804064e-07,
      "loss": -0.0036,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 635
    },
    {
      "completion_length": 636.1875,
      "epoch": 0.775609756097561,
      "grad_norm": 0.518161416053772,
      "kl": 0.02294921875,
      "learning_rate": 4.3708467001003305e-07,
      "loss": 0.0107,
      "reward": 0.1875000111758709,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/format_reward": 0.0,
      "step": 636
    },
    {
      "completion_length": 979.5208740234375,
      "epoch": 0.776829268292683,
      "grad_norm": 0.22282478213310242,
      "kl": 0.024871826171875,
      "learning_rate": 4.3258880975723777e-07,
      "loss": 0.0294,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 637
    },
    {
      "completion_length": 995.0625305175781,
      "epoch": 0.7780487804878049,
      "grad_norm": 0.21094514429569244,
      "kl": 0.02630615234375,
      "learning_rate": 4.2811229224992807e-07,
      "loss": 0.0009,
      "reward": 0.2291666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 638
    },
    {
      "completion_length": 774.4375305175781,
      "epoch": 0.7792682926829269,
      "grad_norm": 0.5504517555236816,
      "kl": 0.026123046875,
      "learning_rate": 4.2365519860786316e-07,
      "loss": 0.0057,
      "reward": 0.1458333395421505,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 639
    },
    {
      "completion_length": 861.0625,
      "epoch": 0.7804878048780488,
      "grad_norm": 0.11976215988397598,
      "kl": 0.0213623046875,
      "learning_rate": 4.192176095988196e-07,
      "loss": 0.002,
      "reward": 0.2083333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 640
    },
    {
      "completion_length": 867.6875305175781,
      "epoch": 0.7817073170731708,
      "grad_norm": 0.31083089113235474,
      "kl": 0.0318603515625,
      "learning_rate": 4.147996056371258e-07,
      "loss": 0.006,
      "reward": 0.12500000558793545,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 641
    },
    {
      "completion_length": 666.8333435058594,
      "epoch": 0.7829268292682927,
      "grad_norm": 0.12398859858512878,
      "kl": 0.02935791015625,
      "learning_rate": 4.1040126678220656e-07,
      "loss": 0.001,
      "reward": 0.125,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 642
    },
    {
      "completion_length": 733.7291870117188,
      "epoch": 0.7841463414634147,
      "grad_norm": 0.35403457283973694,
      "kl": 0.0262451171875,
      "learning_rate": 4.060226727371327e-07,
      "loss": -0.0117,
      "reward": 0.3125000149011612,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.3125000149011612,
      "rewards/format_reward": 0.0,
      "step": 643
    },
    {
      "completion_length": 926.9791870117188,
      "epoch": 0.7853658536585366,
      "grad_norm": 0.22392979264259338,
      "kl": 0.02423095703125,
      "learning_rate": 4.0166390284717475e-07,
      "loss": -0.0329,
      "reward": 0.1666666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 644
    },
    {
      "completion_length": 881.4583740234375,
      "epoch": 0.7865853658536586,
      "grad_norm": 0.27586719393730164,
      "kl": 0.02484130859375,
      "learning_rate": 3.973250360983677e-07,
      "loss": 0.0033,
      "reward": 0.1041666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 645
    },
    {
      "completion_length": 817.9375305175781,
      "epoch": 0.7878048780487805,
      "grad_norm": 0.366715669631958,
      "kl": 0.0218505859375,
      "learning_rate": 3.930061511160762e-07,
      "loss": -0.0048,
      "reward": 0.1458333395421505,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 646
    },
    {
      "completion_length": 749.5625305175781,
      "epoch": 0.7890243902439025,
      "grad_norm": 0.3225473165512085,
      "kl": 0.0262451171875,
      "learning_rate": 3.8870732616357364e-07,
      "loss": 0.0126,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 647
    },
    {
      "completion_length": 922.1041870117188,
      "epoch": 0.7902439024390244,
      "grad_norm": 0.49840256571769714,
      "kl": 0.02642822265625,
      "learning_rate": 3.8442863914062065e-07,
      "loss": -0.0015,
      "reward": 0.1041666679084301,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 648
    },
    {
      "completion_length": 629.3541870117188,
      "epoch": 0.7914634146341464,
      "grad_norm": 0.5496554970741272,
      "kl": 0.02532958984375,
      "learning_rate": 3.8017016758205597e-07,
      "loss": -0.0105,
      "reward": 0.2291666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 649
    },
    {
      "completion_length": 666.8958740234375,
      "epoch": 0.7926829268292683,
      "grad_norm": 0.45331189036369324,
      "kl": 0.031982421875,
      "learning_rate": 3.759319886563905e-07,
      "loss": -0.0191,
      "reward": 0.25,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.0,
      "step": 650
    },
    {
      "completion_length": 1043.6250610351562,
      "epoch": 0.7939024390243903,
      "grad_norm": 0.46646979451179504,
      "kl": 0.024169921875,
      "learning_rate": 3.7171417916440714e-07,
      "loss": 0.1326,
      "reward": 0.1250000037252903,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 651
    },
    {
      "completion_length": 1071.1875610351562,
      "epoch": 0.7951219512195122,
      "grad_norm": 0.3821835517883301,
      "kl": 0.022705078125,
      "learning_rate": 3.6751681553777236e-07,
      "loss": 0.0294,
      "reward": 0.2291666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 652
    },
    {
      "completion_length": 844.9791870117188,
      "epoch": 0.7963414634146342,
      "grad_norm": 0.30517253279685974,
      "kl": 0.0240478515625,
      "learning_rate": 3.633399738376491e-07,
      "loss": 0.0046,
      "reward": 0.0416666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 653
    },
    {
      "completion_length": 838.4792175292969,
      "epoch": 0.7975609756097561,
      "grad_norm": 0.5359827876091003,
      "kl": 0.03106689453125,
      "learning_rate": 3.5918372975331933e-07,
      "loss": 0.0247,
      "reward": 0.229166679084301,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/format_reward": 0.0,
      "step": 654
    },
    {
      "completion_length": 1229.2500610351562,
      "epoch": 0.7987804878048781,
      "grad_norm": 0.46620362997055054,
      "kl": 0.0257568359375,
      "learning_rate": 3.5504815860081056e-07,
      "loss": -0.0116,
      "reward": 0.1875000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 655
    },
    {
      "completion_length": 768.3125,
      "epoch": 0.8,
      "grad_norm": 0.5677731037139893,
      "kl": 0.03173828125,
      "learning_rate": 3.5093333532153313e-07,
      "loss": 0.0289,
      "reward": 0.2708333432674408,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 656
    },
    {
      "completion_length": 994.2916870117188,
      "epoch": 0.801219512195122,
      "grad_norm": 0.13922348618507385,
      "kl": 0.0245361328125,
      "learning_rate": 3.468393344809222e-07,
      "loss": 0.0132,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 657
    },
    {
      "completion_length": 898.0208435058594,
      "epoch": 0.802439024390244,
      "grad_norm": 0.24220433831214905,
      "kl": 0.02447509765625,
      "learning_rate": 3.4276623026708556e-07,
      "loss": 0.0095,
      "reward": 0.2708333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 658
    },
    {
      "completion_length": 786.2500305175781,
      "epoch": 0.8036585365853659,
      "grad_norm": 0.34243243932724,
      "kl": 0.02618408203125,
      "learning_rate": 3.3871409648945955e-07,
      "loss": 0.0175,
      "reward": 0.2083333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 659
    },
    {
      "completion_length": 809.3333435058594,
      "epoch": 0.8048780487804879,
      "grad_norm": 0.45875081419944763,
      "kl": 0.02392578125,
      "learning_rate": 3.346830065774706e-07,
      "loss": 0.0062,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 660
    },
    {
      "completion_length": 864.7083740234375,
      "epoch": 0.8060975609756098,
      "grad_norm": 0.3514421582221985,
      "kl": 0.0238037109375,
      "learning_rate": 3.306730335792075e-07,
      "loss": -0.0071,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 661
    },
    {
      "completion_length": 615.25,
      "epoch": 0.8073170731707318,
      "grad_norm": 0.5857967734336853,
      "kl": 0.02655029296875,
      "learning_rate": 3.266842501600934e-07,
      "loss": -0.0196,
      "reward": 0.1875,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 662
    },
    {
      "completion_length": 780.3333740234375,
      "epoch": 0.8085365853658537,
      "grad_norm": 0.5814476013183594,
      "kl": 0.02825927734375,
      "learning_rate": 3.2271672860157324e-07,
      "loss": 0.0054,
      "reward": 0.1875,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 663
    },
    {
      "completion_length": 860.0416870117188,
      "epoch": 0.8097560975609757,
      "grad_norm": 0.25556638836860657,
      "kl": 0.0343017578125,
      "learning_rate": 3.187705407998018e-07,
      "loss": 0.0115,
      "reward": 0.06250000186264515,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 664
    },
    {
      "completion_length": 735.75,
      "epoch": 0.8109756097560976,
      "grad_norm": 0.5753107666969299,
      "kl": 0.026123046875,
      "learning_rate": 3.148457582643398e-07,
      "loss": 0.0642,
      "reward": 0.2500000074505806,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/format_reward": 0.0,
      "step": 665
    },
    {
      "completion_length": 1075.9375,
      "epoch": 0.8121951219512196,
      "grad_norm": 0.04850023239850998,
      "kl": 0.0252685546875,
      "learning_rate": 3.1094245211686106e-07,
      "loss": 0.0008,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 666
    },
    {
      "completion_length": 955.8750610351562,
      "epoch": 0.8134146341463414,
      "grad_norm": 0.0982297733426094,
      "kl": 0.024169921875,
      "learning_rate": 3.070606930898602e-07,
      "loss": 0.0046,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 667
    },
    {
      "completion_length": 863.0416870117188,
      "epoch": 0.8146341463414634,
      "grad_norm": 0.4044858515262604,
      "kl": 0.0328369140625,
      "learning_rate": 3.032005515253751e-07,
      "loss": 0.0122,
      "reward": 0.2083333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 668
    },
    {
      "completion_length": 818.6250305175781,
      "epoch": 0.8158536585365853,
      "grad_norm": 0.38262733817100525,
      "kl": 0.02764892578125,
      "learning_rate": 2.9936209737370727e-07,
      "loss": -0.0002,
      "reward": 0.1458333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 669
    },
    {
      "completion_length": 820.3958740234375,
      "epoch": 0.8170731707317073,
      "grad_norm": 0.44554057717323303,
      "kl": 0.02392578125,
      "learning_rate": 2.955454001921588e-07,
      "loss": 0.0221,
      "reward": 0.2083333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 670
    },
    {
      "completion_length": 706.2083435058594,
      "epoch": 0.8182926829268292,
      "grad_norm": 0.5388452410697937,
      "kl": 0.0235595703125,
      "learning_rate": 2.917505291437683e-07,
      "loss": 0.0026,
      "reward": 0.12500000558793545,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 671
    },
    {
      "completion_length": 759.5000305175781,
      "epoch": 0.8195121951219512,
      "grad_norm": 0.24352578818798065,
      "kl": 0.080078125,
      "learning_rate": 2.879775529960603e-07,
      "loss": 0.0065,
      "reward": 0.2500000149011612,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 672
    },
    {
      "completion_length": 817.3958435058594,
      "epoch": 0.8207317073170731,
      "grad_norm": 0.6730024218559265,
      "kl": 0.02984619140625,
      "learning_rate": 2.842265401197982e-07,
      "loss": 0.01,
      "reward": 0.2916666679084301,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2916666679084301,
      "rewards/format_reward": 0.0,
      "step": 673
    },
    {
      "completion_length": 978.3125,
      "epoch": 0.8219512195121951,
      "grad_norm": 0.4777490794658661,
      "kl": 0.02362060546875,
      "learning_rate": 2.8049755848774337e-07,
      "loss": -0.0511,
      "reward": 0.2083333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 674
    },
    {
      "completion_length": 830.3541870117188,
      "epoch": 0.823170731707317,
      "grad_norm": 0.44030094146728516,
      "kl": 0.03741455078125,
      "learning_rate": 2.7679067567342766e-07,
      "loss": -0.0183,
      "reward": 0.2916666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/format_reward": 0.0,
      "step": 675
    },
    {
      "completion_length": 970.1666870117188,
      "epoch": 0.824390243902439,
      "grad_norm": 0.43740084767341614,
      "kl": 0.02618408203125,
      "learning_rate": 2.7310595884992354e-07,
      "loss": 0.0676,
      "reward": 0.125,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 676
    },
    {
      "completion_length": 720.5000305175781,
      "epoch": 0.8256097560975609,
      "grad_norm": 0.5037770867347717,
      "kl": 0.02215576171875,
      "learning_rate": 2.6944347478863226e-07,
      "loss": 0.0005,
      "reward": 0.2083333358168602,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 677
    },
    {
      "completion_length": 679.2916870117188,
      "epoch": 0.8268292682926829,
      "grad_norm": 0.5386813282966614,
      "kl": 0.023681640625,
      "learning_rate": 2.658032898580702e-07,
      "loss": 0.0202,
      "reward": 0.2500000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/format_reward": 0.0,
      "step": 678
    },
    {
      "completion_length": 824.7083435058594,
      "epoch": 0.8280487804878048,
      "grad_norm": 0.5326714515686035,
      "kl": 0.02606201171875,
      "learning_rate": 2.621854700226663e-07,
      "loss": 0.0196,
      "reward": 0.1666666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 679
    },
    {
      "completion_length": 772.2916870117188,
      "epoch": 0.8292682926829268,
      "grad_norm": 0.36251839995384216,
      "kl": 0.02960205078125,
      "learning_rate": 2.5859008084156986e-07,
      "loss": 0.0207,
      "reward": 0.2083333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 680
    },
    {
      "completion_length": 1063.3542175292969,
      "epoch": 0.8304878048780487,
      "grad_norm": 0.3171287477016449,
      "kl": 0.0240478515625,
      "learning_rate": 2.5501718746745766e-07,
      "loss": -0.016,
      "reward": 0.1041666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 681
    },
    {
      "completion_length": 958.7291870117188,
      "epoch": 0.8317073170731707,
      "grad_norm": 0.04372232034802437,
      "kl": 0.025390625,
      "learning_rate": 2.514668546453592e-07,
      "loss": 0.0009,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 682
    },
    {
      "completion_length": 701.7083435058594,
      "epoch": 0.8329268292682926,
      "grad_norm": 0.5557974576950073,
      "kl": 0.02490234375,
      "learning_rate": 2.4793914671147745e-07,
      "loss": -0.0015,
      "reward": 0.2500000149011612,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 683
    },
    {
      "completion_length": 828.6875305175781,
      "epoch": 0.8341463414634146,
      "grad_norm": 0.5050874352455139,
      "kl": 0.0203857421875,
      "learning_rate": 2.4443412759202745e-07,
      "loss": -0.0188,
      "reward": 0.2708333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2708333358168602,
      "rewards/format_reward": 0.0,
      "step": 684
    },
    {
      "completion_length": 703.7708435058594,
      "epoch": 0.8353658536585366,
      "grad_norm": 0.5317684412002563,
      "kl": 0.032470703125,
      "learning_rate": 2.4095186080207505e-07,
      "loss": -0.0035,
      "reward": 0.14583333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 685
    },
    {
      "completion_length": 779.8541870117188,
      "epoch": 0.8365853658536585,
      "grad_norm": 0.4637664556503296,
      "kl": 0.029296875,
      "learning_rate": 2.3749240944438845e-07,
      "loss": 0.023,
      "reward": 0.1458333358168602,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 686
    },
    {
      "completion_length": 781.6875305175781,
      "epoch": 0.8378048780487805,
      "grad_norm": 0.4552900493144989,
      "kl": 0.02520751953125,
      "learning_rate": 2.3405583620829268e-07,
      "loss": 0.0113,
      "reward": 0.1666666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 687
    },
    {
      "completion_length": 861.0625305175781,
      "epoch": 0.8390243902439024,
      "grad_norm": 0.5198604464530945,
      "kl": 0.02117919921875,
      "learning_rate": 2.3064220336853398e-07,
      "loss": -0.0567,
      "reward": 0.3541666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.3541666716337204,
      "rewards/format_reward": 0.0,
      "step": 688
    },
    {
      "completion_length": 784.625,
      "epoch": 0.8402439024390244,
      "grad_norm": 0.37156882882118225,
      "kl": 0.0289306640625,
      "learning_rate": 2.272515727841527e-07,
      "loss": -0.0117,
      "reward": 0.2500000149011612,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 689
    },
    {
      "completion_length": 993.1667175292969,
      "epoch": 0.8414634146341463,
      "grad_norm": 0.42797571420669556,
      "kl": 0.0313720703125,
      "learning_rate": 2.2388400589735985e-07,
      "loss": 0.0018,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 690
    },
    {
      "completion_length": 807.8333435058594,
      "epoch": 0.8426829268292683,
      "grad_norm": 0.3258882164955139,
      "kl": 0.0267333984375,
      "learning_rate": 2.205395637324264e-07,
      "loss": -0.0123,
      "reward": 0.20833333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.20833333395421505,
      "rewards/format_reward": 0.0,
      "step": 691
    },
    {
      "completion_length": 652.2291870117188,
      "epoch": 0.8439024390243902,
      "grad_norm": 0.5457414984703064,
      "kl": 0.029541015625,
      "learning_rate": 2.1721830689457583e-07,
      "loss": 0.0421,
      "reward": 0.1250000037252903,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 692
    },
    {
      "completion_length": 672.4166870117188,
      "epoch": 0.8451219512195122,
      "grad_norm": 0.4368482828140259,
      "kl": 0.02880859375,
      "learning_rate": 2.1392029556888576e-07,
      "loss": 0.0331,
      "reward": 0.1875,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 693
    },
    {
      "completion_length": 723.6458435058594,
      "epoch": 0.8463414634146341,
      "grad_norm": 0.41581639647483826,
      "kl": 0.02862548828125,
      "learning_rate": 2.1064558951919854e-07,
      "loss": 0.0154,
      "reward": 0.3333333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.0,
      "step": 694
    },
    {
      "completion_length": 751.6875,
      "epoch": 0.8475609756097561,
      "grad_norm": 0.2076808363199234,
      "kl": 0.0267333984375,
      "learning_rate": 2.0739424808703638e-07,
      "loss": -0.0015,
      "reward": 0.0416666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 695
    },
    {
      "completion_length": 965.2708435058594,
      "epoch": 0.848780487804878,
      "grad_norm": 0.1890517622232437,
      "kl": 0.085205078125,
      "learning_rate": 2.0416633019052882e-07,
      "loss": -0.0136,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 696
    },
    {
      "completion_length": 715.3333435058594,
      "epoch": 0.85,
      "grad_norm": 0.3903053402900696,
      "kl": 0.0257568359375,
      "learning_rate": 2.0096189432334195e-07,
      "loss": -0.0048,
      "reward": 0.12500000558793545,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 697
    },
    {
      "completion_length": 1027.1250305175781,
      "epoch": 0.8512195121951219,
      "grad_norm": 0.1765126883983612,
      "kl": 0.0223388671875,
      "learning_rate": 1.9778099855362085e-07,
      "loss": -0.0027,
      "reward": 0.1666666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 698
    },
    {
      "completion_length": 798.6458740234375,
      "epoch": 0.8524390243902439,
      "grad_norm": 0.5328000783920288,
      "kl": 0.02410888671875,
      "learning_rate": 1.9462370052293544e-07,
      "loss": 0.005,
      "reward": 0.1666666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 699
    },
    {
      "completion_length": 913.8750305175781,
      "epoch": 0.8536585365853658,
      "grad_norm": 0.8566571474075317,
      "kl": 0.0328369140625,
      "learning_rate": 1.9149005744523757e-07,
      "loss": 0.0011,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 700
    },
    {
      "completion_length": 729.0833435058594,
      "epoch": 0.8548780487804878,
      "grad_norm": 0.45158228278160095,
      "kl": 0.030029296875,
      "learning_rate": 1.8838012610582356e-07,
      "loss": 0.0429,
      "reward": 0.1458333358168602,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 701
    },
    {
      "completion_length": 836.5416870117188,
      "epoch": 0.8560975609756097,
      "grad_norm": 0.3114115595817566,
      "kl": 0.0238037109375,
      "learning_rate": 1.852939628603046e-07,
      "loss": -0.0105,
      "reward": 0.1041666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 702
    },
    {
      "completion_length": 730.625,
      "epoch": 0.8573170731707317,
      "grad_norm": 0.3165081739425659,
      "kl": 0.02349853515625,
      "learning_rate": 1.822316236335867e-07,
      "loss": -0.0146,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 703
    },
    {
      "completion_length": 1010.5416870117188,
      "epoch": 0.8585365853658536,
      "grad_norm": 0.25261008739471436,
      "kl": 0.0235595703125,
      "learning_rate": 1.7919316391885593e-07,
      "loss": 0.0463,
      "reward": 0.1875,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 704
    },
    {
      "completion_length": 785.5625305175781,
      "epoch": 0.8597560975609756,
      "grad_norm": 0.3985195755958557,
      "kl": 0.0279541015625,
      "learning_rate": 1.761786387765743e-07,
      "loss": -0.0239,
      "reward": 0.2500000149011612,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 705
    },
    {
      "completion_length": 849.5,
      "epoch": 0.8609756097560975,
      "grad_norm": 0.37897011637687683,
      "kl": 0.024169921875,
      "learning_rate": 1.731881028334808e-07,
      "loss": 0.0273,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 706
    },
    {
      "completion_length": 1048.3125,
      "epoch": 0.8621951219512195,
      "grad_norm": 0.1622416377067566,
      "kl": 0.02752685546875,
      "learning_rate": 1.7022161028160244e-07,
      "loss": 0.0162,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 707
    },
    {
      "completion_length": 802.9166870117188,
      "epoch": 0.8634146341463415,
      "grad_norm": 0.4028719365596771,
      "kl": 0.0225830078125,
      "learning_rate": 1.6727921487727095e-07,
      "loss": 0.0212,
      "reward": 0.2916666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/format_reward": 0.0,
      "step": 708
    },
    {
      "completion_length": 723.5416870117188,
      "epoch": 0.8646341463414634,
      "grad_norm": 0.2419525682926178,
      "kl": 0.02032470703125,
      "learning_rate": 1.64360969940149e-07,
      "loss": -0.0051,
      "reward": 0.20833333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.20833333395421505,
      "rewards/format_reward": 0.0,
      "step": 709
    },
    {
      "completion_length": 1010.3125,
      "epoch": 0.8658536585365854,
      "grad_norm": 0.04453768953680992,
      "kl": 0.0252685546875,
      "learning_rate": 1.6146692835226669e-07,
      "loss": 0.0009,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 710
    },
    {
      "completion_length": 1053.875,
      "epoch": 0.8670731707317073,
      "grad_norm": 0.3233415186405182,
      "kl": 0.0244140625,
      "learning_rate": 1.5859714255705843e-07,
      "loss": 0.0632,
      "reward": 0.2083333395421505,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/format_reward": 0.0,
      "step": 711
    },
    {
      "completion_length": 745.6041870117188,
      "epoch": 0.8682926829268293,
      "grad_norm": 0.3168937861919403,
      "kl": 0.0281982421875,
      "learning_rate": 1.5575166455841677e-07,
      "loss": 0.048,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 712
    },
    {
      "completion_length": 700.4166870117188,
      "epoch": 0.8695121951219512,
      "grad_norm": 0.4607069194316864,
      "kl": 0.02447509765625,
      "learning_rate": 1.5293054591974726e-07,
      "loss": -0.0158,
      "reward": 0.1875000111758709,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/format_reward": 0.0,
      "step": 713
    },
    {
      "completion_length": 1071.3125305175781,
      "epoch": 0.8707317073170732,
      "grad_norm": 0.27966293692588806,
      "kl": 0.020263671875,
      "learning_rate": 1.501338377630362e-07,
      "loss": 0.0557,
      "reward": 0.1875,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 714
    },
    {
      "completion_length": 937.6458435058594,
      "epoch": 0.8719512195121951,
      "grad_norm": 0.27274319529533386,
      "kl": 0.04486083984375,
      "learning_rate": 1.473615907679229e-07,
      "loss": 0.0042,
      "reward": 0.125,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 715
    },
    {
      "completion_length": 880.2500305175781,
      "epoch": 0.8731707317073171,
      "grad_norm": 0.3870413899421692,
      "kl": 0.024169921875,
      "learning_rate": 1.446138551707814e-07,
      "loss": -0.0014,
      "reward": 0.2083333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/format_reward": 0.0,
      "step": 716
    },
    {
      "completion_length": 1127.7916870117188,
      "epoch": 0.874390243902439,
      "grad_norm": 0.1338748186826706,
      "kl": 0.0244140625,
      "learning_rate": 1.4189068076381078e-07,
      "loss": 0.0268,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 717
    },
    {
      "completion_length": 919.7708435058594,
      "epoch": 0.875609756097561,
      "grad_norm": 0.27817457914352417,
      "kl": 0.020477294921875,
      "learning_rate": 1.3919211689413207e-07,
      "loss": 0.0074,
      "reward": 0.2708333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 718
    },
    {
      "completion_length": 723.7291870117188,
      "epoch": 0.8768292682926829,
      "grad_norm": 0.06823945790529251,
      "kl": 0.02557373046875,
      "learning_rate": 1.365182124628949e-07,
      "loss": 0.001,
      "reward": 0.1875,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 719
    },
    {
      "completion_length": 1069.0000610351562,
      "epoch": 0.8780487804878049,
      "grad_norm": 0.13704067468643188,
      "kl": 0.0267333984375,
      "learning_rate": 1.3386901592439071e-07,
      "loss": 0.0003,
      "reward": 0.1458333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/format_reward": 0.0,
      "step": 720
    },
    {
      "completion_length": 632.8125305175781,
      "epoch": 0.8792682926829268,
      "grad_norm": 0.2622615098953247,
      "kl": 0.0281982421875,
      "learning_rate": 1.3124457528517503e-07,
      "loss": 0.0065,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 721
    },
    {
      "completion_length": 881.5416870117188,
      "epoch": 0.8804878048780488,
      "grad_norm": 0.24476896226406097,
      "kl": 0.02850341796875,
      "learning_rate": 1.2864493810319676e-07,
      "loss": 0.0161,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 722
    },
    {
      "completion_length": 832.8750305175781,
      "epoch": 0.8817073170731707,
      "grad_norm": 0.41959550976753235,
      "kl": 0.02484130859375,
      "learning_rate": 1.260701514869379e-07,
      "loss": 0.0916,
      "reward": 0.2708333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 723
    },
    {
      "completion_length": 1051.7083435058594,
      "epoch": 0.8829268292682927,
      "grad_norm": 0.37093260884284973,
      "kl": 0.0228271484375,
      "learning_rate": 1.2352026209455808e-07,
      "loss": -0.0032,
      "reward": 0.06250000186264515,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 724
    },
    {
      "completion_length": 1032.4791870117188,
      "epoch": 0.8841463414634146,
      "grad_norm": 0.4205034673213959,
      "kl": 0.02294921875,
      "learning_rate": 1.209953161330507e-07,
      "loss": 0.013,
      "reward": 0.2500000111758709,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2500000111758709,
      "rewards/format_reward": 0.0,
      "step": 725
    },
    {
      "completion_length": 672.6458435058594,
      "epoch": 0.8853658536585366,
      "grad_norm": 0.32758957147598267,
      "kl": 0.02978515625,
      "learning_rate": 1.1849535935740474e-07,
      "loss": 0.0171,
      "reward": 0.1458333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/format_reward": 0.0,
      "step": 726
    },
    {
      "completion_length": 1033.6875305175781,
      "epoch": 0.8865853658536585,
      "grad_norm": 0.2726954221725464,
      "kl": 0.0230712890625,
      "learning_rate": 1.1602043706977538e-07,
      "loss": 0.0574,
      "reward": 0.0416666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 727
    },
    {
      "completion_length": 668.8958435058594,
      "epoch": 0.8878048780487805,
      "grad_norm": 0.4613305628299713,
      "kl": 0.02630615234375,
      "learning_rate": 1.1357059411866355e-07,
      "loss": 0.0132,
      "reward": 0.2500000074505806,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/format_reward": 0.0,
      "step": 728
    },
    {
      "completion_length": 1183.0416870117188,
      "epoch": 0.8890243902439025,
      "grad_norm": 0.3565730154514313,
      "kl": 0.0208740234375,
      "learning_rate": 1.1114587489810352e-07,
      "loss": 0.0297,
      "reward": 0.18750000558793545,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.18750000558793545,
      "rewards/format_reward": 0.0,
      "step": 729
    },
    {
      "completion_length": 764.0833435058594,
      "epoch": 0.8902439024390244,
      "grad_norm": 0.38788408041000366,
      "kl": 0.02801513671875,
      "learning_rate": 1.0874632334685808e-07,
      "loss": 0.0557,
      "reward": 0.1875000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 730
    },
    {
      "completion_length": 773.1250305175781,
      "epoch": 0.8914634146341464,
      "grad_norm": 0.16996777057647705,
      "kl": 0.02484130859375,
      "learning_rate": 1.0637198294762152e-07,
      "loss": 0.0126,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 731
    },
    {
      "completion_length": 1004.3958435058594,
      "epoch": 0.8926829268292683,
      "grad_norm": 0.27469712495803833,
      "kl": 0.0269775390625,
      "learning_rate": 1.0402289672623272e-07,
      "loss": 0.0084,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 732
    },
    {
      "completion_length": 1066.2291870117188,
      "epoch": 0.8939024390243903,
      "grad_norm": 0.09178400784730911,
      "kl": 0.02496337890625,
      "learning_rate": 1.0169910725089548e-07,
      "loss": 0.0009,
      "reward": 0.1875,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 733
    },
    {
      "completion_length": 953.7708740234375,
      "epoch": 0.8951219512195122,
      "grad_norm": 0.2735711634159088,
      "kl": 0.023681640625,
      "learning_rate": 9.940065663140663e-08,
      "loss": 0.0439,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 734
    },
    {
      "completion_length": 837.6042175292969,
      "epoch": 0.8963414634146342,
      "grad_norm": 0.47646215558052063,
      "kl": 0.02392578125,
      "learning_rate": 9.71275865183936e-08,
      "loss": 0.0015,
      "reward": 0.2083333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 735
    },
    {
      "completion_length": 929.4166870117188,
      "epoch": 0.8975609756097561,
      "grad_norm": 0.43811649084091187,
      "kl": 0.02923583984375,
      "learning_rate": 9.487993810255823e-08,
      "loss": 0.0975,
      "reward": 0.1875,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 736
    },
    {
      "completion_length": 994.0833740234375,
      "epoch": 0.8987804878048781,
      "grad_norm": 1.1990416049957275,
      "kl": 0.0303955078125,
      "learning_rate": 9.265775211393224e-08,
      "loss": -0.0442,
      "reward": 0.1875000074505806,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 737
    },
    {
      "completion_length": 819.0000305175781,
      "epoch": 0.9,
      "grad_norm": 0.17224682867527008,
      "kl": 0.02337646484375,
      "learning_rate": 9.046106882113752e-08,
      "loss": -0.0084,
      "reward": 0.14583333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 738
    },
    {
      "completion_length": 1121.4583435058594,
      "epoch": 0.901219512195122,
      "grad_norm": 0.3978723883628845,
      "kl": 0.02642822265625,
      "learning_rate": 8.828992803065772e-08,
      "loss": -0.0758,
      "reward": 0.1875000074505806,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 739
    },
    {
      "completion_length": 716.4583435058594,
      "epoch": 0.9024390243902439,
      "grad_norm": 0.7046301364898682,
      "kl": 0.03155517578125,
      "learning_rate": 8.614436908611617e-08,
      "loss": 0.0477,
      "reward": 0.3333333358168602,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.3333333358168602,
      "rewards/format_reward": 0.0,
      "step": 740
    },
    {
      "completion_length": 1084.0208740234375,
      "epoch": 0.9036585365853659,
      "grad_norm": 0.5535774827003479,
      "kl": 0.031982421875,
      "learning_rate": 8.402443086756273e-08,
      "loss": -0.1231,
      "reward": 0.08333333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 741
    },
    {
      "completion_length": 919.0625305175781,
      "epoch": 0.9048780487804878,
      "grad_norm": 0.23134127259254456,
      "kl": 0.02215576171875,
      "learning_rate": 8.193015179076996e-08,
      "loss": 0.0253,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 742
    },
    {
      "completion_length": 807.6875,
      "epoch": 0.9060975609756098,
      "grad_norm": 0.04322041571140289,
      "kl": 0.02398681640625,
      "learning_rate": 7.986156980653653e-08,
      "loss": 0.0009,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 743
    },
    {
      "completion_length": 938.7292175292969,
      "epoch": 0.9073170731707317,
      "grad_norm": 0.21795502305030823,
      "kl": 0.02130126953125,
      "learning_rate": 7.781872239999993e-08,
      "loss": -0.0017,
      "reward": 0.1458333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/format_reward": 0.0,
      "step": 744
    },
    {
      "completion_length": 762.6875,
      "epoch": 0.9085365853658537,
      "grad_norm": 0.2852475345134735,
      "kl": 0.0247802734375,
      "learning_rate": 7.580164658995603e-08,
      "loss": 0.0202,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 745
    },
    {
      "completion_length": 974.8333435058594,
      "epoch": 0.9097560975609756,
      "grad_norm": 0.24209746718406677,
      "kl": 0.02294921875,
      "learning_rate": 7.381037892818959e-08,
      "loss": -0.0242,
      "reward": 0.1250000037252903,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 746
    },
    {
      "completion_length": 886.3125,
      "epoch": 0.9109756097560976,
      "grad_norm": 0.47765588760375977,
      "kl": 0.02490234375,
      "learning_rate": 7.184495549881131e-08,
      "loss": -0.0703,
      "reward": 0.1458333395421505,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 747
    },
    {
      "completion_length": 766.6458435058594,
      "epoch": 0.9121951219512195,
      "grad_norm": 0.3742899000644684,
      "kl": 0.02581787109375,
      "learning_rate": 6.990541191760418e-08,
      "loss": -0.004,
      "reward": 0.3541666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.3541666716337204,
      "rewards/format_reward": 0.0,
      "step": 748
    },
    {
      "completion_length": 741.5000305175781,
      "epoch": 0.9134146341463415,
      "grad_norm": 0.4017605781555176,
      "kl": 0.029052734375,
      "learning_rate": 6.799178333137784e-08,
      "loss": 0.0276,
      "reward": 0.0625,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 749
    },
    {
      "completion_length": 1010.5833740234375,
      "epoch": 0.9146341463414634,
      "grad_norm": 0.27121710777282715,
      "kl": 0.0203857421875,
      "learning_rate": 6.610410441733156e-08,
      "loss": 0.0389,
      "reward": 0.0625,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 750
    },
    {
      "completion_length": 790.3333740234375,
      "epoch": 0.9158536585365854,
      "grad_norm": 0.05629832670092583,
      "kl": 0.02557373046875,
      "learning_rate": 6.424240938242643e-08,
      "loss": 0.0009,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 751
    },
    {
      "completion_length": 862.3125,
      "epoch": 0.9170731707317074,
      "grad_norm": 0.24488425254821777,
      "kl": 0.0301513671875,
      "learning_rate": 6.24067319627642e-08,
      "loss": 0.0261,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 752
    },
    {
      "completion_length": 889.4791870117188,
      "epoch": 0.9182926829268293,
      "grad_norm": 0.47951433062553406,
      "kl": 0.0274658203125,
      "learning_rate": 6.059710542297824e-08,
      "loss": 0.011,
      "reward": 0.12500000558793545,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 753
    },
    {
      "completion_length": 845.4583435058594,
      "epoch": 0.9195121951219513,
      "grad_norm": 0.33234408497810364,
      "kl": 0.02655029296875,
      "learning_rate": 5.8813562555628585e-08,
      "loss": -0.0212,
      "reward": 0.0416666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 754
    },
    {
      "completion_length": 733.3541870117188,
      "epoch": 0.9207317073170732,
      "grad_norm": 0.6557818651199341,
      "kl": 0.031005859375,
      "learning_rate": 5.7056135680607965e-08,
      "loss": 0.046,
      "reward": 0.3125,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.3125,
      "rewards/format_reward": 0.0,
      "step": 755
    },
    {
      "completion_length": 630.2083435058594,
      "epoch": 0.9219512195121952,
      "grad_norm": 0.6298221945762634,
      "kl": 0.02850341796875,
      "learning_rate": 5.532485664455755e-08,
      "loss": 0.0159,
      "reward": 0.2708333432674408,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 756
    },
    {
      "completion_length": 761.6875305175781,
      "epoch": 0.9231707317073171,
      "grad_norm": 0.6046322584152222,
      "kl": 0.032470703125,
      "learning_rate": 5.3619756820288525e-08,
      "loss": -0.0381,
      "reward": 0.3541666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.3541666716337204,
      "rewards/format_reward": 0.0,
      "step": 757
    },
    {
      "completion_length": 716.9375305175781,
      "epoch": 0.9243902439024391,
      "grad_norm": 0.4098731279373169,
      "kl": 0.027587890625,
      "learning_rate": 5.194086710621404e-08,
      "loss": 0.0823,
      "reward": 0.125,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 758
    },
    {
      "completion_length": 937.5,
      "epoch": 0.925609756097561,
      "grad_norm": 0.37171196937561035,
      "kl": 0.02362060546875,
      "learning_rate": 5.0288217925789025e-08,
      "loss": 0.0248,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 759
    },
    {
      "completion_length": 794.0208740234375,
      "epoch": 0.926829268292683,
      "grad_norm": 0.20126201212406158,
      "kl": 0.0208740234375,
      "learning_rate": 4.86618392269596e-08,
      "loss": -0.007,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 760
    },
    {
      "completion_length": 825.875,
      "epoch": 0.9280487804878049,
      "grad_norm": 0.6448650360107422,
      "kl": 0.03265380859375,
      "learning_rate": 4.70617604816192e-08,
      "loss": 0.0139,
      "reward": 0.2291666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 761
    },
    {
      "completion_length": 883.6666870117188,
      "epoch": 0.9292682926829269,
      "grad_norm": 0.42482876777648926,
      "kl": 0.02520751953125,
      "learning_rate": 4.54880106850758e-08,
      "loss": -0.0098,
      "reward": 0.12500000558793545,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 762
    },
    {
      "completion_length": 1032.2708435058594,
      "epoch": 0.9304878048780488,
      "grad_norm": 0.46651068329811096,
      "kl": 0.0216064453125,
      "learning_rate": 4.394061835552554e-08,
      "loss": -0.0285,
      "reward": 0.10416666977107525,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 763
    },
    {
      "completion_length": 801.9375305175781,
      "epoch": 0.9317073170731708,
      "grad_norm": 0.04411710798740387,
      "kl": 0.0208740234375,
      "learning_rate": 4.2419611533536296e-08,
      "loss": 0.0007,
      "reward": 0.1875,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 764
    },
    {
      "completion_length": 791.7916870117188,
      "epoch": 0.9329268292682927,
      "grad_norm": 0.41850683093070984,
      "kl": 0.026123046875,
      "learning_rate": 4.0925017781539896e-08,
      "loss": 0.0028,
      "reward": 0.1458333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 765
    },
    {
      "completion_length": 867.875,
      "epoch": 0.9341463414634147,
      "grad_norm": 0.04630811884999275,
      "kl": 0.02459716796875,
      "learning_rate": 3.9456864183331557e-08,
      "loss": 0.0009,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 766
    },
    {
      "completion_length": 806.6458435058594,
      "epoch": 0.9353658536585366,
      "grad_norm": 0.04593589901924133,
      "kl": 0.02264404296875,
      "learning_rate": 3.80151773435804e-08,
      "loss": 0.0008,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 767
    },
    {
      "completion_length": 833.9791870117188,
      "epoch": 0.9365853658536586,
      "grad_norm": 0.2245476394891739,
      "kl": 0.02105712890625,
      "learning_rate": 3.659998338734671e-08,
      "loss": 0.0015,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 768
    },
    {
      "completion_length": 763.0625,
      "epoch": 0.9378048780487804,
      "grad_norm": 0.0570383220911026,
      "kl": 0.0294189453125,
      "learning_rate": 3.5211307959608475e-08,
      "loss": 0.001,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 769
    },
    {
      "completion_length": 796.9375,
      "epoch": 0.9390243902439024,
      "grad_norm": 0.28452613949775696,
      "kl": 0.0203857421875,
      "learning_rate": 3.3849176224796884e-08,
      "loss": -0.0315,
      "reward": 0.1875000074505806,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 770
    },
    {
      "completion_length": 746.1458435058594,
      "epoch": 0.9402439024390243,
      "grad_norm": 0.5315723419189453,
      "kl": 0.0302734375,
      "learning_rate": 3.2513612866339916e-08,
      "loss": 0.0077,
      "reward": 0.125,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.125,
      "rewards/format_reward": 0.0,
      "step": 771
    },
    {
      "completion_length": 879.4375610351562,
      "epoch": 0.9414634146341463,
      "grad_norm": 0.756249725818634,
      "kl": 0.0343017578125,
      "learning_rate": 3.1204642086215817e-08,
      "loss": -0.0351,
      "reward": 0.1666666716337204,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 772
    },
    {
      "completion_length": 782.3750305175781,
      "epoch": 0.9426829268292682,
      "grad_norm": 0.28776443004608154,
      "kl": 0.022216796875,
      "learning_rate": 2.992228760451349e-08,
      "loss": 0.0504,
      "reward": 0.1666666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 773
    },
    {
      "completion_length": 723.0833740234375,
      "epoch": 0.9439024390243902,
      "grad_norm": 0.5710537433624268,
      "kl": 0.0245361328125,
      "learning_rate": 2.8666572659003965e-08,
      "loss": -0.0,
      "reward": 0.1250000037252903,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 774
    },
    {
      "completion_length": 816.8125305175781,
      "epoch": 0.9451219512195121,
      "grad_norm": 0.343589723110199,
      "kl": 0.01898193359375,
      "learning_rate": 2.743752000471761e-08,
      "loss": 0.0147,
      "reward": 0.2916666716337204,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/format_reward": 0.0,
      "step": 775
    },
    {
      "completion_length": 814.2291870117188,
      "epoch": 0.9463414634146341,
      "grad_norm": 0.40398523211479187,
      "kl": 0.0257568359375,
      "learning_rate": 2.6235151913533595e-08,
      "loss": 0.0236,
      "reward": 0.1041666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 776
    },
    {
      "completion_length": 745.4791870117188,
      "epoch": 0.947560975609756,
      "grad_norm": 0.6614434719085693,
      "kl": 0.02471923828125,
      "learning_rate": 2.50594901737749e-08,
      "loss": 0.0419,
      "reward": 0.12500000558793545,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 777
    },
    {
      "completion_length": 758.8333435058594,
      "epoch": 0.948780487804878,
      "grad_norm": 0.2255949229001999,
      "kl": 0.02142333984375,
      "learning_rate": 2.3910556089814294e-08,
      "loss": 0.0001,
      "reward": 0.20833333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.20833333395421505,
      "rewards/format_reward": 0.0,
      "step": 778
    },
    {
      "completion_length": 945.1875610351562,
      "epoch": 0.95,
      "grad_norm": 0.42945098876953125,
      "kl": 0.0296630859375,
      "learning_rate": 2.278837048168797e-08,
      "loss": 0.0276,
      "reward": 0.1250000037252903,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 779
    },
    {
      "completion_length": 918.0000305175781,
      "epoch": 0.9512195121951219,
      "grad_norm": 0.04331444576382637,
      "kl": 0.01953125,
      "learning_rate": 2.1692953684718187e-08,
      "loss": 0.0008,
      "reward": 0.0625,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 780
    },
    {
      "completion_length": 679.4791870117188,
      "epoch": 0.9524390243902439,
      "grad_norm": 0.41175445914268494,
      "kl": 0.02374267578125,
      "learning_rate": 2.0624325549144894e-08,
      "loss": 0.0085,
      "reward": 0.1458333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 781
    },
    {
      "completion_length": 994.3125610351562,
      "epoch": 0.9536585365853658,
      "grad_norm": 0.17546556890010834,
      "kl": 0.02337646484375,
      "learning_rate": 1.9582505439766028e-08,
      "loss": 0.0414,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 782
    },
    {
      "completion_length": 831.7291870117188,
      "epoch": 0.9548780487804878,
      "grad_norm": 0.4530733823776245,
      "kl": 0.0316162109375,
      "learning_rate": 1.856751223558695e-08,
      "loss": -0.0156,
      "reward": 0.2291666716337204,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 783
    },
    {
      "completion_length": 720.4583435058594,
      "epoch": 0.9560975609756097,
      "grad_norm": 0.41587570309638977,
      "kl": 0.0303955078125,
      "learning_rate": 1.7579364329477375e-08,
      "loss": 0.0231,
      "reward": 0.12500000558793545,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 784
    },
    {
      "completion_length": 896.4791870117188,
      "epoch": 0.9573170731707317,
      "grad_norm": 0.17405299842357635,
      "kl": 0.02294921875,
      "learning_rate": 1.661807962783851e-08,
      "loss": 0.0575,
      "reward": 0.14583333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 785
    },
    {
      "completion_length": 773.2708435058594,
      "epoch": 0.9585365853658536,
      "grad_norm": 0.39356529712677,
      "kl": 0.0245361328125,
      "learning_rate": 1.5683675550279943e-08,
      "loss": 0.0176,
      "reward": 0.1666666679084301,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 786
    },
    {
      "completion_length": 956.1250305175781,
      "epoch": 0.9597560975609756,
      "grad_norm": 0.3414008915424347,
      "kl": 0.02886962890625,
      "learning_rate": 1.4776169029301234e-08,
      "loss": 0.0331,
      "reward": 0.2916666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/format_reward": 0.0,
      "step": 787
    },
    {
      "completion_length": 773.2291870117188,
      "epoch": 0.9609756097560975,
      "grad_norm": 0.34748509526252747,
      "kl": 0.02716064453125,
      "learning_rate": 1.3895576509987685e-08,
      "loss": 0.0049,
      "reward": 0.08333333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/format_reward": 0.0,
      "step": 788
    },
    {
      "completion_length": 677.2916870117188,
      "epoch": 0.9621951219512195,
      "grad_norm": 0.3142717182636261,
      "kl": 0.02398681640625,
      "learning_rate": 1.3041913949710715e-08,
      "loss": 0.0035,
      "reward": 0.14583333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 789
    },
    {
      "completion_length": 958.1250305175781,
      "epoch": 0.9634146341463414,
      "grad_norm": 0.25102928280830383,
      "kl": 0.0235595703125,
      "learning_rate": 1.2215196817839447e-08,
      "loss": 0.0045,
      "reward": 0.1458333432674408,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/format_reward": 0.0,
      "step": 790
    },
    {
      "completion_length": 911.7708435058594,
      "epoch": 0.9646341463414634,
      "grad_norm": 0.34268632531166077,
      "kl": 0.02667236328125,
      "learning_rate": 1.1415440095460083e-08,
      "loss": 0.0186,
      "reward": 0.2083333432674408,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 791
    },
    {
      "completion_length": 738.9583740234375,
      "epoch": 0.9658536585365853,
      "grad_norm": 0.31120502948760986,
      "kl": 0.02655029296875,
      "learning_rate": 1.06426582751043e-08,
      "loss": 0.0329,
      "reward": 0.2500000149011612,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 792
    },
    {
      "completion_length": 906.5208435058594,
      "epoch": 0.9670731707317073,
      "grad_norm": 0.4276106357574463,
      "kl": 0.02557373046875,
      "learning_rate": 9.896865360487451e-09,
      "loss": 0.0771,
      "reward": 0.14583333395421505,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 793
    },
    {
      "completion_length": 715.0833435058594,
      "epoch": 0.9682926829268292,
      "grad_norm": 0.6245980858802795,
      "kl": 0.03021240234375,
      "learning_rate": 9.178074866253605e-09,
      "loss": -0.0076,
      "reward": 0.1666666716337204,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 794
    },
    {
      "completion_length": 973.9583435058594,
      "epoch": 0.9695121951219512,
      "grad_norm": 0.40942537784576416,
      "kl": 0.0260009765625,
      "learning_rate": 8.486299817731412e-09,
      "loss": 0.0285,
      "reward": 0.2708333432674408,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 795
    },
    {
      "completion_length": 1057.3125305175781,
      "epoch": 0.9707317073170731,
      "grad_norm": 0.3129737973213196,
      "kl": 0.023193359375,
      "learning_rate": 7.821552750697958e-09,
      "loss": 0.0336,
      "reward": 0.1875000111758709,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/format_reward": 0.0,
      "step": 796
    },
    {
      "completion_length": 657.4583740234375,
      "epoch": 0.9719512195121951,
      "grad_norm": 0.4153045117855072,
      "kl": 0.02880859375,
      "learning_rate": 7.1838457111516044e-09,
      "loss": -0.0107,
      "reward": 0.1458333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 797
    },
    {
      "completion_length": 1035.6875610351562,
      "epoch": 0.973170731707317,
      "grad_norm": 0.0584120973944664,
      "kl": 0.023193359375,
      "learning_rate": 6.573190255093342e-09,
      "loss": 0.0009,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 798
    },
    {
      "completion_length": 841.0416870117188,
      "epoch": 0.974390243902439,
      "grad_norm": 0.5308164954185486,
      "kl": 0.03045654296875,
      "learning_rate": 5.989597448317785e-09,
      "loss": 0.0024,
      "reward": 0.1458333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 799
    },
    {
      "completion_length": 785.0208740234375,
      "epoch": 0.975609756097561,
      "grad_norm": 0.4039956331253052,
      "kl": 0.0228271484375,
      "learning_rate": 5.433077866212999e-09,
      "loss": 0.0233,
      "reward": 0.291666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.291666679084301,
      "rewards/format_reward": 0.0,
      "step": 800
    },
    {
      "completion_length": 893.2500305175781,
      "epoch": 0.9768292682926829,
      "grad_norm": 0.5676692128181458,
      "kl": 0.03875732421875,
      "learning_rate": 4.903641593567654e-09,
      "loss": -0.0039,
      "reward": 0.229166679084301,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/format_reward": 0.0,
      "step": 801
    },
    {
      "completion_length": 719.5416870117188,
      "epoch": 0.9780487804878049,
      "grad_norm": 0.3240124583244324,
      "kl": 0.02880859375,
      "learning_rate": 4.401298224389338e-09,
      "loss": 0.0029,
      "reward": 0.1041666679084301,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 802
    },
    {
      "completion_length": 845.0833435058594,
      "epoch": 0.9792682926829268,
      "grad_norm": 0.33833006024360657,
      "kl": 0.026123046875,
      "learning_rate": 3.926056861730532e-09,
      "loss": 0.0627,
      "reward": 0.10416666977107525,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 803
    },
    {
      "completion_length": 827.5208435058594,
      "epoch": 0.9804878048780488,
      "grad_norm": 0.3172595798969269,
      "kl": 0.02911376953125,
      "learning_rate": 3.4779261175232334e-09,
      "loss": -0.0376,
      "reward": 0.12500000558793545,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 804
    },
    {
      "completion_length": 686.9583435058594,
      "epoch": 0.9817073170731707,
      "grad_norm": 0.3726345896720886,
      "kl": 0.0220947265625,
      "learning_rate": 3.0569141124234256e-09,
      "loss": -0.0216,
      "reward": 0.1041666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 805
    },
    {
      "completion_length": 852.8333435058594,
      "epoch": 0.9829268292682927,
      "grad_norm": 0.4700186848640442,
      "kl": 0.0269775390625,
      "learning_rate": 2.6630284756635204e-09,
      "loss": -0.0481,
      "reward": 0.0833333358168602,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 806
    },
    {
      "completion_length": 827.2916870117188,
      "epoch": 0.9841463414634146,
      "grad_norm": 0.05038120225071907,
      "kl": 0.02862548828125,
      "learning_rate": 2.2962763449141387e-09,
      "loss": 0.001,
      "reward": 0.1875,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 807
    },
    {
      "completion_length": 835.0,
      "epoch": 0.9853658536585366,
      "grad_norm": 0.3867391049861908,
      "kl": 0.02215576171875,
      "learning_rate": 1.9566643661550478e-09,
      "loss": 0.0422,
      "reward": 0.2083333432674408,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "step": 808
    },
    {
      "completion_length": 799.6458435058594,
      "epoch": 0.9865853658536585,
      "grad_norm": 0.3166770935058594,
      "kl": 0.023681640625,
      "learning_rate": 1.6441986935545884e-09,
      "loss": -0.0102,
      "reward": 0.02083333395421505,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 809
    },
    {
      "completion_length": 727.6041870117188,
      "epoch": 0.9878048780487805,
      "grad_norm": 0.17712058126926422,
      "kl": 0.0240478515625,
      "learning_rate": 1.3588849893579336e-09,
      "loss": -0.0024,
      "reward": 0.0833333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 810
    },
    {
      "completion_length": 1028.0833740234375,
      "epoch": 0.9890243902439024,
      "grad_norm": 0.04795070365071297,
      "kl": 0.0245361328125,
      "learning_rate": 1.1007284237850025e-09,
      "loss": 0.0009,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 811
    },
    {
      "completion_length": 856.7291870117188,
      "epoch": 0.9902439024390244,
      "grad_norm": 0.36679479479789734,
      "kl": 0.0206298828125,
      "learning_rate": 8.697336749358687e-10,
      "loss": -0.0008,
      "reward": 0.1458333358168602,
      "reward_std": 0.03608439117670059,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 812
    },
    {
      "completion_length": 1035.4167175292969,
      "epoch": 0.9914634146341463,
      "grad_norm": 0.2617432773113251,
      "kl": 0.0228271484375,
      "learning_rate": 6.659049287071617e-10,
      "loss": 0.0244,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 813
    },
    {
      "completion_length": 999.3125305175781,
      "epoch": 0.9926829268292683,
      "grad_norm": 0.4567527174949646,
      "kl": 0.02532958984375,
      "learning_rate": 4.892458787154608e-10,
      "loss": 0.0007,
      "reward": 0.0416666679084301,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 814
    },
    {
      "completion_length": 858.7291870117188,
      "epoch": 0.9939024390243902,
      "grad_norm": 0.6128376126289368,
      "kl": 0.0572509765625,
      "learning_rate": 3.397597262300156e-10,
      "loss": -0.0398,
      "reward": 0.2500000149011612,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/format_reward": 0.0,
      "step": 815
    },
    {
      "completion_length": 1070.7708740234375,
      "epoch": 0.9951219512195122,
      "grad_norm": 0.3184763491153717,
      "kl": 0.02508544921875,
      "learning_rate": 2.1744918011595837e-10,
      "loss": 0.0767,
      "reward": 0.18750000558793545,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.18750000558793545,
      "rewards/format_reward": 0.0,
      "step": 816
    },
    {
      "completion_length": 882.7917175292969,
      "epoch": 0.9963414634146341,
      "grad_norm": 0.33201614022254944,
      "kl": 0.030517578125,
      "learning_rate": 1.2231645678401072e-10,
      "loss": 0.0595,
      "reward": 0.2083333358168602,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 817
    },
    {
      "completion_length": 911.9583740234375,
      "epoch": 0.9975609756097561,
      "grad_norm": 0.33788737654685974,
      "kl": 0.02301025390625,
      "learning_rate": 5.436328015101522e-11,
      "loss": 0.0052,
      "reward": 0.1666666716337204,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 818
    },
    {
      "completion_length": 693.2083740234375,
      "epoch": 0.998780487804878,
      "grad_norm": 0.5074701905250549,
      "kl": 0.01910400390625,
      "learning_rate": 1.359088160846067e-11,
      "loss": -0.0122,
      "reward": 0.1875000111758709,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/format_reward": 0.0,
      "step": 819
    },
    {
      "completion_length": 1057.03125,
      "epoch": 1.0,
      "grad_norm": 0.466864675283432,
      "kl": 0.02581787109375,
      "learning_rate": 0.0,
      "loss": -0.0094,
      "reward": 0.18750000558793545,
      "reward_std": 0.10825317353010178,
      "rewards/accuracy_reward": 0.18750000558793545,
      "rewards/format_reward": 0.0,
      "step": 820
    },
    {
      "epoch": 1.0,
      "step": 820,
      "total_flos": 0.0,
      "train_loss": 0.004393076130298962,
      "train_runtime": 23663.0394,
      "train_samples_per_second": 0.554,
      "train_steps_per_second": 0.035
    }
  ],
  "logging_steps": 1,
  "max_steps": 820,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}