{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 180,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 2945.7202758789062,
      "epoch": 0.027972027972027972,
      "grad_norm": 0.08992995321750641,
      "kl": 0.0,
      "learning_rate": 0.0,
      "loss": 0.0,
      "reward": 0.5104166641831398,
      "reward_std": 0.2102233674377203,
      "rewards/accuracy_reward": 0.0892857164144516,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4211309626698494,
      "step": 1
    },
    {
      "completion_length": 3191.761962890625,
      "epoch": 0.055944055944055944,
      "grad_norm": 0.30593544244766235,
      "kl": 0.0,
      "learning_rate": 5.555555555555555e-08,
      "loss": 0.0,
      "reward": 0.5022321417927742,
      "reward_std": 0.20526811853051186,
      "rewards/accuracy_reward": 0.0922619067132473,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4099702462553978,
      "step": 2
    },
    {
      "completion_length": 2838.3720703125,
      "epoch": 0.08391608391608392,
      "grad_norm": 0.09959172457456589,
      "kl": 4.9114227294921875e-05,
      "learning_rate": 1.111111111111111e-07,
      "loss": 0.0,
      "reward": 0.583333358168602,
      "reward_std": 0.22632932662963867,
      "rewards/accuracy_reward": 0.13095238152891397,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4523809626698494,
      "step": 3
    },
    {
      "completion_length": 2734.3572387695312,
      "epoch": 0.11188811188811189,
      "grad_norm": 0.11217548698186874,
      "kl": 5.0961971282958984e-05,
      "learning_rate": 1.6666666666666665e-07,
      "loss": 0.0,
      "reward": 0.5424107313156128,
      "reward_std": 0.2021841686218977,
      "rewards/accuracy_reward": 0.10416667023673654,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4382440522313118,
      "step": 4
    },
    {
      "completion_length": 2863.5357666015625,
      "epoch": 0.13986013986013987,
      "grad_norm": 0.11380404978990555,
      "kl": 5.334615707397461e-05,
      "learning_rate": 2.222222222222222e-07,
      "loss": 0.0,
      "reward": 0.5967262014746666,
      "reward_std": 0.22172891348600388,
      "rewards/accuracy_reward": 0.15476190764456987,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.441964291036129,
      "step": 5
    },
    {
      "completion_length": 3099.0416870117188,
      "epoch": 0.16783216783216784,
      "grad_norm": 0.104108065366745,
      "kl": 5.179643630981445e-05,
      "learning_rate": 2.7777777777777776e-07,
      "loss": 0.0,
      "reward": 0.5126488134264946,
      "reward_std": 0.22282272577285767,
      "rewards/accuracy_reward": 0.09226190578192472,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4203869178891182,
      "step": 6
    },
    {
      "completion_length": 3416.1934814453125,
      "epoch": 0.1958041958041958,
      "grad_norm": 0.10306566208600998,
      "kl": 5.620718002319336e-05,
      "learning_rate": 3.333333333333333e-07,
      "loss": 0.0,
      "reward": 0.510416679084301,
      "reward_std": 0.261018592864275,
      "rewards/accuracy_reward": 0.11607143003493547,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3943452462553978,
      "step": 7
    },
    {
      "completion_length": 3140.9405517578125,
      "epoch": 0.22377622377622378,
      "grad_norm": 0.09083328396081924,
      "kl": 5.40614128112793e-05,
      "learning_rate": 3.888888888888889e-07,
      "loss": 0.0,
      "reward": 0.5208333283662796,
      "reward_std": 0.2423064224421978,
      "rewards/accuracy_reward": 0.1011904776096344,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4196428582072258,
      "step": 8
    },
    {
      "completion_length": 3093.7916870117188,
      "epoch": 0.2517482517482518,
      "grad_norm": 0.0941944494843483,
      "kl": 4.83393669128418e-05,
      "learning_rate": 4.444444444444444e-07,
      "loss": 0.0,
      "reward": 0.568452388048172,
      "reward_std": 0.2969280257821083,
      "rewards/accuracy_reward": 0.1488095261156559,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4196428656578064,
      "step": 9
    },
    {
      "completion_length": 3059.0924072265625,
      "epoch": 0.27972027972027974,
      "grad_norm": 3.2292351722717285,
      "kl": 4.953145980834961e-05,
      "learning_rate": 5e-07,
      "loss": 0.0,
      "reward": 0.5967262089252472,
      "reward_std": 0.29494407773017883,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4300595298409462,
      "step": 10
    },
    {
      "completion_length": 3060.21728515625,
      "epoch": 0.3076923076923077,
      "grad_norm": 0.09246377646923065,
      "kl": 4.6312808990478516e-05,
      "learning_rate": 5.555555555555555e-07,
      "loss": 0.0,
      "reward": 0.4940476343035698,
      "reward_std": 0.20687389746308327,
      "rewards/accuracy_reward": 0.07440476445481181,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4196428656578064,
      "step": 11
    },
    {
      "completion_length": 3174.196533203125,
      "epoch": 0.3356643356643357,
      "grad_norm": 0.10116475075483322,
      "kl": 5.650520324707031e-05,
      "learning_rate": 6.111111111111112e-07,
      "loss": 0.0,
      "reward": 0.5066964402794838,
      "reward_std": 0.22321293503046036,
      "rewards/accuracy_reward": 0.09821428754366934,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4084821566939354,
      "step": 12
    },
    {
      "completion_length": 3070.0089721679688,
      "epoch": 0.36363636363636365,
      "grad_norm": 0.10479767620563507,
      "kl": 0.0002524256706237793,
      "learning_rate": 6.666666666666666e-07,
      "loss": 0.0,
      "reward": 0.6614583432674408,
      "reward_std": 0.2681122124195099,
      "rewards/accuracy_reward": 0.24404762126505375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4174107164144516,
      "step": 13
    },
    {
      "completion_length": 3290.7738647460938,
      "epoch": 0.3916083916083916,
      "grad_norm": 0.19513735175132751,
      "kl": 5.537271499633789e-05,
      "learning_rate": 7.222222222222221e-07,
      "loss": 0.0,
      "reward": 0.6562500074505806,
      "reward_std": 0.3831389471888542,
      "rewards/accuracy_reward": 0.25595238618552685,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4002976268529892,
      "step": 14
    },
    {
      "completion_length": 3630.5714721679688,
      "epoch": 0.4195804195804196,
      "grad_norm": 0.08842650800943375,
      "kl": 4.839897155761719e-05,
      "learning_rate": 7.777777777777778e-07,
      "loss": 0.0,
      "reward": 0.545386902987957,
      "reward_std": 0.27424266561865807,
      "rewards/accuracy_reward": 0.17559524066746235,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3697916716337204,
      "step": 15
    },
    {
      "completion_length": 3649.27685546875,
      "epoch": 0.44755244755244755,
      "grad_norm": 0.09835156053304672,
      "kl": 4.208087921142578e-05,
      "learning_rate": 8.333333333333333e-07,
      "loss": 0.0,
      "reward": 0.6138392984867096,
      "reward_std": 0.3248288035392761,
      "rewards/accuracy_reward": 0.2440476231276989,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3697916716337204,
      "step": 16
    },
    {
      "completion_length": 3623.0596313476562,
      "epoch": 0.4755244755244755,
      "grad_norm": 0.11101175099611282,
      "kl": 4.845857620239258e-05,
      "learning_rate": 8.888888888888888e-07,
      "loss": 0.0,
      "reward": 0.5372024029493332,
      "reward_std": 0.2965564988553524,
      "rewards/accuracy_reward": 0.1726190485060215,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3645833507180214,
      "step": 17
    },
    {
      "completion_length": 3498.8096313476562,
      "epoch": 0.5034965034965035,
      "grad_norm": 0.10944987833499908,
      "kl": 4.649162292480469e-05,
      "learning_rate": 9.444444444444444e-07,
      "loss": 0.0,
      "reward": 0.537202388048172,
      "reward_std": 0.3150208666920662,
      "rewards/accuracy_reward": 0.17261905316263437,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3645833358168602,
      "step": 18
    },
    {
      "completion_length": 3287.4048461914062,
      "epoch": 0.5314685314685315,
      "grad_norm": 0.1434430330991745,
      "kl": 5.739927291870117e-05,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.6160714402794838,
      "reward_std": 0.3258791044354439,
      "rewards/accuracy_reward": 0.22619047947227955,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3898809477686882,
      "step": 19
    },
    {
      "completion_length": 3627.2202758789062,
      "epoch": 0.5594405594405595,
      "grad_norm": 0.09357653558254242,
      "kl": 4.5299530029296875e-05,
      "learning_rate": 9.999153867018255e-07,
      "loss": 0.0,
      "reward": 0.5297619104385376,
      "reward_std": 0.3098462224006653,
      "rewards/accuracy_reward": 0.16369047947227955,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3660714402794838,
      "step": 20
    },
    {
      "completion_length": 3486.3453369140625,
      "epoch": 0.5874125874125874,
      "grad_norm": 0.09195814281702042,
      "kl": 4.369020462036133e-05,
      "learning_rate": 9.996615786269034e-07,
      "loss": 0.0,
      "reward": 0.574404776096344,
      "reward_std": 0.3131341114640236,
      "rewards/accuracy_reward": 0.1964285783469677,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.377976194024086,
      "step": 21
    },
    {
      "completion_length": 3686.1131591796875,
      "epoch": 0.6153846153846154,
      "grad_norm": 0.10805041342973709,
      "kl": 3.5136938095092773e-05,
      "learning_rate": 9.992386712220707e-07,
      "loss": 0.0,
      "reward": 0.5855654701590538,
      "reward_std": 0.317733321338892,
      "rewards/accuracy_reward": 0.2172619104385376,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3683035746216774,
      "step": 22
    },
    {
      "completion_length": 3132.3988037109375,
      "epoch": 0.6433566433566433,
      "grad_norm": 0.10081591457128525,
      "kl": 4.07099723815918e-05,
      "learning_rate": 9.986468235255064e-07,
      "loss": 0.0,
      "reward": 0.6860119104385376,
      "reward_std": 0.3946758955717087,
      "rewards/accuracy_reward": 0.2797619067132473,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4062500074505806,
      "step": 23
    },
    {
      "completion_length": 3288.7650146484375,
      "epoch": 0.6713286713286714,
      "grad_norm": 0.08800289034843445,
      "kl": 3.781914710998535e-05,
      "learning_rate": 9.978862581069245e-07,
      "loss": 0.0,
      "reward": 0.6815476417541504,
      "reward_std": 0.3288978040218353,
      "rewards/accuracy_reward": 0.2857142947614193,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3958333432674408,
      "step": 24
    },
    {
      "completion_length": 3099.306640625,
      "epoch": 0.6993006993006993,
      "grad_norm": 0.11318381130695343,
      "kl": 3.314018249511719e-05,
      "learning_rate": 9.969572609838744e-07,
      "loss": 0.0,
      "reward": 0.7291666716337204,
      "reward_std": 0.3738822266459465,
      "rewards/accuracy_reward": 0.3125000074505806,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4166666716337204,
      "step": 25
    },
    {
      "completion_length": 3236.0416870117188,
      "epoch": 0.7272727272727273,
      "grad_norm": 0.10187575966119766,
      "kl": 3.30805778503418e-05,
      "learning_rate": 9.958601815141803e-07,
      "loss": 0.0,
      "reward": 0.6294642984867096,
      "reward_std": 0.352918803691864,
      "rewards/accuracy_reward": 0.2410714365541935,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3883928656578064,
      "step": 26
    },
    {
      "completion_length": 2626.6101684570312,
      "epoch": 0.7552447552447552,
      "grad_norm": 0.1044318675994873,
      "kl": 5.5670738220214844e-05,
      "learning_rate": 9.94595432264564e-07,
      "loss": 0.0,
      "reward": 0.6822916865348816,
      "reward_std": 0.3088056966662407,
      "rewards/accuracy_reward": 0.23809524439275265,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4441964402794838,
      "step": 27
    },
    {
      "completion_length": 3134.5774536132812,
      "epoch": 0.7832167832167832,
      "grad_norm": 0.08211353421211243,
      "kl": 5.906820297241211e-05,
      "learning_rate": 9.931634888554935e-07,
      "loss": 0.0,
      "reward": 0.4985119104385376,
      "reward_std": 0.1905420981347561,
      "rewards/accuracy_reward": 0.08630952518433332,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.412202388048172,
      "step": 28
    },
    {
      "completion_length": 2987.3304443359375,
      "epoch": 0.8111888111888111,
      "grad_norm": 0.08840525150299072,
      "kl": 5.1856040954589844e-05,
      "learning_rate": 9.915648897823232e-07,
      "loss": 0.0,
      "reward": 0.6510416716337204,
      "reward_std": 0.2952599339187145,
      "rewards/accuracy_reward": 0.20833334140479565,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4427083358168602,
      "step": 29
    },
    {
      "completion_length": 3049.0328369140625,
      "epoch": 0.8391608391608392,
      "grad_norm": 0.09037017077207565,
      "kl": 7.843971252441406e-05,
      "learning_rate": 9.89800236212786e-07,
      "loss": 0.0,
      "reward": 0.574404776096344,
      "reward_std": 0.26248788461089134,
      "rewards/accuracy_reward": 0.15476190787740052,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4196428582072258,
      "step": 30
    },
    {
      "completion_length": 2818.0387573242188,
      "epoch": 0.8671328671328671,
      "grad_norm": 0.08912839740514755,
      "kl": 8.428096771240234e-05,
      "learning_rate": 9.878701917609207e-07,
      "loss": 0.0,
      "reward": 0.6257440596818924,
      "reward_std": 0.2523465231060982,
      "rewards/accuracy_reward": 0.17261905036866665,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4531250074505806,
      "step": 31
    },
    {
      "completion_length": 2675.1845703125,
      "epoch": 0.8951048951048951,
      "grad_norm": 0.0868036225438118,
      "kl": 0.00010216236114501953,
      "learning_rate": 9.857754822375126e-07,
      "loss": 0.0,
      "reward": 0.6904762089252472,
      "reward_std": 0.25569987669587135,
      "rewards/accuracy_reward": 0.2410714328289032,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.449404776096344,
      "step": 32
    },
    {
      "completion_length": 2967.2411499023438,
      "epoch": 0.9230769230769231,
      "grad_norm": 0.11090683937072754,
      "kl": 0.0001150369644165039,
      "learning_rate": 9.83516895377146e-07,
      "loss": 0.0,
      "reward": 0.6324404925107956,
      "reward_std": 0.2739677280187607,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4241071492433548,
      "step": 33
    },
    {
      "completion_length": 2569.0238647460938,
      "epoch": 0.951048951048951,
      "grad_norm": 0.10315605998039246,
      "kl": 0.0001518726348876953,
      "learning_rate": 9.8109528054197e-07,
      "loss": 0.0,
      "reward": 0.7061012089252472,
      "reward_std": 0.30017876625061035,
      "rewards/accuracy_reward": 0.2172619067132473,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4888392984867096,
      "step": 34
    },
    {
      "completion_length": 3555.8452758789062,
      "epoch": 0.9790209790209791,
      "grad_norm": 0.14011836051940918,
      "kl": 0.00016379356384277344,
      "learning_rate": 9.785115484022869e-07,
      "loss": 0.0,
      "reward": 0.4531250149011612,
      "reward_std": 0.23945146799087524,
      "rewards/accuracy_reward": 0.09226190857589245,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3608631044626236,
      "step": 35
    },
    {
      "completion_length": 3795.0263671875,
      "epoch": 1.0,
      "grad_norm": 0.14011836051940918,
      "kl": 0.00016848246256510416,
      "learning_rate": 9.757666705940878e-07,
      "loss": 0.0,
      "reward": 0.3928571542104085,
      "reward_std": 0.16382549703121185,
      "rewards/accuracy_reward": 0.0436507947742939,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3492063581943512,
      "step": 36
    },
    {
      "completion_length": 2951.9464111328125,
      "epoch": 1.027972027972028,
      "grad_norm": 0.1335798054933548,
      "kl": 0.00022125244140625,
      "learning_rate": 9.728616793536587e-07,
      "loss": 0.0,
      "reward": 0.497023805975914,
      "reward_std": 0.16415998339653015,
      "rewards/accuracy_reward": 0.07142857275903225,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4255952388048172,
      "step": 37
    },
    {
      "completion_length": 3158.5267944335938,
      "epoch": 1.055944055944056,
      "grad_norm": 0.16623912751674652,
      "kl": 0.00020551681518554688,
      "learning_rate": 9.697976671294003e-07,
      "loss": 0.0,
      "reward": 0.5148809626698494,
      "reward_std": 0.22238681092858315,
      "rewards/accuracy_reward": 0.0922619067132473,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4226190596818924,
      "step": 38
    },
    {
      "completion_length": 2795.3155517578125,
      "epoch": 1.083916083916084,
      "grad_norm": 0.12368790060281754,
      "kl": 0.0002484321594238281,
      "learning_rate": 9.665757861710007e-07,
      "loss": 0.0,
      "reward": 0.5699404999613762,
      "reward_std": 0.22224155068397522,
      "rewards/accuracy_reward": 0.11309523973613977,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.456845261156559,
      "step": 39
    },
    {
      "completion_length": 2715.77392578125,
      "epoch": 1.1118881118881119,
      "grad_norm": 0.09115960448980331,
      "kl": 0.00038814544677734375,
      "learning_rate": 9.631972480961233e-07,
      "loss": 0.0,
      "reward": 0.5424107313156128,
      "reward_std": 0.21795128658413887,
      "rewards/accuracy_reward": 0.09226190415211022,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4501488283276558,
      "step": 40
    },
    {
      "completion_length": 2979.4970092773438,
      "epoch": 1.1398601398601398,
      "grad_norm": 0.17517763376235962,
      "kl": 0.0002455711364746094,
      "learning_rate": 9.59663323434766e-07,
      "loss": 0.0,
      "reward": 0.5796131044626236,
      "reward_std": 0.22455461882054806,
      "rewards/accuracy_reward": 0.1517857164144516,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.427827388048172,
      "step": 41
    },
    {
      "completion_length": 3172.4226684570312,
      "epoch": 1.167832167832168,
      "grad_norm": 0.09061767905950546,
      "kl": 0.00025773048400878906,
      "learning_rate": 9.55975341151467e-07,
      "loss": 0.0,
      "reward": 0.4962797835469246,
      "reward_std": 0.2209780216217041,
      "rewards/accuracy_reward": 0.07738095452077687,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4188988208770752,
      "step": 42
    },
    {
      "completion_length": 3369.6339721679688,
      "epoch": 1.1958041958041958,
      "grad_norm": 0.07707580924034119,
      "kl": 0.00022912025451660156,
      "learning_rate": 9.521346881455354e-07,
      "loss": 0.0,
      "reward": 0.5066964328289032,
      "reward_std": 0.221993587911129,
      "rewards/accuracy_reward": 0.1011904776096344,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4055059626698494,
      "step": 43
    },
    {
      "completion_length": 3192.27685546875,
      "epoch": 1.2237762237762237,
      "grad_norm": 0.10000985860824585,
      "kl": 0.00026798248291015625,
      "learning_rate": 9.481428087294959e-07,
      "loss": 0.0,
      "reward": 0.5111607164144516,
      "reward_std": 0.22597463242709637,
      "rewards/accuracy_reward": 0.095238097012043,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4159226268529892,
      "step": 44
    },
    {
      "completion_length": 3079.33935546875,
      "epoch": 1.2517482517482517,
      "grad_norm": 0.10022323578596115,
      "kl": 0.00036716461181640625,
      "learning_rate": 9.440012040859408e-07,
      "loss": 0.0,
      "reward": 0.5535714477300644,
      "reward_std": 0.2452528141438961,
      "rewards/accuracy_reward": 0.13988095615059137,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4136904776096344,
      "step": 45
    },
    {
      "completion_length": 3041.0208740234375,
      "epoch": 1.2797202797202798,
      "grad_norm": 0.08870735764503479,
      "kl": 0.0003390312194824219,
      "learning_rate": 9.397114317029974e-07,
      "loss": 0.0,
      "reward": 0.5625000149011612,
      "reward_std": 0.2692300006747246,
      "rewards/accuracy_reward": 0.13392857648432255,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4285714402794838,
      "step": 46
    },
    {
      "completion_length": 3139.7202758789062,
      "epoch": 1.3076923076923077,
      "grad_norm": 0.1289481371641159,
      "kl": 0.0003085136413574219,
      "learning_rate": 9.352751047886198e-07,
      "loss": 0.0,
      "reward": 0.490327388048172,
      "reward_std": 0.2173246443271637,
      "rewards/accuracy_reward": 0.07142857275903225,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4188988134264946,
      "step": 47
    },
    {
      "completion_length": 3241.5535888671875,
      "epoch": 1.3356643356643356,
      "grad_norm": 0.08511940389871597,
      "kl": 0.0003581047058105469,
      "learning_rate": 9.306938916639285e-07,
      "loss": 0.0,
      "reward": 0.504464291036129,
      "reward_std": 0.2454623058438301,
      "rewards/accuracy_reward": 0.09523809747770429,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.409226194024086,
      "step": 48
    },
    {
      "completion_length": 3153.041748046875,
      "epoch": 1.3636363636363638,
      "grad_norm": 0.11432822048664093,
      "kl": 0.00035762786865234375,
      "learning_rate": 9.259695151358214e-07,
      "loss": 0.0,
      "reward": 0.6778274029493332,
      "reward_std": 0.29422780871391296,
      "rewards/accuracy_reward": 0.2619047723710537,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4159226343035698,
      "step": 49
    },
    {
      "completion_length": 3244.0416870117188,
      "epoch": 1.3916083916083917,
      "grad_norm": 0.07997111976146698,
      "kl": 0.0005092620849609375,
      "learning_rate": 9.21103751849098e-07,
      "loss": 0.0,
      "reward": 0.721726194024086,
      "reward_std": 0.4153262600302696,
      "rewards/accuracy_reward": 0.3125000037252903,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.409226194024086,
      "step": 50
    },
    {
      "completion_length": 3661.2827758789062,
      "epoch": 1.4195804195804196,
      "grad_norm": 0.09987284988164902,
      "kl": 0.0004477500915527344,
      "learning_rate": 9.160984316183354e-07,
      "loss": 0.0,
      "reward": 0.5461309626698494,
      "reward_std": 0.27763326466083527,
      "rewards/accuracy_reward": 0.18750000558793545,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3586309552192688,
      "step": 51
    },
    {
      "completion_length": 3599.571533203125,
      "epoch": 1.4475524475524475,
      "grad_norm": 0.09226205199956894,
      "kl": 0.000530242919921875,
      "learning_rate": 9.109554367397697e-07,
      "loss": 0.0,
      "reward": 0.636904776096344,
      "reward_std": 0.34169958531856537,
      "rewards/accuracy_reward": 0.2500000037252903,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3869047611951828,
      "step": 52
    },
    {
      "completion_length": 3564.58935546875,
      "epoch": 1.4755244755244754,
      "grad_norm": 0.09048299491405487,
      "kl": 0.000576019287109375,
      "learning_rate": 9.056767012834416e-07,
      "loss": 0.0,
      "reward": 0.5989583507180214,
      "reward_std": 0.33351704478263855,
      "rewards/accuracy_reward": 0.223214291036129,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3757440596818924,
      "step": 53
    },
    {
      "completion_length": 3535.7650146484375,
      "epoch": 1.5034965034965035,
      "grad_norm": 0.09732116013765335,
      "kl": 0.0005936622619628906,
      "learning_rate": 9.002642103658719e-07,
      "loss": 0.0,
      "reward": 0.57738097012043,
      "reward_std": 0.3000512942671776,
      "rewards/accuracy_reward": 0.19642857182770967,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.380952388048172,
      "step": 54
    },
    {
      "completion_length": 3258.33935546875,
      "epoch": 1.5314685314685315,
      "grad_norm": 0.08897067606449127,
      "kl": 0.0005841255187988281,
      "learning_rate": 8.9471999940354e-07,
      "loss": 0.0,
      "reward": 0.6555059626698494,
      "reward_std": 0.31323162093758583,
      "rewards/accuracy_reward": 0.25297619588673115,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.402529776096344,
      "step": 55
    },
    {
      "completion_length": 3488.7828369140625,
      "epoch": 1.5594405594405596,
      "grad_norm": 0.11047809571027756,
      "kl": 0.0006580352783203125,
      "learning_rate": 8.890461533474473e-07,
      "loss": 0.0,
      "reward": 0.6056547611951828,
      "reward_std": 0.3212001100182533,
      "rewards/accuracy_reward": 0.220238097012043,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.385416679084301,
      "step": 56
    },
    {
      "completion_length": 3451.3245239257812,
      "epoch": 1.5874125874125875,
      "grad_norm": 0.09569097310304642,
      "kl": 0.0006022453308105469,
      "learning_rate": 8.832448058990521e-07,
      "loss": 0.0,
      "reward": 0.596726194024086,
      "reward_std": 0.3251044377684593,
      "rewards/accuracy_reward": 0.2142857164144516,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.382440485060215,
      "step": 57
    },
    {
      "completion_length": 3633.193603515625,
      "epoch": 1.6153846153846154,
      "grad_norm": 0.09286098182201385,
      "kl": 0.0006651878356933594,
      "learning_rate": 8.773181387078719e-07,
      "loss": 0.0,
      "reward": 0.6272321566939354,
      "reward_std": 0.3380197770893574,
      "rewards/accuracy_reward": 0.2410714291036129,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3861607238650322,
      "step": 58
    },
    {
      "completion_length": 3144.7053833007812,
      "epoch": 1.6433566433566433,
      "grad_norm": 0.1019466370344162,
      "kl": 0.0008211135864257812,
      "learning_rate": 8.712683805510545e-07,
      "loss": 0.0,
      "reward": 0.7075893133878708,
      "reward_std": 0.3953409940004349,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4159226268529892,
      "step": 59
    },
    {
      "completion_length": 3188.6845703125,
      "epoch": 1.6713286713286712,
      "grad_norm": 0.11080282181501389,
      "kl": 0.0006132125854492188,
      "learning_rate": 8.650978064952258e-07,
      "loss": 0.0,
      "reward": 0.7604166865348816,
      "reward_std": 0.3040749914944172,
      "rewards/accuracy_reward": 0.3571428656578064,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4032738134264946,
      "step": 60
    },
    {
      "completion_length": 3010.1488647460938,
      "epoch": 1.6993006993006992,
      "grad_norm": 0.08334992080926895,
      "kl": 0.0007467269897460938,
      "learning_rate": 8.588087370409302e-07,
      "loss": 0.0,
      "reward": 0.7819940596818924,
      "reward_std": 0.3632723242044449,
      "rewards/accuracy_reward": 0.3571428656578064,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.424851194024086,
      "step": 61
    },
    {
      "completion_length": 3139.3452758789062,
      "epoch": 1.7272727272727273,
      "grad_norm": 0.1026916578412056,
      "kl": 0.0007228851318359375,
      "learning_rate": 8.52403537249985e-07,
      "loss": 0.0,
      "reward": 0.7075893133878708,
      "reward_std": 0.32955069839954376,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4159226343035698,
      "step": 62
    },
    {
      "completion_length": 2651.9703369140625,
      "epoch": 1.7552447552447552,
      "grad_norm": 0.11016727238893509,
      "kl": 0.0008554458618164062,
      "learning_rate": 8.458846158560786e-07,
      "loss": 0.0,
      "reward": 0.731398805975914,
      "reward_std": 0.3333098441362381,
      "rewards/accuracy_reward": 0.2708333395421505,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.460565485060215,
      "step": 63
    },
    {
      "completion_length": 3171.544677734375,
      "epoch": 1.7832167832167833,
      "grad_norm": 0.199759379029274,
      "kl": 0.0009202957153320312,
      "learning_rate": 8.392544243589427e-07,
      "loss": 0.0,
      "reward": 0.5431547686457634,
      "reward_std": 0.22581714019179344,
      "rewards/accuracy_reward": 0.12202381296083331,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4211309626698494,
      "step": 64
    },
    {
      "completion_length": 3002.52685546875,
      "epoch": 1.8111888111888113,
      "grad_norm": 0.09409494698047638,
      "kl": 0.000827789306640625,
      "learning_rate": 8.325154561024443e-07,
      "loss": 0.0,
      "reward": 0.6986607313156128,
      "reward_std": 0.3044434152543545,
      "rewards/accuracy_reward": 0.25297619588673115,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4456845223903656,
      "step": 65
    },
    {
      "completion_length": 3002.6904907226562,
      "epoch": 1.8391608391608392,
      "grad_norm": 0.08244930952787399,
      "kl": 0.0010738372802734375,
      "learning_rate": 8.256702453369412e-07,
      "loss": 0.0,
      "reward": 0.5766369253396988,
      "reward_std": 0.2669289857149124,
      "rewards/accuracy_reward": 0.14583334070630372,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.430803582072258,
      "step": 66
    },
    {
      "completion_length": 2784.8601684570312,
      "epoch": 1.867132867132867,
      "grad_norm": 0.10322090983390808,
      "kl": 0.0010652542114257812,
      "learning_rate": 8.187213662662538e-07,
      "loss": 0.0,
      "reward": 0.6480654776096344,
      "reward_std": 0.2842121906578541,
      "rewards/accuracy_reward": 0.1934523843228817,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.454613097012043,
      "step": 67
    },
    {
      "completion_length": 2688.4434814453125,
      "epoch": 1.895104895104895,
      "grad_norm": 0.10172371566295624,
      "kl": 0.001178741455078125,
      "learning_rate": 8.11671432079612e-07,
      "loss": 0.0,
      "reward": 0.7075892984867096,
      "reward_std": 0.2647625356912613,
      "rewards/accuracy_reward": 0.2410714291036129,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4665178582072258,
      "step": 68
    },
    {
      "completion_length": 2745.5892944335938,
      "epoch": 1.9230769230769231,
      "grad_norm": 0.10732463002204895,
      "kl": 0.0011472702026367188,
      "learning_rate": 8.045230939689424e-07,
      "loss": 0.0,
      "reward": 0.7194940596818924,
      "reward_std": 0.3091561570763588,
      "rewards/accuracy_reward": 0.2559523805975914,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.463541679084301,
      "step": 69
    },
    {
      "completion_length": 2508.4762573242188,
      "epoch": 1.951048951048951,
      "grad_norm": 0.10578262805938721,
      "kl": 0.0013446807861328125,
      "learning_rate": 7.972790401318627e-07,
      "loss": 0.0001,
      "reward": 0.7916666716337204,
      "reward_std": 0.34562500566244125,
      "rewards/accuracy_reward": 0.2738095298409462,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5178571492433548,
      "step": 70
    },
    {
      "completion_length": 3271.014892578125,
      "epoch": 1.9790209790209792,
      "grad_norm": 0.11061587184667587,
      "kl": 0.0012416839599609375,
      "learning_rate": 7.899419947607611e-07,
      "loss": 0.0,
      "reward": 0.5305059626698494,
      "reward_std": 0.3043720945715904,
      "rewards/accuracy_reward": 0.127976194024086,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4025297686457634,
      "step": 71
    },
    {
      "completion_length": 3785.77197265625,
      "epoch": 2.0,
      "grad_norm": 0.15183548629283905,
      "kl": 0.001277923583984375,
      "learning_rate": 7.825147170183384e-07,
      "loss": 0.0,
      "reward": 0.4117063581943512,
      "reward_std": 0.199227308233579,
      "rewards/accuracy_reward": 0.059523810942967735,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3521825472513835,
      "step": 72
    },
    {
      "completion_length": 2841.7887573242188,
      "epoch": 2.027972027972028,
      "grad_norm": 0.1057605892419815,
      "kl": 0.0014410018920898438,
      "learning_rate": 7.75e-07,
      "loss": 0.0001,
      "reward": 0.5319940447807312,
      "reward_std": 0.18857014551758766,
      "rewards/accuracy_reward": 0.09226190880872309,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4397321492433548,
      "step": 73
    },
    {
      "completion_length": 3105.610107421875,
      "epoch": 2.055944055944056,
      "grad_norm": 0.14314356446266174,
      "kl": 0.0013837814331054688,
      "learning_rate": 7.674006696834872e-07,
      "loss": 0.0001,
      "reward": 0.5357143059372902,
      "reward_std": 0.23290237039327621,
      "rewards/accuracy_reward": 0.0922619067132473,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.443452388048172,
      "step": 74
    },
    {
      "completion_length": 2653.3482666015625,
      "epoch": 2.0839160839160837,
      "grad_norm": 0.16954892873764038,
      "kl": 0.00127410888671875,
      "learning_rate": 7.597195838661425e-07,
      "loss": 0.0001,
      "reward": 0.59300597012043,
      "reward_std": 0.2353062480688095,
      "rewards/accuracy_reward": 0.11011904804036021,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.482886902987957,
      "step": 75
    },
    {
      "completion_length": 2528.6578369140625,
      "epoch": 2.111888111888112,
      "grad_norm": 0.0982322096824646,
      "kl": 0.00152587890625,
      "learning_rate": 7.51959631090208e-07,
      "loss": 0.0001,
      "reward": 0.565476194024086,
      "reward_std": 0.2114737629890442,
      "rewards/accuracy_reward": 0.08928571362048388,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.476190485060215,
      "step": 76
    },
    {
      "completion_length": 2843.4524536132812,
      "epoch": 2.13986013986014,
      "grad_norm": 0.13836292922496796,
      "kl": 0.0012874603271484375,
      "learning_rate": 7.441237295565641e-07,
      "loss": 0.0001,
      "reward": 0.605654776096344,
      "reward_std": 0.240522138774395,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4598214328289032,
      "step": 77
    },
    {
      "completion_length": 3015.6488647460938,
      "epoch": 2.167832167832168,
      "grad_norm": 0.4612804055213928,
      "kl": 0.0013256072998046875,
      "learning_rate": 7.362148260273126e-07,
      "loss": 0.0001,
      "reward": 0.5468750074505806,
      "reward_std": 0.2539355792105198,
      "rewards/accuracy_reward": 0.09821428940631449,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4486607164144516,
      "step": 78
    },
    {
      "completion_length": 3276.9346313476562,
      "epoch": 2.195804195804196,
      "grad_norm": 0.09492038935422897,
      "kl": 0.0012264251708984375,
      "learning_rate": 7.282358947176205e-07,
      "loss": 0.0,
      "reward": 0.5208333358168602,
      "reward_std": 0.2553631514310837,
      "rewards/accuracy_reward": 0.10416666883975267,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4166666716337204,
      "step": 79
    },
    {
      "completion_length": 3023.4345703125,
      "epoch": 2.2237762237762237,
      "grad_norm": 0.09587059915065765,
      "kl": 0.0013256072998046875,
      "learning_rate": 7.201899361772391e-07,
      "loss": 0.0001,
      "reward": 0.5803571492433548,
      "reward_std": 0.268021535128355,
      "rewards/accuracy_reward": 0.13392857275903225,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4464285746216774,
      "step": 80
    },
    {
      "completion_length": 3000.0030517578125,
      "epoch": 2.2517482517482517,
      "grad_norm": 0.10489190369844437,
      "kl": 0.001300811767578125,
      "learning_rate": 7.120799761621197e-07,
      "loss": 0.0001,
      "reward": 0.6220238208770752,
      "reward_std": 0.29535772278904915,
      "rewards/accuracy_reward": 0.17559524066746235,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.446428582072258,
      "step": 81
    },
    {
      "completion_length": 2823.2530517578125,
      "epoch": 2.2797202797202796,
      "grad_norm": 0.102653369307518,
      "kl": 0.0018138885498046875,
      "learning_rate": 7.039090644965509e-07,
      "loss": 0.0001,
      "reward": 0.6383928507566452,
      "reward_std": 0.32175029069185257,
      "rewards/accuracy_reward": 0.15773809887468815,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4806547686457634,
      "step": 82
    },
    {
      "completion_length": 2965.2232666015625,
      "epoch": 2.3076923076923075,
      "grad_norm": 0.109110988676548,
      "kl": 0.0014629364013671875,
      "learning_rate": 6.956802739262445e-07,
      "loss": 0.0001,
      "reward": 0.534226194024086,
      "reward_std": 0.24012810364365578,
      "rewards/accuracy_reward": 0.08035714481957257,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4538690522313118,
      "step": 83
    },
    {
      "completion_length": 3099.669677734375,
      "epoch": 2.335664335664336,
      "grad_norm": 0.09192686527967453,
      "kl": 0.0014801025390625,
      "learning_rate": 6.873966989628009e-07,
      "loss": 0.0001,
      "reward": 0.5416666716337204,
      "reward_std": 0.25171075016260147,
      "rewards/accuracy_reward": 0.09523809631355107,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.446428582072258,
      "step": 84
    },
    {
      "completion_length": 2962.357177734375,
      "epoch": 2.3636363636363638,
      "grad_norm": 0.10174567997455597,
      "kl": 0.00141143798828125,
      "learning_rate": 6.790614547199906e-07,
      "loss": 0.0001,
      "reward": 0.709077388048172,
      "reward_std": 0.2970610596239567,
      "rewards/accuracy_reward": 0.2619047686457634,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4471726268529892,
      "step": 85
    },
    {
      "completion_length": 3212.949462890625,
      "epoch": 2.3916083916083917,
      "grad_norm": 0.09201247245073318,
      "kl": 0.001979827880859375,
      "learning_rate": 6.706776757422868e-07,
      "loss": 0.0001,
      "reward": 0.7433035671710968,
      "reward_std": 0.4256303459405899,
      "rewards/accuracy_reward": 0.3244047723710537,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4188988208770752,
      "step": 86
    },
    {
      "completion_length": 3537.5238647460938,
      "epoch": 2.4195804195804196,
      "grad_norm": 0.10975628346204758,
      "kl": 0.0016155242919921875,
      "learning_rate": 6.622485148260915e-07,
      "loss": 0.0001,
      "reward": 0.6011904776096344,
      "reward_std": 0.24968973733484745,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3928571492433548,
      "step": 87
    },
    {
      "completion_length": 3494.4881591796875,
      "epoch": 2.4475524475524475,
      "grad_norm": 0.09692779183387756,
      "kl": 0.00200653076171875,
      "learning_rate": 6.537771418340981e-07,
      "loss": 0.0001,
      "reward": 0.6830357313156128,
      "reward_std": 0.37514135241508484,
      "rewards/accuracy_reward": 0.2738095298409462,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.409226194024086,
      "step": 88
    },
    {
      "completion_length": 3433.0982666015625,
      "epoch": 2.4755244755244754,
      "grad_norm": 0.10614696890115738,
      "kl": 0.00193023681640625,
      "learning_rate": 6.452667425032349e-07,
      "loss": 0.0001,
      "reward": 0.6532738283276558,
      "reward_std": 0.38044291734695435,
      "rewards/accuracy_reward": 0.24107143096625805,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.412202388048172,
      "step": 89
    },
    {
      "completion_length": 3480.40185546875,
      "epoch": 2.5034965034965033,
      "grad_norm": 0.13003912568092346,
      "kl": 0.0018329620361328125,
      "learning_rate": 6.367205172466403e-07,
      "loss": 0.0001,
      "reward": 0.643601194024086,
      "reward_std": 0.31658271327614784,
      "rewards/accuracy_reward": 0.24702381901443005,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3965773805975914,
      "step": 90
    },
    {
      "completion_length": 3084.0804443359375,
      "epoch": 2.5314685314685317,
      "grad_norm": 0.09549430012702942,
      "kl": 0.002101898193359375,
      "learning_rate": 6.281416799501187e-07,
      "loss": 0.0001,
      "reward": 0.7269345223903656,
      "reward_std": 0.36572954058647156,
      "rewards/accuracy_reward": 0.27678571827709675,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4501488134264946,
      "step": 91
    },
    {
      "completion_length": 3418.8155517578125,
      "epoch": 2.5594405594405596,
      "grad_norm": 0.11826770007610321,
      "kl": 0.0019245147705078125,
      "learning_rate": 6.195334567635283e-07,
      "loss": 0.0001,
      "reward": 0.6346726343035698,
      "reward_std": 0.34816064313054085,
      "rewards/accuracy_reward": 0.23511905036866665,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3995535746216774,
      "step": 92
    },
    {
      "completion_length": 3348.9732666015625,
      "epoch": 2.5874125874125875,
      "grad_norm": 0.09275460988283157,
      "kl": 0.001911163330078125,
      "learning_rate": 6.10899084887559e-07,
      "loss": 0.0001,
      "reward": 0.70238097012043,
      "reward_std": 0.3649657368659973,
      "rewards/accuracy_reward": 0.2827381044626236,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4196428656578064,
      "step": 93
    },
    {
      "completion_length": 3493.886962890625,
      "epoch": 2.6153846153846154,
      "grad_norm": 0.09432340413331985,
      "kl": 0.001922607421875,
      "learning_rate": 6.022418113563535e-07,
      "loss": 0.0001,
      "reward": 0.6912202388048172,
      "reward_std": 0.3915746212005615,
      "rewards/accuracy_reward": 0.27380952425301075,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4174107164144516,
      "step": 94
    },
    {
      "completion_length": 2935.6726684570312,
      "epoch": 2.6433566433566433,
      "grad_norm": 0.09711038321256638,
      "kl": 0.0020694732666015625,
      "learning_rate": 5.935648918164306e-07,
      "loss": 0.0001,
      "reward": 0.8415178656578064,
      "reward_std": 0.3873477354645729,
      "rewards/accuracy_reward": 0.3928571566939354,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4486607238650322,
      "step": 95
    },
    {
      "completion_length": 3010.7738037109375,
      "epoch": 2.6713286713286712,
      "grad_norm": 0.09161806106567383,
      "kl": 0.0018405914306640625,
      "learning_rate": 5.848715893023689e-07,
      "loss": 0.0001,
      "reward": 0.8355654925107956,
      "reward_std": 0.2888724021613598,
      "rewards/accuracy_reward": 0.3720238208770752,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4635416865348816,
      "step": 96
    },
    {
      "completion_length": 2880.8810424804688,
      "epoch": 2.699300699300699,
      "grad_norm": 0.10187753289937973,
      "kl": 0.002147674560546875,
      "learning_rate": 5.761651730097142e-07,
      "loss": 0.0001,
      "reward": 0.8497024178504944,
      "reward_std": 0.36032697558403015,
      "rewards/accuracy_reward": 0.3869047686457634,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4627976194024086,
      "step": 97
    },
    {
      "completion_length": 3113.1726684570312,
      "epoch": 2.7272727272727275,
      "grad_norm": 0.09418516606092453,
      "kl": 0.0018100738525390625,
      "learning_rate": 5.674489170655675e-07,
      "loss": 0.0001,
      "reward": 0.7410714477300644,
      "reward_std": 0.3313647545874119,
      "rewards/accuracy_reward": 0.2976190485060215,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.443452388048172,
      "step": 98
    },
    {
      "completion_length": 2379.4732666015625,
      "epoch": 2.755244755244755,
      "grad_norm": 0.10177874565124512,
      "kl": 0.002620697021484375,
      "learning_rate": 5.587260992973209e-07,
      "loss": 0.0001,
      "reward": 0.820684552192688,
      "reward_std": 0.3514714166522026,
      "rewards/accuracy_reward": 0.3035714328289032,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.517113097012043,
      "step": 99
    },
    {
      "completion_length": 2891.5149536132812,
      "epoch": 2.7832167832167833,
      "grad_norm": 0.1491205096244812,
      "kl": 0.0019989013671875,
      "learning_rate": 5.5e-07,
      "loss": 0.0001,
      "reward": 0.5982143133878708,
      "reward_std": 0.26152127981185913,
      "rewards/accuracy_reward": 0.13095238455571234,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4672619104385376,
      "step": 100
    },
    {
      "completion_length": 2804.0357666015625,
      "epoch": 2.8111888111888113,
      "grad_norm": 0.11217369139194489,
      "kl": 0.002048492431640625,
      "learning_rate": 5.41273900702679e-07,
      "loss": 0.0001,
      "reward": 0.7849702537059784,
      "reward_std": 0.3465358465909958,
      "rewards/accuracy_reward": 0.2946428656578064,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.490327388048172,
      "step": 101
    },
    {
      "completion_length": 2823.2500610351562,
      "epoch": 2.839160839160839,
      "grad_norm": 0.10132594406604767,
      "kl": 0.002750396728515625,
      "learning_rate": 5.325510829344324e-07,
      "loss": 0.0001,
      "reward": 0.6532738134264946,
      "reward_std": 0.31015192717313766,
      "rewards/accuracy_reward": 0.15773809794336557,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4955357238650322,
      "step": 102
    },
    {
      "completion_length": 2617.6280517578125,
      "epoch": 2.867132867132867,
      "grad_norm": 0.10968906432390213,
      "kl": 0.002490997314453125,
      "learning_rate": 5.238348269902859e-07,
      "loss": 0.0001,
      "reward": 0.7165178805589676,
      "reward_std": 0.2918235771358013,
      "rewards/accuracy_reward": 0.2261904776096344,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4903273805975914,
      "step": 103
    },
    {
      "completion_length": 2468.5327758789062,
      "epoch": 2.895104895104895,
      "grad_norm": 0.10988292843103409,
      "kl": 0.00304412841796875,
      "learning_rate": 5.151284106976311e-07,
      "loss": 0.0001,
      "reward": 0.7790178805589676,
      "reward_std": 0.29311515390872955,
      "rewards/accuracy_reward": 0.2678571455180645,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5111607164144516,
      "step": 104
    },
    {
      "completion_length": 2649.8631591796875,
      "epoch": 2.9230769230769234,
      "grad_norm": 0.11911734938621521,
      "kl": 0.00260162353515625,
      "learning_rate": 5.064351081835694e-07,
      "loss": 0.0001,
      "reward": 0.7857142984867096,
      "reward_std": 0.3036133013665676,
      "rewards/accuracy_reward": 0.2946428656578064,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4910714477300644,
      "step": 105
    },
    {
      "completion_length": 2294.0923767089844,
      "epoch": 2.951048951048951,
      "grad_norm": 0.10718347877264023,
      "kl": 0.00302886962890625,
      "learning_rate": 4.977581886436462e-07,
      "loss": 0.0001,
      "reward": 0.8206845372915268,
      "reward_std": 0.37444857507944107,
      "rewards/accuracy_reward": 0.255952388048172,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.564732164144516,
      "step": 106
    },
    {
      "completion_length": 3227.6697387695312,
      "epoch": 2.979020979020979,
      "grad_norm": 0.13584300875663757,
      "kl": 0.002513885498046875,
      "learning_rate": 4.891009151124411e-07,
      "loss": 0.0001,
      "reward": 0.5438988208770752,
      "reward_std": 0.2875536195933819,
      "rewards/accuracy_reward": 0.1160714328289032,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.427827388048172,
      "step": 107
    },
    {
      "completion_length": 3472.122802734375,
      "epoch": 3.0,
      "grad_norm": 0.14357814192771912,
      "kl": 0.0024566650390625,
      "learning_rate": 4.804665432364719e-07,
      "loss": 0.0001,
      "reward": 0.4494047661622365,
      "reward_std": 0.2378531942764918,
      "rewards/accuracy_reward": 0.06349206529557705,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3859127064545949,
      "step": 108
    },
    {
      "completion_length": 2802.714324951172,
      "epoch": 3.027972027972028,
      "grad_norm": 0.10655632615089417,
      "kl": 0.002201080322265625,
      "learning_rate": 4.7185832004988133e-07,
      "loss": 0.0001,
      "reward": 0.594494067132473,
      "reward_std": 0.2724935933947563,
      "rewards/accuracy_reward": 0.10714285774156451,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4873512014746666,
      "step": 109
    },
    {
      "completion_length": 3067.919677734375,
      "epoch": 3.055944055944056,
      "grad_norm": 0.17373289167881012,
      "kl": 0.0023937225341796875,
      "learning_rate": 4.632794827533596e-07,
      "loss": 0.0001,
      "reward": 0.5587797686457634,
      "reward_std": 0.26902300491929054,
      "rewards/accuracy_reward": 0.0922619067132473,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4665178656578064,
      "step": 110
    },
    {
      "completion_length": 2598.9345703125,
      "epoch": 3.0839160839160837,
      "grad_norm": 0.13991814851760864,
      "kl": 0.002651214599609375,
      "learning_rate": 4.547332574967653e-07,
      "loss": 0.0001,
      "reward": 0.6733631193637848,
      "reward_std": 0.2784017063677311,
      "rewards/accuracy_reward": 0.13095238571986556,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5424107164144516,
      "step": 111
    },
    {
      "completion_length": 2481.2262573242188,
      "epoch": 3.111888111888112,
      "grad_norm": 0.12796764075756073,
      "kl": 0.00284576416015625,
      "learning_rate": 4.4622285816590186e-07,
      "loss": 0.0001,
      "reward": 0.6428571492433548,
      "reward_std": 0.25486208125948906,
      "rewards/accuracy_reward": 0.10416666907258332,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5386904925107956,
      "step": 112
    },
    {
      "completion_length": 2844.6786499023438,
      "epoch": 3.13986013986014,
      "grad_norm": 0.11658414453268051,
      "kl": 0.0024261474609375,
      "learning_rate": 4.3775148517390846e-07,
      "loss": 0.0001,
      "reward": 0.6517857313156128,
      "reward_std": 0.2692863494157791,
      "rewards/accuracy_reward": 0.16964286006987095,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.482142873108387,
      "step": 113
    },
    {
      "completion_length": 2809.416748046875,
      "epoch": 3.167832167832168,
      "grad_norm": 0.12356197834014893,
      "kl": 0.002544403076171875,
      "learning_rate": 4.293223242577131e-07,
      "loss": 0.0001,
      "reward": 0.6004464477300644,
      "reward_std": 0.26328422501683235,
      "rewards/accuracy_reward": 0.09821428754366934,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5022321492433548,
      "step": 114
    },
    {
      "completion_length": 3025.8661499023438,
      "epoch": 3.195804195804196,
      "grad_norm": 0.11549896001815796,
      "kl": 0.00232696533203125,
      "learning_rate": 4.209385452800095e-07,
      "loss": 0.0001,
      "reward": 0.6071428656578064,
      "reward_std": 0.3151152990758419,
      "rewards/accuracy_reward": 0.1428571455180645,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4642857313156128,
      "step": 115
    },
    {
      "completion_length": 2975.202392578125,
      "epoch": 3.2237762237762237,
      "grad_norm": 0.10660137236118317,
      "kl": 0.00252532958984375,
      "learning_rate": 4.126033010371991e-07,
      "loss": 0.0001,
      "reward": 0.5825892984867096,
      "reward_std": 0.2717975974082947,
      "rewards/accuracy_reward": 0.12202380993403494,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.460565485060215,
      "step": 116
    },
    {
      "completion_length": 2774.3155517578125,
      "epoch": 3.2517482517482517,
      "grad_norm": 0.1331847459077835,
      "kl": 0.002536773681640625,
      "learning_rate": 4.043197260737555e-07,
      "loss": 0.0001,
      "reward": 0.6711309552192688,
      "reward_std": 0.2978888005018234,
      "rewards/accuracy_reward": 0.18750000093132257,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4836309626698494,
      "step": 117
    },
    {
      "completion_length": 2632.1339721679688,
      "epoch": 3.2797202797202796,
      "grad_norm": 0.11804653704166412,
      "kl": 0.002796173095703125,
      "learning_rate": 3.9609093550344907e-07,
      "loss": 0.0001,
      "reward": 0.6644345372915268,
      "reward_std": 0.33424488455057144,
      "rewards/accuracy_reward": 0.1547619067132473,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.509672611951828,
      "step": 118
    },
    {
      "completion_length": 2838.5297241210938,
      "epoch": 3.3076923076923075,
      "grad_norm": 0.13138364255428314,
      "kl": 0.002597808837890625,
      "learning_rate": 3.8792002383788036e-07,
      "loss": 0.0001,
      "reward": 0.5818452388048172,
      "reward_std": 0.259741447865963,
      "rewards/accuracy_reward": 0.08928571850992739,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4925595372915268,
      "step": 119
    },
    {
      "completion_length": 3014.5476684570312,
      "epoch": 3.335664335664336,
      "grad_norm": 0.10719572007656097,
      "kl": 0.00262451171875,
      "learning_rate": 3.7981006382276093e-07,
      "loss": 0.0001,
      "reward": 0.6049107164144516,
      "reward_std": 0.27329112216830254,
      "rewards/accuracy_reward": 0.11904762033373117,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4858631044626236,
      "step": 120
    },
    {
      "completion_length": 2792.014892578125,
      "epoch": 3.3636363636363638,
      "grad_norm": 0.09954708069562912,
      "kl": 0.002727508544921875,
      "learning_rate": 3.7176410528237945e-07,
      "loss": 0.0001,
      "reward": 0.7752976417541504,
      "reward_std": 0.3618427440524101,
      "rewards/accuracy_reward": 0.2797619104385376,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4955357238650322,
      "step": 121
    },
    {
      "completion_length": 2741.3720703125,
      "epoch": 3.3916083916083917,
      "grad_norm": 0.11019442230463028,
      "kl": 0.003749847412109375,
      "learning_rate": 3.637851739726874e-07,
      "loss": 0.0001,
      "reward": 0.8489583432674408,
      "reward_std": 0.4548647478222847,
      "rewards/accuracy_reward": 0.3511904813349247,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4977678582072258,
      "step": 122
    },
    {
      "completion_length": 3301.1488647460938,
      "epoch": 3.4195804195804196,
      "grad_norm": 0.10979685932397842,
      "kl": 0.003269195556640625,
      "learning_rate": 3.5587627044343604e-07,
      "loss": 0.0001,
      "reward": 0.6569940596818924,
      "reward_std": 0.29442668706178665,
      "rewards/accuracy_reward": 0.23511905409395695,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4218750149011612,
      "step": 123
    },
    {
      "completion_length": 3237.297607421875,
      "epoch": 3.4475524475524475,
      "grad_norm": 0.09944824874401093,
      "kl": 0.003009796142578125,
      "learning_rate": 3.4804036890979205e-07,
      "loss": 0.0001,
      "reward": 0.762648805975914,
      "reward_std": 0.35693658888339996,
      "rewards/accuracy_reward": 0.3184523917734623,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4441964402794838,
      "step": 124
    },
    {
      "completion_length": 3247.4404907226562,
      "epoch": 3.4755244755244754,
      "grad_norm": 0.1071368008852005,
      "kl": 0.003139495849609375,
      "learning_rate": 3.402804161338577e-07,
      "loss": 0.0001,
      "reward": 0.7090774029493332,
      "reward_std": 0.39585674554109573,
      "rewards/accuracy_reward": 0.2708333358168602,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4382440522313118,
      "step": 125
    },
    {
      "completion_length": 3228.3363647460938,
      "epoch": 3.5034965034965033,
      "grad_norm": 0.10697885602712631,
      "kl": 0.003299713134765625,
      "learning_rate": 3.3259933031651266e-07,
      "loss": 0.0001,
      "reward": 0.6659226417541504,
      "reward_std": 0.379042886197567,
      "rewards/accuracy_reward": 0.23511904664337635,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.430803582072258,
      "step": 126
    },
    {
      "completion_length": 2906.5477294921875,
      "epoch": 3.5314685314685317,
      "grad_norm": 0.12582722306251526,
      "kl": 0.003780364990234375,
      "learning_rate": 3.250000000000001e-07,
      "loss": 0.0002,
      "reward": 0.793898805975914,
      "reward_std": 0.3561762161552906,
      "rewards/accuracy_reward": 0.3244047611951828,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.469494067132473,
      "step": 127
    },
    {
      "completion_length": 3254.8929443359375,
      "epoch": 3.5594405594405596,
      "grad_norm": 0.09814245998859406,
      "kl": 0.003406524658203125,
      "learning_rate": 3.1748528298166164e-07,
      "loss": 0.0001,
      "reward": 0.7239583432674408,
      "reward_std": 0.37790394574403763,
      "rewards/accuracy_reward": 0.2797619067132473,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4441964253783226,
      "step": 128
    },
    {
      "completion_length": 3201.9077758789062,
      "epoch": 3.5874125874125875,
      "grad_norm": 0.10079911351203918,
      "kl": 0.0031280517578125,
      "learning_rate": 3.1005800523923903e-07,
      "loss": 0.0001,
      "reward": 0.7693452537059784,
      "reward_std": 0.406753808259964,
      "rewards/accuracy_reward": 0.3244047611951828,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.444940485060215,
      "step": 129
    },
    {
      "completion_length": 3339.5059814453125,
      "epoch": 3.6153846153846154,
      "grad_norm": 0.09590104967355728,
      "kl": 0.003513336181640625,
      "learning_rate": 3.027209598681373e-07,
      "loss": 0.0001,
      "reward": 0.725446455180645,
      "reward_std": 0.38120192289352417,
      "rewards/accuracy_reward": 0.29464286752045155,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.430803582072258,
      "step": 130
    },
    {
      "completion_length": 2748.104248046875,
      "epoch": 3.6433566433566433,
      "grad_norm": 0.13206864893436432,
      "kl": 0.004322052001953125,
      "learning_rate": 2.954769060310577e-07,
      "loss": 0.0002,
      "reward": 0.879464328289032,
      "reward_std": 0.4047969654202461,
      "rewards/accuracy_reward": 0.3928571492433548,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4866071566939354,
      "step": 131
    },
    {
      "completion_length": 3002.3394165039062,
      "epoch": 3.6713286713286712,
      "grad_norm": 0.10522563755512238,
      "kl": 0.00333404541015625,
      "learning_rate": 2.8832856792038794e-07,
      "loss": 0.0001,
      "reward": 0.8526785969734192,
      "reward_std": 0.361838236451149,
      "rewards/accuracy_reward": 0.3750000149011612,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.477678582072258,
      "step": 132
    },
    {
      "completion_length": 2796.1934814453125,
      "epoch": 3.699300699300699,
      "grad_norm": 0.11168068647384644,
      "kl": 0.003910064697265625,
      "learning_rate": 2.812786337337463e-07,
      "loss": 0.0002,
      "reward": 0.903273805975914,
      "reward_std": 0.395388700067997,
      "rewards/accuracy_reward": 0.410714291036129,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4925595298409462,
      "step": 133
    },
    {
      "completion_length": 2953.2053833007812,
      "epoch": 3.7272727272727275,
      "grad_norm": 0.09826097637414932,
      "kl": 0.00336456298828125,
      "learning_rate": 2.743297546630587e-07,
      "loss": 0.0001,
      "reward": 0.7938988208770752,
      "reward_std": 0.3516330271959305,
      "rewards/accuracy_reward": 0.3214285783469677,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4724702537059784,
      "step": 134
    },
    {
      "completion_length": 2285.59521484375,
      "epoch": 3.755244755244755,
      "grad_norm": 0.11822542548179626,
      "kl": 0.0056304931640625,
      "learning_rate": 2.674845438975557e-07,
      "loss": 0.0002,
      "reward": 0.8407738357782364,
      "reward_std": 0.3399865999817848,
      "rewards/accuracy_reward": 0.2976190522313118,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.543154776096344,
      "step": 135
    },
    {
      "completion_length": 2728.6280517578125,
      "epoch": 3.7832167832167833,
      "grad_norm": 0.17046403884887695,
      "kl": 0.003498077392578125,
      "learning_rate": 2.6074557564105724e-07,
      "loss": 0.0001,
      "reward": 0.649553582072258,
      "reward_std": 0.288466639816761,
      "rewards/accuracy_reward": 0.14285714365541935,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5066964402794838,
      "step": 136
    },
    {
      "completion_length": 2683.8005981445312,
      "epoch": 3.8111888111888113,
      "grad_norm": 0.11535181850194931,
      "kl": 0.00335693359375,
      "learning_rate": 2.541153841439214e-07,
      "loss": 0.0001,
      "reward": 0.8236607313156128,
      "reward_std": 0.337150476872921,
      "rewards/accuracy_reward": 0.30059524066746235,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.523065485060215,
      "step": 137
    },
    {
      "completion_length": 2738.6964721679688,
      "epoch": 3.839160839160839,
      "grad_norm": 0.11976780742406845,
      "kl": 0.00394439697265625,
      "learning_rate": 2.475964627500149e-07,
      "loss": 0.0002,
      "reward": 0.703125,
      "reward_std": 0.33021562546491623,
      "rewards/accuracy_reward": 0.19047619588673115,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5126488208770752,
      "step": 138
    },
    {
      "completion_length": 2560.4107666015625,
      "epoch": 3.867132867132867,
      "grad_norm": 0.11340122669935226,
      "kl": 0.003749847412109375,
      "learning_rate": 2.411912629590699e-07,
      "loss": 0.0002,
      "reward": 0.7388392984867096,
      "reward_std": 0.3105376362800598,
      "rewards/accuracy_reward": 0.2321428656578064,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5066964402794838,
      "step": 139
    },
    {
      "completion_length": 2278.681640625,
      "epoch": 3.895104895104895,
      "grad_norm": 0.11167583614587784,
      "kl": 0.005157470703125,
      "learning_rate": 2.349021935047742e-07,
      "loss": 0.0002,
      "reward": 0.8244047909975052,
      "reward_std": 0.2984638176858425,
      "rewards/accuracy_reward": 0.2857142873108387,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5386904925107956,
      "step": 140
    },
    {
      "completion_length": 2529.0982666015625,
      "epoch": 3.9230769230769234,
      "grad_norm": 0.15898652374744415,
      "kl": 0.0040130615234375,
      "learning_rate": 2.287316194489455e-07,
      "loss": 0.0002,
      "reward": 0.7641369104385376,
      "reward_std": 0.32191672176122665,
      "rewards/accuracy_reward": 0.2589285783469677,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5052083507180214,
      "step": 141
    },
    {
      "completion_length": 2281.9910888671875,
      "epoch": 3.951048951048951,
      "grad_norm": 0.11731097847223282,
      "kl": 0.0043792724609375,
      "learning_rate": 2.2268186129212807e-07,
      "loss": 0.0002,
      "reward": 0.9226190745830536,
      "reward_std": 0.3625694811344147,
      "rewards/accuracy_reward": 0.318452388048172,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.6041666716337204,
      "step": 142
    },
    {
      "completion_length": 3223.9078979492188,
      "epoch": 3.979020979020979,
      "grad_norm": 0.1330711990594864,
      "kl": 0.0041351318359375,
      "learning_rate": 2.16755194100948e-07,
      "loss": 0.0002,
      "reward": 0.5401785746216774,
      "reward_std": 0.319940485060215,
      "rewards/accuracy_reward": 0.11607143096625805,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4241071492433548,
      "step": 143
    },
    {
      "completion_length": 3505.614013671875,
      "epoch": 4.0,
      "grad_norm": 0.15241242945194244,
      "kl": 0.0035298665364583335,
      "learning_rate": 2.1095384665255267e-07,
      "loss": 0.0001,
      "reward": 0.4821428656578064,
      "reward_std": 0.2562485933303833,
      "rewards/accuracy_reward": 0.08333333457509677,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.3988095323244731,
      "step": 144
    },
    {
      "completion_length": 2669.4762573242188,
      "epoch": 4.027972027972028,
      "grad_norm": 0.132435142993927,
      "kl": 0.003795623779296875,
      "learning_rate": 2.0528000059645995e-07,
      "loss": 0.0002,
      "reward": 0.6242559552192688,
      "reward_std": 0.2846153862774372,
      "rewards/accuracy_reward": 0.11904762126505375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5052083432674408,
      "step": 145
    },
    {
      "completion_length": 2907.2738647460938,
      "epoch": 4.055944055944056,
      "grad_norm": 0.14874334633350372,
      "kl": 0.003658294677734375,
      "learning_rate": 1.99735789634128e-07,
      "loss": 0.0001,
      "reward": 0.5632440596818924,
      "reward_std": 0.27348505705595016,
      "rewards/accuracy_reward": 0.07440476352348924,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.488839291036129,
      "step": 146
    },
    {
      "completion_length": 2507.997100830078,
      "epoch": 4.083916083916084,
      "grad_norm": 0.1229638084769249,
      "kl": 0.004901885986328125,
      "learning_rate": 1.9432329871655836e-07,
      "loss": 0.0002,
      "reward": 0.6912202537059784,
      "reward_std": 0.2840711995959282,
      "rewards/accuracy_reward": 0.15773809887468815,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5334821566939354,
      "step": 147
    },
    {
      "completion_length": 2388.607177734375,
      "epoch": 4.111888111888112,
      "grad_norm": 0.13819031417369843,
      "kl": 0.0043792724609375,
      "learning_rate": 1.8904456326023027e-07,
      "loss": 0.0002,
      "reward": 0.6636904925107956,
      "reward_std": 0.2932458780705929,
      "rewards/accuracy_reward": 0.09821428940631449,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.565476194024086,
      "step": 148
    },
    {
      "completion_length": 2596.8035888671875,
      "epoch": 4.13986013986014,
      "grad_norm": 0.12725792825222015,
      "kl": 0.00445556640625,
      "learning_rate": 1.8390156838166462e-07,
      "loss": 0.0002,
      "reward": 0.6793154925107956,
      "reward_std": 0.27951210737228394,
      "rewards/accuracy_reward": 0.17857143096625805,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5007440522313118,
      "step": 149
    },
    {
      "completion_length": 2657.2232666015625,
      "epoch": 4.1678321678321675,
      "grad_norm": 0.1211203783750534,
      "kl": 0.00418853759765625,
      "learning_rate": 1.7889624815090195e-07,
      "loss": 0.0002,
      "reward": 0.621279776096344,
      "reward_std": 0.293570376932621,
      "rewards/accuracy_reward": 0.11011905060149729,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5111607313156128,
      "step": 150
    },
    {
      "completion_length": 2903.3482666015625,
      "epoch": 4.195804195804196,
      "grad_norm": 0.14065128564834595,
      "kl": 0.003757476806640625,
      "learning_rate": 1.7403048486417868e-07,
      "loss": 0.0002,
      "reward": 0.6443452388048172,
      "reward_std": 0.30524395406246185,
      "rewards/accuracy_reward": 0.1428571455180645,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.501488097012043,
      "step": 151
    },
    {
      "completion_length": 2863.4404907226562,
      "epoch": 4.223776223776224,
      "grad_norm": 0.12928026914596558,
      "kl": 0.003902435302734375,
      "learning_rate": 1.693061083360715e-07,
      "loss": 0.0002,
      "reward": 0.6190476194024086,
      "reward_std": 0.306563138961792,
      "rewards/accuracy_reward": 0.1339285746216774,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4851190522313118,
      "step": 152
    },
    {
      "completion_length": 2692.7857666015625,
      "epoch": 4.251748251748252,
      "grad_norm": 0.12153156846761703,
      "kl": 0.00408935546875,
      "learning_rate": 1.6472489521138015e-07,
      "loss": 0.0002,
      "reward": 0.6763392984867096,
      "reward_std": 0.31852778047323227,
      "rewards/accuracy_reward": 0.15773809980601072,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5186012014746666,
      "step": 153
    },
    {
      "completion_length": 2442.0684204101562,
      "epoch": 4.27972027972028,
      "grad_norm": 0.12675337493419647,
      "kl": 0.00487518310546875,
      "learning_rate": 1.6028856829700258e-07,
      "loss": 0.0002,
      "reward": 0.7380952537059784,
      "reward_std": 0.3266712352633476,
      "rewards/accuracy_reward": 0.1815476231276989,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5565476417541504,
      "step": 154
    },
    {
      "completion_length": 2662.907745361328,
      "epoch": 4.3076923076923075,
      "grad_norm": 0.15777888894081116,
      "kl": 0.004787445068359375,
      "learning_rate": 1.5599879591405916e-07,
      "loss": 0.0002,
      "reward": 0.6049107313156128,
      "reward_std": 0.23991192504763603,
      "rewards/accuracy_reward": 0.08333333604969084,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5215773954987526,
      "step": 155
    },
    {
      "completion_length": 2794.9673461914062,
      "epoch": 4.335664335664336,
      "grad_norm": 0.1465885192155838,
      "kl": 0.00409698486328125,
      "learning_rate": 1.5185719127050398e-07,
      "loss": 0.0002,
      "reward": 0.5833333432674408,
      "reward_std": 0.2825283370912075,
      "rewards/accuracy_reward": 0.08928571594879031,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4940476343035698,
      "step": 156
    },
    {
      "completion_length": 2754.6488647460938,
      "epoch": 4.363636363636363,
      "grad_norm": 0.09911419451236725,
      "kl": 0.00395965576171875,
      "learning_rate": 1.4786531185446452e-07,
      "loss": 0.0002,
      "reward": 0.7857142984867096,
      "reward_std": 0.3356376476585865,
      "rewards/accuracy_reward": 0.2976190559566021,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4880952537059784,
      "step": 157
    },
    {
      "completion_length": 2780.6726684570312,
      "epoch": 4.391608391608392,
      "grad_norm": 0.11424998939037323,
      "kl": 0.0051422119140625,
      "learning_rate": 1.4402465884853301e-07,
      "loss": 0.0002,
      "reward": 0.8787202537059784,
      "reward_std": 0.41560350358486176,
      "rewards/accuracy_reward": 0.3779762014746666,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5007440522313118,
      "step": 158
    },
    {
      "completion_length": 3287.794677734375,
      "epoch": 4.41958041958042,
      "grad_norm": 0.1019367203116417,
      "kl": 0.00496673583984375,
      "learning_rate": 1.4033667656523404e-07,
      "loss": 0.0002,
      "reward": 0.6815476268529892,
      "reward_std": 0.3411427028477192,
      "rewards/accuracy_reward": 0.24107143096625805,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.440476194024086,
      "step": 159
    },
    {
      "completion_length": 3285.3780517578125,
      "epoch": 4.4475524475524475,
      "grad_norm": 0.09824172407388687,
      "kl": 0.00437164306640625,
      "learning_rate": 1.3680275190387675e-07,
      "loss": 0.0002,
      "reward": 0.7886904925107956,
      "reward_std": 0.3618383854627609,
      "rewards/accuracy_reward": 0.3452381044626236,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4434523954987526,
      "step": 160
    },
    {
      "completion_length": 3261.59228515625,
      "epoch": 4.475524475524476,
      "grad_norm": 0.12426801025867462,
      "kl": 0.004497528076171875,
      "learning_rate": 1.3342421382899935e-07,
      "loss": 0.0002,
      "reward": 0.699404776096344,
      "reward_std": 0.3835337683558464,
      "rewards/accuracy_reward": 0.2619047649204731,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4375000149011612,
      "step": 161
    },
    {
      "completion_length": 3172.2529907226562,
      "epoch": 4.503496503496503,
      "grad_norm": 0.12890060245990753,
      "kl": 0.004352569580078125,
      "learning_rate": 1.3020233287059976e-07,
      "loss": 0.0002,
      "reward": 0.7105654776096344,
      "reward_std": 0.35477447509765625,
      "rewards/accuracy_reward": 0.25595238991081715,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4546131044626236,
      "step": 162
    },
    {
      "completion_length": 2853.4256591796875,
      "epoch": 4.531468531468532,
      "grad_norm": 0.13204464316368103,
      "kl": 0.00543975830078125,
      "learning_rate": 1.2713832064634125e-07,
      "loss": 0.0002,
      "reward": 0.814732164144516,
      "reward_std": 0.4248877093195915,
      "rewards/accuracy_reward": 0.3154761977493763,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.49925597012043,
      "step": 163
    },
    {
      "completion_length": 3321.5536499023438,
      "epoch": 4.559440559440559,
      "grad_norm": 0.09118322283029556,
      "kl": 0.00458526611328125,
      "learning_rate": 1.2423332940591238e-07,
      "loss": 0.0002,
      "reward": 0.7172619253396988,
      "reward_std": 0.342393409460783,
      "rewards/accuracy_reward": 0.2708333395421505,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4464285746216774,
      "step": 164
    },
    {
      "completion_length": 3086.2708740234375,
      "epoch": 4.5874125874125875,
      "grad_norm": 0.09752269089221954,
      "kl": 0.00424957275390625,
      "learning_rate": 1.2148845159771312e-07,
      "loss": 0.0002,
      "reward": 0.7566964328289032,
      "reward_std": 0.3746805787086487,
      "rewards/accuracy_reward": 0.3095238134264946,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4471726268529892,
      "step": 165
    },
    {
      "completion_length": 3220.9583740234375,
      "epoch": 4.615384615384615,
      "grad_norm": 0.09589620679616928,
      "kl": 0.0044403076171875,
      "learning_rate": 1.1890471945802999e-07,
      "loss": 0.0002,
      "reward": 0.7388393133878708,
      "reward_std": 0.3828039579093456,
      "rewards/accuracy_reward": 0.28571428917348385,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.453125,
      "step": 166
    },
    {
      "completion_length": 2777.7857666015625,
      "epoch": 4.643356643356643,
      "grad_norm": 0.11369551718235016,
      "kl": 0.0052642822265625,
      "learning_rate": 1.1648310462285385e-07,
      "loss": 0.0002,
      "reward": 0.8772321492433548,
      "reward_std": 0.41676195710897446,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4813988283276558,
      "step": 167
    },
    {
      "completion_length": 2835.4881591796875,
      "epoch": 4.671328671328672,
      "grad_norm": 0.11145463585853577,
      "kl": 0.004909515380859375,
      "learning_rate": 1.142245177624874e-07,
      "loss": 0.0002,
      "reward": 0.8630952537059784,
      "reward_std": 0.3876107409596443,
      "rewards/accuracy_reward": 0.3779762014746666,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4851190596818924,
      "step": 168
    },
    {
      "completion_length": 2691.9882202148438,
      "epoch": 4.699300699300699,
      "grad_norm": 0.10534343868494034,
      "kl": 0.0055389404296875,
      "learning_rate": 1.1212980823907929e-07,
      "loss": 0.0002,
      "reward": 0.9337797909975052,
      "reward_std": 0.3816476985812187,
      "rewards/accuracy_reward": 0.4375,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4962797686457634,
      "step": 169
    },
    {
      "completion_length": 2880.0149536132812,
      "epoch": 4.7272727272727275,
      "grad_norm": 0.11654610186815262,
      "kl": 0.00537872314453125,
      "learning_rate": 1.1019976378721399e-07,
      "loss": 0.0002,
      "reward": 0.815476194024086,
      "reward_std": 0.3700762465596199,
      "rewards/accuracy_reward": 0.3303571529686451,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4851190522313118,
      "step": 170
    },
    {
      "completion_length": 2267.869140625,
      "epoch": 4.755244755244755,
      "grad_norm": 0.19363805651664734,
      "kl": 0.00749969482421875,
      "learning_rate": 1.0843511021767689e-07,
      "loss": 0.0003,
      "reward": 0.8407738357782364,
      "reward_std": 0.34815119206905365,
      "rewards/accuracy_reward": 0.2797619178891182,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5610119253396988,
      "step": 171
    },
    {
      "completion_length": 2730.889892578125,
      "epoch": 4.783216783216783,
      "grad_norm": 0.11546841263771057,
      "kl": 0.004669189453125,
      "learning_rate": 1.068365111445064e-07,
      "loss": 0.0002,
      "reward": 0.6510416716337204,
      "reward_std": 0.29459198564291,
      "rewards/accuracy_reward": 0.13988095801323652,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5111607164144516,
      "step": 172
    },
    {
      "completion_length": 2624.4077758789062,
      "epoch": 4.811188811188811,
      "grad_norm": 0.09517718106508255,
      "kl": 0.00469207763671875,
      "learning_rate": 1.0540456773543595e-07,
      "loss": 0.0002,
      "reward": 0.8214285969734192,
      "reward_std": 0.3938767686486244,
      "rewards/accuracy_reward": 0.27678571827709675,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5446428582072258,
      "step": 173
    },
    {
      "completion_length": 2643.919677734375,
      "epoch": 4.839160839160839,
      "grad_norm": 0.11820892244577408,
      "kl": 0.0055084228515625,
      "learning_rate": 1.041398184858196e-07,
      "loss": 0.0002,
      "reward": 0.6852678656578064,
      "reward_std": 0.30904605984687805,
      "rewards/accuracy_reward": 0.1666666662786156,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.518601194024086,
      "step": 174
    },
    {
      "completion_length": 2524.047607421875,
      "epoch": 4.867132867132867,
      "grad_norm": 0.1165422648191452,
      "kl": 0.00485992431640625,
      "learning_rate": 1.0304273901612565e-07,
      "loss": 0.0002,
      "reward": 0.7284226268529892,
      "reward_std": 0.3345734477043152,
      "rewards/accuracy_reward": 0.2142857164144516,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5141369178891182,
      "step": 175
    },
    {
      "completion_length": 2217.1279907226562,
      "epoch": 4.895104895104895,
      "grad_norm": 0.13623353838920593,
      "kl": 0.00641632080078125,
      "learning_rate": 1.0211374189307538e-07,
      "loss": 0.0003,
      "reward": 0.8489583432674408,
      "reward_std": 0.33298908174037933,
      "rewards/accuracy_reward": 0.2797619104385376,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5691964328289032,
      "step": 176
    },
    {
      "completion_length": 2418.5833129882812,
      "epoch": 4.923076923076923,
      "grad_norm": 0.12970149517059326,
      "kl": 0.005584716796875,
      "learning_rate": 1.013531764744936e-07,
      "loss": 0.0002,
      "reward": 0.8043155074119568,
      "reward_std": 0.3505142778158188,
      "rewards/accuracy_reward": 0.2738095261156559,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.5305059626698494,
      "step": 177
    },
    {
      "completion_length": 2166.7738342285156,
      "epoch": 4.951048951048951,
      "grad_norm": 0.12993088364601135,
      "kl": 0.00594329833984375,
      "learning_rate": 1.0076132877792932e-07,
      "loss": 0.0002,
      "reward": 0.8958333432674408,
      "reward_std": 0.3779018819332123,
      "rewards/accuracy_reward": 0.2886904813349247,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.6071428805589676,
      "step": 178
    },
    {
      "completion_length": 3136.8482360839844,
      "epoch": 4.979020979020979,
      "grad_norm": 0.139509916305542,
      "kl": 0.0050506591796875,
      "learning_rate": 1.0033842137309648e-07,
      "loss": 0.0002,
      "reward": 0.5885416865348816,
      "reward_std": 0.3464737571775913,
      "rewards/accuracy_reward": 0.13095238152891397,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.457589291036129,
      "step": 179
    },
    {
      "completion_length": 3431.8421223958335,
      "epoch": 5.0,
      "grad_norm": 0.139509916305542,
      "kl": 0.004852294921875,
      "learning_rate": 1.000846132981744e-07,
      "loss": 0.0001,
      "reward": 0.5496031840642294,
      "reward_std": 0.2647865464289983,
      "rewards/accuracy_reward": 0.11904762188593547,
      "rewards/format_reward": 0.0,
      "rewards/tag_count_reward": 0.4305555621782939,
      "step": 180
    },
    {
      "epoch": 5.0,
      "step": 180,
      "total_flos": 0.0,
      "train_loss": 8.540082282778706e-05,
      "train_runtime": 37307.6007,
      "train_samples_per_second": 0.134,
      "train_steps_per_second": 0.005
    }
  ],
  "logging_steps": 1,
  "max_steps": 180,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 12,
  "trial_name": null,
  "trial_params": null
}