Add files using upload-large-folder tool

Browse files

Files changed (9) hide show

experiment_cfg/metadata.json +79 -71
model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +2 -1
optimizer.pt +2 -2
rng_state_0.pth +1 -1
rng_state_1.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +1803 -403

experiment_cfg/metadata.json CHANGED Viewed

@@ -4,139 +4,147 @@
             "state": {
                 "single_arm": {
                     "max": [
-                        2.0003252029418945,
-                        2.8696048259735107,
-                        -2.973998198285699e-05,
-                        1.2001643180847168,
-                        1.636069416999817
                     ],
                     "min": [
-                        -1.6366058588027954,
-                        -0.0013483419315889478,
-                        -2.867553949356079,
-                        -0.15347807109355927,
-                        -2.408719539642334
                     ],
                     "mean": [
-                        0.5613881349563599,
-                        1.2009493112564087,
-                        -1.1912317276000977,
-                        0.7247916460037231,
-                        -0.5904473662376404
                     ],
                     "std": [
-                        0.9785857200622559,
-                        0.7331446409225464,
-                        0.6282459497451782,
-                        0.23302637040615082,
-                        0.9657405614852905
                     ],
                     "q01": [
-                        -1.5449657726287842,
-                        -1.0683193213480989e-05,
-                        -2.7843262195587157,
-                        0.2979250168800354,
-                        -1.9947426080703736
                     ],
                     "q99": [
-                        1.9999996423721313,
-                        2.7311124897003163,
-                        -0.3246664524078371,
                         1.2000004053115845,
-                        1.5377632951736446
                     ]
                 },
                 "gripper": {
                     "max": [
-                        0.703035831451416
                     ],
                     "min": [
-                        -0.06299631297588348
                     ],
                     "mean": [
-                        0.024504341185092926
                     ],
                     "std": [
-                        0.08595108985900879
                     ],
                     "q01": [
-                        -0.010759906060993672
                     ],
                     "q99": [
-                        0.4408635914325714
                     ]
                 }
             },
             "action": {
                 "single_arm": {
                     "max": [
-                        2.000000476837158,
-                        2.8696048259735107,
-                        -0.029101531952619553,
-                        1.2001643180847168,
-                        1.6363924741744995
                     ],
                     "min": [
-                        -1.6367615461349487,
-                        -0.0013483419315889478,
-                        -2.870177745819092,
-                        -0.15347807109355927,
-                        -2.378706455230713
                     ],
                     "mean": [
-                        0.5605649352073669,
-                        1.2173237800598145,
-                        -1.1972321271896362,
-                        0.7227405309677124,
-                        -0.5876930356025696
                     ],
                     "std": [
-                        0.9839946627616882,
-                        0.7347026467323303,
-                        0.6269937753677368,
-                        0.23072293400764465,
-                        0.9713127017021179
                     ],
                     "q01": [
-                        -1.5492996978759765,
-                        -8.676056131662335e-06,
-                        -2.7688085556030275,
-                        0.30216108322143553,
-                        -1.9937553739547729
                     ],
                     "q99": [
-                        1.9999995231628418,
-                        2.744625654220581,
-                        -0.33259372472763077,
                         1.200000286102295,
-                        1.5410190296173096
                     ]
                 },
                 "gripper": {
                     "max": [
-                        0.703035831451416
                     ],
                     "min": [
-                        -0.06299631297588348
                     ],
                     "mean": [
-                        0.02159128151834011
                     ],
                     "std": [
-                        0.07854700088500977
                     ],
                     "q01": [
-                        -0.01098821684718132
                     ],
                     "q99": [
-                        0.41087187886238097
                     ]
                 }
             }
         },
         "modalities": {
             "video": {
-                "webcam": {
                     "resolution": [
                         640,
                         480

             "state": {
                 "single_arm": {
                     "max": [
+                        2.0000243186950684,
+                        2.9169764518737793,
+                        -0.038691196590662,
+                        1.2000755071640015,
+                        1.5494728088378906
                     ],
                     "min": [
+                        -1.6060552597045898,
+                        -0.0013021699851378798,
+                        -2.8603312969207764,
+                        -0.24804846942424774,
+                        -2.4647815227508545
                     ],
                     "mean": [
+                        0.5791597962379456,
+                        1.1458725929260254,
+                        -1.20786452293396,
+                        0.7232474684715271,
+                        -0.6134248375892639
                     ],
                     "std": [
+                        0.9811665415763855,
+                        0.7337602376937866,
+                        0.6142615079879761,
+                        0.23586146533489227,
+                        0.966107964515686
                     ],
                     "q01": [
+                        -1.4408677732944488,
+                        -1.425088475116354e-05,
+                        -2.781974565982819,
+                        0.27418837130069734,
+                        -1.9999565029144286
                     ],
                     "q99": [
+                        1.9999998807907104,
+                        2.6177230525016784,
+                        -0.3294296935200691,
                         1.2000004053115845,
+                        1.4374910080432892
                     ]
                 },
                 "gripper": {
                     "max": [
+                        0.7455036640167236
                     ],
                     "min": [
+                        -0.09471277892589569
                     ],
                     "mean": [
+                        0.000568521732930094
                     ],
                     "std": [
+                        0.14351940155029297
                     ],
                     "q01": [
+                        -0.05334045834839344
                     ],
                     "q99": [
+                        0.5978925746679306
                     ]
                 }
             },
             "action": {
                 "single_arm": {
                     "max": [
+                        2.0000085830688477,
+                        2.9173049926757812,
+                        -0.0662246122956276,
+                        1.2000755071640015,
+                        1.549481987953186
                     ],
                     "min": [
+                        -1.5781737565994263,
+                        -0.0013021699851378798,
+                        -2.8603312969207764,
+                        -0.24804846942424774,
+                        -2.4347522258758545
                     ],
                     "mean": [
+                        0.5763245820999146,
+                        1.1609699726104736,
+                        -1.2109930515289307,
+                        0.7210843563079834,
+                        -0.6085058450698853
                     ],
                     "std": [
+                        0.9860737323760986,
+                        0.7361332774162292,
+                        0.6108555197715759,
+                        0.23312774300575256,
+                        0.9712501168251038
                     ],
                     "q01": [
+                        -1.4462056386470794,
+                        -1.4080941818974679e-05,
+                        -2.7542264652252197,
+                        0.27880221664905547,
+                        -1.9997829270362855
                     ],
                     "q99": [
+                        1.9999998807907104,
+                        2.6269060873985284,
+                        -0.33764528483152395,
                         1.200000286102295,
+                        1.4436372423171995
                     ]
                 },
                 "gripper": {
                     "max": [
+                        0.7455036640167236
                     ],
                     "min": [
+                        -0.07934218645095825
                     ],
                     "mean": [
+                        -0.0036394144408404827
                     ],
                     "std": [
+                        0.13472281396389008
                     ],
                     "q01": [
+                        -0.05393668111413717
                     ],
                     "q99": [
+                        0.56789559841156
                     ]
                 }
             }
         },
         "modalities": {
             "video": {
+                "front": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                },
+                "wrist": {
                     "resolution": [
                         640,
                         480

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a5a2e3982d2f0d475a6bbfd4b7eb7ace8d29cb89aead3eba6a96736e3138ec5
 size 4999367032

 version https://git-lfs.github.com/spec/v1
+oid sha256:e14836ce74a4e9b04da62ca4114faf735a2809c0b08a9108f38af75d77cd30d7
 size 4999367032

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f8f6e3d4c9ae4e9a3ed1d025d893b99a236845708cd12495469812f41b57a3d
-size 2586508600

 version https://git-lfs.github.com/spec/v1
+oid sha256:0453b04145be502d125d4232207a885382b890f223ea28e76aaa9b9dec0b7a7d
+size 2586705312

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 7585742720
   },
   "weight_map": {
     "action_head.action_decoder.layer1.W": "model-00002-of-00002.safetensors",
@@ -13,6 +13,7 @@
     "action_head.action_encoder.W2.b": "model-00002-of-00002.safetensors",
     "action_head.action_encoder.W3.W": "model-00002-of-00002.safetensors",
     "action_head.action_encoder.W3.b": "model-00002-of-00002.safetensors",
     "action_head.model.proj_out_1.bias": "model-00002-of-00002.safetensors",
     "action_head.model.proj_out_1.weight": "model-00002-of-00002.safetensors",
     "action_head.model.proj_out_2.bias": "model-00002-of-00002.safetensors",

 {
   "metadata": {
+    "total_size": 7585939328
   },
   "weight_map": {
     "action_head.action_decoder.layer1.W": "model-00002-of-00002.safetensors",
     "action_head.action_encoder.W2.b": "model-00002-of-00002.safetensors",
     "action_head.action_encoder.W3.W": "model-00002-of-00002.safetensors",
     "action_head.action_encoder.W3.b": "model-00002-of-00002.safetensors",
+    "action_head.future_tokens.weight": "model-00002-of-00002.safetensors",
     "action_head.model.proj_out_1.bias": "model-00002-of-00002.safetensors",
     "action_head.model.proj_out_1.weight": "model-00002-of-00002.safetensors",
     "action_head.model.proj_out_2.bias": "model-00002-of-00002.safetensors",

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f75938496ae2e6484380c63bc241c2aa134598e299c3cde3af74c90448f6a3cc
-size 8550325978

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4fff16306a8567006573dec88809781da838424eb8893b8ac50c99c1707d8bf
+size 8550720062

rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6942e7d0fad9ea5ca8d6849b863c5fca113d1802c0c6b4b6cb63f75db30e17a1
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa987f049de3910e95fa2a955bc4440367b40904739310b87f0dcc5b65565405
 size 14512

rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:675c736ed11ba57de7a85176857b7317f9f79aec1c909ebf5cc00810df70079a
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:a53f5bc2d14df97b7c41aafe1a226f125dc1e3b00e93b40e785ab358650080f3
 size 14512

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:057194249d9cdc822a0752df7fedc436fc30dce92062cd380d9a3f5704199672
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3bbae53c08b86f610006e2dd1b837f5d64ea03e1ff2ff6562b0e6794c52c092
 size 1064

trainer_state.json CHANGED Viewed

@@ -2,718 +2,2118 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8090614886731392,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.008090614886731391,
-      "grad_norm": 7.823570251464844,
-      "learning_rate": 6e-06,
-      "loss": 0.8903,
       "step": 10
     },
     {
-      "epoch": 0.016181229773462782,
-      "grad_norm": 2.272317886352539,
-      "learning_rate": 1.2666666666666668e-05,
-      "loss": 0.4601,
       "step": 20
     },
     {
-      "epoch": 0.024271844660194174,
-      "grad_norm": 1.5555341243743896,
-      "learning_rate": 1.9333333333333333e-05,
-      "loss": 0.276,
       "step": 30
     },
     {
-      "epoch": 0.032362459546925564,
-      "grad_norm": 1.7244459390640259,
-      "learning_rate": 2.6000000000000002e-05,
-      "loss": 0.1865,
       "step": 40
     },
     {
-      "epoch": 0.040453074433656956,
-      "grad_norm": 1.4668376445770264,
-      "learning_rate": 3.266666666666667e-05,
-      "loss": 0.1422,
       "step": 50
     },
     {
-      "epoch": 0.04854368932038835,
-      "grad_norm": 2.02225661277771,
-      "learning_rate": 3.933333333333333e-05,
-      "loss": 0.1238,
       "step": 60
     },
     {
-      "epoch": 0.05663430420711974,
-      "grad_norm": 1.1487993001937866,
-      "learning_rate": 4.600000000000001e-05,
-      "loss": 0.0791,
       "step": 70
     },
     {
-      "epoch": 0.06472491909385113,
-      "grad_norm": 0.5569996237754822,
-      "learning_rate": 5.266666666666666e-05,
-      "loss": 0.0819,
       "step": 80
     },
     {
-      "epoch": 0.07281553398058252,
-      "grad_norm": 1.194751262664795,
-      "learning_rate": 5.9333333333333343e-05,
-      "loss": 0.0698,
       "step": 90
     },
     {
-      "epoch": 0.08090614886731391,
-      "grad_norm": 0.8545956015586853,
-      "learning_rate": 6.6e-05,
-      "loss": 0.0732,
       "step": 100
     },
     {
-      "epoch": 0.0889967637540453,
-      "grad_norm": 0.6914941072463989,
-      "learning_rate": 7.266666666666667e-05,
-      "loss": 0.0641,
       "step": 110
     },
     {
-      "epoch": 0.0970873786407767,
-      "grad_norm": 0.4049356281757355,
-      "learning_rate": 7.933333333333334e-05,
-      "loss": 0.0565,
       "step": 120
     },
     {
-      "epoch": 0.10517799352750809,
-      "grad_norm": 0.7143370509147644,
-      "learning_rate": 8.6e-05,
-      "loss": 0.0555,
       "step": 130
     },
     {
-      "epoch": 0.11326860841423948,
-      "grad_norm": 0.9746547937393188,
-      "learning_rate": 9.266666666666666e-05,
-      "loss": 0.0523,
       "step": 140
     },
     {
-      "epoch": 0.12135922330097088,
-      "grad_norm": 0.6225072145462036,
-      "learning_rate": 9.933333333333334e-05,
-      "loss": 0.0492,
       "step": 150
     },
     {
-      "epoch": 0.12944983818770225,
-      "grad_norm": 0.6568852066993713,
-      "learning_rate": 9.999753945398704e-05,
-      "loss": 0.0478,
       "step": 160
     },
     {
-      "epoch": 0.13754045307443366,
-      "grad_norm": 0.345377653837204,
-      "learning_rate": 9.998903417374228e-05,
-      "loss": 0.0465,
       "step": 170
     },
     {
-      "epoch": 0.14563106796116504,
-      "grad_norm": 0.756610095500946,
-      "learning_rate": 9.997445481536973e-05,
-      "loss": 0.0467,
       "step": 180
     },
     {
-      "epoch": 0.15372168284789645,
-      "grad_norm": 0.494722843170166,
-      "learning_rate": 9.995380315038119e-05,
-      "loss": 0.0407,
       "step": 190
     },
     {
-      "epoch": 0.16181229773462782,
-      "grad_norm": 0.7570058107376099,
-      "learning_rate": 9.99270816881235e-05,
-      "loss": 0.042,
       "step": 200
     },
     {
-      "epoch": 0.16990291262135923,
-      "grad_norm": 0.3776613473892212,
-      "learning_rate": 9.989429367547377e-05,
-      "loss": 0.0429,
       "step": 210
     },
     {
-      "epoch": 0.1779935275080906,
-      "grad_norm": 0.5018635988235474,
-      "learning_rate": 9.985544309644475e-05,
-      "loss": 0.0367,
       "step": 220
     },
     {
-      "epoch": 0.18608414239482202,
-      "grad_norm": 0.3979959487915039,
-      "learning_rate": 9.98105346717008e-05,
-      "loss": 0.0341,
       "step": 230
     },
     {
-      "epoch": 0.1941747572815534,
-      "grad_norm": 0.5319691300392151,
-      "learning_rate": 9.97595738579843e-05,
-      "loss": 0.0347,
       "step": 240
     },
     {
-      "epoch": 0.2022653721682848,
-      "grad_norm": 0.5348716974258423,
-      "learning_rate": 9.970256684745258e-05,
-      "loss": 0.0308,
       "step": 250
     },
     {
-      "epoch": 0.21035598705501618,
-      "grad_norm": 0.6536835432052612,
-      "learning_rate": 9.963952056692549e-05,
-      "loss": 0.0301,
       "step": 260
     },
     {
-      "epoch": 0.21844660194174756,
-      "grad_norm": 0.5518924593925476,
-      "learning_rate": 9.957044267704384e-05,
-      "loss": 0.0364,
       "step": 270
     },
     {
-      "epoch": 0.22653721682847897,
-      "grad_norm": 0.40961554646492004,
-      "learning_rate": 9.949534157133844e-05,
-      "loss": 0.0293,
       "step": 280
     },
     {
-      "epoch": 0.23462783171521034,
-      "grad_norm": 0.7217941880226135,
-      "learning_rate": 9.941422637521035e-05,
-      "loss": 0.0363,
       "step": 290
     },
     {
-      "epoch": 0.24271844660194175,
-      "grad_norm": 0.5057093501091003,
-      "learning_rate": 9.932710694482191e-05,
-      "loss": 0.0295,
       "step": 300
     },
     {
-      "epoch": 0.25080906148867316,
-      "grad_norm": 0.75019770860672,
-      "learning_rate": 9.923399386589933e-05,
-      "loss": 0.033,
       "step": 310
     },
     {
-      "epoch": 0.2588996763754045,
-      "grad_norm": 0.48032259941101074,
-      "learning_rate": 9.913489845244626e-05,
-      "loss": 0.0277,
       "step": 320
     },
     {
-      "epoch": 0.2669902912621359,
-      "grad_norm": 0.5418844223022461,
-      "learning_rate": 9.902983274536912e-05,
-      "loss": 0.0264,
       "step": 330
     },
     {
-      "epoch": 0.2750809061488673,
-      "grad_norm": 0.5400299429893494,
-      "learning_rate": 9.891880951101407e-05,
-      "loss": 0.028,
       "step": 340
     },
     {
-      "epoch": 0.28317152103559873,
-      "grad_norm": 0.7953261733055115,
-      "learning_rate": 9.880184223961573e-05,
-      "loss": 0.0245,
       "step": 350
     },
     {
-      "epoch": 0.2912621359223301,
-      "grad_norm": 0.47858819365501404,
-      "learning_rate": 9.867894514365802e-05,
-      "loss": 0.0272,
       "step": 360
     },
     {
-      "epoch": 0.2993527508090615,
-      "grad_norm": 0.3962852954864502,
-      "learning_rate": 9.855013315614725e-05,
-      "loss": 0.0262,
       "step": 370
     },
     {
-      "epoch": 0.3074433656957929,
-      "grad_norm": 0.840124785900116,
-      "learning_rate": 9.841542192879762e-05,
-      "loss": 0.0249,
       "step": 380
     },
     {
-      "epoch": 0.3155339805825243,
-      "grad_norm": 0.6563257575035095,
-      "learning_rate": 9.82748278301294e-05,
-      "loss": 0.0268,
       "step": 390
     },
     {
-      "epoch": 0.32362459546925565,
-      "grad_norm": 0.4959515929222107,
-      "learning_rate": 9.812836794348004e-05,
-      "loss": 0.0241,
       "step": 400
     },
     {
-      "epoch": 0.33171521035598706,
-      "grad_norm": 0.5108354091644287,
-      "learning_rate": 9.797606006492841e-05,
-      "loss": 0.0329,
       "step": 410
     },
     {
-      "epoch": 0.33980582524271846,
-      "grad_norm": 0.5321593880653381,
-      "learning_rate": 9.781792270113241e-05,
-      "loss": 0.0248,
       "step": 420
     },
     {
-      "epoch": 0.3478964401294498,
-      "grad_norm": 0.7112411856651306,
-      "learning_rate": 9.765397506708023e-05,
-      "loss": 0.0266,
       "step": 430
     },
     {
-      "epoch": 0.3559870550161812,
-      "grad_norm": 0.4580034911632538,
-      "learning_rate": 9.748423708375563e-05,
-      "loss": 0.0228,
       "step": 440
     },
     {
-      "epoch": 0.3640776699029126,
-      "grad_norm": 0.43798476457595825,
-      "learning_rate": 9.730872937571739e-05,
-      "loss": 0.0239,
       "step": 450
     },
     {
-      "epoch": 0.37216828478964403,
-      "grad_norm": 0.5347399711608887,
-      "learning_rate": 9.712747326859315e-05,
-      "loss": 0.0265,
       "step": 460
     },
     {
-      "epoch": 0.3802588996763754,
-      "grad_norm": 0.5635089874267578,
-      "learning_rate": 9.69404907864883e-05,
-      "loss": 0.027,
       "step": 470
     },
     {
-      "epoch": 0.3883495145631068,
-      "grad_norm": 0.3755838871002197,
-      "learning_rate": 9.674780464930979e-05,
-      "loss": 0.0234,
       "step": 480
     },
     {
-      "epoch": 0.3964401294498382,
-      "grad_norm": 0.522113561630249,
-      "learning_rate": 9.654943827000548e-05,
-      "loss": 0.021,
       "step": 490
     },
     {
-      "epoch": 0.4045307443365696,
-      "grad_norm": 0.43958115577697754,
-      "learning_rate": 9.634541575171929e-05,
-      "loss": 0.0214,
       "step": 500
     },
     {
-      "epoch": 0.41262135922330095,
-      "grad_norm": 0.4480895698070526,
-      "learning_rate": 9.613576188486253e-05,
-      "loss": 0.0258,
       "step": 510
     },
     {
-      "epoch": 0.42071197411003236,
-      "grad_norm": 0.410576730966568,
-      "learning_rate": 9.59205021441015e-05,
-      "loss": 0.0226,
       "step": 520
     },
     {
-      "epoch": 0.42880258899676377,
-      "grad_norm": 0.45604780316352844,
-      "learning_rate": 9.569966268526232e-05,
-      "loss": 0.0256,
       "step": 530
     },
     {
-      "epoch": 0.4368932038834951,
-      "grad_norm": 0.30307430028915405,
-      "learning_rate": 9.54732703421526e-05,
-      "loss": 0.0204,
       "step": 540
     },
     {
-      "epoch": 0.4449838187702265,
-      "grad_norm": 0.29722708463668823,
-      "learning_rate": 9.524135262330098e-05,
-      "loss": 0.0198,
       "step": 550
     },
     {
-      "epoch": 0.45307443365695793,
-      "grad_norm": 0.38580235838890076,
-      "learning_rate": 9.50039377086147e-05,
-      "loss": 0.0168,
       "step": 560
     },
     {
-      "epoch": 0.46116504854368934,
-      "grad_norm": 0.39507967233657837,
-      "learning_rate": 9.476105444595534e-05,
-      "loss": 0.0157,
       "step": 570
     },
     {
-      "epoch": 0.4692556634304207,
-      "grad_norm": 0.34573355317115784,
-      "learning_rate": 9.451273234763371e-05,
-      "loss": 0.0176,
       "step": 580
     },
     {
-      "epoch": 0.4773462783171521,
-      "grad_norm": 0.2983342111110687,
-      "learning_rate": 9.425900158682385e-05,
-      "loss": 0.0177,
       "step": 590
     },
     {
-      "epoch": 0.4854368932038835,
-      "grad_norm": 0.38746461272239685,
-      "learning_rate": 9.399989299389661e-05,
-      "loss": 0.0216,
       "step": 600
     },
     {
-      "epoch": 0.4935275080906149,
-      "grad_norm": 0.39340198040008545,
-      "learning_rate": 9.373543805267368e-05,
-      "loss": 0.0221,
       "step": 610
     },
     {
-      "epoch": 0.5016181229773463,
-      "grad_norm": 0.47980770468711853,
-      "learning_rate": 9.346566889660193e-05,
-      "loss": 0.0172,
       "step": 620
     },
     {
-      "epoch": 0.5097087378640777,
-      "grad_norm": 0.421115905046463,
-      "learning_rate": 9.319061830484898e-05,
-      "loss": 0.0156,
       "step": 630
     },
     {
-      "epoch": 0.517799352750809,
-      "grad_norm": 0.3385259509086609,
-      "learning_rate": 9.291031969832026e-05,
-      "loss": 0.0176,
       "step": 640
     },
     {
-      "epoch": 0.5258899676375405,
-      "grad_norm": 0.32277145981788635,
-      "learning_rate": 9.262480713559808e-05,
-      "loss": 0.0169,
       "step": 650
     },
     {
-      "epoch": 0.5339805825242718,
-      "grad_norm": 0.32181084156036377,
-      "learning_rate": 9.233411530880326e-05,
-      "loss": 0.0187,
       "step": 660
     },
     {
-      "epoch": 0.5420711974110033,
-      "grad_norm": 0.5838663578033447,
-      "learning_rate": 9.20382795393797e-05,
-      "loss": 0.0228,
       "step": 670
     },
     {
-      "epoch": 0.5501618122977346,
-      "grad_norm": 0.30314013361930847,
-      "learning_rate": 9.173733577380258e-05,
-      "loss": 0.02,
       "step": 680
     },
     {
-      "epoch": 0.558252427184466,
-      "grad_norm": 0.5964832901954651,
-      "learning_rate": 9.143132057921058e-05,
-      "loss": 0.018,
       "step": 690
     },
     {
-      "epoch": 0.5663430420711975,
-      "grad_norm": 0.4126530587673187,
-      "learning_rate": 9.112027113896262e-05,
-      "loss": 0.0173,
       "step": 700
     },
     {
-      "epoch": 0.5744336569579288,
-      "grad_norm": 0.4253070652484894,
-      "learning_rate": 9.080422524811982e-05,
-      "loss": 0.0257,
       "step": 710
     },
     {
-      "epoch": 0.5825242718446602,
-      "grad_norm": 0.5417248606681824,
-      "learning_rate": 9.048322130885305e-05,
-      "loss": 0.0177,
       "step": 720
     },
     {
-      "epoch": 0.5906148867313916,
-      "grad_norm": 0.3459491431713104,
-      "learning_rate": 9.015729832577681e-05,
-      "loss": 0.019,
       "step": 730
     },
     {
-      "epoch": 0.598705501618123,
-      "grad_norm": 0.3335317373275757,
-      "learning_rate": 8.982649590120982e-05,
-      "loss": 0.0169,
       "step": 740
     },
     {
-      "epoch": 0.6067961165048543,
-      "grad_norm": 0.6572862267494202,
-      "learning_rate": 8.949085423036296e-05,
-      "loss": 0.0198,
       "step": 750
     },
     {
-      "epoch": 0.6148867313915858,
-      "grad_norm": 0.540212869644165,
-      "learning_rate": 8.91504140964553e-05,
-      "loss": 0.016,
       "step": 760
     },
     {
-      "epoch": 0.6229773462783171,
-      "grad_norm": 0.24550016224384308,
-      "learning_rate": 8.880521686575857e-05,
-      "loss": 0.0168,
       "step": 770
     },
     {
-      "epoch": 0.6310679611650486,
-      "grad_norm": 0.5790821313858032,
-      "learning_rate": 8.845530448257085e-05,
-      "loss": 0.0184,
       "step": 780
     },
     {
-      "epoch": 0.63915857605178,
-      "grad_norm": 0.6583966612815857,
-      "learning_rate": 8.810071946411989e-05,
-      "loss": 0.0167,
       "step": 790
     },
     {
-      "epoch": 0.6472491909385113,
-      "grad_norm": 0.3252386450767517,
-      "learning_rate": 8.774150489539707e-05,
       "loss": 0.0173,
       "step": 800
     },
     {
-      "epoch": 0.6553398058252428,
-      "grad_norm": 0.37483498454093933,
-      "learning_rate": 8.737770442392212e-05,
-      "loss": 0.0169,
       "step": 810
     },
     {
-      "epoch": 0.6634304207119741,
-      "grad_norm": 0.29752904176712036,
-      "learning_rate": 8.700936225443959e-05,
-      "loss": 0.018,
       "step": 820
     },
     {
-      "epoch": 0.6715210355987055,
-      "grad_norm": 0.37370291352272034,
-      "learning_rate": 8.663652314354765e-05,
-      "loss": 0.0178,
       "step": 830
     },
     {
-      "epoch": 0.6796116504854369,
-      "grad_norm": 0.24446973204612732,
-      "learning_rate": 8.625923239425978e-05,
-      "loss": 0.0132,
       "step": 840
     },
     {
-      "epoch": 0.6877022653721683,
-      "grad_norm": 0.45145106315612793,
-      "learning_rate": 8.587753585050004e-05,
-      "loss": 0.0196,
       "step": 850
     },
     {
-      "epoch": 0.6957928802588996,
-      "grad_norm": 0.24976196885108948,
-      "learning_rate": 8.549147989153276e-05,
-      "loss": 0.017,
       "step": 860
     },
     {
-      "epoch": 0.7038834951456311,
-      "grad_norm": 0.41941019892692566,
-      "learning_rate": 8.510111142632698e-05,
-      "loss": 0.0153,
       "step": 870
     },
     {
-      "epoch": 0.7119741100323624,
-      "grad_norm": 0.3423904776573181,
-      "learning_rate": 8.470647788785665e-05,
-      "loss": 0.0143,
       "step": 880
     },
     {
-      "epoch": 0.7200647249190939,
-      "grad_norm": 0.28540822863578796,
-      "learning_rate": 8.430762722733714e-05,
-      "loss": 0.0125,
       "step": 890
     },
     {
-      "epoch": 0.7281553398058253,
-      "grad_norm": 0.38557255268096924,
-      "learning_rate": 8.390460790839882e-05,
-      "loss": 0.0193,
       "step": 900
     },
     {
-      "epoch": 0.7362459546925566,
-      "grad_norm": 0.496142715215683,
-      "learning_rate": 8.349746890119826e-05,
-      "loss": 0.0137,
       "step": 910
     },
     {
-      "epoch": 0.7443365695792881,
-      "grad_norm": 0.42488303780555725,
-      "learning_rate": 8.308625967646795e-05,
-      "loss": 0.0159,
       "step": 920
     },
     {
-      "epoch": 0.7524271844660194,
-      "grad_norm": 0.28551360964775085,
-      "learning_rate": 8.267103019950529e-05,
-      "loss": 0.0155,
       "step": 930
     },
     {
-      "epoch": 0.7605177993527508,
-      "grad_norm": 0.3401723802089691,
-      "learning_rate": 8.225183092410128e-05,
-      "loss": 0.0133,
       "step": 940
     },
     {
-      "epoch": 0.7686084142394822,
-      "grad_norm": 0.34012413024902344,
-      "learning_rate": 8.182871278641009e-05,
-      "loss": 0.0191,
       "step": 950
     },
     {
-      "epoch": 0.7766990291262136,
-      "grad_norm": 0.385560005903244,
-      "learning_rate": 8.140172719875979e-05,
-      "loss": 0.0108,
       "step": 960
     },
     {
-      "epoch": 0.7847896440129449,
-      "grad_norm": 0.3427627980709076,
-      "learning_rate": 8.097092604340542e-05,
-      "loss": 0.0121,
       "step": 970
     },
     {
-      "epoch": 0.7928802588996764,
-      "grad_norm": 0.45653820037841797,
-      "learning_rate": 8.053636166622476e-05,
-      "loss": 0.0154,
       "step": 980
     },
     {
-      "epoch": 0.8009708737864077,
-      "grad_norm": 0.3446105122566223,
-      "learning_rate": 8.009808687035798e-05,
-      "loss": 0.0171,
       "step": 990
     },
     {
-      "epoch": 0.8090614886731392,
-      "grad_norm": 0.25365254282951355,
-      "learning_rate": 7.965615490979163e-05,
-      "loss": 0.014,
       "step": 1000
     }
   ],
   "logging_steps": 10,
-  "max_steps": 3000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.5188916876574305,
   "eval_steps": 500,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.008396305625524769,
+      "grad_norm": 10.171950340270996,
+      "learning_rate": 4.5e-06,
+      "loss": 1.1261,
       "step": 10
     },
     {
+      "epoch": 0.016792611251049538,
+      "grad_norm": 2.374096632003784,
+      "learning_rate": 9.5e-06,
+      "loss": 0.5171,
       "step": 20
     },
     {
+      "epoch": 0.02518891687657431,
+      "grad_norm": 1.9998104572296143,
+      "learning_rate": 1.45e-05,
+      "loss": 0.2565,
       "step": 30
     },
     {
+      "epoch": 0.033585222502099076,
+      "grad_norm": 1.4298408031463623,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 0.1707,
       "step": 40
     },
     {
+      "epoch": 0.041981528127623846,
+      "grad_norm": 1.2781989574432373,
+      "learning_rate": 2.45e-05,
+      "loss": 0.1302,
       "step": 50
     },
     {
+      "epoch": 0.05037783375314862,
+      "grad_norm": 1.4599987268447876,
+      "learning_rate": 2.95e-05,
+      "loss": 0.1016,
       "step": 60
     },
     {
+      "epoch": 0.05877413937867338,
+      "grad_norm": 0.7745999097824097,
+      "learning_rate": 3.45e-05,
+      "loss": 0.0848,
       "step": 70
     },
     {
+      "epoch": 0.06717044500419815,
+      "grad_norm": 1.022971272468567,
+      "learning_rate": 3.9500000000000005e-05,
+      "loss": 0.0818,
       "step": 80
     },
     {
+      "epoch": 0.07556675062972293,
+      "grad_norm": 0.4050329923629761,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.0635,
       "step": 90
     },
     {
+      "epoch": 0.08396305625524769,
+      "grad_norm": 0.7355945110321045,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.0647,
       "step": 100
     },
     {
+      "epoch": 0.09235936188077246,
+      "grad_norm": 0.9530194997787476,
+      "learning_rate": 5.45e-05,
+      "loss": 0.0634,
       "step": 110
     },
     {
+      "epoch": 0.10075566750629723,
+      "grad_norm": 0.8249333500862122,
+      "learning_rate": 5.95e-05,
+      "loss": 0.0556,
       "step": 120
     },
     {
+      "epoch": 0.109151973131822,
+      "grad_norm": 0.6259945631027222,
+      "learning_rate": 6.450000000000001e-05,
+      "loss": 0.0554,
       "step": 130
     },
     {
+      "epoch": 0.11754827875734676,
+      "grad_norm": 0.8876557350158691,
+      "learning_rate": 6.95e-05,
+      "loss": 0.0495,
       "step": 140
     },
     {
+      "epoch": 0.12594458438287154,
+      "grad_norm": 0.777101993560791,
+      "learning_rate": 7.450000000000001e-05,
+      "loss": 0.0518,
       "step": 150
     },
     {
+      "epoch": 0.1343408900083963,
+      "grad_norm": 0.9956705570220947,
+      "learning_rate": 7.950000000000001e-05,
+      "loss": 0.0456,
       "step": 160
     },
     {
+      "epoch": 0.14273719563392107,
+      "grad_norm": 0.5946229696273804,
+      "learning_rate": 8.450000000000001e-05,
+      "loss": 0.042,
       "step": 170
     },
     {
+      "epoch": 0.15113350125944586,
+      "grad_norm": 0.7513177990913391,
+      "learning_rate": 8.950000000000001e-05,
+      "loss": 0.0416,
       "step": 180
     },
     {
+      "epoch": 0.15952980688497062,
+      "grad_norm": 1.2336539030075073,
+      "learning_rate": 9.449999999999999e-05,
+      "loss": 0.04,
       "step": 190
     },
     {
+      "epoch": 0.16792611251049538,
+      "grad_norm": 0.6550417542457581,
+      "learning_rate": 9.95e-05,
+      "loss": 0.0419,
       "step": 200
     },
     {
+      "epoch": 0.17632241813602015,
+      "grad_norm": 0.7052122354507446,
+      "learning_rate": 9.999861593790126e-05,
+      "loss": 0.0444,
       "step": 210
     },
     {
+      "epoch": 0.1847187237615449,
+      "grad_norm": 0.5741733908653259,
+      "learning_rate": 9.999383162408304e-05,
+      "loss": 0.043,
       "step": 220
     },
     {
+      "epoch": 0.19311502938706968,
+      "grad_norm": 0.7300972938537598,
+      "learning_rate": 9.998563029828259e-05,
+      "loss": 0.0396,
       "step": 230
     },
     {
+      "epoch": 0.20151133501259447,
+      "grad_norm": 0.35928529500961304,
+      "learning_rate": 9.997401252104962e-05,
+      "loss": 0.0382,
       "step": 240
     },
     {
+      "epoch": 0.20990764063811923,
+      "grad_norm": 0.5260980129241943,
+      "learning_rate": 9.995897908644378e-05,
+      "loss": 0.0332,
       "step": 250
     },
     {
+      "epoch": 0.218303946263644,
+      "grad_norm": 0.4173150956630707,
+      "learning_rate": 9.994053102198034e-05,
+      "loss": 0.0314,
       "step": 260
     },
     {
+      "epoch": 0.22670025188916876,
+      "grad_norm": 0.6619486808776855,
+      "learning_rate": 9.991866958856003e-05,
+      "loss": 0.0375,
       "step": 270
     },
     {
+      "epoch": 0.23509655751469352,
+      "grad_norm": 0.6853200197219849,
+      "learning_rate": 9.989339628038276e-05,
+      "loss": 0.0348,
       "step": 280
     },
     {
+      "epoch": 0.2434928631402183,
+      "grad_norm": 0.7677571177482605,
+      "learning_rate": 9.98647128248456e-05,
+      "loss": 0.0434,
       "step": 290
     },
     {
+      "epoch": 0.2518891687657431,
+      "grad_norm": 0.47874388098716736,
+      "learning_rate": 9.98326211824246e-05,
+      "loss": 0.0339,
       "step": 300
     },
     {
+      "epoch": 0.26028547439126787,
+      "grad_norm": 0.5458245277404785,
+      "learning_rate": 9.979712354654091e-05,
+      "loss": 0.0365,
       "step": 310
     },
     {
+      "epoch": 0.2686817800167926,
+      "grad_norm": 0.7390539646148682,
+      "learning_rate": 9.975822234341079e-05,
+      "loss": 0.0319,
       "step": 320
     },
     {
+      "epoch": 0.2770780856423174,
+      "grad_norm": 0.9258743524551392,
+      "learning_rate": 9.97159202318798e-05,
+      "loss": 0.0313,
       "step": 330
     },
     {
+      "epoch": 0.28547439126784213,
+      "grad_norm": 0.4790763556957245,
+      "learning_rate": 9.967022010324105e-05,
+      "loss": 0.0308,
       "step": 340
     },
     {
+      "epoch": 0.2938706968933669,
+      "grad_norm": 0.5265215635299683,
+      "learning_rate": 9.962112508103765e-05,
+      "loss": 0.0292,
       "step": 350
     },
     {
+      "epoch": 0.3022670025188917,
+      "grad_norm": 0.5428227782249451,
+      "learning_rate": 9.956863852084914e-05,
+      "loss": 0.0286,
       "step": 360
     },
     {
+      "epoch": 0.31066330814441645,
+      "grad_norm": 0.5066298246383667,
+      "learning_rate": 9.951276401006221e-05,
+      "loss": 0.0316,
       "step": 370
     },
     {
+      "epoch": 0.31905961376994124,
+      "grad_norm": 0.3620965778827667,
+      "learning_rate": 9.945350536762543e-05,
+      "loss": 0.0251,
       "step": 380
     },
     {
+      "epoch": 0.327455919395466,
+      "grad_norm": 0.44671374559402466,
+      "learning_rate": 9.939086664378829e-05,
+      "loss": 0.0271,
       "step": 390
     },
     {
+      "epoch": 0.33585222502099077,
+      "grad_norm": 0.4878353178501129,
+      "learning_rate": 9.932485211982437e-05,
+      "loss": 0.0228,
       "step": 400
     },
     {
+      "epoch": 0.34424853064651556,
+      "grad_norm": 0.43716397881507874,
+      "learning_rate": 9.92554663077387e-05,
+      "loss": 0.0308,
       "step": 410
     },
     {
+      "epoch": 0.3526448362720403,
+      "grad_norm": 0.5659756064414978,
+      "learning_rate": 9.918271394995935e-05,
+      "loss": 0.0244,
       "step": 420
     },
     {
+      "epoch": 0.3610411418975651,
+      "grad_norm": 0.4486585259437561,
+      "learning_rate": 9.910660001901335e-05,
+      "loss": 0.028,
       "step": 430
     },
     {
+      "epoch": 0.3694374475230898,
+      "grad_norm": 0.4010409116744995,
+      "learning_rate": 9.902712971718675e-05,
+      "loss": 0.0268,
       "step": 440
     },
     {
+      "epoch": 0.3778337531486146,
+      "grad_norm": 0.48508334159851074,
+      "learning_rate": 9.894430847616915e-05,
+      "loss": 0.0258,
       "step": 450
     },
     {
+      "epoch": 0.38623005877413935,
+      "grad_norm": 0.5513168573379517,
+      "learning_rate": 9.885814195668232e-05,
+      "loss": 0.0288,
       "step": 460
     },
     {
+      "epoch": 0.39462636439966414,
+      "grad_norm": 0.3650225102901459,
+      "learning_rate": 9.876863604809344e-05,
+      "loss": 0.0284,
       "step": 470
     },
     {
+      "epoch": 0.40302267002518893,
+      "grad_norm": 0.35296711325645447,
+      "learning_rate": 9.867579686801245e-05,
+      "loss": 0.0246,
       "step": 480
     },
     {
+      "epoch": 0.41141897565071367,
+      "grad_norm": 0.3748459219932556,
+      "learning_rate": 9.8579630761874e-05,
+      "loss": 0.0233,
       "step": 490
     },
     {
+      "epoch": 0.41981528127623846,
+      "grad_norm": 0.41755491495132446,
+      "learning_rate": 9.848014430250367e-05,
+      "loss": 0.023,
       "step": 500
     },
     {
+      "epoch": 0.4282115869017632,
+      "grad_norm": 0.43207406997680664,
+      "learning_rate": 9.837734428966885e-05,
+      "loss": 0.0245,
       "step": 510
     },
     {
+      "epoch": 0.436607892527288,
+      "grad_norm": 0.27464979887008667,
+      "learning_rate": 9.827123774961383e-05,
+      "loss": 0.0216,
       "step": 520
     },
     {
+      "epoch": 0.4450041981528128,
+      "grad_norm": 0.5782731771469116,
+      "learning_rate": 9.816183193457968e-05,
+      "loss": 0.0245,
       "step": 530
     },
     {
+      "epoch": 0.4534005037783375,
+      "grad_norm": 0.559138834476471,
+      "learning_rate": 9.804913432230856e-05,
+      "loss": 0.024,
       "step": 540
     },
     {
+      "epoch": 0.4617968094038623,
+      "grad_norm": 0.6747875809669495,
+      "learning_rate": 9.793315261553252e-05,
+      "loss": 0.0256,
       "step": 550
     },
     {
+      "epoch": 0.47019311502938704,
+      "grad_norm": 0.55149245262146,
+      "learning_rate": 9.781389474144717e-05,
+      "loss": 0.0234,
       "step": 560
     },
     {
+      "epoch": 0.47858942065491183,
+      "grad_norm": 0.32782289385795593,
+      "learning_rate": 9.76913688511698e-05,
+      "loss": 0.0224,
       "step": 570
     },
     {
+      "epoch": 0.4869857262804366,
+      "grad_norm": 0.5114140510559082,
+      "learning_rate": 9.756558331918227e-05,
+      "loss": 0.0236,
       "step": 580
     },
     {
+      "epoch": 0.49538203190596136,
+      "grad_norm": 0.6146140098571777,
+      "learning_rate": 9.743654674275855e-05,
+      "loss": 0.0255,
       "step": 590
     },
     {
+      "epoch": 0.5037783375314862,
+      "grad_norm": 0.7248744964599609,
+      "learning_rate": 9.730426794137727e-05,
+      "loss": 0.0266,
       "step": 600
     },
     {
+      "epoch": 0.5121746431570109,
+      "grad_norm": 0.389180451631546,
+      "learning_rate": 9.716875595611879e-05,
+      "loss": 0.0267,
       "step": 610
     },
     {
+      "epoch": 0.5205709487825357,
+      "grad_norm": 0.49693188071250916,
+      "learning_rate": 9.703002004904729e-05,
+      "loss": 0.0227,
       "step": 620
     },
     {
+      "epoch": 0.5289672544080605,
+      "grad_norm": 0.5026288628578186,
+      "learning_rate": 9.688806970257773e-05,
+      "loss": 0.0197,
       "step": 630
     },
     {
+      "epoch": 0.5373635600335852,
+      "grad_norm": 0.35680270195007324,
+      "learning_rate": 9.674291461882774e-05,
+      "loss": 0.0195,
       "step": 640
     },
     {
+      "epoch": 0.5457598656591099,
+      "grad_norm": 0.3147616386413574,
+      "learning_rate": 9.659456471895445e-05,
+      "loss": 0.0212,
       "step": 650
     },
     {
+      "epoch": 0.5541561712846348,
+      "grad_norm": 0.25688570737838745,
+      "learning_rate": 9.644303014247648e-05,
+      "loss": 0.0184,
       "step": 660
     },
     {
+      "epoch": 0.5625524769101595,
+      "grad_norm": 0.33005818724632263,
+      "learning_rate": 9.628832124658085e-05,
+      "loss": 0.0248,
       "step": 670
     },
     {
+      "epoch": 0.5709487825356843,
+      "grad_norm": 0.3768410384654999,
+      "learning_rate": 9.613044860541507e-05,
+      "loss": 0.0207,
       "step": 680
     },
     {
+      "epoch": 0.5793450881612091,
+      "grad_norm": 0.27856314182281494,
+      "learning_rate": 9.596942300936445e-05,
+      "loss": 0.0174,
       "step": 690
     },
     {
+      "epoch": 0.5877413937867338,
+      "grad_norm": 0.44634294509887695,
+      "learning_rate": 9.580525546431459e-05,
+      "loss": 0.0194,
       "step": 700
     },
     {
+      "epoch": 0.5961376994122586,
+      "grad_norm": 0.35559549927711487,
+      "learning_rate": 9.563795719089911e-05,
+      "loss": 0.0236,
       "step": 710
     },
     {
+      "epoch": 0.6045340050377834,
+      "grad_norm": 0.3311902582645416,
+      "learning_rate": 9.546753962373281e-05,
+      "loss": 0.0175,
       "step": 720
     },
     {
+      "epoch": 0.6129303106633082,
+      "grad_norm": 0.2235281765460968,
+      "learning_rate": 9.529401441062997e-05,
+      "loss": 0.018,
       "step": 730
     },
     {
+      "epoch": 0.6213266162888329,
+      "grad_norm": 0.3235013782978058,
+      "learning_rate": 9.511739341180842e-05,
+      "loss": 0.0142,
       "step": 740
     },
     {
+      "epoch": 0.6297229219143576,
+      "grad_norm": 0.4594292640686035,
+      "learning_rate": 9.493768869907886e-05,
+      "loss": 0.0194,
       "step": 750
     },
     {
+      "epoch": 0.6381192275398825,
+      "grad_norm": 0.4702000617980957,
+      "learning_rate": 9.475491255501968e-05,
+      "loss": 0.0149,
       "step": 760
     },
     {
+      "epoch": 0.6465155331654072,
+      "grad_norm": 0.3968784511089325,
+      "learning_rate": 9.456907747213748e-05,
+      "loss": 0.0164,
       "step": 770
     },
     {
+      "epoch": 0.654911838790932,
+      "grad_norm": 0.5368077754974365,
+      "learning_rate": 9.438019615201336e-05,
+      "loss": 0.0183,
       "step": 780
     },
     {
+      "epoch": 0.6633081444164568,
+      "grad_norm": 0.32421955466270447,
+      "learning_rate": 9.418828150443469e-05,
+      "loss": 0.0154,
       "step": 790
     },
     {
+      "epoch": 0.6717044500419815,
+      "grad_norm": 0.36530694365501404,
+      "learning_rate": 9.399334664651262e-05,
       "loss": 0.0173,
       "step": 800
     },
     {
+      "epoch": 0.6801007556675063,
+      "grad_norm": 0.24784396588802338,
+      "learning_rate": 9.379540490178581e-05,
+      "loss": 0.0199,
       "step": 810
     },
     {
+      "epoch": 0.6884970612930311,
+      "grad_norm": 0.4272478520870209,
+      "learning_rate": 9.359446979930955e-05,
+      "loss": 0.0178,
       "step": 820
     },
     {
+      "epoch": 0.6968933669185559,
+      "grad_norm": 0.39507076144218445,
+      "learning_rate": 9.33905550727312e-05,
+      "loss": 0.0183,
       "step": 830
     },
     {
+      "epoch": 0.7052896725440806,
+      "grad_norm": 0.20049844682216644,
+      "learning_rate": 9.318367465935142e-05,
+      "loss": 0.0156,
       "step": 840
     },
     {
+      "epoch": 0.7136859781696053,
+      "grad_norm": 0.8157637119293213,
+      "learning_rate": 9.29738426991717e-05,
+      "loss": 0.0207,
       "step": 850
     },
     {
+      "epoch": 0.7220822837951302,
+      "grad_norm": 0.5720648765563965,
+      "learning_rate": 9.276107353392774e-05,
+      "loss": 0.02,
       "step": 860
     },
     {
+      "epoch": 0.7304785894206549,
+      "grad_norm": 0.7491711974143982,
+      "learning_rate": 9.254538170610938e-05,
+      "loss": 0.0215,
       "step": 870
     },
     {
+      "epoch": 0.7388748950461796,
+      "grad_norm": 0.6429204344749451,
+      "learning_rate": 9.232678195796654e-05,
+      "loss": 0.0161,
       "step": 880
     },
     {
+      "epoch": 0.7472712006717045,
+      "grad_norm": 0.5460074543952942,
+      "learning_rate": 9.210528923050164e-05,
+      "loss": 0.014,
       "step": 890
     },
     {
+      "epoch": 0.7556675062972292,
+      "grad_norm": 0.5716153383255005,
+      "learning_rate": 9.188091866244834e-05,
+      "loss": 0.0209,
       "step": 900
     },
     {
+      "epoch": 0.764063811922754,
+      "grad_norm": 0.5055357813835144,
+      "learning_rate": 9.165368558923695e-05,
+      "loss": 0.0143,
       "step": 910
     },
     {
+      "epoch": 0.7724601175482787,
+      "grad_norm": 0.5202294588088989,
+      "learning_rate": 9.142360554194618e-05,
+      "loss": 0.0173,
       "step": 920
     },
     {
+      "epoch": 0.7808564231738035,
+      "grad_norm": 0.2911999821662903,
+      "learning_rate": 9.119069424624163e-05,
+      "loss": 0.0152,
       "step": 930
     },
     {
+      "epoch": 0.7892527287993283,
+      "grad_norm": 0.28226837515830994,
+      "learning_rate": 9.0954967621301e-05,
+      "loss": 0.0125,
       "step": 940
     },
     {
+      "epoch": 0.797649034424853,
+      "grad_norm": 0.24133360385894775,
+      "learning_rate": 9.071644177872594e-05,
+      "loss": 0.018,
       "step": 950
     },
     {
+      "epoch": 0.8060453400503779,
+      "grad_norm": 0.28321564197540283,
+      "learning_rate": 9.047513302144095e-05,
+      "loss": 0.0126,
       "step": 960
     },
     {
+      "epoch": 0.8144416456759026,
+      "grad_norm": 0.3964134752750397,
+      "learning_rate": 9.023105784257906e-05,
+      "loss": 0.0131,
       "step": 970
     },
     {
+      "epoch": 0.8228379513014273,
+      "grad_norm": 0.4938385486602783,
+      "learning_rate": 8.998423292435454e-05,
+      "loss": 0.0166,
       "step": 980
     },
     {
+      "epoch": 0.8312342569269522,
+      "grad_norm": 0.38572144508361816,
+      "learning_rate": 8.973467513692265e-05,
+      "loss": 0.0194,
       "step": 990
     },
     {
+      "epoch": 0.8396305625524769,
+      "grad_norm": 0.5354552268981934,
+      "learning_rate": 8.94824015372267e-05,
+      "loss": 0.0159,
       "step": 1000
+    },
+    {
+      "epoch": 0.8480268681780017,
+      "grad_norm": 0.5144203305244446,
+      "learning_rate": 8.922742936783207e-05,
+      "loss": 0.0142,
+      "step": 1010
+    },
+    {
+      "epoch": 0.8564231738035264,
+      "grad_norm": 0.49846023321151733,
+      "learning_rate": 8.896977605574788e-05,
+      "loss": 0.015,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8648194794290512,
+      "grad_norm": 0.48377203941345215,
+      "learning_rate": 8.870945921123576e-05,
+      "loss": 0.0151,
+      "step": 1030
+    },
+    {
+      "epoch": 0.873215785054576,
+      "grad_norm": 0.45066890120506287,
+      "learning_rate": 8.844649662660624e-05,
+      "loss": 0.0145,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8816120906801007,
+      "grad_norm": 0.4206666946411133,
+      "learning_rate": 8.818090627500266e-05,
+      "loss": 0.0129,
+      "step": 1050
+    },
+    {
+      "epoch": 0.8900083963056256,
+      "grad_norm": 0.41736483573913574,
+      "learning_rate": 8.791270630917275e-05,
+      "loss": 0.0192,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8984047019311503,
+      "grad_norm": 0.3356010615825653,
+      "learning_rate": 8.764191506022795e-05,
+      "loss": 0.0148,
+      "step": 1070
+    },
+    {
+      "epoch": 0.906801007556675,
+      "grad_norm": 0.3665725886821747,
+      "learning_rate": 8.736855103639037e-05,
+      "loss": 0.0155,
+      "step": 1080
+    },
+    {
+      "epoch": 0.9151973131821999,
+      "grad_norm": NaN,
+      "learning_rate": 8.709263292172794e-05,
+      "loss": 0.0082,
+      "step": 1090
+    },
+    {
+      "epoch": 0.9235936188077246,
+      "grad_norm": NaN,
+      "learning_rate": 8.681417957487729e-05,
+      "loss": 0.0,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9319899244332494,
+      "grad_norm": NaN,
+      "learning_rate": 8.653321002775478e-05,
+      "loss": 0.0,
+      "step": 1110
+    },
+    {
+      "epoch": 0.9403862300587741,
+      "grad_norm": NaN,
+      "learning_rate": 8.624974348425574e-05,
+      "loss": 0.0,
+      "step": 1120
+    },
+    {
+      "epoch": 0.9487825356842989,
+      "grad_norm": NaN,
+      "learning_rate": 8.596379931894188e-05,
+      "loss": 0.0,
+      "step": 1130
+    },
+    {
+      "epoch": 0.9571788413098237,
+      "grad_norm": NaN,
+      "learning_rate": 8.567539707571703e-05,
+      "loss": 0.0,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9655751469353484,
+      "grad_norm": NaN,
+      "learning_rate": 8.538455646649146e-05,
+      "loss": 0.0,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9739714525608733,
+      "grad_norm": NaN,
+      "learning_rate": 8.509129736983446e-05,
+      "loss": 0.0,
+      "step": 1160
+    },
+    {
+      "epoch": 0.982367758186398,
+      "grad_norm": NaN,
+      "learning_rate": 8.479563982961571e-05,
+      "loss": 0.0,
+      "step": 1170
+    },
+    {
+      "epoch": 0.9907640638119227,
+      "grad_norm": NaN,
+      "learning_rate": 8.449760405363539e-05,
+      "loss": 0.0,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9991603694374476,
+      "grad_norm": NaN,
+      "learning_rate": 8.419721041224287e-05,
+      "loss": 0.0,
+      "step": 1190
+    },
+    {
+      "epoch": 1.0075566750629723,
+      "grad_norm": NaN,
+      "learning_rate": 8.389447943694451e-05,
+      "loss": 0.0,
+      "step": 1200
+    },
+    {
+      "epoch": 1.015952980688497,
+      "grad_norm": NaN,
+      "learning_rate": 8.358943181900032e-05,
+      "loss": 0.0,
+      "step": 1210
+    },
+    {
+      "epoch": 1.0243492863140218,
+      "grad_norm": NaN,
+      "learning_rate": 8.328208840800981e-05,
+      "loss": 0.0,
+      "step": 1220
+    },
+    {
+      "epoch": 1.0327455919395465,
+      "grad_norm": NaN,
+      "learning_rate": 8.297247021048686e-05,
+      "loss": 0.0,
+      "step": 1230
+    },
+    {
+      "epoch": 1.0411418975650715,
+      "grad_norm": NaN,
+      "learning_rate": 8.266059838842396e-05,
+      "loss": 0.0,
+      "step": 1240
+    },
+    {
+      "epoch": 1.0495382031905962,
+      "grad_norm": NaN,
+      "learning_rate": 8.23464942578459e-05,
+      "loss": 0.0,
+      "step": 1250
+    },
+    {
+      "epoch": 1.057934508816121,
+      "grad_norm": NaN,
+      "learning_rate": 8.203017928735277e-05,
+      "loss": 0.0,
+      "step": 1260
+    },
+    {
+      "epoch": 1.0663308144416457,
+      "grad_norm": NaN,
+      "learning_rate": 8.17116750966526e-05,
+      "loss": 0.0,
+      "step": 1270
+    },
+    {
+      "epoch": 1.0747271200671704,
+      "grad_norm": NaN,
+      "learning_rate": 8.139100345508377e-05,
+      "loss": 0.0,
+      "step": 1280
+    },
+    {
+      "epoch": 1.0831234256926952,
+      "grad_norm": NaN,
+      "learning_rate": 8.106818628012697e-05,
+      "loss": 0.0,
+      "step": 1290
+    },
+    {
+      "epoch": 1.0915197313182199,
+      "grad_norm": NaN,
+      "learning_rate": 8.074324563590736e-05,
+      "loss": 0.0,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0999160369437448,
+      "grad_norm": NaN,
+      "learning_rate": 8.041620373168628e-05,
+      "loss": 0.0,
+      "step": 1310
+    },
+    {
+      "epoch": 1.1083123425692696,
+      "grad_norm": NaN,
+      "learning_rate": 8.008708292034349e-05,
+      "loss": 0.0,
+      "step": 1320
+    },
+    {
+      "epoch": 1.1167086481947943,
+      "grad_norm": NaN,
+      "learning_rate": 7.975590569684925e-05,
+      "loss": 0.0,
+      "step": 1330
+    },
+    {
+      "epoch": 1.125104953820319,
+      "grad_norm": NaN,
+      "learning_rate": 7.942269469672687e-05,
+      "loss": 0.0,
+      "step": 1340
+    },
+    {
+      "epoch": 1.1335012594458438,
+      "grad_norm": NaN,
+      "learning_rate": 7.908747269450558e-05,
+      "loss": 0.0,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1418975650713685,
+      "grad_norm": NaN,
+      "learning_rate": 7.875026260216393e-05,
+      "loss": 0.0,
+      "step": 1360
+    },
+    {
+      "epoch": 1.1502938706968933,
+      "grad_norm": NaN,
+      "learning_rate": 7.841108746756382e-05,
+      "loss": 0.0,
+      "step": 1370
+    },
+    {
+      "epoch": 1.1586901763224182,
+      "grad_norm": NaN,
+      "learning_rate": 7.806997047287516e-05,
+      "loss": 0.0,
+      "step": 1380
+    },
+    {
+      "epoch": 1.167086481947943,
+      "grad_norm": NaN,
+      "learning_rate": 7.772693493299138e-05,
+      "loss": 0.0,
+      "step": 1390
+    },
+    {
+      "epoch": 1.1754827875734677,
+      "grad_norm": NaN,
+      "learning_rate": 7.7382004293936e-05,
+      "loss": 0.0,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1838790931989924,
+      "grad_norm": NaN,
+      "learning_rate": 7.703520213126e-05,
+      "loss": 0.0,
+      "step": 1410
+    },
+    {
+      "epoch": 1.1922753988245172,
+      "grad_norm": NaN,
+      "learning_rate": 7.66865521484305e-05,
+      "loss": 0.0,
+      "step": 1420
+    },
+    {
+      "epoch": 1.200671704450042,
+      "grad_norm": NaN,
+      "learning_rate": 7.633607817521074e-05,
+      "loss": 0.0,
+      "step": 1430
+    },
+    {
+      "epoch": 1.2090680100755669,
+      "grad_norm": NaN,
+      "learning_rate": 7.598380416603119e-05,
+      "loss": 0.0,
+      "step": 1440
+    },
+    {
+      "epoch": 1.2174643157010916,
+      "grad_norm": NaN,
+      "learning_rate": 7.562975419835247e-05,
+      "loss": 0.0,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2258606213266163,
+      "grad_norm": NaN,
+      "learning_rate": 7.527395247101956e-05,
+      "loss": 0.0,
+      "step": 1460
+    },
+    {
+      "epoch": 1.234256926952141,
+      "grad_norm": NaN,
+      "learning_rate": 7.491642330260789e-05,
+      "loss": 0.0,
+      "step": 1470
+    },
+    {
+      "epoch": 1.2426532325776658,
+      "grad_norm": NaN,
+      "learning_rate": 7.45571911297612e-05,
+      "loss": 0.0,
+      "step": 1480
+    },
+    {
+      "epoch": 1.2510495382031905,
+      "grad_norm": NaN,
+      "learning_rate": 7.419628050552131e-05,
+      "loss": 0.0,
+      "step": 1490
+    },
+    {
+      "epoch": 1.2594458438287153,
+      "grad_norm": NaN,
+      "learning_rate": 7.383371609764999e-05,
+      "loss": 0.0,
+      "step": 1500
+    },
+    {
+      "epoch": 1.26784214945424,
+      "grad_norm": NaN,
+      "learning_rate": 7.346952268694288e-05,
+      "loss": 0.0,
+      "step": 1510
+    },
+    {
+      "epoch": 1.276238455079765,
+      "grad_norm": NaN,
+      "learning_rate": 7.310372516553585e-05,
+      "loss": 0.0,
+      "step": 1520
+    },
+    {
+      "epoch": 1.2846347607052897,
+      "grad_norm": NaN,
+      "learning_rate": 7.273634853520356e-05,
+      "loss": 0.0,
+      "step": 1530
+    },
+    {
+      "epoch": 1.2930310663308144,
+      "grad_norm": NaN,
+      "learning_rate": 7.236741790565072e-05,
+      "loss": 0.0,
+      "step": 1540
+    },
+    {
+      "epoch": 1.3014273719563392,
+      "grad_norm": NaN,
+      "learning_rate": 7.199695849279576e-05,
+      "loss": 0.0,
+      "step": 1550
+    },
+    {
+      "epoch": 1.309823677581864,
+      "grad_norm": NaN,
+      "learning_rate": 7.162499561704747e-05,
+      "loss": 0.0,
+      "step": 1560
+    },
+    {
+      "epoch": 1.3182199832073889,
+      "grad_norm": NaN,
+      "learning_rate": 7.125155470157429e-05,
+      "loss": 0.0,
+      "step": 1570
+    },
+    {
+      "epoch": 1.3266162888329136,
+      "grad_norm": NaN,
+      "learning_rate": 7.087666127056675e-05,
+      "loss": 0.0,
+      "step": 1580
+    },
+    {
+      "epoch": 1.3350125944584383,
+      "grad_norm": NaN,
+      "learning_rate": 7.050034094749286e-05,
+      "loss": 0.0,
+      "step": 1590
+    },
+    {
+      "epoch": 1.343408900083963,
+      "grad_norm": NaN,
+      "learning_rate": 7.012261945334683e-05,
+      "loss": 0.0,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3518052057094878,
+      "grad_norm": NaN,
+      "learning_rate": 6.974352260489103e-05,
+      "loss": 0.0,
+      "step": 1610
+    },
+    {
+      "epoch": 1.3602015113350125,
+      "grad_norm": NaN,
+      "learning_rate": 6.936307631289148e-05,
+      "loss": 0.0,
+      "step": 1620
+    },
+    {
+      "epoch": 1.3685978169605373,
+      "grad_norm": NaN,
+      "learning_rate": 6.898130658034685e-05,
+      "loss": 0.0,
+      "step": 1630
+    },
+    {
+      "epoch": 1.376994122586062,
+      "grad_norm": NaN,
+      "learning_rate": 6.859823950071127e-05,
+      "loss": 0.0,
+      "step": 1640
+    },
+    {
+      "epoch": 1.385390428211587,
+      "grad_norm": NaN,
+      "learning_rate": 6.821390125611078e-05,
+      "loss": 0.0,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3937867338371117,
+      "grad_norm": NaN,
+      "learning_rate": 6.782831811555385e-05,
+      "loss": 0.0,
+      "step": 1660
+    },
+    {
+      "epoch": 1.4021830394626364,
+      "grad_norm": NaN,
+      "learning_rate": 6.744151643313597e-05,
+      "loss": 0.0,
+      "step": 1670
+    },
+    {
+      "epoch": 1.4105793450881612,
+      "grad_norm": NaN,
+      "learning_rate": 6.705352264623828e-05,
+      "loss": 0.0,
+      "step": 1680
+    },
+    {
+      "epoch": 1.418975650713686,
+      "grad_norm": NaN,
+      "learning_rate": 6.666436327372078e-05,
+      "loss": 0.0,
+      "step": 1690
+    },
+    {
+      "epoch": 1.4273719563392109,
+      "grad_norm": NaN,
+      "learning_rate": 6.62740649141096e-05,
+      "loss": 0.0,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4357682619647356,
+      "grad_norm": NaN,
+      "learning_rate": 6.588265424377919e-05,
+      "loss": 0.0,
+      "step": 1710
+    },
+    {
+      "epoch": 1.4441645675902604,
+      "grad_norm": NaN,
+      "learning_rate": 6.549015801512895e-05,
+      "loss": 0.0,
+      "step": 1720
+    },
+    {
+      "epoch": 1.452560873215785,
+      "grad_norm": NaN,
+      "learning_rate": 6.509660305475468e-05,
+      "loss": 0.0,
+      "step": 1730
+    },
+    {
+      "epoch": 1.4609571788413098,
+      "grad_norm": NaN,
+      "learning_rate": 6.47020162616152e-05,
+      "loss": 0.0,
+      "step": 1740
+    },
+    {
+      "epoch": 1.4693534844668346,
+      "grad_norm": NaN,
+      "learning_rate": 6.430642460519365e-05,
+      "loss": 0.0,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4777497900923593,
+      "grad_norm": NaN,
+      "learning_rate": 6.390985512365426e-05,
+      "loss": 0.0,
+      "step": 1760
+    },
+    {
+      "epoch": 1.486146095717884,
+      "grad_norm": NaN,
+      "learning_rate": 6.351233492199431e-05,
+      "loss": 0.0,
+      "step": 1770
+    },
+    {
+      "epoch": 1.4945424013434088,
+      "grad_norm": NaN,
+      "learning_rate": 6.311389117019155e-05,
+      "loss": 0.0,
+      "step": 1780
+    },
+    {
+      "epoch": 1.5029387069689337,
+      "grad_norm": NaN,
+      "learning_rate": 6.271455110134713e-05,
+      "loss": 0.0,
+      "step": 1790
+    },
+    {
+      "epoch": 1.5113350125944585,
+      "grad_norm": NaN,
+      "learning_rate": 6.231434200982428e-05,
+      "loss": 0.0,
+      "step": 1800
+    },
+    {
+      "epoch": 1.5197313182199832,
+      "grad_norm": NaN,
+      "learning_rate": 6.191329124938285e-05,
+      "loss": 0.0,
+      "step": 1810
+    },
+    {
+      "epoch": 1.528127623845508,
+      "grad_norm": NaN,
+      "learning_rate": 6.15114262313095e-05,
+      "loss": 0.0,
+      "step": 1820
+    },
+    {
+      "epoch": 1.536523929471033,
+      "grad_norm": NaN,
+      "learning_rate": 6.110877442254444e-05,
+      "loss": 0.0,
+      "step": 1830
+    },
+    {
+      "epoch": 1.5449202350965576,
+      "grad_norm": NaN,
+      "learning_rate": 6.0705363343803946e-05,
+      "loss": 0.0,
+      "step": 1840
+    },
+    {
+      "epoch": 1.5533165407220824,
+      "grad_norm": NaN,
+      "learning_rate": 6.030122056769934e-05,
+      "loss": 0.0,
+      "step": 1850
+    },
+    {
+      "epoch": 1.561712846347607,
+      "grad_norm": NaN,
+      "learning_rate": 5.989637371685257e-05,
+      "loss": 0.0,
+      "step": 1860
+    },
+    {
+      "epoch": 1.5701091519731318,
+      "grad_norm": NaN,
+      "learning_rate": 5.949085046200808e-05,
+      "loss": 0.0,
+      "step": 1870
+    },
+    {
+      "epoch": 1.5785054575986566,
+      "grad_norm": NaN,
+      "learning_rate": 5.908467852014169e-05,
+      "loss": 0.0,
+      "step": 1880
+    },
+    {
+      "epoch": 1.5869017632241813,
+      "grad_norm": NaN,
+      "learning_rate": 5.867788565256607e-05,
+      "loss": 0.0,
+      "step": 1890
+    },
+    {
+      "epoch": 1.595298068849706,
+      "grad_norm": NaN,
+      "learning_rate": 5.827049966303335e-05,
+      "loss": 0.0,
+      "step": 1900
+    },
+    {
+      "epoch": 1.6036943744752308,
+      "grad_norm": NaN,
+      "learning_rate": 5.786254839583478e-05,
+      "loss": 0.0,
+      "step": 1910
+    },
+    {
+      "epoch": 1.6120906801007555,
+      "grad_norm": NaN,
+      "learning_rate": 5.745405973389757e-05,
+      "loss": 0.0,
+      "step": 1920
+    },
+    {
+      "epoch": 1.6204869857262805,
+      "grad_norm": NaN,
+      "learning_rate": 5.7045061596879134e-05,
+      "loss": 0.0,
+      "step": 1930
+    },
+    {
+      "epoch": 1.6288832913518052,
+      "grad_norm": NaN,
+      "learning_rate": 5.6635581939258855e-05,
+      "loss": 0.0,
+      "step": 1940
+    },
+    {
+      "epoch": 1.63727959697733,
+      "grad_norm": NaN,
+      "learning_rate": 5.622564874842742e-05,
+      "loss": 0.0,
+      "step": 1950
+    },
+    {
+      "epoch": 1.645675902602855,
+      "grad_norm": NaN,
+      "learning_rate": 5.5815290042773836e-05,
+      "loss": 0.0,
+      "step": 1960
+    },
+    {
+      "epoch": 1.6540722082283796,
+      "grad_norm": NaN,
+      "learning_rate": 5.540453386977058e-05,
+      "loss": 0.0,
+      "step": 1970
+    },
+    {
+      "epoch": 1.6624685138539044,
+      "grad_norm": NaN,
+      "learning_rate": 5.4993408304056425e-05,
+      "loss": 0.0,
+      "step": 1980
+    },
+    {
+      "epoch": 1.670864819479429,
+      "grad_norm": NaN,
+      "learning_rate": 5.458194144551768e-05,
+      "loss": 0.0,
+      "step": 1990
+    },
+    {
+      "epoch": 1.6792611251049538,
+      "grad_norm": NaN,
+      "learning_rate": 5.417016141736756e-05,
+      "loss": 0.0,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6876574307304786,
+      "grad_norm": NaN,
+      "learning_rate": 5.375809636422399e-05,
+      "loss": 0.0,
+      "step": 2010
+    },
+    {
+      "epoch": 1.6960537363560033,
+      "grad_norm": NaN,
+      "learning_rate": 5.334577445018599e-05,
+      "loss": 0.0,
+      "step": 2020
+    },
+    {
+      "epoch": 1.704450041981528,
+      "grad_norm": NaN,
+      "learning_rate": 5.293322385690867e-05,
+      "loss": 0.0,
+      "step": 2030
+    },
+    {
+      "epoch": 1.7128463476070528,
+      "grad_norm": NaN,
+      "learning_rate": 5.252047278167709e-05,
+      "loss": 0.0,
+      "step": 2040
+    },
+    {
+      "epoch": 1.7212426532325775,
+      "grad_norm": NaN,
+      "learning_rate": 5.210754943547893e-05,
+      "loss": 0.0,
+      "step": 2050
+    },
+    {
+      "epoch": 1.7296389588581025,
+      "grad_norm": NaN,
+      "learning_rate": 5.169448204107643e-05,
+      "loss": 0.0,
+      "step": 2060
+    },
+    {
+      "epoch": 1.7380352644836272,
+      "grad_norm": NaN,
+      "learning_rate": 5.128129883107729e-05,
+      "loss": 0.0,
+      "step": 2070
+    },
+    {
+      "epoch": 1.746431570109152,
+      "grad_norm": NaN,
+      "learning_rate": 5.086802804600505e-05,
+      "loss": 0.0,
+      "step": 2080
+    },
+    {
+      "epoch": 1.7548278757346767,
+      "grad_norm": NaN,
+      "learning_rate": 5.045469793236892e-05,
+      "loss": 0.0,
+      "step": 2090
+    },
+    {
+      "epoch": 1.7632241813602016,
+      "grad_norm": NaN,
+      "learning_rate": 5.00413367407331e-05,
+      "loss": 0.0,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7716204869857264,
+      "grad_norm": NaN,
+      "learning_rate": 4.9627972723785964e-05,
+      "loss": 0.0,
+      "step": 2110
+    },
+    {
+      "epoch": 1.7800167926112511,
+      "grad_norm": NaN,
+      "learning_rate": 4.921463413440898e-05,
+      "loss": 0.0,
+      "step": 2120
+    },
+    {
+      "epoch": 1.7884130982367759,
+      "grad_norm": NaN,
+      "learning_rate": 4.8801349223745654e-05,
+      "loss": 0.0,
+      "step": 2130
+    },
+    {
+      "epoch": 1.7968094038623006,
+      "grad_norm": NaN,
+      "learning_rate": 4.838814623927067e-05,
+      "loss": 0.0,
+      "step": 2140
+    },
+    {
+      "epoch": 1.8052057094878253,
+      "grad_norm": NaN,
+      "learning_rate": 4.797505342285912e-05,
+      "loss": 0.0,
+      "step": 2150
+    },
+    {
+      "epoch": 1.81360201511335,
+      "grad_norm": NaN,
+      "learning_rate": 4.756209900885628e-05,
+      "loss": 0.0,
+      "step": 2160
+    },
+    {
+      "epoch": 1.8219983207388748,
+      "grad_norm": NaN,
+      "learning_rate": 4.714931122214781e-05,
+      "loss": 0.0,
+      "step": 2170
+    },
+    {
+      "epoch": 1.8303946263643995,
+      "grad_norm": NaN,
+      "learning_rate": 4.673671827623058e-05,
+      "loss": 0.0,
+      "step": 2180
+    },
+    {
+      "epoch": 1.8387909319899243,
+      "grad_norm": NaN,
+      "learning_rate": 4.632434837128443e-05,
+      "loss": 0.0,
+      "step": 2190
+    },
+    {
+      "epoch": 1.8471872376154492,
+      "grad_norm": NaN,
+      "learning_rate": 4.591222969224453e-05,
+      "loss": 0.0,
+      "step": 2200
+    },
+    {
+      "epoch": 1.855583543240974,
+      "grad_norm": NaN,
+      "learning_rate": 4.550039040687518e-05,
+      "loss": 0.0,
+      "step": 2210
+    },
+    {
+      "epoch": 1.8639798488664987,
+      "grad_norm": NaN,
+      "learning_rate": 4.508885866384446e-05,
+      "loss": 0.0,
+      "step": 2220
+    },
+    {
+      "epoch": 1.8723761544920237,
+      "grad_norm": NaN,
+      "learning_rate": 4.4677662590800355e-05,
+      "loss": 0.0,
+      "step": 2230
+    },
+    {
+      "epoch": 1.8807724601175484,
+      "grad_norm": NaN,
+      "learning_rate": 4.426683029244825e-05,
+      "loss": 0.0,
+      "step": 2240
+    },
+    {
+      "epoch": 1.8891687657430731,
+      "grad_norm": NaN,
+      "learning_rate": 4.385638984863e-05,
+      "loss": 0.0,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8975650713685979,
+      "grad_norm": NaN,
+      "learning_rate": 4.3446369312404745e-05,
+      "loss": 0.0,
+      "step": 2260
+    },
+    {
+      "epoch": 1.9059613769941226,
+      "grad_norm": NaN,
+      "learning_rate": 4.3036796708131474e-05,
+      "loss": 0.0,
+      "step": 2270
+    },
+    {
+      "epoch": 1.9143576826196473,
+      "grad_norm": NaN,
+      "learning_rate": 4.262770002955363e-05,
+      "loss": 0.0,
+      "step": 2280
+    },
+    {
+      "epoch": 1.922753988245172,
+      "grad_norm": NaN,
+      "learning_rate": 4.221910723788578e-05,
+      "loss": 0.0,
+      "step": 2290
+    },
+    {
+      "epoch": 1.9311502938706968,
+      "grad_norm": NaN,
+      "learning_rate": 4.1811046259902474e-05,
+      "loss": 0.0,
+      "step": 2300
+    },
+    {
+      "epoch": 1.9395465994962215,
+      "grad_norm": NaN,
+      "learning_rate": 4.140354498602952e-05,
+      "loss": 0.0,
+      "step": 2310
+    },
+    {
+      "epoch": 1.9479429051217463,
+      "grad_norm": NaN,
+      "learning_rate": 4.099663126843769e-05,
+      "loss": 0.0,
+      "step": 2320
+    },
+    {
+      "epoch": 1.9563392107472712,
+      "grad_norm": NaN,
+      "learning_rate": 4.059033291913902e-05,
+      "loss": 0.0,
+      "step": 2330
+    },
+    {
+      "epoch": 1.964735516372796,
+      "grad_norm": NaN,
+      "learning_rate": 4.0184677708086014e-05,
+      "loss": 0.0,
+      "step": 2340
+    },
+    {
+      "epoch": 1.9731318219983207,
+      "grad_norm": NaN,
+      "learning_rate": 3.977969336127348e-05,
+      "loss": 0.0,
+      "step": 2350
+    },
+    {
+      "epoch": 1.9815281276238457,
+      "grad_norm": NaN,
+      "learning_rate": 3.937540755884357e-05,
+      "loss": 0.0,
+      "step": 2360
+    },
+    {
+      "epoch": 1.9899244332493704,
+      "grad_norm": NaN,
+      "learning_rate": 3.897184793319384e-05,
+      "loss": 0.0,
+      "step": 2370
+    },
+    {
+      "epoch": 1.9983207388748951,
+      "grad_norm": NaN,
+      "learning_rate": 3.856904206708863e-05,
+      "loss": 0.0,
+      "step": 2380
+    },
+    {
+      "epoch": 2.00671704450042,
+      "grad_norm": NaN,
+      "learning_rate": 3.8167017491773847e-05,
+      "loss": 0.0,
+      "step": 2390
+    },
+    {
+      "epoch": 2.0151133501259446,
+      "grad_norm": NaN,
+      "learning_rate": 3.776580168509516e-05,
+      "loss": 0.0,
+      "step": 2400
+    },
+    {
+      "epoch": 2.0235096557514693,
+      "grad_norm": NaN,
+      "learning_rate": 3.736542206962e-05,
+      "loss": 0.0,
+      "step": 2410
+    },
+    {
+      "epoch": 2.031905961376994,
+      "grad_norm": NaN,
+      "learning_rate": 3.696590601076326e-05,
+      "loss": 0.0,
+      "step": 2420
+    },
+    {
+      "epoch": 2.040302267002519,
+      "grad_norm": NaN,
+      "learning_rate": 3.656728081491686e-05,
+      "loss": 0.0,
+      "step": 2430
+    },
+    {
+      "epoch": 2.0486985726280436,
+      "grad_norm": NaN,
+      "learning_rate": 3.6169573727583405e-05,
+      "loss": 0.0,
+      "step": 2440
+    },
+    {
+      "epoch": 2.0570948782535683,
+      "grad_norm": NaN,
+      "learning_rate": 3.5772811931514036e-05,
+      "loss": 0.0,
+      "step": 2450
+    },
+    {
+      "epoch": 2.065491183879093,
+      "grad_norm": NaN,
+      "learning_rate": 3.5377022544850505e-05,
+      "loss": 0.0,
+      "step": 2460
+    },
+    {
+      "epoch": 2.0738874895046178,
+      "grad_norm": NaN,
+      "learning_rate": 3.498223261927158e-05,
+      "loss": 0.0,
+      "step": 2470
+    },
+    {
+      "epoch": 2.082283795130143,
+      "grad_norm": NaN,
+      "learning_rate": 3.4588469138144295e-05,
+      "loss": 0.0,
+      "step": 2480
+    },
+    {
+      "epoch": 2.0906801007556677,
+      "grad_norm": NaN,
+      "learning_rate": 3.419575901467952e-05,
+      "loss": 0.0,
+      "step": 2490
+    },
+    {
+      "epoch": 2.0990764063811924,
+      "grad_norm": NaN,
+      "learning_rate": 3.380412909009254e-05,
+      "loss": 0.0,
+      "step": 2500
+    },
+    {
+      "epoch": 2.107472712006717,
+      "grad_norm": NaN,
+      "learning_rate": 3.3413606131768475e-05,
+      "loss": 0.0,
+      "step": 2510
+    },
+    {
+      "epoch": 2.115869017632242,
+      "grad_norm": NaN,
+      "learning_rate": 3.302421683143279e-05,
+      "loss": 0.0,
+      "step": 2520
+    },
+    {
+      "epoch": 2.1242653232577666,
+      "grad_norm": NaN,
+      "learning_rate": 3.2635987803326896e-05,
+      "loss": 0.0,
+      "step": 2530
+    },
+    {
+      "epoch": 2.1326616288832914,
+      "grad_norm": NaN,
+      "learning_rate": 3.224894558238918e-05,
+      "loss": 0.0,
+      "step": 2540
+    },
+    {
+      "epoch": 2.141057934508816,
+      "grad_norm": NaN,
+      "learning_rate": 3.18631166224413e-05,
+      "loss": 0.0,
+      "step": 2550
+    },
+    {
+      "epoch": 2.149454240134341,
+      "grad_norm": NaN,
+      "learning_rate": 3.147852729438017e-05,
+      "loss": 0.0,
+      "step": 2560
+    },
+    {
+      "epoch": 2.1578505457598656,
+      "grad_norm": NaN,
+      "learning_rate": 3.109520388437548e-05,
+      "loss": 0.0,
+      "step": 2570
+    },
+    {
+      "epoch": 2.1662468513853903,
+      "grad_norm": NaN,
+      "learning_rate": 3.0713172592073116e-05,
+      "loss": 0.0,
+      "step": 2580
+    },
+    {
+      "epoch": 2.174643157010915,
+      "grad_norm": NaN,
+      "learning_rate": 3.0332459528804457e-05,
+      "loss": 0.0,
+      "step": 2590
+    },
+    {
+      "epoch": 2.1830394626364398,
+      "grad_norm": NaN,
+      "learning_rate": 2.9953090715801634e-05,
+      "loss": 0.0,
+      "step": 2600
+    },
+    {
+      "epoch": 2.1914357682619645,
+      "grad_norm": NaN,
+      "learning_rate": 2.9575092082419086e-05,
+      "loss": 0.0,
+      "step": 2610
+    },
+    {
+      "epoch": 2.1998320738874897,
+      "grad_norm": NaN,
+      "learning_rate": 2.9198489464361288e-05,
+      "loss": 0.0,
+      "step": 2620
+    },
+    {
+      "epoch": 2.2082283795130144,
+      "grad_norm": NaN,
+      "learning_rate": 2.8823308601916948e-05,
+      "loss": 0.0,
+      "step": 2630
+    },
+    {
+      "epoch": 2.216624685138539,
+      "grad_norm": NaN,
+      "learning_rate": 2.8449575138199613e-05,
+      "loss": 0.0,
+      "step": 2640
+    },
+    {
+      "epoch": 2.225020990764064,
+      "grad_norm": NaN,
+      "learning_rate": 2.807731461739509e-05,
+      "loss": 0.0,
+      "step": 2650
+    },
+    {
+      "epoch": 2.2334172963895886,
+      "grad_norm": NaN,
+      "learning_rate": 2.7706552483015485e-05,
+      "loss": 0.0,
+      "step": 2660
+    },
+    {
+      "epoch": 2.2418136020151134,
+      "grad_norm": NaN,
+      "learning_rate": 2.733731407616018e-05,
+      "loss": 0.0,
+      "step": 2670
+    },
+    {
+      "epoch": 2.250209907640638,
+      "grad_norm": NaN,
+      "learning_rate": 2.6969624633783806e-05,
+      "loss": 0.0,
+      "step": 2680
+    },
+    {
+      "epoch": 2.258606213266163,
+      "grad_norm": NaN,
+      "learning_rate": 2.660350928697134e-05,
+      "loss": 0.0,
+      "step": 2690
+    },
+    {
+      "epoch": 2.2670025188916876,
+      "grad_norm": NaN,
+      "learning_rate": 2.6238993059220395e-05,
+      "loss": 0.0,
+      "step": 2700
+    },
+    {
+      "epoch": 2.2753988245172123,
+      "grad_norm": NaN,
+      "learning_rate": 2.5876100864730933e-05,
+      "loss": 0.0,
+      "step": 2710
+    },
+    {
+      "epoch": 2.283795130142737,
+      "grad_norm": NaN,
+      "learning_rate": 2.5514857506702405e-05,
+      "loss": 0.0,
+      "step": 2720
+    },
+    {
+      "epoch": 2.292191435768262,
+      "grad_norm": NaN,
+      "learning_rate": 2.5155287675638474e-05,
+      "loss": 0.0,
+      "step": 2730
+    },
+    {
+      "epoch": 2.3005877413937865,
+      "grad_norm": NaN,
+      "learning_rate": 2.4797415947659457e-05,
+      "loss": 0.0,
+      "step": 2740
+    },
+    {
+      "epoch": 2.3089840470193117,
+      "grad_norm": NaN,
+      "learning_rate": 2.4441266782822588e-05,
+      "loss": 0.0,
+      "step": 2750
+    },
+    {
+      "epoch": 2.3173803526448364,
+      "grad_norm": NaN,
+      "learning_rate": 2.4086864523450183e-05,
+      "loss": 0.0,
+      "step": 2760
+    },
+    {
+      "epoch": 2.325776658270361,
+      "grad_norm": NaN,
+      "learning_rate": 2.3734233392465903e-05,
+      "loss": 0.0,
+      "step": 2770
+    },
+    {
+      "epoch": 2.334172963895886,
+      "grad_norm": NaN,
+      "learning_rate": 2.3383397491739145e-05,
+      "loss": 0.0,
+      "step": 2780
+    },
+    {
+      "epoch": 2.3425692695214106,
+      "grad_norm": NaN,
+      "learning_rate": 2.3034380800437678e-05,
+      "loss": 0.0,
+      "step": 2790
+    },
+    {
+      "epoch": 2.3509655751469354,
+      "grad_norm": NaN,
+      "learning_rate": 2.2687207173388743e-05,
+      "loss": 0.0,
+      "step": 2800
+    },
+    {
+      "epoch": 2.35936188077246,
+      "grad_norm": NaN,
+      "learning_rate": 2.234190033944858e-05,
+      "loss": 0.0,
+      "step": 2810
+    },
+    {
+      "epoch": 2.367758186397985,
+      "grad_norm": NaN,
+      "learning_rate": 2.1998483899880596e-05,
+      "loss": 0.0,
+      "step": 2820
+    },
+    {
+      "epoch": 2.3761544920235096,
+      "grad_norm": NaN,
+      "learning_rate": 2.1656981326742266e-05,
+      "loss": 0.0,
+      "step": 2830
+    },
+    {
+      "epoch": 2.3845507976490343,
+      "grad_norm": NaN,
+      "learning_rate": 2.1317415961280824e-05,
+      "loss": 0.0,
+      "step": 2840
+    },
+    {
+      "epoch": 2.392947103274559,
+      "grad_norm": NaN,
+      "learning_rate": 2.097981101233794e-05,
+      "loss": 0.0,
+      "step": 2850
+    },
+    {
+      "epoch": 2.401343408900084,
+      "grad_norm": NaN,
+      "learning_rate": 2.0644189554763417e-05,
+      "loss": 0.0,
+      "step": 2860
+    },
+    {
+      "epoch": 2.4097397145256085,
+      "grad_norm": NaN,
+      "learning_rate": 2.0310574527838072e-05,
+      "loss": 0.0,
+      "step": 2870
+    },
+    {
+      "epoch": 2.4181360201511337,
+      "grad_norm": NaN,
+      "learning_rate": 1.9978988733705807e-05,
+      "loss": 0.0,
+      "step": 2880
+    },
+    {
+      "epoch": 2.4265323257766584,
+      "grad_norm": NaN,
+      "learning_rate": 1.9649454835815202e-05,
+      "loss": 0.0,
+      "step": 2890
+    },
+    {
+      "epoch": 2.434928631402183,
+      "grad_norm": NaN,
+      "learning_rate": 1.932199535737045e-05,
+      "loss": 0.0,
+      "step": 2900
+    },
+    {
+      "epoch": 2.443324937027708,
+      "grad_norm": NaN,
+      "learning_rate": 1.8996632679791914e-05,
+      "loss": 0.0,
+      "step": 2910
+    },
+    {
+      "epoch": 2.4517212426532327,
+      "grad_norm": NaN,
+      "learning_rate": 1.8673389041186418e-05,
+      "loss": 0.0,
+      "step": 2920
+    },
+    {
+      "epoch": 2.4601175482787574,
+      "grad_norm": NaN,
+      "learning_rate": 1.8352286534827274e-05,
+      "loss": 0.0,
+      "step": 2930
+    },
+    {
+      "epoch": 2.468513853904282,
+      "grad_norm": NaN,
+      "learning_rate": 1.803334710764426e-05,
+      "loss": 0.0,
+      "step": 2940
+    },
+    {
+      "epoch": 2.476910159529807,
+      "grad_norm": NaN,
+      "learning_rate": 1.7716592558723556e-05,
+      "loss": 0.0,
+      "step": 2950
+    },
+    {
+      "epoch": 2.4853064651553316,
+      "grad_norm": NaN,
+      "learning_rate": 1.7402044537817824e-05,
+      "loss": 0.0,
+      "step": 2960
+    },
+    {
+      "epoch": 2.4937027707808563,
+      "grad_norm": NaN,
+      "learning_rate": 1.7089724543866465e-05,
+      "loss": 0.0,
+      "step": 2970
+    },
+    {
+      "epoch": 2.502099076406381,
+      "grad_norm": NaN,
+      "learning_rate": 1.6779653923526188e-05,
+      "loss": 0.0,
+      "step": 2980
+    },
+    {
+      "epoch": 2.510495382031906,
+      "grad_norm": NaN,
+      "learning_rate": 1.6471853869712023e-05,
+      "loss": 0.0,
+      "step": 2990
+    },
+    {
+      "epoch": 2.5188916876574305,
+      "grad_norm": NaN,
+      "learning_rate": 1.6166345420148787e-05,
+      "loss": 0.0,
+      "step": 3000
     }
   ],
   "logging_steps": 10,
+  "max_steps": 4000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {