diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,31284 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 3125,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00032,
+      "grad_norm": 12.630151409918152,
+      "learning_rate": 1.0660980810234543e-08,
+      "loss": 1.0067662000656128,
+      "memory(GiB)": 24.01,
+      "step": 1,
+      "token_acc": 0.7926304464766003,
+      "train_speed(iter/s)": 0.049663
+    },
+    {
+      "epoch": 0.00064,
+      "grad_norm": 13.38800108883809,
+      "learning_rate": 2.1321961620469085e-08,
+      "loss": 0.9624192714691162,
+      "memory(GiB)": 24.01,
+      "step": 2,
+      "token_acc": 0.8481939883809043,
+      "train_speed(iter/s)": 0.082942
+    },
+    {
+      "epoch": 0.00096,
+      "grad_norm": 11.704569793690775,
+      "learning_rate": 3.1982942430703625e-08,
+      "loss": 0.9444349408149719,
+      "memory(GiB)": 24.01,
+      "step": 3,
+      "token_acc": 0.8333333333333334,
+      "train_speed(iter/s)": 0.105464
+    },
+    {
+      "epoch": 0.00128,
+      "grad_norm": 13.737566703023898,
+      "learning_rate": 4.264392324093817e-08,
+      "loss": 1.1268188953399658,
+      "memory(GiB)": 24.01,
+      "step": 4,
+      "token_acc": 0.808525754884547,
+      "train_speed(iter/s)": 0.122973
+    },
+    {
+      "epoch": 0.0016,
+      "grad_norm": 11.472179637210196,
+      "learning_rate": 5.330490405117271e-08,
+      "loss": 0.8305326700210571,
+      "memory(GiB)": 24.01,
+      "step": 5,
+      "token_acc": 0.8618470855412567,
+      "train_speed(iter/s)": 0.136709
+    },
+    {
+      "epoch": 0.00192,
+      "grad_norm": 10.90050048784965,
+      "learning_rate": 6.396588486140725e-08,
+      "loss": 0.9607402086257935,
+      "memory(GiB)": 25.75,
+      "step": 6,
+      "token_acc": 0.7736532367587143,
+      "train_speed(iter/s)": 0.147431
+    },
+    {
+      "epoch": 0.00224,
+      "grad_norm": 12.615946907941442,
+      "learning_rate": 7.462686567164179e-08,
+      "loss": 0.9604150652885437,
+      "memory(GiB)": 25.75,
+      "step": 7,
+      "token_acc": 0.7777418311226141,
+      "train_speed(iter/s)": 0.156666
+    },
+    {
+      "epoch": 0.00256,
+      "grad_norm": 12.302489993448557,
+      "learning_rate": 8.528784648187634e-08,
+      "loss": 0.8963150978088379,
+      "memory(GiB)": 25.76,
+      "step": 8,
+      "token_acc": 0.8479709267110842,
+      "train_speed(iter/s)": 0.164324
+    },
+    {
+      "epoch": 0.00288,
+      "grad_norm": 10.511729982659768,
+      "learning_rate": 9.59488272921109e-08,
+      "loss": 0.8355842232704163,
+      "memory(GiB)": 25.76,
+      "step": 9,
+      "token_acc": 0.8565285379202502,
+      "train_speed(iter/s)": 0.170356
+    },
+    {
+      "epoch": 0.0032,
+      "grad_norm": 12.978546145493135,
+      "learning_rate": 1.0660980810234542e-07,
+      "loss": 0.9579042196273804,
+      "memory(GiB)": 25.76,
+      "step": 10,
+      "token_acc": 0.8502427804753386,
+      "train_speed(iter/s)": 0.173216
+    },
+    {
+      "epoch": 0.00352,
+      "grad_norm": 13.314079488016148,
+      "learning_rate": 1.1727078891257997e-07,
+      "loss": 1.0107107162475586,
+      "memory(GiB)": 31.64,
+      "step": 11,
+      "token_acc": 0.7640667442762903,
+      "train_speed(iter/s)": 0.177833
+    },
+    {
+      "epoch": 0.00384,
+      "grad_norm": 11.746933642597515,
+      "learning_rate": 1.279317697228145e-07,
+      "loss": 0.8989206552505493,
+      "memory(GiB)": 31.64,
+      "step": 12,
+      "token_acc": 0.817986577181208,
+      "train_speed(iter/s)": 0.18219
+    },
+    {
+      "epoch": 0.00416,
+      "grad_norm": 13.309772265369517,
+      "learning_rate": 1.3859275053304905e-07,
+      "loss": 1.0773546695709229,
+      "memory(GiB)": 31.64,
+      "step": 13,
+      "token_acc": 0.8230370665603827,
+      "train_speed(iter/s)": 0.185803
+    },
+    {
+      "epoch": 0.00448,
+      "grad_norm": 12.76982067412176,
+      "learning_rate": 1.4925373134328358e-07,
+      "loss": 0.9630119800567627,
+      "memory(GiB)": 31.64,
+      "step": 14,
+      "token_acc": 0.818010372465818,
+      "train_speed(iter/s)": 0.188527
+    },
+    {
+      "epoch": 0.0048,
+      "grad_norm": 12.37131520343411,
+      "learning_rate": 1.5991471215351813e-07,
+      "loss": 0.9258483052253723,
+      "memory(GiB)": 41.86,
+      "step": 15,
+      "token_acc": 0.8312439729990356,
+      "train_speed(iter/s)": 0.190477
+    },
+    {
+      "epoch": 0.00512,
+      "grad_norm": 11.481832543277982,
+      "learning_rate": 1.7057569296375268e-07,
+      "loss": 0.9314000606536865,
+      "memory(GiB)": 41.86,
+      "step": 16,
+      "token_acc": 0.8041146859268987,
+      "train_speed(iter/s)": 0.192959
+    },
+    {
+      "epoch": 0.00544,
+      "grad_norm": 12.342302950145875,
+      "learning_rate": 1.812366737739872e-07,
+      "loss": 0.9455907940864563,
+      "memory(GiB)": 41.86,
+      "step": 17,
+      "token_acc": 0.8456899609790706,
+      "train_speed(iter/s)": 0.195528
+    },
+    {
+      "epoch": 0.00576,
+      "grad_norm": 11.410847485843847,
+      "learning_rate": 1.918976545842218e-07,
+      "loss": 0.8774665594100952,
+      "memory(GiB)": 41.86,
+      "step": 18,
+      "token_acc": 0.8424959406170263,
+      "train_speed(iter/s)": 0.197586
+    },
+    {
+      "epoch": 0.00608,
+      "grad_norm": 11.33945731695935,
+      "learning_rate": 2.0255863539445632e-07,
+      "loss": 0.9473937153816223,
+      "memory(GiB)": 41.86,
+      "step": 19,
+      "token_acc": 0.7847124824684432,
+      "train_speed(iter/s)": 0.199369
+    },
+    {
+      "epoch": 0.0064,
+      "grad_norm": 11.973784602772334,
+      "learning_rate": 2.1321961620469084e-07,
+      "loss": 0.9350627660751343,
+      "memory(GiB)": 41.86,
+      "step": 20,
+      "token_acc": 0.8573454339194555,
+      "train_speed(iter/s)": 0.200962
+    },
+    {
+      "epoch": 0.00672,
+      "grad_norm": 10.883829386099931,
+      "learning_rate": 2.2388059701492537e-07,
+      "loss": 0.90641188621521,
+      "memory(GiB)": 41.86,
+      "step": 21,
+      "token_acc": 0.7802690582959642,
+      "train_speed(iter/s)": 0.202281
+    },
+    {
+      "epoch": 0.00704,
+      "grad_norm": 11.391651753621645,
+      "learning_rate": 2.3454157782515995e-07,
+      "loss": 0.9643319249153137,
+      "memory(GiB)": 41.86,
+      "step": 22,
+      "token_acc": 0.7747747747747747,
+      "train_speed(iter/s)": 0.204109
+    },
+    {
+      "epoch": 0.00736,
+      "grad_norm": 11.050101303319748,
+      "learning_rate": 2.4520255863539447e-07,
+      "loss": 0.9134818911552429,
+      "memory(GiB)": 41.86,
+      "step": 23,
+      "token_acc": 0.8051920641620937,
+      "train_speed(iter/s)": 0.205276
+    },
+    {
+      "epoch": 0.00768,
+      "grad_norm": 12.517216398066635,
+      "learning_rate": 2.55863539445629e-07,
+      "loss": 0.9008537530899048,
+      "memory(GiB)": 41.86,
+      "step": 24,
+      "token_acc": 0.8337760910815939,
+      "train_speed(iter/s)": 0.206739
+    },
+    {
+      "epoch": 0.008,
+      "grad_norm": 11.495583868820669,
+      "learning_rate": 2.665245202558635e-07,
+      "loss": 0.9621918797492981,
+      "memory(GiB)": 41.86,
+      "step": 25,
+      "token_acc": 0.83390494855463,
+      "train_speed(iter/s)": 0.208123
+    },
+    {
+      "epoch": 0.00832,
+      "grad_norm": 11.629960966505951,
+      "learning_rate": 2.771855010660981e-07,
+      "loss": 0.9758769273757935,
+      "memory(GiB)": 41.86,
+      "step": 26,
+      "token_acc": 0.8202143950995405,
+      "train_speed(iter/s)": 0.209218
+    },
+    {
+      "epoch": 0.00864,
+      "grad_norm": 11.711041914923973,
+      "learning_rate": 2.8784648187633263e-07,
+      "loss": 0.8994331359863281,
+      "memory(GiB)": 41.86,
+      "step": 27,
+      "token_acc": 0.8296025582457743,
+      "train_speed(iter/s)": 0.210492
+    },
+    {
+      "epoch": 0.00896,
+      "grad_norm": 10.785916927327476,
+      "learning_rate": 2.9850746268656716e-07,
+      "loss": 0.9457482099533081,
+      "memory(GiB)": 41.86,
+      "step": 28,
+      "token_acc": 0.8038379530916845,
+      "train_speed(iter/s)": 0.211079
+    },
+    {
+      "epoch": 0.00928,
+      "grad_norm": 10.2611989778238,
+      "learning_rate": 3.0916844349680174e-07,
+      "loss": 0.928992509841919,
+      "memory(GiB)": 41.86,
+      "step": 29,
+      "token_acc": 0.8572097378277154,
+      "train_speed(iter/s)": 0.212095
+    },
+    {
+      "epoch": 0.0096,
+      "grad_norm": 10.065341096521472,
+      "learning_rate": 3.1982942430703626e-07,
+      "loss": 0.9656261801719666,
+      "memory(GiB)": 41.86,
+      "step": 30,
+      "token_acc": 0.7274481427882297,
+      "train_speed(iter/s)": 0.213143
+    },
+    {
+      "epoch": 0.00992,
+      "grad_norm": 10.213449698904558,
+      "learning_rate": 3.3049040511727084e-07,
+      "loss": 0.9150421619415283,
+      "memory(GiB)": 41.86,
+      "step": 31,
+      "token_acc": 0.825136612021858,
+      "train_speed(iter/s)": 0.214224
+    },
+    {
+      "epoch": 0.01024,
+      "grad_norm": 9.510232791014243,
+      "learning_rate": 3.4115138592750537e-07,
+      "loss": 0.8923230171203613,
+      "memory(GiB)": 41.86,
+      "step": 32,
+      "token_acc": 0.7665655032878098,
+      "train_speed(iter/s)": 0.215311
+    },
+    {
+      "epoch": 0.01056,
+      "grad_norm": 9.751395582652036,
+      "learning_rate": 3.518123667377399e-07,
+      "loss": 0.8603218197822571,
+      "memory(GiB)": 41.86,
+      "step": 33,
+      "token_acc": 0.8501154734411085,
+      "train_speed(iter/s)": 0.216002
+    },
+    {
+      "epoch": 0.01088,
+      "grad_norm": 8.72651409913653,
+      "learning_rate": 3.624733475479744e-07,
+      "loss": 0.8310045003890991,
+      "memory(GiB)": 41.86,
+      "step": 34,
+      "token_acc": 0.775260029717682,
+      "train_speed(iter/s)": 0.216883
+    },
+    {
+      "epoch": 0.0112,
+      "grad_norm": 9.538701146438706,
+      "learning_rate": 3.7313432835820895e-07,
+      "loss": 0.9402002692222595,
+      "memory(GiB)": 41.86,
+      "step": 35,
+      "token_acc": 0.8320392317123008,
+      "train_speed(iter/s)": 0.217714
+    },
+    {
+      "epoch": 0.01152,
+      "grad_norm": 9.911327823544632,
+      "learning_rate": 3.837953091684436e-07,
+      "loss": 0.8608855605125427,
+      "memory(GiB)": 41.86,
+      "step": 36,
+      "token_acc": 0.8093935248518012,
+      "train_speed(iter/s)": 0.218245
+    },
+    {
+      "epoch": 0.01184,
+      "grad_norm": 8.581463570910069,
+      "learning_rate": 3.944562899786781e-07,
+      "loss": 0.8183090686798096,
+      "memory(GiB)": 41.86,
+      "step": 37,
+      "token_acc": 0.8510108864696734,
+      "train_speed(iter/s)": 0.218961
+    },
+    {
+      "epoch": 0.01216,
+      "grad_norm": 9.147755780525086,
+      "learning_rate": 4.0511727078891263e-07,
+      "loss": 0.8847682476043701,
+      "memory(GiB)": 41.86,
+      "step": 38,
+      "token_acc": 0.7877668308702791,
+      "train_speed(iter/s)": 0.219385
+    },
+    {
+      "epoch": 0.01248,
+      "grad_norm": 9.449463471520723,
+      "learning_rate": 4.1577825159914716e-07,
+      "loss": 0.9718679189682007,
+      "memory(GiB)": 41.86,
+      "step": 39,
+      "token_acc": 0.766468548786528,
+      "train_speed(iter/s)": 0.219872
+    },
+    {
+      "epoch": 0.0128,
+      "grad_norm": 7.9478431881253755,
+      "learning_rate": 4.264392324093817e-07,
+      "loss": 0.8065295815467834,
+      "memory(GiB)": 41.86,
+      "step": 40,
+      "token_acc": 0.8382038488952245,
+      "train_speed(iter/s)": 0.220279
+    },
+    {
+      "epoch": 0.01312,
+      "grad_norm": 7.177907490208328,
+      "learning_rate": 4.371002132196162e-07,
+      "loss": 0.856386661529541,
+      "memory(GiB)": 41.86,
+      "step": 41,
+      "token_acc": 0.8228523301516002,
+      "train_speed(iter/s)": 0.220749
+    },
+    {
+      "epoch": 0.01344,
+      "grad_norm": 7.080348101874288,
+      "learning_rate": 4.4776119402985074e-07,
+      "loss": 0.8856309652328491,
+      "memory(GiB)": 41.86,
+      "step": 42,
+      "token_acc": 0.8283200908059024,
+      "train_speed(iter/s)": 0.220944
+    },
+    {
+      "epoch": 0.01376,
+      "grad_norm": 6.492924393857743,
+      "learning_rate": 4.5842217484008537e-07,
+      "loss": 0.7905886769294739,
+      "memory(GiB)": 41.86,
+      "step": 43,
+      "token_acc": 0.8580116959064328,
+      "train_speed(iter/s)": 0.221532
+    },
+    {
+      "epoch": 0.01408,
+      "grad_norm": 6.354420059549542,
+      "learning_rate": 4.690831556503199e-07,
+      "loss": 0.7550309896469116,
+      "memory(GiB)": 41.86,
+      "step": 44,
+      "token_acc": 0.8385296381832179,
+      "train_speed(iter/s)": 0.221908
+    },
+    {
+      "epoch": 0.0144,
+      "grad_norm": 6.324149130111326,
+      "learning_rate": 4.797441364605544e-07,
+      "loss": 0.7065809965133667,
+      "memory(GiB)": 41.86,
+      "step": 45,
+      "token_acc": 0.8461538461538461,
+      "train_speed(iter/s)": 0.22259
+    },
+    {
+      "epoch": 0.01472,
+      "grad_norm": 6.755821013832618,
+      "learning_rate": 4.904051172707889e-07,
+      "loss": 0.8370662331581116,
+      "memory(GiB)": 41.86,
+      "step": 46,
+      "token_acc": 0.8457082675092154,
+      "train_speed(iter/s)": 0.223177
+    },
+    {
+      "epoch": 0.01504,
+      "grad_norm": 5.896440191628225,
+      "learning_rate": 5.010660980810235e-07,
+      "loss": 0.7614850401878357,
+      "memory(GiB)": 41.86,
+      "step": 47,
+      "token_acc": 0.8266993263931415,
+      "train_speed(iter/s)": 0.223759
+    },
+    {
+      "epoch": 0.01536,
+      "grad_norm": 5.724633591406352,
+      "learning_rate": 5.11727078891258e-07,
+      "loss": 0.7332110404968262,
+      "memory(GiB)": 41.86,
+      "step": 48,
+      "token_acc": 0.8371324743970928,
+      "train_speed(iter/s)": 0.223985
+    },
+    {
+      "epoch": 0.01568,
+      "grad_norm": 6.147468645922813,
+      "learning_rate": 5.223880597014925e-07,
+      "loss": 0.903264582157135,
+      "memory(GiB)": 41.86,
+      "step": 49,
+      "token_acc": 0.8229950687775759,
+      "train_speed(iter/s)": 0.224003
+    },
+    {
+      "epoch": 0.016,
+      "grad_norm": 6.082452685268613,
+      "learning_rate": 5.33049040511727e-07,
+      "loss": 0.7833185195922852,
+      "memory(GiB)": 41.86,
+      "step": 50,
+      "token_acc": 0.8471470220741357,
+      "train_speed(iter/s)": 0.224149
+    },
+    {
+      "epoch": 0.01632,
+      "grad_norm": 5.5846495715060565,
+      "learning_rate": 5.437100213219617e-07,
+      "loss": 0.7637509107589722,
+      "memory(GiB)": 41.86,
+      "step": 51,
+      "token_acc": 0.8642515923566879,
+      "train_speed(iter/s)": 0.224504
+    },
+    {
+      "epoch": 0.01664,
+      "grad_norm": 5.653561510084641,
+      "learning_rate": 5.543710021321962e-07,
+      "loss": 0.7513374090194702,
+      "memory(GiB)": 41.86,
+      "step": 52,
+      "token_acc": 0.8494167550371156,
+      "train_speed(iter/s)": 0.224748
+    },
+    {
+      "epoch": 0.01696,
+      "grad_norm": 5.707174455747126,
+      "learning_rate": 5.650319829424307e-07,
+      "loss": 0.7322826385498047,
+      "memory(GiB)": 41.86,
+      "step": 53,
+      "token_acc": 0.8340917045852293,
+      "train_speed(iter/s)": 0.225195
+    },
+    {
+      "epoch": 0.01728,
+      "grad_norm": 5.281958208617387,
+      "learning_rate": 5.756929637526653e-07,
+      "loss": 0.7290368676185608,
+      "memory(GiB)": 41.86,
+      "step": 54,
+      "token_acc": 0.8070818070818071,
+      "train_speed(iter/s)": 0.225322
+    },
+    {
+      "epoch": 0.0176,
+      "grad_norm": 5.179699404154042,
+      "learning_rate": 5.863539445628998e-07,
+      "loss": 0.7871674299240112,
+      "memory(GiB)": 41.86,
+      "step": 55,
+      "token_acc": 0.7850802055754555,
+      "train_speed(iter/s)": 0.225297
+    },
+    {
+      "epoch": 0.01792,
+      "grad_norm": 4.097766625100472,
+      "learning_rate": 5.970149253731343e-07,
+      "loss": 0.7158313393592834,
+      "memory(GiB)": 41.86,
+      "step": 56,
+      "token_acc": 0.7493461203138623,
+      "train_speed(iter/s)": 0.225401
+    },
+    {
+      "epoch": 0.01824,
+      "grad_norm": 3.5233384497044344,
+      "learning_rate": 6.076759061833689e-07,
+      "loss": 0.6825019121170044,
+      "memory(GiB)": 41.86,
+      "step": 57,
+      "token_acc": 0.8602409638554217,
+      "train_speed(iter/s)": 0.225467
+    },
+    {
+      "epoch": 0.01856,
+      "grad_norm": 3.3170874169858964,
+      "learning_rate": 6.183368869936035e-07,
+      "loss": 0.6249011754989624,
+      "memory(GiB)": 41.86,
+      "step": 58,
+      "token_acc": 0.870265563778842,
+      "train_speed(iter/s)": 0.225714
+    },
+    {
+      "epoch": 0.01888,
+      "grad_norm": 3.2437917049159672,
+      "learning_rate": 6.28997867803838e-07,
+      "loss": 0.6608279943466187,
+      "memory(GiB)": 41.86,
+      "step": 59,
+      "token_acc": 0.8439363817097415,
+      "train_speed(iter/s)": 0.225986
+    },
+    {
+      "epoch": 0.0192,
+      "grad_norm": 2.700709739886274,
+      "learning_rate": 6.396588486140725e-07,
+      "loss": 0.5468295216560364,
+      "memory(GiB)": 41.86,
+      "step": 60,
+      "token_acc": 0.8739739256397876,
+      "train_speed(iter/s)": 0.22628
+    },
+    {
+      "epoch": 0.01952,
+      "grad_norm": 2.6830732664609047,
+      "learning_rate": 6.50319829424307e-07,
+      "loss": 0.6257410049438477,
+      "memory(GiB)": 41.86,
+      "step": 61,
+      "token_acc": 0.8179658820988988,
+      "train_speed(iter/s)": 0.22667
+    },
+    {
+      "epoch": 0.01984,
+      "grad_norm": 2.611507083164799,
+      "learning_rate": 6.609808102345417e-07,
+      "loss": 0.5938126444816589,
+      "memory(GiB)": 41.86,
+      "step": 62,
+      "token_acc": 0.8622568093385214,
+      "train_speed(iter/s)": 0.227023
+    },
+    {
+      "epoch": 0.02016,
+      "grad_norm": 2.4413487278007966,
+      "learning_rate": 6.716417910447762e-07,
+      "loss": 0.6034793853759766,
+      "memory(GiB)": 41.86,
+      "step": 63,
+      "token_acc": 0.8708348932983901,
+      "train_speed(iter/s)": 0.227434
+    },
+    {
+      "epoch": 0.02048,
+      "grad_norm": 2.5425028450477307,
+      "learning_rate": 6.823027718550107e-07,
+      "loss": 0.6213764548301697,
+      "memory(GiB)": 41.86,
+      "step": 64,
+      "token_acc": 0.8638399522245447,
+      "train_speed(iter/s)": 0.227662
+    },
+    {
+      "epoch": 0.0208,
+      "grad_norm": 2.4211624745247007,
+      "learning_rate": 6.929637526652453e-07,
+      "loss": 0.5741841793060303,
+      "memory(GiB)": 41.86,
+      "step": 65,
+      "token_acc": 0.8432214087351679,
+      "train_speed(iter/s)": 0.227988
+    },
+    {
+      "epoch": 0.02112,
+      "grad_norm": 2.6082493583894113,
+      "learning_rate": 7.036247334754798e-07,
+      "loss": 0.6302884817123413,
+      "memory(GiB)": 41.86,
+      "step": 66,
+      "token_acc": 0.8225772981946462,
+      "train_speed(iter/s)": 0.228287
+    },
+    {
+      "epoch": 0.02144,
+      "grad_norm": 2.2699988838493828,
+      "learning_rate": 7.142857142857143e-07,
+      "loss": 0.5586453676223755,
+      "memory(GiB)": 41.86,
+      "step": 67,
+      "token_acc": 0.833620987228167,
+      "train_speed(iter/s)": 0.228486
+    },
+    {
+      "epoch": 0.02176,
+      "grad_norm": 2.2389086881261715,
+      "learning_rate": 7.249466950959488e-07,
+      "loss": 0.6138612031936646,
+      "memory(GiB)": 41.86,
+      "step": 68,
+      "token_acc": 0.8359233827249729,
+      "train_speed(iter/s)": 0.22861
+    },
+    {
+      "epoch": 0.02208,
+      "grad_norm": 2.1298342519571096,
+      "learning_rate": 7.356076759061834e-07,
+      "loss": 0.5674803256988525,
+      "memory(GiB)": 41.86,
+      "step": 69,
+      "token_acc": 0.7831400814791601,
+      "train_speed(iter/s)": 0.228916
+    },
+    {
+      "epoch": 0.0224,
+      "grad_norm": 2.073626609971217,
+      "learning_rate": 7.462686567164179e-07,
+      "loss": 0.5966504216194153,
+      "memory(GiB)": 41.86,
+      "step": 70,
+      "token_acc": 0.8468691878487291,
+      "train_speed(iter/s)": 0.229031
+    },
+    {
+      "epoch": 0.02272,
+      "grad_norm": 2.432774097587118,
+      "learning_rate": 7.569296375266526e-07,
+      "loss": 0.6539902091026306,
+      "memory(GiB)": 41.86,
+      "step": 71,
+      "token_acc": 0.8310303987366758,
+      "train_speed(iter/s)": 0.229292
+    },
+    {
+      "epoch": 0.02304,
+      "grad_norm": 2.2444626770520193,
+      "learning_rate": 7.675906183368872e-07,
+      "loss": 0.6395382881164551,
+      "memory(GiB)": 41.86,
+      "step": 72,
+      "token_acc": 0.8452003459210147,
+      "train_speed(iter/s)": 0.229472
+    },
+    {
+      "epoch": 0.02336,
+      "grad_norm": 2.7335287160786828,
+      "learning_rate": 7.782515991471217e-07,
+      "loss": 0.734038233757019,
+      "memory(GiB)": 41.86,
+      "step": 73,
+      "token_acc": 0.7965226840532464,
+      "train_speed(iter/s)": 0.229666
+    },
+    {
+      "epoch": 0.02368,
+      "grad_norm": 2.1205931687315185,
+      "learning_rate": 7.889125799573562e-07,
+      "loss": 0.6473275423049927,
+      "memory(GiB)": 41.86,
+      "step": 74,
+      "token_acc": 0.83222533240028,
+      "train_speed(iter/s)": 0.229828
+    },
+    {
+      "epoch": 0.024,
+      "grad_norm": 1.8926243761954264,
+      "learning_rate": 7.995735607675907e-07,
+      "loss": 0.5122984647750854,
+      "memory(GiB)": 41.86,
+      "step": 75,
+      "token_acc": 0.8067132867132867,
+      "train_speed(iter/s)": 0.230078
+    },
+    {
+      "epoch": 0.02432,
+      "grad_norm": 1.9733938708243608,
+      "learning_rate": 8.102345415778253e-07,
+      "loss": 0.5528514385223389,
+      "memory(GiB)": 41.86,
+      "step": 76,
+      "token_acc": 0.8699318845280571,
+      "train_speed(iter/s)": 0.230283
+    },
+    {
+      "epoch": 0.02464,
+      "grad_norm": 1.6599233892153682,
+      "learning_rate": 8.208955223880598e-07,
+      "loss": 0.5430408716201782,
+      "memory(GiB)": 41.86,
+      "step": 77,
+      "token_acc": 0.8487674883411059,
+      "train_speed(iter/s)": 0.229836
+    },
+    {
+      "epoch": 0.02496,
+      "grad_norm": 1.637800922933086,
+      "learning_rate": 8.315565031982943e-07,
+      "loss": 0.5647838115692139,
+      "memory(GiB)": 41.86,
+      "step": 78,
+      "token_acc": 0.8370253164556962,
+      "train_speed(iter/s)": 0.229846
+    },
+    {
+      "epoch": 0.02528,
+      "grad_norm": 1.4985484689501922,
+      "learning_rate": 8.422174840085288e-07,
+      "loss": 0.5339977741241455,
+      "memory(GiB)": 41.86,
+      "step": 79,
+      "token_acc": 0.8401814973531636,
+      "train_speed(iter/s)": 0.229936
+    },
+    {
+      "epoch": 0.0256,
+      "grad_norm": 1.2924824597469082,
+      "learning_rate": 8.528784648187634e-07,
+      "loss": 0.5280715227127075,
+      "memory(GiB)": 41.86,
+      "step": 80,
+      "token_acc": 0.878323932312651,
+      "train_speed(iter/s)": 0.229971
+    },
+    {
+      "epoch": 0.02592,
+      "grad_norm": 1.295869648558741,
+      "learning_rate": 8.635394456289979e-07,
+      "loss": 0.5567734837532043,
+      "memory(GiB)": 41.86,
+      "step": 81,
+      "token_acc": 0.8562417871222077,
+      "train_speed(iter/s)": 0.230211
+    },
+    {
+      "epoch": 0.02624,
+      "grad_norm": 1.2278463033010003,
+      "learning_rate": 8.742004264392324e-07,
+      "loss": 0.5421440601348877,
+      "memory(GiB)": 41.86,
+      "step": 82,
+      "token_acc": 0.8538952745849298,
+      "train_speed(iter/s)": 0.230398
+    },
+    {
+      "epoch": 0.02656,
+      "grad_norm": 1.1394157258164557,
+      "learning_rate": 8.848614072494669e-07,
+      "loss": 0.5822359919548035,
+      "memory(GiB)": 41.86,
+      "step": 83,
+      "token_acc": 0.8400244548604036,
+      "train_speed(iter/s)": 0.23047
+    },
+    {
+      "epoch": 0.02688,
+      "grad_norm": 1.1795203267711198,
+      "learning_rate": 8.955223880597015e-07,
+      "loss": 0.45736944675445557,
+      "memory(GiB)": 41.86,
+      "step": 84,
+      "token_acc": 0.8560663149962321,
+      "train_speed(iter/s)": 0.230626
+    },
+    {
+      "epoch": 0.0272,
+      "grad_norm": 1.262428298429841,
+      "learning_rate": 9.06183368869936e-07,
+      "loss": 0.5114102363586426,
+      "memory(GiB)": 41.86,
+      "step": 85,
+      "token_acc": 0.883007667573584,
+      "train_speed(iter/s)": 0.230679
+    },
+    {
+      "epoch": 0.02752,
+      "grad_norm": 1.2224139151378215,
+      "learning_rate": 9.168443496801707e-07,
+      "loss": 0.586413562297821,
+      "memory(GiB)": 41.86,
+      "step": 86,
+      "token_acc": 0.8241758241758241,
+      "train_speed(iter/s)": 0.230794
+    },
+    {
+      "epoch": 0.02784,
+      "grad_norm": 1.0612665433923012,
+      "learning_rate": 9.275053304904053e-07,
+      "loss": 0.5422711372375488,
+      "memory(GiB)": 41.86,
+      "step": 87,
+      "token_acc": 0.846322121957889,
+      "train_speed(iter/s)": 0.230743
+    },
+    {
+      "epoch": 0.02816,
+      "grad_norm": 1.127390169602271,
+      "learning_rate": 9.381663113006398e-07,
+      "loss": 0.40012305974960327,
+      "memory(GiB)": 41.86,
+      "step": 88,
+      "token_acc": 0.8782666225603705,
+      "train_speed(iter/s)": 0.230921
+    },
+    {
+      "epoch": 0.02848,
+      "grad_norm": 1.1856423457796859,
+      "learning_rate": 9.488272921108743e-07,
+      "loss": 0.5698226690292358,
+      "memory(GiB)": 41.86,
+      "step": 89,
+      "token_acc": 0.8412204234122043,
+      "train_speed(iter/s)": 0.231155
+    },
+    {
+      "epoch": 0.0288,
+      "grad_norm": 1.003187215942443,
+      "learning_rate": 9.594882729211088e-07,
+      "loss": 0.4580455720424652,
+      "memory(GiB)": 41.86,
+      "step": 90,
+      "token_acc": 0.8859060402684564,
+      "train_speed(iter/s)": 0.231226
+    },
+    {
+      "epoch": 0.02912,
+      "grad_norm": 1.0236676038748946,
+      "learning_rate": 9.701492537313434e-07,
+      "loss": 0.5453003644943237,
+      "memory(GiB)": 41.86,
+      "step": 91,
+      "token_acc": 0.904822986146742,
+      "train_speed(iter/s)": 0.230312
+    },
+    {
+      "epoch": 0.02944,
+      "grad_norm": 1.0852240558689916,
+      "learning_rate": 9.808102345415779e-07,
+      "loss": 0.47642844915390015,
+      "memory(GiB)": 41.86,
+      "step": 92,
+      "token_acc": 0.8649074438755415,
+      "train_speed(iter/s)": 0.230489
+    },
+    {
+      "epoch": 0.02976,
+      "grad_norm": 1.0986779418172614,
+      "learning_rate": 9.914712153518124e-07,
+      "loss": 0.49293196201324463,
+      "memory(GiB)": 41.86,
+      "step": 93,
+      "token_acc": 0.873972602739726,
+      "train_speed(iter/s)": 0.230651
+    },
+    {
+      "epoch": 0.03008,
+      "grad_norm": 0.9828273792651537,
+      "learning_rate": 1.002132196162047e-06,
+      "loss": 0.4937012493610382,
+      "memory(GiB)": 41.86,
+      "step": 94,
+      "token_acc": 0.8306538049303323,
+      "train_speed(iter/s)": 0.23089
+    },
+    {
+      "epoch": 0.0304,
+      "grad_norm": 0.9564821546295516,
+      "learning_rate": 1.0127931769722815e-06,
+      "loss": 0.4360889792442322,
+      "memory(GiB)": 41.86,
+      "step": 95,
+      "token_acc": 0.8956228956228957,
+      "train_speed(iter/s)": 0.231016
+    },
+    {
+      "epoch": 0.03072,
+      "grad_norm": 0.9362577635247741,
+      "learning_rate": 1.023454157782516e-06,
+      "loss": 0.47929883003234863,
+      "memory(GiB)": 41.86,
+      "step": 96,
+      "token_acc": 0.8147727272727273,
+      "train_speed(iter/s)": 0.231144
+    },
+    {
+      "epoch": 0.03104,
+      "grad_norm": 1.0437643740232678,
+      "learning_rate": 1.0341151385927505e-06,
+      "loss": 0.5539300441741943,
+      "memory(GiB)": 41.86,
+      "step": 97,
+      "token_acc": 0.7844458052663809,
+      "train_speed(iter/s)": 0.231346
+    },
+    {
+      "epoch": 0.03136,
+      "grad_norm": 0.9889415016298371,
+      "learning_rate": 1.044776119402985e-06,
+      "loss": 0.4341806173324585,
+      "memory(GiB)": 41.86,
+      "step": 98,
+      "token_acc": 0.8960292580982236,
+      "train_speed(iter/s)": 0.231575
+    },
+    {
+      "epoch": 0.03168,
+      "grad_norm": 0.9308074153904029,
+      "learning_rate": 1.0554371002132196e-06,
+      "loss": 0.554280698299408,
+      "memory(GiB)": 41.86,
+      "step": 99,
+      "token_acc": 0.8141711229946524,
+      "train_speed(iter/s)": 0.231775
+    },
+    {
+      "epoch": 0.032,
+      "grad_norm": 0.8869033839084672,
+      "learning_rate": 1.066098081023454e-06,
+      "loss": 0.48680251836776733,
+      "memory(GiB)": 41.86,
+      "step": 100,
+      "token_acc": 0.8549107142857143,
+      "train_speed(iter/s)": 0.231887
+    },
+    {
+      "epoch": 0.03232,
+      "grad_norm": 0.9657715121039673,
+      "learning_rate": 1.0767590618336886e-06,
+      "loss": 0.5429348945617676,
+      "memory(GiB)": 41.86,
+      "step": 101,
+      "token_acc": 0.8461323652611002,
+      "train_speed(iter/s)": 0.23198
+    },
+    {
+      "epoch": 0.03264,
+      "grad_norm": 0.9368879562962339,
+      "learning_rate": 1.0874200426439234e-06,
+      "loss": 0.49918490648269653,
+      "memory(GiB)": 41.86,
+      "step": 102,
+      "token_acc": 0.8915584415584416,
+      "train_speed(iter/s)": 0.2321
+    },
+    {
+      "epoch": 0.03296,
+      "grad_norm": 0.8895025870432464,
+      "learning_rate": 1.0980810234541579e-06,
+      "loss": 0.5613017082214355,
+      "memory(GiB)": 41.86,
+      "step": 103,
+      "token_acc": 0.8549111501659832,
+      "train_speed(iter/s)": 0.23225
+    },
+    {
+      "epoch": 0.03328,
+      "grad_norm": 0.9907965045916807,
+      "learning_rate": 1.1087420042643924e-06,
+      "loss": 0.5262157917022705,
+      "memory(GiB)": 41.86,
+      "step": 104,
+      "token_acc": 0.8001420790906938,
+      "train_speed(iter/s)": 0.232127
+    },
+    {
+      "epoch": 0.0336,
+      "grad_norm": 0.9150000461244515,
+      "learning_rate": 1.119402985074627e-06,
+      "loss": 0.4397706091403961,
+      "memory(GiB)": 41.86,
+      "step": 105,
+      "token_acc": 0.9156232988568318,
+      "train_speed(iter/s)": 0.232293
+    },
+    {
+      "epoch": 0.03392,
+      "grad_norm": 0.9483314540067643,
+      "learning_rate": 1.1300639658848615e-06,
+      "loss": 0.5002495646476746,
+      "memory(GiB)": 41.86,
+      "step": 106,
+      "token_acc": 0.8736717827626919,
+      "train_speed(iter/s)": 0.232464
+    },
+    {
+      "epoch": 0.03424,
+      "grad_norm": 1.00539554696486,
+      "learning_rate": 1.140724946695096e-06,
+      "loss": 0.5133095383644104,
+      "memory(GiB)": 41.86,
+      "step": 107,
+      "token_acc": 0.8579306722689075,
+      "train_speed(iter/s)": 0.232641
+    },
+    {
+      "epoch": 0.03456,
+      "grad_norm": 0.9319977772283852,
+      "learning_rate": 1.1513859275053305e-06,
+      "loss": 0.3769652843475342,
+      "memory(GiB)": 41.86,
+      "step": 108,
+      "token_acc": 0.8978531855955678,
+      "train_speed(iter/s)": 0.232802
+    },
+    {
+      "epoch": 0.03488,
+      "grad_norm": 0.9199851190211769,
+      "learning_rate": 1.162046908315565e-06,
+      "loss": 0.4927418529987335,
+      "memory(GiB)": 41.86,
+      "step": 109,
+      "token_acc": 0.8251398292611127,
+      "train_speed(iter/s)": 0.232941
+    },
+    {
+      "epoch": 0.0352,
+      "grad_norm": 0.890613163395056,
+      "learning_rate": 1.1727078891257996e-06,
+      "loss": 0.554315984249115,
+      "memory(GiB)": 41.86,
+      "step": 110,
+      "token_acc": 0.8050210738501008,
+      "train_speed(iter/s)": 0.232924
+    },
+    {
+      "epoch": 0.03552,
+      "grad_norm": 0.8915295577644938,
+      "learning_rate": 1.183368869936034e-06,
+      "loss": 0.4747316837310791,
+      "memory(GiB)": 41.86,
+      "step": 111,
+      "token_acc": 0.8324889170360988,
+      "train_speed(iter/s)": 0.233083
+    },
+    {
+      "epoch": 0.03584,
+      "grad_norm": 0.9142643943631918,
+      "learning_rate": 1.1940298507462686e-06,
+      "loss": 0.5642600655555725,
+      "memory(GiB)": 41.86,
+      "step": 112,
+      "token_acc": 0.8345487693710119,
+      "train_speed(iter/s)": 0.233205
+    },
+    {
+      "epoch": 0.03616,
+      "grad_norm": 0.9090419491125442,
+      "learning_rate": 1.2046908315565034e-06,
+      "loss": 0.44631150364875793,
+      "memory(GiB)": 41.86,
+      "step": 113,
+      "token_acc": 0.9043229497774953,
+      "train_speed(iter/s)": 0.233272
+    },
+    {
+      "epoch": 0.03648,
+      "grad_norm": 0.8608949907402743,
+      "learning_rate": 1.2153518123667379e-06,
+      "loss": 0.43426257371902466,
+      "memory(GiB)": 41.86,
+      "step": 114,
+      "token_acc": 0.8882938026013772,
+      "train_speed(iter/s)": 0.233393
+    },
+    {
+      "epoch": 0.0368,
+      "grad_norm": 0.9903540099187894,
+      "learning_rate": 1.2260127931769724e-06,
+      "loss": 0.47570085525512695,
+      "memory(GiB)": 41.86,
+      "step": 115,
+      "token_acc": 0.7727748691099476,
+      "train_speed(iter/s)": 0.233498
+    },
+    {
+      "epoch": 0.03712,
+      "grad_norm": 0.9763002307422793,
+      "learning_rate": 1.236673773987207e-06,
+      "loss": 0.4752451181411743,
+      "memory(GiB)": 41.86,
+      "step": 116,
+      "token_acc": 0.8640904311251314,
+      "train_speed(iter/s)": 0.233666
+    },
+    {
+      "epoch": 0.03744,
+      "grad_norm": 0.8700117412556084,
+      "learning_rate": 1.2473347547974415e-06,
+      "loss": 0.5492661595344543,
+      "memory(GiB)": 41.86,
+      "step": 117,
+      "token_acc": 0.8322700144062565,
+      "train_speed(iter/s)": 0.233744
+    },
+    {
+      "epoch": 0.03776,
+      "grad_norm": 0.8367771273097806,
+      "learning_rate": 1.257995735607676e-06,
+      "loss": 0.5371458530426025,
+      "memory(GiB)": 41.86,
+      "step": 118,
+      "token_acc": 0.865781990521327,
+      "train_speed(iter/s)": 0.233816
+    },
+    {
+      "epoch": 0.03808,
+      "grad_norm": 0.9101326093227952,
+      "learning_rate": 1.2686567164179105e-06,
+      "loss": 0.5292797088623047,
+      "memory(GiB)": 41.86,
+      "step": 119,
+      "token_acc": 0.8307056086844146,
+      "train_speed(iter/s)": 0.233873
+    },
+    {
+      "epoch": 0.0384,
+      "grad_norm": 0.9113612620762511,
+      "learning_rate": 1.279317697228145e-06,
+      "loss": 0.588639497756958,
+      "memory(GiB)": 41.86,
+      "step": 120,
+      "token_acc": 0.8729470096064457,
+      "train_speed(iter/s)": 0.233938
+    },
+    {
+      "epoch": 0.03872,
+      "grad_norm": 0.879340400582431,
+      "learning_rate": 1.2899786780383796e-06,
+      "loss": 0.5034235119819641,
+      "memory(GiB)": 41.86,
+      "step": 121,
+      "token_acc": 0.8257011004614838,
+      "train_speed(iter/s)": 0.234053
+    },
+    {
+      "epoch": 0.03904,
+      "grad_norm": 0.7877202325408076,
+      "learning_rate": 1.300639658848614e-06,
+      "loss": 0.4837523400783539,
+      "memory(GiB)": 41.86,
+      "step": 122,
+      "token_acc": 0.8523979261179521,
+      "train_speed(iter/s)": 0.234086
+    },
+    {
+      "epoch": 0.03936,
+      "grad_norm": 0.859931447595137,
+      "learning_rate": 1.3113006396588488e-06,
+      "loss": 0.47967207431793213,
+      "memory(GiB)": 41.86,
+      "step": 123,
+      "token_acc": 0.8570583012725659,
+      "train_speed(iter/s)": 0.234183
+    },
+    {
+      "epoch": 0.03968,
+      "grad_norm": 0.9419523457291691,
+      "learning_rate": 1.3219616204690834e-06,
+      "loss": 0.447654128074646,
+      "memory(GiB)": 41.86,
+      "step": 124,
+      "token_acc": 0.8917990553885788,
+      "train_speed(iter/s)": 0.234311
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.8326556720825181,
+      "learning_rate": 1.3326226012793179e-06,
+      "loss": 0.4918779134750366,
+      "memory(GiB)": 41.86,
+      "step": 125,
+      "token_acc": 0.8258229466283158,
+      "train_speed(iter/s)": 0.234427
+    },
+    {
+      "epoch": 0.04032,
+      "grad_norm": 0.9375401682808183,
+      "learning_rate": 1.3432835820895524e-06,
+      "loss": 0.52419114112854,
+      "memory(GiB)": 41.86,
+      "step": 126,
+      "token_acc": 0.8412541254125413,
+      "train_speed(iter/s)": 0.234539
+    },
+    {
+      "epoch": 0.04064,
+      "grad_norm": 0.9224365368053279,
+      "learning_rate": 1.353944562899787e-06,
+      "loss": 0.5088470578193665,
+      "memory(GiB)": 41.86,
+      "step": 127,
+      "token_acc": 0.854043392504931,
+      "train_speed(iter/s)": 0.234636
+    },
+    {
+      "epoch": 0.04096,
+      "grad_norm": 0.873248662883819,
+      "learning_rate": 1.3646055437100215e-06,
+      "loss": 0.44337016344070435,
+      "memory(GiB)": 41.86,
+      "step": 128,
+      "token_acc": 0.8839086859688196,
+      "train_speed(iter/s)": 0.234667
+    },
+    {
+      "epoch": 0.04128,
+      "grad_norm": 0.8492214238996687,
+      "learning_rate": 1.375266524520256e-06,
+      "loss": 0.5351183414459229,
+      "memory(GiB)": 41.86,
+      "step": 129,
+      "token_acc": 0.8527407407407407,
+      "train_speed(iter/s)": 0.234784
+    },
+    {
+      "epoch": 0.0416,
+      "grad_norm": 0.8713065471783953,
+      "learning_rate": 1.3859275053304905e-06,
+      "loss": 0.4296875,
+      "memory(GiB)": 41.86,
+      "step": 130,
+      "token_acc": 0.8420095476244601,
+      "train_speed(iter/s)": 0.234866
+    },
+    {
+      "epoch": 0.04192,
+      "grad_norm": 0.8449256183957116,
+      "learning_rate": 1.396588486140725e-06,
+      "loss": 0.5023010969161987,
+      "memory(GiB)": 41.86,
+      "step": 131,
+      "token_acc": 0.874447391688771,
+      "train_speed(iter/s)": 0.235002
+    },
+    {
+      "epoch": 0.04224,
+      "grad_norm": 0.9135487156939148,
+      "learning_rate": 1.4072494669509596e-06,
+      "loss": 0.49614638090133667,
+      "memory(GiB)": 41.86,
+      "step": 132,
+      "token_acc": 0.9115942028985508,
+      "train_speed(iter/s)": 0.235015
+    },
+    {
+      "epoch": 0.04256,
+      "grad_norm": 0.861491358042832,
+      "learning_rate": 1.417910447761194e-06,
+      "loss": 0.4219094216823578,
+      "memory(GiB)": 41.86,
+      "step": 133,
+      "token_acc": 0.9188269180413721,
+      "train_speed(iter/s)": 0.235151
+    },
+    {
+      "epoch": 0.04288,
+      "grad_norm": 0.8970911408978183,
+      "learning_rate": 1.4285714285714286e-06,
+      "loss": 0.3816481828689575,
+      "memory(GiB)": 41.86,
+      "step": 134,
+      "token_acc": 0.8998726114649681,
+      "train_speed(iter/s)": 0.235264
+    },
+    {
+      "epoch": 0.0432,
+      "grad_norm": 0.9191102479319776,
+      "learning_rate": 1.4392324093816632e-06,
+      "loss": 0.4161341190338135,
+      "memory(GiB)": 41.86,
+      "step": 135,
+      "token_acc": 0.8923125794155019,
+      "train_speed(iter/s)": 0.235253
+    },
+    {
+      "epoch": 0.04352,
+      "grad_norm": 0.8548339481199706,
+      "learning_rate": 1.4498933901918977e-06,
+      "loss": 0.4477112591266632,
+      "memory(GiB)": 41.86,
+      "step": 136,
+      "token_acc": 0.8246704799801045,
+      "train_speed(iter/s)": 0.23538
+    },
+    {
+      "epoch": 0.04384,
+      "grad_norm": 0.8830170669258355,
+      "learning_rate": 1.4605543710021322e-06,
+      "loss": 0.4537021815776825,
+      "memory(GiB)": 41.86,
+      "step": 137,
+      "token_acc": 0.8584441161989168,
+      "train_speed(iter/s)": 0.235481
+    },
+    {
+      "epoch": 0.04416,
+      "grad_norm": 0.8246269741123975,
+      "learning_rate": 1.4712153518123667e-06,
+      "loss": 0.43747270107269287,
+      "memory(GiB)": 41.86,
+      "step": 138,
+      "token_acc": 0.8994068801897983,
+      "train_speed(iter/s)": 0.235557
+    },
+    {
+      "epoch": 0.04448,
+      "grad_norm": 0.8592477323610538,
+      "learning_rate": 1.4818763326226013e-06,
+      "loss": 0.45325133204460144,
+      "memory(GiB)": 41.86,
+      "step": 139,
+      "token_acc": 0.8904225352112676,
+      "train_speed(iter/s)": 0.235647
+    },
+    {
+      "epoch": 0.0448,
+      "grad_norm": 0.8420462095437626,
+      "learning_rate": 1.4925373134328358e-06,
+      "loss": 0.41720783710479736,
+      "memory(GiB)": 41.86,
+      "step": 140,
+      "token_acc": 0.8754340277777778,
+      "train_speed(iter/s)": 0.235665
+    },
+    {
+      "epoch": 0.04512,
+      "grad_norm": 0.9273055212315943,
+      "learning_rate": 1.5031982942430705e-06,
+      "loss": 0.4626120328903198,
+      "memory(GiB)": 41.86,
+      "step": 141,
+      "token_acc": 0.8923418423973363,
+      "train_speed(iter/s)": 0.235693
+    },
+    {
+      "epoch": 0.04544,
+      "grad_norm": 0.8271293458047386,
+      "learning_rate": 1.5138592750533053e-06,
+      "loss": 0.471557080745697,
+      "memory(GiB)": 41.86,
+      "step": 142,
+      "token_acc": 0.9012496190185919,
+      "train_speed(iter/s)": 0.235413
+    },
+    {
+      "epoch": 0.04576,
+      "grad_norm": 0.8448358175397689,
+      "learning_rate": 1.5245202558635398e-06,
+      "loss": 0.4251336455345154,
+      "memory(GiB)": 41.86,
+      "step": 143,
+      "token_acc": 0.9325113562621674,
+      "train_speed(iter/s)": 0.2355
+    },
+    {
+      "epoch": 0.04608,
+      "grad_norm": 0.839155410810311,
+      "learning_rate": 1.5351812366737743e-06,
+      "loss": 0.49288544058799744,
+      "memory(GiB)": 41.86,
+      "step": 144,
+      "token_acc": 0.8526694848911852,
+      "train_speed(iter/s)": 0.235532
+    },
+    {
+      "epoch": 0.0464,
+      "grad_norm": 0.8471308884872383,
+      "learning_rate": 1.5458422174840088e-06,
+      "loss": 0.3644421100616455,
+      "memory(GiB)": 41.86,
+      "step": 145,
+      "token_acc": 0.8905295315682281,
+      "train_speed(iter/s)": 0.235637
+    },
+    {
+      "epoch": 0.04672,
+      "grad_norm": 0.8828620809002611,
+      "learning_rate": 1.5565031982942434e-06,
+      "loss": 0.4570612609386444,
+      "memory(GiB)": 41.86,
+      "step": 146,
+      "token_acc": 0.8185266520263526,
+      "train_speed(iter/s)": 0.235628
+    },
+    {
+      "epoch": 0.04704,
+      "grad_norm": 0.9205590309840889,
+      "learning_rate": 1.5671641791044779e-06,
+      "loss": 0.4176858365535736,
+      "memory(GiB)": 41.86,
+      "step": 147,
+      "token_acc": 0.8582358235823583,
+      "train_speed(iter/s)": 0.235755
+    },
+    {
+      "epoch": 0.04736,
+      "grad_norm": 0.9452668955275582,
+      "learning_rate": 1.5778251599147124e-06,
+      "loss": 0.5206543207168579,
+      "memory(GiB)": 41.86,
+      "step": 148,
+      "token_acc": 0.8697441928844457,
+      "train_speed(iter/s)": 0.235836
+    },
+    {
+      "epoch": 0.04768,
+      "grad_norm": 0.8530941772791294,
+      "learning_rate": 1.588486140724947e-06,
+      "loss": 0.41571375727653503,
+      "memory(GiB)": 41.86,
+      "step": 149,
+      "token_acc": 0.8801026358759039,
+      "train_speed(iter/s)": 0.235891
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": 0.8062091341024678,
+      "learning_rate": 1.5991471215351815e-06,
+      "loss": 0.46106261014938354,
+      "memory(GiB)": 41.86,
+      "step": 150,
+      "token_acc": 0.8738060781476121,
+      "train_speed(iter/s)": 0.235882
+    },
+    {
+      "epoch": 0.04832,
+      "grad_norm": 0.7931678174406668,
+      "learning_rate": 1.609808102345416e-06,
+      "loss": 0.4713793694972992,
+      "memory(GiB)": 41.86,
+      "step": 151,
+      "token_acc": 0.854895515379197,
+      "train_speed(iter/s)": 0.235941
+    },
+    {
+      "epoch": 0.04864,
+      "grad_norm": 0.7592280403571188,
+      "learning_rate": 1.6204690831556505e-06,
+      "loss": 0.4360312521457672,
+      "memory(GiB)": 41.86,
+      "step": 152,
+      "token_acc": 0.8783898305084745,
+      "train_speed(iter/s)": 0.235861
+    },
+    {
+      "epoch": 0.04896,
+      "grad_norm": 0.831618908647479,
+      "learning_rate": 1.631130063965885e-06,
+      "loss": 0.4255671501159668,
+      "memory(GiB)": 41.86,
+      "step": 153,
+      "token_acc": 0.8779661016949153,
+      "train_speed(iter/s)": 0.235873
+    },
+    {
+      "epoch": 0.04928,
+      "grad_norm": 0.792294531110576,
+      "learning_rate": 1.6417910447761196e-06,
+      "loss": 0.42781883478164673,
+      "memory(GiB)": 41.86,
+      "step": 154,
+      "token_acc": 0.8050131926121372,
+      "train_speed(iter/s)": 0.235891
+    },
+    {
+      "epoch": 0.0496,
+      "grad_norm": 0.8103964270336658,
+      "learning_rate": 1.652452025586354e-06,
+      "loss": 0.4064710736274719,
+      "memory(GiB)": 41.86,
+      "step": 155,
+      "token_acc": 0.9088607594936708,
+      "train_speed(iter/s)": 0.235968
+    },
+    {
+      "epoch": 0.04992,
+      "grad_norm": 0.8441643893148615,
+      "learning_rate": 1.6631130063965886e-06,
+      "loss": 0.465557724237442,
+      "memory(GiB)": 41.86,
+      "step": 156,
+      "token_acc": 0.7990523368511738,
+      "train_speed(iter/s)": 0.236074
+    },
+    {
+      "epoch": 0.05024,
+      "grad_norm": 0.8538053587979075,
+      "learning_rate": 1.6737739872068232e-06,
+      "loss": 0.45971211791038513,
+      "memory(GiB)": 41.86,
+      "step": 157,
+      "token_acc": 0.8736528319192846,
+      "train_speed(iter/s)": 0.236172
+    },
+    {
+      "epoch": 0.05056,
+      "grad_norm": 0.7914191517200332,
+      "learning_rate": 1.6844349680170577e-06,
+      "loss": 0.49210643768310547,
+      "memory(GiB)": 41.86,
+      "step": 158,
+      "token_acc": 0.8660714285714286,
+      "train_speed(iter/s)": 0.236141
+    },
+    {
+      "epoch": 0.05088,
+      "grad_norm": 0.8765626159763841,
+      "learning_rate": 1.6950959488272922e-06,
+      "loss": 0.46361881494522095,
+      "memory(GiB)": 41.86,
+      "step": 159,
+      "token_acc": 0.9271501925545571,
+      "train_speed(iter/s)": 0.236159
+    },
+    {
+      "epoch": 0.0512,
+      "grad_norm": 0.8527165156486491,
+      "learning_rate": 1.7057569296375267e-06,
+      "loss": 0.415084570646286,
+      "memory(GiB)": 41.86,
+      "step": 160,
+      "token_acc": 0.8965417029933159,
+      "train_speed(iter/s)": 0.236265
+    },
+    {
+      "epoch": 0.05152,
+      "grad_norm": 0.8029156767814807,
+      "learning_rate": 1.7164179104477613e-06,
+      "loss": 0.40730902552604675,
+      "memory(GiB)": 41.86,
+      "step": 161,
+      "token_acc": 0.823206843606054,
+      "train_speed(iter/s)": 0.236365
+    },
+    {
+      "epoch": 0.05184,
+      "grad_norm": 0.7957247192583061,
+      "learning_rate": 1.7270788912579958e-06,
+      "loss": 0.39644187688827515,
+      "memory(GiB)": 41.86,
+      "step": 162,
+      "token_acc": 0.8838555858310627,
+      "train_speed(iter/s)": 0.236433
+    },
+    {
+      "epoch": 0.05216,
+      "grad_norm": 0.7728962468386367,
+      "learning_rate": 1.7377398720682303e-06,
+      "loss": 0.5090023279190063,
+      "memory(GiB)": 41.86,
+      "step": 163,
+      "token_acc": 0.8309020541827925,
+      "train_speed(iter/s)": 0.23639
+    },
+    {
+      "epoch": 0.05248,
+      "grad_norm": 0.7948628680551149,
+      "learning_rate": 1.7484008528784648e-06,
+      "loss": 0.5244089961051941,
+      "memory(GiB)": 41.86,
+      "step": 164,
+      "token_acc": 0.8624174115818111,
+      "train_speed(iter/s)": 0.236335
+    },
+    {
+      "epoch": 0.0528,
+      "grad_norm": 0.8418524666803685,
+      "learning_rate": 1.7590618336886994e-06,
+      "loss": 0.3893824517726898,
+      "memory(GiB)": 41.86,
+      "step": 165,
+      "token_acc": 0.8750761730652041,
+      "train_speed(iter/s)": 0.236416
+    },
+    {
+      "epoch": 0.05312,
+      "grad_norm": 0.7717267221545162,
+      "learning_rate": 1.7697228144989339e-06,
+      "loss": 0.403408020734787,
+      "memory(GiB)": 41.86,
+      "step": 166,
+      "token_acc": 0.9134172551427694,
+      "train_speed(iter/s)": 0.236504
+    },
+    {
+      "epoch": 0.05344,
+      "grad_norm": 0.8209516056332954,
+      "learning_rate": 1.7803837953091684e-06,
+      "loss": 0.4181719422340393,
+      "memory(GiB)": 41.86,
+      "step": 167,
+      "token_acc": 0.8729306487695749,
+      "train_speed(iter/s)": 0.236596
+    },
+    {
+      "epoch": 0.05376,
+      "grad_norm": 0.8094041383421026,
+      "learning_rate": 1.791044776119403e-06,
+      "loss": 0.42891108989715576,
+      "memory(GiB)": 41.86,
+      "step": 168,
+      "token_acc": 0.8914919852034525,
+      "train_speed(iter/s)": 0.236636
+    },
+    {
+      "epoch": 0.05408,
+      "grad_norm": 0.8115990093335068,
+      "learning_rate": 1.8017057569296375e-06,
+      "loss": 0.36025285720825195,
+      "memory(GiB)": 41.86,
+      "step": 169,
+      "token_acc": 0.8765086206896552,
+      "train_speed(iter/s)": 0.236728
+    },
+    {
+      "epoch": 0.0544,
+      "grad_norm": 0.8967581385557998,
+      "learning_rate": 1.812366737739872e-06,
+      "loss": 0.44346532225608826,
+      "memory(GiB)": 41.86,
+      "step": 170,
+      "token_acc": 0.8869936034115139,
+      "train_speed(iter/s)": 0.236808
+    },
+    {
+      "epoch": 0.05472,
+      "grad_norm": 0.8649159338570668,
+      "learning_rate": 1.8230277185501067e-06,
+      "loss": 0.48292624950408936,
+      "memory(GiB)": 41.86,
+      "step": 171,
+      "token_acc": 0.7990570273911091,
+      "train_speed(iter/s)": 0.236894
+    },
+    {
+      "epoch": 0.05504,
+      "grad_norm": 0.9152803000438953,
+      "learning_rate": 1.8336886993603415e-06,
+      "loss": 0.43237584829330444,
+      "memory(GiB)": 41.86,
+      "step": 172,
+      "token_acc": 0.9394602479941648,
+      "train_speed(iter/s)": 0.236973
+    },
+    {
+      "epoch": 0.05536,
+      "grad_norm": 0.7976308165132434,
+      "learning_rate": 1.844349680170576e-06,
+      "loss": 0.4843261241912842,
+      "memory(GiB)": 41.86,
+      "step": 173,
+      "token_acc": 0.895743766122098,
+      "train_speed(iter/s)": 0.237025
+    },
+    {
+      "epoch": 0.05568,
+      "grad_norm": 0.8224446893478293,
+      "learning_rate": 1.8550106609808105e-06,
+      "loss": 0.4896657168865204,
+      "memory(GiB)": 41.86,
+      "step": 174,
+      "token_acc": 0.874000761324705,
+      "train_speed(iter/s)": 0.237032
+    },
+    {
+      "epoch": 0.056,
+      "grad_norm": 1.005431850490073,
+      "learning_rate": 1.865671641791045e-06,
+      "loss": 0.41729021072387695,
+      "memory(GiB)": 41.86,
+      "step": 175,
+      "token_acc": 0.8711972522080471,
+      "train_speed(iter/s)": 0.237037
+    },
+    {
+      "epoch": 0.05632,
+      "grad_norm": 0.8160731233376054,
+      "learning_rate": 1.8763326226012796e-06,
+      "loss": 0.5022497177124023,
+      "memory(GiB)": 41.86,
+      "step": 176,
+      "token_acc": 0.8404059040590406,
+      "train_speed(iter/s)": 0.236994
+    },
+    {
+      "epoch": 0.05664,
+      "grad_norm": 0.8168576229681378,
+      "learning_rate": 1.886993603411514e-06,
+      "loss": 0.45563817024230957,
+      "memory(GiB)": 41.86,
+      "step": 177,
+      "token_acc": 0.9467312348668281,
+      "train_speed(iter/s)": 0.236945
+    },
+    {
+      "epoch": 0.05696,
+      "grad_norm": 0.8708536778376783,
+      "learning_rate": 1.8976545842217486e-06,
+      "loss": 0.37782585620880127,
+      "memory(GiB)": 41.86,
+      "step": 178,
+      "token_acc": 0.8462204270051933,
+      "train_speed(iter/s)": 0.236996
+    },
+    {
+      "epoch": 0.05728,
+      "grad_norm": 0.74860145847988,
+      "learning_rate": 1.908315565031983e-06,
+      "loss": 0.46520254015922546,
+      "memory(GiB)": 41.86,
+      "step": 179,
+      "token_acc": 0.857251714503429,
+      "train_speed(iter/s)": 0.236997
+    },
+    {
+      "epoch": 0.0576,
+      "grad_norm": 0.8474029876167471,
+      "learning_rate": 1.9189765458422177e-06,
+      "loss": 0.46798792481422424,
+      "memory(GiB)": 41.86,
+      "step": 180,
+      "token_acc": 0.8447676943117672,
+      "train_speed(iter/s)": 0.237084
+    },
+    {
+      "epoch": 0.05792,
+      "grad_norm": 0.8084839618494143,
+      "learning_rate": 1.929637526652452e-06,
+      "loss": 0.42136165499687195,
+      "memory(GiB)": 41.86,
+      "step": 181,
+      "token_acc": 0.9157795867251096,
+      "train_speed(iter/s)": 0.237079
+    },
+    {
+      "epoch": 0.05824,
+      "grad_norm": 0.9096306663541507,
+      "learning_rate": 1.9402985074626867e-06,
+      "loss": 0.46599751710891724,
+      "memory(GiB)": 41.86,
+      "step": 182,
+      "token_acc": 0.8673218673218673,
+      "train_speed(iter/s)": 0.237176
+    },
+    {
+      "epoch": 0.05856,
+      "grad_norm": 0.7740773810513154,
+      "learning_rate": 1.9509594882729213e-06,
+      "loss": 0.37147605419158936,
+      "memory(GiB)": 41.86,
+      "step": 183,
+      "token_acc": 0.85650953155017,
+      "train_speed(iter/s)": 0.237177
+    },
+    {
+      "epoch": 0.05888,
+      "grad_norm": 0.7436697200363671,
+      "learning_rate": 1.9616204690831558e-06,
+      "loss": 0.40564876794815063,
+      "memory(GiB)": 41.86,
+      "step": 184,
+      "token_acc": 0.8889148191365227,
+      "train_speed(iter/s)": 0.237177
+    },
+    {
+      "epoch": 0.0592,
+      "grad_norm": 0.8454271607632562,
+      "learning_rate": 1.9722814498933903e-06,
+      "loss": 0.47249865531921387,
+      "memory(GiB)": 41.86,
+      "step": 185,
+      "token_acc": 0.796291459911204,
+      "train_speed(iter/s)": 0.23721
+    },
+    {
+      "epoch": 0.05952,
+      "grad_norm": 0.728473770512436,
+      "learning_rate": 1.982942430703625e-06,
+      "loss": 0.44339311122894287,
+      "memory(GiB)": 41.86,
+      "step": 186,
+      "token_acc": 0.8901489882143652,
+      "train_speed(iter/s)": 0.237203
+    },
+    {
+      "epoch": 0.05984,
+      "grad_norm": 0.7711791269615742,
+      "learning_rate": 1.9936034115138594e-06,
+      "loss": 0.4792044758796692,
+      "memory(GiB)": 41.86,
+      "step": 187,
+      "token_acc": 0.8399344441409451,
+      "train_speed(iter/s)": 0.237229
+    },
+    {
+      "epoch": 0.06016,
+      "grad_norm": 0.8159205179298074,
+      "learning_rate": 2.004264392324094e-06,
+      "loss": 0.36532050371170044,
+      "memory(GiB)": 41.86,
+      "step": 188,
+      "token_acc": 0.8588912886969042,
+      "train_speed(iter/s)": 0.237247
+    },
+    {
+      "epoch": 0.06048,
+      "grad_norm": 0.8263439480704128,
+      "learning_rate": 2.0149253731343284e-06,
+      "loss": 0.42820823192596436,
+      "memory(GiB)": 41.86,
+      "step": 189,
+      "token_acc": 0.8633213859020311,
+      "train_speed(iter/s)": 0.237326
+    },
+    {
+      "epoch": 0.0608,
+      "grad_norm": 0.7313691432753597,
+      "learning_rate": 2.025586353944563e-06,
+      "loss": 0.5361946821212769,
+      "memory(GiB)": 41.86,
+      "step": 190,
+      "token_acc": 0.8082428818625138,
+      "train_speed(iter/s)": 0.237348
+    },
+    {
+      "epoch": 0.06112,
+      "grad_norm": 0.8611816464500565,
+      "learning_rate": 2.0362473347547975e-06,
+      "loss": 0.4607084393501282,
+      "memory(GiB)": 41.86,
+      "step": 191,
+      "token_acc": 0.8523531221162719,
+      "train_speed(iter/s)": 0.237402
+    },
+    {
+      "epoch": 0.06144,
+      "grad_norm": 0.8401166663047531,
+      "learning_rate": 2.046908315565032e-06,
+      "loss": 0.3820692002773285,
+      "memory(GiB)": 41.86,
+      "step": 192,
+      "token_acc": 0.8834688346883469,
+      "train_speed(iter/s)": 0.23748
+    },
+    {
+      "epoch": 0.06176,
+      "grad_norm": 1.713538069670579,
+      "learning_rate": 2.0575692963752665e-06,
+      "loss": 0.4359162151813507,
+      "memory(GiB)": 41.86,
+      "step": 193,
+      "token_acc": 0.9255247122545701,
+      "train_speed(iter/s)": 0.237525
+    },
+    {
+      "epoch": 0.06208,
+      "grad_norm": 0.8544181943536923,
+      "learning_rate": 2.068230277185501e-06,
+      "loss": 0.4442211389541626,
+      "memory(GiB)": 41.86,
+      "step": 194,
+      "token_acc": 0.8725108720531014,
+      "train_speed(iter/s)": 0.23749
+    },
+    {
+      "epoch": 0.0624,
+      "grad_norm": 0.7721683579076613,
+      "learning_rate": 2.0788912579957356e-06,
+      "loss": 0.42826682329177856,
+      "memory(GiB)": 41.86,
+      "step": 195,
+      "token_acc": 0.8228659885006634,
+      "train_speed(iter/s)": 0.237506
+    },
+    {
+      "epoch": 0.06272,
+      "grad_norm": 0.7514343975504116,
+      "learning_rate": 2.08955223880597e-06,
+      "loss": 0.4385693073272705,
+      "memory(GiB)": 41.86,
+      "step": 196,
+      "token_acc": 0.8841320553780617,
+      "train_speed(iter/s)": 0.237498
+    },
+    {
+      "epoch": 0.06304,
+      "grad_norm": 0.7708215089748411,
+      "learning_rate": 2.1002132196162046e-06,
+      "loss": 0.48154687881469727,
+      "memory(GiB)": 41.86,
+      "step": 197,
+      "token_acc": 0.8822409573021485,
+      "train_speed(iter/s)": 0.237526
+    },
+    {
+      "epoch": 0.06336,
+      "grad_norm": 0.8708607372356321,
+      "learning_rate": 2.110874200426439e-06,
+      "loss": 0.4659211039543152,
+      "memory(GiB)": 41.86,
+      "step": 198,
+      "token_acc": 0.9185158239359767,
+      "train_speed(iter/s)": 0.237514
+    },
+    {
+      "epoch": 0.06368,
+      "grad_norm": 0.9010347669667264,
+      "learning_rate": 2.1215351812366737e-06,
+      "loss": 0.45319920778274536,
+      "memory(GiB)": 41.86,
+      "step": 199,
+      "token_acc": 0.9077196095829636,
+      "train_speed(iter/s)": 0.2376
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 0.8446836034567332,
+      "learning_rate": 2.132196162046908e-06,
+      "loss": 0.5213237404823303,
+      "memory(GiB)": 41.86,
+      "step": 200,
+      "token_acc": 0.8647272727272727,
+      "train_speed(iter/s)": 0.237634
+    },
+    {
+      "epoch": 0.06432,
+      "grad_norm": 0.8556092777267248,
+      "learning_rate": 2.1428571428571427e-06,
+      "loss": 0.500628650188446,
+      "memory(GiB)": 41.86,
+      "step": 201,
+      "token_acc": 0.8512843623253717,
+      "train_speed(iter/s)": 0.237683
+    },
+    {
+      "epoch": 0.06464,
+      "grad_norm": 0.7476503939630328,
+      "learning_rate": 2.1535181236673773e-06,
+      "loss": 0.48504340648651123,
+      "memory(GiB)": 41.86,
+      "step": 202,
+      "token_acc": 0.8763596809282088,
+      "train_speed(iter/s)": 0.23756
+    },
+    {
+      "epoch": 0.06496,
+      "grad_norm": 0.860361597093958,
+      "learning_rate": 2.1641791044776118e-06,
+      "loss": 0.5184949040412903,
+      "memory(GiB)": 41.86,
+      "step": 203,
+      "token_acc": 0.8831455169034786,
+      "train_speed(iter/s)": 0.237573
+    },
+    {
+      "epoch": 0.06528,
+      "grad_norm": 0.8139398459770928,
+      "learning_rate": 2.1748400852878467e-06,
+      "loss": 0.46868783235549927,
+      "memory(GiB)": 41.86,
+      "step": 204,
+      "token_acc": 0.8680926916221033,
+      "train_speed(iter/s)": 0.237637
+    },
+    {
+      "epoch": 0.0656,
+      "grad_norm": 0.88703156287696,
+      "learning_rate": 2.1855010660980813e-06,
+      "loss": 0.4294508099555969,
+      "memory(GiB)": 41.86,
+      "step": 205,
+      "token_acc": 0.8958938199917047,
+      "train_speed(iter/s)": 0.237702
+    },
+    {
+      "epoch": 0.06592,
+      "grad_norm": 0.7902589197351996,
+      "learning_rate": 2.1961620469083158e-06,
+      "loss": 0.5315119028091431,
+      "memory(GiB)": 41.86,
+      "step": 206,
+      "token_acc": 0.869279176201373,
+      "train_speed(iter/s)": 0.237647
+    },
+    {
+      "epoch": 0.06624,
+      "grad_norm": 0.8135152803533094,
+      "learning_rate": 2.2068230277185503e-06,
+      "loss": 0.4581015408039093,
+      "memory(GiB)": 41.86,
+      "step": 207,
+      "token_acc": 0.8437705998681608,
+      "train_speed(iter/s)": 0.237689
+    },
+    {
+      "epoch": 0.06656,
+      "grad_norm": 0.7156199542120756,
+      "learning_rate": 2.217484008528785e-06,
+      "loss": 0.5436166524887085,
+      "memory(GiB)": 41.86,
+      "step": 208,
+      "token_acc": 0.7692307692307693,
+      "train_speed(iter/s)": 0.23763
+    },
+    {
+      "epoch": 0.06688,
+      "grad_norm": 0.8122947613873571,
+      "learning_rate": 2.2281449893390194e-06,
+      "loss": 0.46804407238960266,
+      "memory(GiB)": 41.86,
+      "step": 209,
+      "token_acc": 0.8608932833276509,
+      "train_speed(iter/s)": 0.237684
+    },
+    {
+      "epoch": 0.0672,
+      "grad_norm": 0.8569833540185648,
+      "learning_rate": 2.238805970149254e-06,
+      "loss": 0.38038086891174316,
+      "memory(GiB)": 41.86,
+      "step": 210,
+      "token_acc": 0.846065808297568,
+      "train_speed(iter/s)": 0.237726
+    },
+    {
+      "epoch": 0.06752,
+      "grad_norm": 0.8959778758888763,
+      "learning_rate": 2.2494669509594884e-06,
+      "loss": 0.4419552683830261,
+      "memory(GiB)": 41.86,
+      "step": 211,
+      "token_acc": 0.8525963149078727,
+      "train_speed(iter/s)": 0.237734
+    },
+    {
+      "epoch": 0.06784,
+      "grad_norm": 0.8072309737386063,
+      "learning_rate": 2.260127931769723e-06,
+      "loss": 0.43088221549987793,
+      "memory(GiB)": 41.86,
+      "step": 212,
+      "token_acc": 0.8725602755453502,
+      "train_speed(iter/s)": 0.237793
+    },
+    {
+      "epoch": 0.06816,
+      "grad_norm": 1.106274213983276,
+      "learning_rate": 2.2707889125799575e-06,
+      "loss": 0.41723954677581787,
+      "memory(GiB)": 41.86,
+      "step": 213,
+      "token_acc": 0.9232012934518997,
+      "train_speed(iter/s)": 0.23785
+    },
+    {
+      "epoch": 0.06848,
+      "grad_norm": 0.8140839187184906,
+      "learning_rate": 2.281449893390192e-06,
+      "loss": 0.38298842310905457,
+      "memory(GiB)": 41.86,
+      "step": 214,
+      "token_acc": 0.9247661651077674,
+      "train_speed(iter/s)": 0.23788
+    },
+    {
+      "epoch": 0.0688,
+      "grad_norm": 0.8204315306319542,
+      "learning_rate": 2.2921108742004265e-06,
+      "loss": 0.40582361817359924,
+      "memory(GiB)": 41.86,
+      "step": 215,
+      "token_acc": 0.914054054054054,
+      "train_speed(iter/s)": 0.23793
+    },
+    {
+      "epoch": 0.06912,
+      "grad_norm": 0.8009870042095883,
+      "learning_rate": 2.302771855010661e-06,
+      "loss": 0.3909275531768799,
+      "memory(GiB)": 41.86,
+      "step": 216,
+      "token_acc": 0.8840949706407966,
+      "train_speed(iter/s)": 0.237978
+    },
+    {
+      "epoch": 0.06944,
+      "grad_norm": 0.8830878128448973,
+      "learning_rate": 2.3134328358208956e-06,
+      "loss": 0.3932962417602539,
+      "memory(GiB)": 41.86,
+      "step": 217,
+      "token_acc": 0.9292631578947368,
+      "train_speed(iter/s)": 0.238048
+    },
+    {
+      "epoch": 0.06976,
+      "grad_norm": 0.9151928900378004,
+      "learning_rate": 2.32409381663113e-06,
+      "loss": 0.34649908542633057,
+      "memory(GiB)": 41.86,
+      "step": 218,
+      "token_acc": 0.8782629330802089,
+      "train_speed(iter/s)": 0.238077
+    },
+    {
+      "epoch": 0.07008,
+      "grad_norm": 0.8554988040501391,
+      "learning_rate": 2.3347547974413646e-06,
+      "loss": 0.450014591217041,
+      "memory(GiB)": 41.86,
+      "step": 219,
+      "token_acc": 0.846788990825688,
+      "train_speed(iter/s)": 0.23807
+    },
+    {
+      "epoch": 0.0704,
+      "grad_norm": 0.7663903826148445,
+      "learning_rate": 2.345415778251599e-06,
+      "loss": 0.44531285762786865,
+      "memory(GiB)": 41.86,
+      "step": 220,
+      "token_acc": 0.8728813559322034,
+      "train_speed(iter/s)": 0.238125
+    },
+    {
+      "epoch": 0.07072,
+      "grad_norm": 0.8013588415788543,
+      "learning_rate": 2.3560767590618337e-06,
+      "loss": 0.41598182916641235,
+      "memory(GiB)": 41.86,
+      "step": 221,
+      "token_acc": 0.8204656862745098,
+      "train_speed(iter/s)": 0.238141
+    },
+    {
+      "epoch": 0.07104,
+      "grad_norm": 0.8770486851906605,
+      "learning_rate": 2.366737739872068e-06,
+      "loss": 0.5007616281509399,
+      "memory(GiB)": 41.86,
+      "step": 222,
+      "token_acc": 0.8428745432399513,
+      "train_speed(iter/s)": 0.238179
+    },
+    {
+      "epoch": 0.07136,
+      "grad_norm": 1.0031669771259017,
+      "learning_rate": 2.3773987206823027e-06,
+      "loss": 0.42271238565444946,
+      "memory(GiB)": 41.86,
+      "step": 223,
+      "token_acc": 0.876834148510449,
+      "train_speed(iter/s)": 0.238157
+    },
+    {
+      "epoch": 0.07168,
+      "grad_norm": 0.7718766266882297,
+      "learning_rate": 2.3880597014925373e-06,
+      "loss": 0.43677568435668945,
+      "memory(GiB)": 41.86,
+      "step": 224,
+      "token_acc": 0.8706467661691543,
+      "train_speed(iter/s)": 0.238138
+    },
+    {
+      "epoch": 0.072,
+      "grad_norm": 0.7949712705696272,
+      "learning_rate": 2.398720682302772e-06,
+      "loss": 0.39655208587646484,
+      "memory(GiB)": 41.86,
+      "step": 225,
+      "token_acc": 0.9146688338073954,
+      "train_speed(iter/s)": 0.238137
+    },
+    {
+      "epoch": 0.07232,
+      "grad_norm": 0.7605409106017403,
+      "learning_rate": 2.4093816631130067e-06,
+      "loss": 0.3562984764575958,
+      "memory(GiB)": 41.86,
+      "step": 226,
+      "token_acc": 0.9402585822559073,
+      "train_speed(iter/s)": 0.23816
+    },
+    {
+      "epoch": 0.07264,
+      "grad_norm": 0.7416255215492054,
+      "learning_rate": 2.4200426439232413e-06,
+      "loss": 0.46417832374572754,
+      "memory(GiB)": 41.86,
+      "step": 227,
+      "token_acc": 0.8871699669966997,
+      "train_speed(iter/s)": 0.238177
+    },
+    {
+      "epoch": 0.07296,
+      "grad_norm": 0.8085451711583856,
+      "learning_rate": 2.4307036247334758e-06,
+      "loss": 0.4530346989631653,
+      "memory(GiB)": 41.86,
+      "step": 228,
+      "token_acc": 0.8,
+      "train_speed(iter/s)": 0.238224
+    },
+    {
+      "epoch": 0.07328,
+      "grad_norm": 0.7644753812388857,
+      "learning_rate": 2.4413646055437103e-06,
+      "loss": 0.4983330965042114,
+      "memory(GiB)": 41.86,
+      "step": 229,
+      "token_acc": 0.8782894736842105,
+      "train_speed(iter/s)": 0.238262
+    },
+    {
+      "epoch": 0.0736,
+      "grad_norm": 0.8144786052649817,
+      "learning_rate": 2.452025586353945e-06,
+      "loss": 0.4731840491294861,
+      "memory(GiB)": 41.86,
+      "step": 230,
+      "token_acc": 0.8175675675675675,
+      "train_speed(iter/s)": 0.238308
+    },
+    {
+      "epoch": 0.07392,
+      "grad_norm": 0.8016669555546865,
+      "learning_rate": 2.4626865671641794e-06,
+      "loss": 0.49591851234436035,
+      "memory(GiB)": 41.86,
+      "step": 231,
+      "token_acc": 0.9157088122605364,
+      "train_speed(iter/s)": 0.238248
+    },
+    {
+      "epoch": 0.07424,
+      "grad_norm": 0.7985778385901379,
+      "learning_rate": 2.473347547974414e-06,
+      "loss": 0.4217742085456848,
+      "memory(GiB)": 41.86,
+      "step": 232,
+      "token_acc": 0.8717330116606353,
+      "train_speed(iter/s)": 0.238259
+    },
+    {
+      "epoch": 0.07456,
+      "grad_norm": 0.7270346053076612,
+      "learning_rate": 2.4840085287846484e-06,
+      "loss": 0.4165884852409363,
+      "memory(GiB)": 41.86,
+      "step": 233,
+      "token_acc": 0.8313452617627568,
+      "train_speed(iter/s)": 0.23821
+    },
+    {
+      "epoch": 0.07488,
+      "grad_norm": 0.8570636077103895,
+      "learning_rate": 2.494669509594883e-06,
+      "loss": 0.45557162165641785,
+      "memory(GiB)": 41.86,
+      "step": 234,
+      "token_acc": 0.9165097300690521,
+      "train_speed(iter/s)": 0.238238
+    },
+    {
+      "epoch": 0.0752,
+      "grad_norm": 0.7926291297808056,
+      "learning_rate": 2.5053304904051175e-06,
+      "loss": 0.34986788034439087,
+      "memory(GiB)": 41.86,
+      "step": 235,
+      "token_acc": 0.8230411686586986,
+      "train_speed(iter/s)": 0.238255
+    },
+    {
+      "epoch": 0.07552,
+      "grad_norm": 0.7712623900956994,
+      "learning_rate": 2.515991471215352e-06,
+      "loss": 0.4790201783180237,
+      "memory(GiB)": 41.86,
+      "step": 236,
+      "token_acc": 0.8261179828734538,
+      "train_speed(iter/s)": 0.23825
+    },
+    {
+      "epoch": 0.07584,
+      "grad_norm": 0.8814418416285378,
+      "learning_rate": 2.5266524520255865e-06,
+      "loss": 0.48645997047424316,
+      "memory(GiB)": 41.86,
+      "step": 237,
+      "token_acc": 0.8608964451313755,
+      "train_speed(iter/s)": 0.238314
+    },
+    {
+      "epoch": 0.07616,
+      "grad_norm": 0.7987760798074977,
+      "learning_rate": 2.537313432835821e-06,
+      "loss": 0.3226853311061859,
+      "memory(GiB)": 41.86,
+      "step": 238,
+      "token_acc": 0.9142185663924794,
+      "train_speed(iter/s)": 0.238385
+    },
+    {
+      "epoch": 0.07648,
+      "grad_norm": 0.8239518374370381,
+      "learning_rate": 2.5479744136460556e-06,
+      "loss": 0.459033340215683,
+      "memory(GiB)": 41.86,
+      "step": 239,
+      "token_acc": 0.8367633302151544,
+      "train_speed(iter/s)": 0.238447
+    },
+    {
+      "epoch": 0.0768,
+      "grad_norm": 0.8541241250905263,
+      "learning_rate": 2.55863539445629e-06,
+      "loss": 0.45003989338874817,
+      "memory(GiB)": 41.86,
+      "step": 240,
+      "token_acc": 0.9227019498607242,
+      "train_speed(iter/s)": 0.238516
+    },
+    {
+      "epoch": 0.07712,
+      "grad_norm": 0.8784925713077107,
+      "learning_rate": 2.5692963752665246e-06,
+      "loss": 0.42039692401885986,
+      "memory(GiB)": 41.86,
+      "step": 241,
+      "token_acc": 0.8805970149253731,
+      "train_speed(iter/s)": 0.238545
+    },
+    {
+      "epoch": 0.07744,
+      "grad_norm": 0.8112724825843277,
+      "learning_rate": 2.579957356076759e-06,
+      "loss": 0.3838690221309662,
+      "memory(GiB)": 41.86,
+      "step": 242,
+      "token_acc": 0.8423857347817175,
+      "train_speed(iter/s)": 0.238583
+    },
+    {
+      "epoch": 0.07776,
+      "grad_norm": 0.7910654621550316,
+      "learning_rate": 2.5906183368869937e-06,
+      "loss": 0.32918781042099,
+      "memory(GiB)": 41.86,
+      "step": 243,
+      "token_acc": 0.9362211001860218,
+      "train_speed(iter/s)": 0.238652
+    },
+    {
+      "epoch": 0.07808,
+      "grad_norm": 0.8106438237016057,
+      "learning_rate": 2.601279317697228e-06,
+      "loss": 0.3768569231033325,
+      "memory(GiB)": 41.86,
+      "step": 244,
+      "token_acc": 0.8347185941581572,
+      "train_speed(iter/s)": 0.238624
+    },
+    {
+      "epoch": 0.0784,
+      "grad_norm": 0.9036025594264395,
+      "learning_rate": 2.6119402985074627e-06,
+      "loss": 0.40150022506713867,
+      "memory(GiB)": 41.86,
+      "step": 245,
+      "token_acc": 0.9010615711252654,
+      "train_speed(iter/s)": 0.238695
+    },
+    {
+      "epoch": 0.07872,
+      "grad_norm": 0.8041111832627525,
+      "learning_rate": 2.6226012793176977e-06,
+      "loss": 0.3304884433746338,
+      "memory(GiB)": 41.86,
+      "step": 246,
+      "token_acc": 0.9079930994824612,
+      "train_speed(iter/s)": 0.238709
+    },
+    {
+      "epoch": 0.07904,
+      "grad_norm": 0.7844480070895389,
+      "learning_rate": 2.6332622601279318e-06,
+      "loss": 0.4810687303543091,
+      "memory(GiB)": 41.86,
+      "step": 247,
+      "token_acc": 0.8745964738018376,
+      "train_speed(iter/s)": 0.238692
+    },
+    {
+      "epoch": 0.07936,
+      "grad_norm": 1.1146758793159208,
+      "learning_rate": 2.6439232409381667e-06,
+      "loss": 0.38047271966934204,
+      "memory(GiB)": 41.86,
+      "step": 248,
+      "token_acc": 0.8577777777777778,
+      "train_speed(iter/s)": 0.238728
+    },
+    {
+      "epoch": 0.07968,
+      "grad_norm": 0.7924035790049286,
+      "learning_rate": 2.654584221748401e-06,
+      "loss": 0.39099615812301636,
+      "memory(GiB)": 41.86,
+      "step": 249,
+      "token_acc": 0.9238799478033928,
+      "train_speed(iter/s)": 0.238749
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.7404236183123053,
+      "learning_rate": 2.6652452025586358e-06,
+      "loss": 0.39462414383888245,
+      "memory(GiB)": 41.86,
+      "step": 250,
+      "token_acc": 0.8765837634913186,
+      "train_speed(iter/s)": 0.238762
+    },
+    {
+      "epoch": 0.08032,
+      "grad_norm": 0.7836625996597706,
+      "learning_rate": 2.6759061833688703e-06,
+      "loss": 0.5299619436264038,
+      "memory(GiB)": 41.86,
+      "step": 251,
+      "token_acc": 0.8648777012586084,
+      "train_speed(iter/s)": 0.238759
+    },
+    {
+      "epoch": 0.08064,
+      "grad_norm": 0.7871230967478383,
+      "learning_rate": 2.686567164179105e-06,
+      "loss": 0.38073286414146423,
+      "memory(GiB)": 41.86,
+      "step": 252,
+      "token_acc": 0.9192933841357811,
+      "train_speed(iter/s)": 0.23878
+    },
+    {
+      "epoch": 0.08096,
+      "grad_norm": 0.8981297354469057,
+      "learning_rate": 2.6972281449893394e-06,
+      "loss": 0.46103090047836304,
+      "memory(GiB)": 41.86,
+      "step": 253,
+      "token_acc": 0.8792016806722689,
+      "train_speed(iter/s)": 0.238823
+    },
+    {
+      "epoch": 0.08128,
+      "grad_norm": 0.8523386942144723,
+      "learning_rate": 2.707889125799574e-06,
+      "loss": 0.5090248584747314,
+      "memory(GiB)": 41.86,
+      "step": 254,
+      "token_acc": 0.914975845410628,
+      "train_speed(iter/s)": 0.238802
+    },
+    {
+      "epoch": 0.0816,
+      "grad_norm": 0.8363012543495664,
+      "learning_rate": 2.7185501066098084e-06,
+      "loss": 0.406773179769516,
+      "memory(GiB)": 41.86,
+      "step": 255,
+      "token_acc": 0.8165983606557377,
+      "train_speed(iter/s)": 0.238858
+    },
+    {
+      "epoch": 0.08192,
+      "grad_norm": 0.7839143445212261,
+      "learning_rate": 2.729211087420043e-06,
+      "loss": 0.48697754740715027,
+      "memory(GiB)": 41.86,
+      "step": 256,
+      "token_acc": 0.8552311435523114,
+      "train_speed(iter/s)": 0.23888
+    },
+    {
+      "epoch": 0.08224,
+      "grad_norm": 0.7816507311363058,
+      "learning_rate": 2.7398720682302775e-06,
+      "loss": 0.47162342071533203,
+      "memory(GiB)": 41.86,
+      "step": 257,
+      "token_acc": 0.8781925343811395,
+      "train_speed(iter/s)": 0.238873
+    },
+    {
+      "epoch": 0.08256,
+      "grad_norm": 0.7664080574153175,
+      "learning_rate": 2.750533049040512e-06,
+      "loss": 0.4288128912448883,
+      "memory(GiB)": 41.86,
+      "step": 258,
+      "token_acc": 0.8552231237322515,
+      "train_speed(iter/s)": 0.238853
+    },
+    {
+      "epoch": 0.08288,
+      "grad_norm": 0.821735665785851,
+      "learning_rate": 2.7611940298507465e-06,
+      "loss": 0.4514979422092438,
+      "memory(GiB)": 41.86,
+      "step": 259,
+      "token_acc": 0.9143426294820717,
+      "train_speed(iter/s)": 0.23885
+    },
+    {
+      "epoch": 0.0832,
+      "grad_norm": 0.814315596977121,
+      "learning_rate": 2.771855010660981e-06,
+      "loss": 0.4167838394641876,
+      "memory(GiB)": 41.86,
+      "step": 260,
+      "token_acc": 0.8996787744007907,
+      "train_speed(iter/s)": 0.238903
+    },
+    {
+      "epoch": 0.08352,
+      "grad_norm": 0.7364174627910478,
+      "learning_rate": 2.7825159914712156e-06,
+      "loss": 0.5202943682670593,
+      "memory(GiB)": 41.86,
+      "step": 261,
+      "token_acc": 0.8606952550114184,
+      "train_speed(iter/s)": 0.238885
+    },
+    {
+      "epoch": 0.08384,
+      "grad_norm": 0.8333322310525604,
+      "learning_rate": 2.79317697228145e-06,
+      "loss": 0.4717528223991394,
+      "memory(GiB)": 41.86,
+      "step": 262,
+      "token_acc": 0.9054347826086957,
+      "train_speed(iter/s)": 0.238921
+    },
+    {
+      "epoch": 0.08416,
+      "grad_norm": 0.869594181534333,
+      "learning_rate": 2.8038379530916846e-06,
+      "loss": 0.40337133407592773,
+      "memory(GiB)": 41.86,
+      "step": 263,
+      "token_acc": 0.9378277153558052,
+      "train_speed(iter/s)": 0.238946
+    },
+    {
+      "epoch": 0.08448,
+      "grad_norm": 0.7802824694096941,
+      "learning_rate": 2.814498933901919e-06,
+      "loss": 0.4327160716056824,
+      "memory(GiB)": 41.86,
+      "step": 264,
+      "token_acc": 0.8579910935180604,
+      "train_speed(iter/s)": 0.238839
+    },
+    {
+      "epoch": 0.0848,
+      "grad_norm": 0.8356780652956406,
+      "learning_rate": 2.825159914712154e-06,
+      "loss": 0.4424020051956177,
+      "memory(GiB)": 41.86,
+      "step": 265,
+      "token_acc": 0.8804623625599097,
+      "train_speed(iter/s)": 0.238852
+    },
+    {
+      "epoch": 0.08512,
+      "grad_norm": 0.733814281564822,
+      "learning_rate": 2.835820895522388e-06,
+      "loss": 0.48017603158950806,
+      "memory(GiB)": 41.86,
+      "step": 266,
+      "token_acc": 0.8956921587608906,
+      "train_speed(iter/s)": 0.238837
+    },
+    {
+      "epoch": 0.08544,
+      "grad_norm": 0.8460489851711144,
+      "learning_rate": 2.846481876332623e-06,
+      "loss": 0.37948840856552124,
+      "memory(GiB)": 41.86,
+      "step": 267,
+      "token_acc": 0.8501709077098367,
+      "train_speed(iter/s)": 0.238848
+    },
+    {
+      "epoch": 0.08576,
+      "grad_norm": 0.78032691431983,
+      "learning_rate": 2.8571428571428573e-06,
+      "loss": 0.47093185782432556,
+      "memory(GiB)": 41.86,
+      "step": 268,
+      "token_acc": 0.8442019099590723,
+      "train_speed(iter/s)": 0.238878
+    },
+    {
+      "epoch": 0.08608,
+      "grad_norm": 0.8694695107085626,
+      "learning_rate": 2.867803837953092e-06,
+      "loss": 0.40558913350105286,
+      "memory(GiB)": 41.86,
+      "step": 269,
+      "token_acc": 0.8708071278825996,
+      "train_speed(iter/s)": 0.238887
+    },
+    {
+      "epoch": 0.0864,
+      "grad_norm": 0.762062404680544,
+      "learning_rate": 2.8784648187633263e-06,
+      "loss": 0.4456389844417572,
+      "memory(GiB)": 41.86,
+      "step": 270,
+      "token_acc": 0.9062415563361254,
+      "train_speed(iter/s)": 0.238835
+    },
+    {
+      "epoch": 0.08672,
+      "grad_norm": 0.8175720175207222,
+      "learning_rate": 2.8891257995735613e-06,
+      "loss": 0.39426881074905396,
+      "memory(GiB)": 41.86,
+      "step": 271,
+      "token_acc": 0.9198617221873036,
+      "train_speed(iter/s)": 0.238901
+    },
+    {
+      "epoch": 0.08704,
+      "grad_norm": 0.751949509555342,
+      "learning_rate": 2.8997867803837954e-06,
+      "loss": 0.43765342235565186,
+      "memory(GiB)": 41.86,
+      "step": 272,
+      "token_acc": 0.8897126969416126,
+      "train_speed(iter/s)": 0.238911
+    },
+    {
+      "epoch": 0.08736,
+      "grad_norm": 0.815707721305127,
+      "learning_rate": 2.9104477611940303e-06,
+      "loss": 0.38230466842651367,
+      "memory(GiB)": 41.86,
+      "step": 273,
+      "token_acc": 0.9289617486338798,
+      "train_speed(iter/s)": 0.238872
+    },
+    {
+      "epoch": 0.08768,
+      "grad_norm": 0.7935828765845511,
+      "learning_rate": 2.9211087420042644e-06,
+      "loss": 0.4605436325073242,
+      "memory(GiB)": 41.86,
+      "step": 274,
+      "token_acc": 0.8269720101781171,
+      "train_speed(iter/s)": 0.238898
+    },
+    {
+      "epoch": 0.088,
+      "grad_norm": 0.7828391626259436,
+      "learning_rate": 2.9317697228144994e-06,
+      "loss": 0.4469219148159027,
+      "memory(GiB)": 41.86,
+      "step": 275,
+      "token_acc": 0.8416918429003021,
+      "train_speed(iter/s)": 0.238904
+    },
+    {
+      "epoch": 0.08832,
+      "grad_norm": 0.8971801566895942,
+      "learning_rate": 2.9424307036247335e-06,
+      "loss": 0.47280406951904297,
+      "memory(GiB)": 41.86,
+      "step": 276,
+      "token_acc": 0.8455019556714471,
+      "train_speed(iter/s)": 0.2389
+    },
+    {
+      "epoch": 0.08864,
+      "grad_norm": 0.8857551802405319,
+      "learning_rate": 2.9530916844349684e-06,
+      "loss": 0.3692026734352112,
+      "memory(GiB)": 41.86,
+      "step": 277,
+      "token_acc": 0.9241913746630728,
+      "train_speed(iter/s)": 0.238958
+    },
+    {
+      "epoch": 0.08896,
+      "grad_norm": 0.7906716943771644,
+      "learning_rate": 2.9637526652452025e-06,
+      "loss": 0.4652382731437683,
+      "memory(GiB)": 41.86,
+      "step": 278,
+      "token_acc": 0.8336431226765799,
+      "train_speed(iter/s)": 0.238911
+    },
+    {
+      "epoch": 0.08928,
+      "grad_norm": 0.7734502634828265,
+      "learning_rate": 2.9744136460554375e-06,
+      "loss": 0.4486645758152008,
+      "memory(GiB)": 41.86,
+      "step": 279,
+      "token_acc": 0.8685785536159601,
+      "train_speed(iter/s)": 0.238897
+    },
+    {
+      "epoch": 0.0896,
+      "grad_norm": 0.7686137576599014,
+      "learning_rate": 2.9850746268656716e-06,
+      "loss": 0.41775035858154297,
+      "memory(GiB)": 41.86,
+      "step": 280,
+      "token_acc": 0.8477222630418809,
+      "train_speed(iter/s)": 0.238937
+    },
+    {
+      "epoch": 0.08992,
+      "grad_norm": 0.7445375842872007,
+      "learning_rate": 2.9957356076759065e-06,
+      "loss": 0.4182976186275482,
+      "memory(GiB)": 41.86,
+      "step": 281,
+      "token_acc": 0.8573144367042997,
+      "train_speed(iter/s)": 0.238951
+    },
+    {
+      "epoch": 0.09024,
+      "grad_norm": 0.7555545104283435,
+      "learning_rate": 3.006396588486141e-06,
+      "loss": 0.4727635085582733,
+      "memory(GiB)": 41.86,
+      "step": 282,
+      "token_acc": 0.9028764204545454,
+      "train_speed(iter/s)": 0.238947
+    },
+    {
+      "epoch": 0.09056,
+      "grad_norm": 0.754969832530047,
+      "learning_rate": 3.0170575692963756e-06,
+      "loss": 0.44284188747406006,
+      "memory(GiB)": 41.86,
+      "step": 283,
+      "token_acc": 0.9028256374913852,
+      "train_speed(iter/s)": 0.23895
+    },
+    {
+      "epoch": 0.09088,
+      "grad_norm": 0.764420772270067,
+      "learning_rate": 3.0277185501066105e-06,
+      "loss": 0.385779470205307,
+      "memory(GiB)": 41.86,
+      "step": 284,
+      "token_acc": 0.9163674762407603,
+      "train_speed(iter/s)": 0.238924
+    },
+    {
+      "epoch": 0.0912,
+      "grad_norm": 0.7628713620927181,
+      "learning_rate": 3.0383795309168446e-06,
+      "loss": 0.4512256979942322,
+      "memory(GiB)": 41.86,
+      "step": 285,
+      "token_acc": 0.8524711089254979,
+      "train_speed(iter/s)": 0.238932
+    },
+    {
+      "epoch": 0.09152,
+      "grad_norm": 0.8001255688626848,
+      "learning_rate": 3.0490405117270796e-06,
+      "loss": 0.44787895679473877,
+      "memory(GiB)": 41.86,
+      "step": 286,
+      "token_acc": 0.8956479923058428,
+      "train_speed(iter/s)": 0.238967
+    },
+    {
+      "epoch": 0.09184,
+      "grad_norm": 0.7297465689017628,
+      "learning_rate": 3.0597014925373137e-06,
+      "loss": 0.46175825595855713,
+      "memory(GiB)": 41.86,
+      "step": 287,
+      "token_acc": 0.8029499502817369,
+      "train_speed(iter/s)": 0.238952
+    },
+    {
+      "epoch": 0.09216,
+      "grad_norm": 0.7623848894911398,
+      "learning_rate": 3.0703624733475486e-06,
+      "loss": 0.4042823314666748,
+      "memory(GiB)": 41.86,
+      "step": 288,
+      "token_acc": 0.877628159697614,
+      "train_speed(iter/s)": 0.239
+    },
+    {
+      "epoch": 0.09248,
+      "grad_norm": 0.7481121915415929,
+      "learning_rate": 3.0810234541577827e-06,
+      "loss": 0.48246750235557556,
+      "memory(GiB)": 41.86,
+      "step": 289,
+      "token_acc": 0.885910990902385,
+      "train_speed(iter/s)": 0.239006
+    },
+    {
+      "epoch": 0.0928,
+      "grad_norm": 0.7198908860435124,
+      "learning_rate": 3.0916844349680177e-06,
+      "loss": 0.41685357689857483,
+      "memory(GiB)": 41.86,
+      "step": 290,
+      "token_acc": 0.8800938141307535,
+      "train_speed(iter/s)": 0.238989
+    },
+    {
+      "epoch": 0.09312,
+      "grad_norm": 0.8075725912135797,
+      "learning_rate": 3.1023454157782518e-06,
+      "loss": 0.37431731820106506,
+      "memory(GiB)": 41.86,
+      "step": 291,
+      "token_acc": 0.9073020388809863,
+      "train_speed(iter/s)": 0.23901
+    },
+    {
+      "epoch": 0.09344,
+      "grad_norm": 0.7424290897950819,
+      "learning_rate": 3.1130063965884867e-06,
+      "loss": 0.39317965507507324,
+      "memory(GiB)": 41.86,
+      "step": 292,
+      "token_acc": 0.9119260756569448,
+      "train_speed(iter/s)": 0.239039
+    },
+    {
+      "epoch": 0.09376,
+      "grad_norm": 0.797518054464604,
+      "learning_rate": 3.123667377398721e-06,
+      "loss": 0.4403042793273926,
+      "memory(GiB)": 41.86,
+      "step": 293,
+      "token_acc": 0.902165932452276,
+      "train_speed(iter/s)": 0.239044
+    },
+    {
+      "epoch": 0.09408,
+      "grad_norm": 0.7940153929766716,
+      "learning_rate": 3.1343283582089558e-06,
+      "loss": 0.40593621134757996,
+      "memory(GiB)": 41.86,
+      "step": 294,
+      "token_acc": 0.8728943338437979,
+      "train_speed(iter/s)": 0.239062
+    },
+    {
+      "epoch": 0.0944,
+      "grad_norm": 0.7082409407505589,
+      "learning_rate": 3.14498933901919e-06,
+      "loss": 0.4122522473335266,
+      "memory(GiB)": 41.86,
+      "step": 295,
+      "token_acc": 0.9226006191950464,
+      "train_speed(iter/s)": 0.239063
+    },
+    {
+      "epoch": 0.09472,
+      "grad_norm": 0.7538691559681522,
+      "learning_rate": 3.155650319829425e-06,
+      "loss": 0.4231248199939728,
+      "memory(GiB)": 41.86,
+      "step": 296,
+      "token_acc": 0.8822470291681671,
+      "train_speed(iter/s)": 0.23903
+    },
+    {
+      "epoch": 0.09504,
+      "grad_norm": 0.7768552976034606,
+      "learning_rate": 3.166311300639659e-06,
+      "loss": 0.5054468512535095,
+      "memory(GiB)": 41.86,
+      "step": 297,
+      "token_acc": 0.8565075600355766,
+      "train_speed(iter/s)": 0.239064
+    },
+    {
+      "epoch": 0.09536,
+      "grad_norm": 0.7834102706560788,
+      "learning_rate": 3.176972281449894e-06,
+      "loss": 0.43437373638153076,
+      "memory(GiB)": 41.86,
+      "step": 298,
+      "token_acc": 0.8475440222428174,
+      "train_speed(iter/s)": 0.239088
+    },
+    {
+      "epoch": 0.09568,
+      "grad_norm": 0.8017123713142555,
+      "learning_rate": 3.187633262260128e-06,
+      "loss": 0.38961392641067505,
+      "memory(GiB)": 41.86,
+      "step": 299,
+      "token_acc": 0.9274255156608098,
+      "train_speed(iter/s)": 0.239014
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 0.7999226350266968,
+      "learning_rate": 3.198294243070363e-06,
+      "loss": 0.3929305672645569,
+      "memory(GiB)": 41.86,
+      "step": 300,
+      "token_acc": 0.9069212410501193,
+      "train_speed(iter/s)": 0.23907
+    },
+    {
+      "epoch": 0.09632,
+      "grad_norm": 0.757149206713092,
+      "learning_rate": 3.208955223880597e-06,
+      "loss": 0.5028648972511292,
+      "memory(GiB)": 41.86,
+      "step": 301,
+      "token_acc": 0.8434428194677536,
+      "train_speed(iter/s)": 0.239101
+    },
+    {
+      "epoch": 0.09664,
+      "grad_norm": 0.7950750526744113,
+      "learning_rate": 3.219616204690832e-06,
+      "loss": 0.3768015205860138,
+      "memory(GiB)": 41.86,
+      "step": 302,
+      "token_acc": 0.9394471259324265,
+      "train_speed(iter/s)": 0.239098
+    },
+    {
+      "epoch": 0.09696,
+      "grad_norm": 0.8747463381323577,
+      "learning_rate": 3.230277185501066e-06,
+      "loss": 0.3932783603668213,
+      "memory(GiB)": 41.86,
+      "step": 303,
+      "token_acc": 0.8559708295350957,
+      "train_speed(iter/s)": 0.2391
+    },
+    {
+      "epoch": 0.09728,
+      "grad_norm": 0.7647462426549961,
+      "learning_rate": 3.240938166311301e-06,
+      "loss": 0.43029674887657166,
+      "memory(GiB)": 41.86,
+      "step": 304,
+      "token_acc": 0.8871398078975453,
+      "train_speed(iter/s)": 0.239114
+    },
+    {
+      "epoch": 0.0976,
+      "grad_norm": 0.8273688830860688,
+      "learning_rate": 3.251599147121535e-06,
+      "loss": 0.42678073048591614,
+      "memory(GiB)": 41.86,
+      "step": 305,
+      "token_acc": 0.9146341463414634,
+      "train_speed(iter/s)": 0.239091
+    },
+    {
+      "epoch": 0.09792,
+      "grad_norm": 0.7861801704390484,
+      "learning_rate": 3.26226012793177e-06,
+      "loss": 0.519094705581665,
+      "memory(GiB)": 41.86,
+      "step": 306,
+      "token_acc": 0.8009603841536614,
+      "train_speed(iter/s)": 0.239116
+    },
+    {
+      "epoch": 0.09824,
+      "grad_norm": 0.756081520165375,
+      "learning_rate": 3.272921108742004e-06,
+      "loss": 0.38784074783325195,
+      "memory(GiB)": 41.86,
+      "step": 307,
+      "token_acc": 0.8992583436341162,
+      "train_speed(iter/s)": 0.239134
+    },
+    {
+      "epoch": 0.09856,
+      "grad_norm": 0.845218868331866,
+      "learning_rate": 3.283582089552239e-06,
+      "loss": 0.4429062008857727,
+      "memory(GiB)": 41.86,
+      "step": 308,
+      "token_acc": 0.8673100120627262,
+      "train_speed(iter/s)": 0.239141
+    },
+    {
+      "epoch": 0.09888,
+      "grad_norm": 0.7785448962897669,
+      "learning_rate": 3.2942430703624733e-06,
+      "loss": 0.45241111516952515,
+      "memory(GiB)": 41.86,
+      "step": 309,
+      "token_acc": 0.8548887010425472,
+      "train_speed(iter/s)": 0.239186
+    },
+    {
+      "epoch": 0.0992,
+      "grad_norm": 0.7650730096151205,
+      "learning_rate": 3.304904051172708e-06,
+      "loss": 0.43362128734588623,
+      "memory(GiB)": 41.86,
+      "step": 310,
+      "token_acc": 0.8212187958883994,
+      "train_speed(iter/s)": 0.239198
+    },
+    {
+      "epoch": 0.09952,
+      "grad_norm": 0.7727126548383325,
+      "learning_rate": 3.3155650319829423e-06,
+      "loss": 0.3836996555328369,
+      "memory(GiB)": 41.86,
+      "step": 311,
+      "token_acc": 0.8742546020222971,
+      "train_speed(iter/s)": 0.239232
+    },
+    {
+      "epoch": 0.09984,
+      "grad_norm": 0.8188981205824096,
+      "learning_rate": 3.3262260127931773e-06,
+      "loss": 0.4058418273925781,
+      "memory(GiB)": 41.86,
+      "step": 312,
+      "token_acc": 0.8456768859800207,
+      "train_speed(iter/s)": 0.239291
+    },
+    {
+      "epoch": 0.10016,
+      "grad_norm": 0.8199139245566323,
+      "learning_rate": 3.336886993603412e-06,
+      "loss": 0.42839229106903076,
+      "memory(GiB)": 41.86,
+      "step": 313,
+      "token_acc": 0.938368580060423,
+      "train_speed(iter/s)": 0.239342
+    },
+    {
+      "epoch": 0.10048,
+      "grad_norm": 0.8317891147215691,
+      "learning_rate": 3.3475479744136463e-06,
+      "loss": 0.40215349197387695,
+      "memory(GiB)": 41.86,
+      "step": 314,
+      "token_acc": 0.8580721466587817,
+      "train_speed(iter/s)": 0.239379
+    },
+    {
+      "epoch": 0.1008,
+      "grad_norm": 0.8161061304757473,
+      "learning_rate": 3.3582089552238813e-06,
+      "loss": 0.4352240562438965,
+      "memory(GiB)": 41.86,
+      "step": 315,
+      "token_acc": 0.9280388978930308,
+      "train_speed(iter/s)": 0.239387
+    },
+    {
+      "epoch": 0.10112,
+      "grad_norm": 0.716959642401145,
+      "learning_rate": 3.3688699360341154e-06,
+      "loss": 0.40640610456466675,
+      "memory(GiB)": 41.86,
+      "step": 316,
+      "token_acc": 0.9138906348208674,
+      "train_speed(iter/s)": 0.239424
+    },
+    {
+      "epoch": 0.10144,
+      "grad_norm": 0.7897846883863022,
+      "learning_rate": 3.3795309168443503e-06,
+      "loss": 0.4262651801109314,
+      "memory(GiB)": 41.86,
+      "step": 317,
+      "token_acc": 0.8898140438523453,
+      "train_speed(iter/s)": 0.239466
+    },
+    {
+      "epoch": 0.10176,
+      "grad_norm": 0.7860447024150933,
+      "learning_rate": 3.3901918976545844e-06,
+      "loss": 0.4878777265548706,
+      "memory(GiB)": 41.86,
+      "step": 318,
+      "token_acc": 0.7632069608452455,
+      "train_speed(iter/s)": 0.239442
+    },
+    {
+      "epoch": 0.10208,
+      "grad_norm": 0.7935062527025972,
+      "learning_rate": 3.4008528784648194e-06,
+      "loss": 0.41996830701828003,
+      "memory(GiB)": 41.86,
+      "step": 319,
+      "token_acc": 0.801345059493016,
+      "train_speed(iter/s)": 0.239442
+    },
+    {
+      "epoch": 0.1024,
+      "grad_norm": 0.7550998850510244,
+      "learning_rate": 3.4115138592750535e-06,
+      "loss": 0.5519275665283203,
+      "memory(GiB)": 41.86,
+      "step": 320,
+      "token_acc": 0.8776470588235294,
+      "train_speed(iter/s)": 0.239448
+    },
+    {
+      "epoch": 0.10272,
+      "grad_norm": 0.74507182594586,
+      "learning_rate": 3.4221748400852884e-06,
+      "loss": 0.4754410982131958,
+      "memory(GiB)": 41.86,
+      "step": 321,
+      "token_acc": 0.8518024032042724,
+      "train_speed(iter/s)": 0.239453
+    },
+    {
+      "epoch": 0.10304,
+      "grad_norm": 0.73124985253951,
+      "learning_rate": 3.4328358208955225e-06,
+      "loss": 0.4766056537628174,
+      "memory(GiB)": 41.86,
+      "step": 322,
+      "token_acc": 0.8598766744631087,
+      "train_speed(iter/s)": 0.239474
+    },
+    {
+      "epoch": 0.10336,
+      "grad_norm": 0.7984992961006573,
+      "learning_rate": 3.4434968017057575e-06,
+      "loss": 0.3986496925354004,
+      "memory(GiB)": 41.86,
+      "step": 323,
+      "token_acc": 0.855722891566265,
+      "train_speed(iter/s)": 0.239502
+    },
+    {
+      "epoch": 0.10368,
+      "grad_norm": 0.8850571993628852,
+      "learning_rate": 3.4541577825159916e-06,
+      "loss": 0.42794644832611084,
+      "memory(GiB)": 41.86,
+      "step": 324,
+      "token_acc": 0.8945,
+      "train_speed(iter/s)": 0.239541
+    },
+    {
+      "epoch": 0.104,
+      "grad_norm": 0.7561382219460823,
+      "learning_rate": 3.4648187633262265e-06,
+      "loss": 0.3156163990497589,
+      "memory(GiB)": 41.86,
+      "step": 325,
+      "token_acc": 0.9014801110083256,
+      "train_speed(iter/s)": 0.239579
+    },
+    {
+      "epoch": 0.10432,
+      "grad_norm": 0.8018850874679382,
+      "learning_rate": 3.4754797441364606e-06,
+      "loss": 0.37084078788757324,
+      "memory(GiB)": 41.86,
+      "step": 326,
+      "token_acc": 0.9344957587181904,
+      "train_speed(iter/s)": 0.239627
+    },
+    {
+      "epoch": 0.10464,
+      "grad_norm": 0.7957597062260352,
+      "learning_rate": 3.4861407249466956e-06,
+      "loss": 0.4108327031135559,
+      "memory(GiB)": 41.86,
+      "step": 327,
+      "token_acc": 0.9014998880680546,
+      "train_speed(iter/s)": 0.239637
+    },
+    {
+      "epoch": 0.10496,
+      "grad_norm": 0.8152126421762352,
+      "learning_rate": 3.4968017057569297e-06,
+      "loss": 0.4432401955127716,
+      "memory(GiB)": 41.86,
+      "step": 328,
+      "token_acc": 0.8400329828901257,
+      "train_speed(iter/s)": 0.239583
+    },
+    {
+      "epoch": 0.10528,
+      "grad_norm": 0.952214803581771,
+      "learning_rate": 3.5074626865671646e-06,
+      "loss": 0.35002297163009644,
+      "memory(GiB)": 41.86,
+      "step": 329,
+      "token_acc": 0.9234937838699394,
+      "train_speed(iter/s)": 0.239601
+    },
+    {
+      "epoch": 0.1056,
+      "grad_norm": 0.7613667645598268,
+      "learning_rate": 3.5181236673773987e-06,
+      "loss": 0.3845504820346832,
+      "memory(GiB)": 41.86,
+      "step": 330,
+      "token_acc": 0.8657171922685656,
+      "train_speed(iter/s)": 0.239595
+    },
+    {
+      "epoch": 0.10592,
+      "grad_norm": 0.8622450304184315,
+      "learning_rate": 3.5287846481876337e-06,
+      "loss": 0.3711111545562744,
+      "memory(GiB)": 41.86,
+      "step": 331,
+      "token_acc": 0.854476782937125,
+      "train_speed(iter/s)": 0.239636
+    },
+    {
+      "epoch": 0.10624,
+      "grad_norm": 0.7874981708092135,
+      "learning_rate": 3.5394456289978678e-06,
+      "loss": 0.4309169352054596,
+      "memory(GiB)": 41.86,
+      "step": 332,
+      "token_acc": 0.8622674933569531,
+      "train_speed(iter/s)": 0.239669
+    },
+    {
+      "epoch": 0.10656,
+      "grad_norm": 0.7742216210053041,
+      "learning_rate": 3.5501066098081027e-06,
+      "loss": 0.3693404495716095,
+      "memory(GiB)": 41.86,
+      "step": 333,
+      "token_acc": 0.8703291264538481,
+      "train_speed(iter/s)": 0.23969
+    },
+    {
+      "epoch": 0.10688,
+      "grad_norm": 0.8296664786067333,
+      "learning_rate": 3.560767590618337e-06,
+      "loss": 0.45051077008247375,
+      "memory(GiB)": 41.86,
+      "step": 334,
+      "token_acc": 0.8963150289017341,
+      "train_speed(iter/s)": 0.239683
+    },
+    {
+      "epoch": 0.1072,
+      "grad_norm": 0.7307221043450637,
+      "learning_rate": 3.5714285714285718e-06,
+      "loss": 0.3946268856525421,
+      "memory(GiB)": 41.86,
+      "step": 335,
+      "token_acc": 0.9003807106598984,
+      "train_speed(iter/s)": 0.23968
+    },
+    {
+      "epoch": 0.10752,
+      "grad_norm": 0.7410211155249213,
+      "learning_rate": 3.582089552238806e-06,
+      "loss": 0.4462299346923828,
+      "memory(GiB)": 41.86,
+      "step": 336,
+      "token_acc": 0.8479094076655053,
+      "train_speed(iter/s)": 0.239666
+    },
+    {
+      "epoch": 0.10784,
+      "grad_norm": 0.7754806339585028,
+      "learning_rate": 3.592750533049041e-06,
+      "loss": 0.4262782633304596,
+      "memory(GiB)": 41.86,
+      "step": 337,
+      "token_acc": 0.9305511309334182,
+      "train_speed(iter/s)": 0.239664
+    },
+    {
+      "epoch": 0.10816,
+      "grad_norm": 0.8051320992828622,
+      "learning_rate": 3.603411513859275e-06,
+      "loss": 0.3572915494441986,
+      "memory(GiB)": 41.86,
+      "step": 338,
+      "token_acc": 0.8873587570621468,
+      "train_speed(iter/s)": 0.239678
+    },
+    {
+      "epoch": 0.10848,
+      "grad_norm": 0.733246847654479,
+      "learning_rate": 3.61407249466951e-06,
+      "loss": 0.44792264699935913,
+      "memory(GiB)": 41.86,
+      "step": 339,
+      "token_acc": 0.8476424093758518,
+      "train_speed(iter/s)": 0.239692
+    },
+    {
+      "epoch": 0.1088,
+      "grad_norm": 0.7912846266452469,
+      "learning_rate": 3.624733475479744e-06,
+      "loss": 0.46731969714164734,
+      "memory(GiB)": 41.86,
+      "step": 340,
+      "token_acc": 0.8555702333773668,
+      "train_speed(iter/s)": 0.239703
+    },
+    {
+      "epoch": 0.10912,
+      "grad_norm": 0.736927356523485,
+      "learning_rate": 3.635394456289979e-06,
+      "loss": 0.4212226867675781,
+      "memory(GiB)": 41.86,
+      "step": 341,
+      "token_acc": 0.9051490514905149,
+      "train_speed(iter/s)": 0.239729
+    },
+    {
+      "epoch": 0.10944,
+      "grad_norm": 0.7778660498560286,
+      "learning_rate": 3.6460554371002135e-06,
+      "loss": 0.3919551968574524,
+      "memory(GiB)": 41.86,
+      "step": 342,
+      "token_acc": 0.8815516047102285,
+      "train_speed(iter/s)": 0.239772
+    },
+    {
+      "epoch": 0.10976,
+      "grad_norm": 0.8149419361790912,
+      "learning_rate": 3.656716417910448e-06,
+      "loss": 0.39901018142700195,
+      "memory(GiB)": 41.86,
+      "step": 343,
+      "token_acc": 0.9210890632210429,
+      "train_speed(iter/s)": 0.239771
+    },
+    {
+      "epoch": 0.11008,
+      "grad_norm": 0.824174717150513,
+      "learning_rate": 3.667377398720683e-06,
+      "loss": 0.526077151298523,
+      "memory(GiB)": 41.86,
+      "step": 344,
+      "token_acc": 0.8182519280205656,
+      "train_speed(iter/s)": 0.239766
+    },
+    {
+      "epoch": 0.1104,
+      "grad_norm": 0.8050247094860181,
+      "learning_rate": 3.678038379530917e-06,
+      "loss": 0.4048915505409241,
+      "memory(GiB)": 41.86,
+      "step": 345,
+      "token_acc": 0.8137369033760187,
+      "train_speed(iter/s)": 0.2398
+    },
+    {
+      "epoch": 0.11072,
+      "grad_norm": 0.8889319303598108,
+      "learning_rate": 3.688699360341152e-06,
+      "loss": 0.48911845684051514,
+      "memory(GiB)": 41.86,
+      "step": 346,
+      "token_acc": 0.88710109949048,
+      "train_speed(iter/s)": 0.239831
+    },
+    {
+      "epoch": 0.11104,
+      "grad_norm": 0.771962006372408,
+      "learning_rate": 3.699360341151386e-06,
+      "loss": 0.44773414731025696,
+      "memory(GiB)": 41.86,
+      "step": 347,
+      "token_acc": 0.8486900206064174,
+      "train_speed(iter/s)": 0.239837
+    },
+    {
+      "epoch": 0.11136,
+      "grad_norm": 0.7855268083064286,
+      "learning_rate": 3.710021321961621e-06,
+      "loss": 0.3922199010848999,
+      "memory(GiB)": 41.86,
+      "step": 348,
+      "token_acc": 0.8862332695984704,
+      "train_speed(iter/s)": 0.239886
+    },
+    {
+      "epoch": 0.11168,
+      "grad_norm": 0.7780333044775207,
+      "learning_rate": 3.720682302771855e-06,
+      "loss": 0.4848020374774933,
+      "memory(GiB)": 41.86,
+      "step": 349,
+      "token_acc": 0.8541792547834844,
+      "train_speed(iter/s)": 0.239876
+    },
+    {
+      "epoch": 0.112,
+      "grad_norm": 0.7531072521634083,
+      "learning_rate": 3.73134328358209e-06,
+      "loss": 0.3592837452888489,
+      "memory(GiB)": 41.86,
+      "step": 350,
+      "token_acc": 0.8406832298136646,
+      "train_speed(iter/s)": 0.239897
+    },
+    {
+      "epoch": 0.11232,
+      "grad_norm": 0.7498724144086311,
+      "learning_rate": 3.742004264392324e-06,
+      "loss": 0.3431110978126526,
+      "memory(GiB)": 41.86,
+      "step": 351,
+      "token_acc": 0.9127155172413793,
+      "train_speed(iter/s)": 0.239921
+    },
+    {
+      "epoch": 0.11264,
+      "grad_norm": 0.8302428042709774,
+      "learning_rate": 3.752665245202559e-06,
+      "loss": 0.330912709236145,
+      "memory(GiB)": 41.86,
+      "step": 352,
+      "token_acc": 0.8949831037171823,
+      "train_speed(iter/s)": 0.239962
+    },
+    {
+      "epoch": 0.11296,
+      "grad_norm": 0.7261921312597923,
+      "learning_rate": 3.7633262260127933e-06,
+      "loss": 0.3568934500217438,
+      "memory(GiB)": 41.86,
+      "step": 353,
+      "token_acc": 0.9226932668329177,
+      "train_speed(iter/s)": 0.239989
+    },
+    {
+      "epoch": 0.11328,
+      "grad_norm": 0.8421382692673692,
+      "learning_rate": 3.773987206823028e-06,
+      "loss": 0.47149673104286194,
+      "memory(GiB)": 41.86,
+      "step": 354,
+      "token_acc": 0.8835212023617821,
+      "train_speed(iter/s)": 0.240025
+    },
+    {
+      "epoch": 0.1136,
+      "grad_norm": 0.8178309177653161,
+      "learning_rate": 3.7846481876332623e-06,
+      "loss": 0.4269692897796631,
+      "memory(GiB)": 41.86,
+      "step": 355,
+      "token_acc": 0.865825307206908,
+      "train_speed(iter/s)": 0.240065
+    },
+    {
+      "epoch": 0.11392,
+      "grad_norm": 0.7520845032619242,
+      "learning_rate": 3.7953091684434973e-06,
+      "loss": 0.352092444896698,
+      "memory(GiB)": 41.86,
+      "step": 356,
+      "token_acc": 0.9217210990150337,
+      "train_speed(iter/s)": 0.240087
+    },
+    {
+      "epoch": 0.11424,
+      "grad_norm": 0.7553131788375012,
+      "learning_rate": 3.8059701492537314e-06,
+      "loss": 0.36718976497650146,
+      "memory(GiB)": 41.86,
+      "step": 357,
+      "token_acc": 0.8894668400520156,
+      "train_speed(iter/s)": 0.240066
+    },
+    {
+      "epoch": 0.11456,
+      "grad_norm": 0.7282423141331218,
+      "learning_rate": 3.816631130063966e-06,
+      "loss": 0.3996508717536926,
+      "memory(GiB)": 41.86,
+      "step": 358,
+      "token_acc": 0.8990802883420334,
+      "train_speed(iter/s)": 0.240057
+    },
+    {
+      "epoch": 0.11488,
+      "grad_norm": 0.7526335807089151,
+      "learning_rate": 3.827292110874201e-06,
+      "loss": 0.3580285310745239,
+      "memory(GiB)": 41.86,
+      "step": 359,
+      "token_acc": 0.9510130027214998,
+      "train_speed(iter/s)": 0.240074
+    },
+    {
+      "epoch": 0.1152,
+      "grad_norm": 0.8218029887615841,
+      "learning_rate": 3.837953091684435e-06,
+      "loss": 0.450802206993103,
+      "memory(GiB)": 41.86,
+      "step": 360,
+      "token_acc": 0.8497251069028711,
+      "train_speed(iter/s)": 0.240097
+    },
+    {
+      "epoch": 0.11552,
+      "grad_norm": 0.7904519584196095,
+      "learning_rate": 3.84861407249467e-06,
+      "loss": 0.4368705749511719,
+      "memory(GiB)": 41.86,
+      "step": 361,
+      "token_acc": 0.8363897878460985,
+      "train_speed(iter/s)": 0.24012
+    },
+    {
+      "epoch": 0.11584,
+      "grad_norm": 0.7302492344779764,
+      "learning_rate": 3.859275053304904e-06,
+      "loss": 0.3044324517250061,
+      "memory(GiB)": 41.86,
+      "step": 362,
+      "token_acc": 0.8982739625413148,
+      "train_speed(iter/s)": 0.240154
+    },
+    {
+      "epoch": 0.11616,
+      "grad_norm": 0.7774724645471484,
+      "learning_rate": 3.869936034115139e-06,
+      "loss": 0.4781341552734375,
+      "memory(GiB)": 41.86,
+      "step": 363,
+      "token_acc": 0.857950974230044,
+      "train_speed(iter/s)": 0.240123
+    },
+    {
+      "epoch": 0.11648,
+      "grad_norm": 0.7545295257361067,
+      "learning_rate": 3.8805970149253735e-06,
+      "loss": 0.4697112441062927,
+      "memory(GiB)": 41.86,
+      "step": 364,
+      "token_acc": 0.8474221408008374,
+      "train_speed(iter/s)": 0.240143
+    },
+    {
+      "epoch": 0.1168,
+      "grad_norm": 0.7476157279067588,
+      "learning_rate": 3.891257995735608e-06,
+      "loss": 0.4799872040748596,
+      "memory(GiB)": 41.86,
+      "step": 365,
+      "token_acc": 0.8468684447108181,
+      "train_speed(iter/s)": 0.240112
+    },
+    {
+      "epoch": 0.11712,
+      "grad_norm": 0.7677194936221938,
+      "learning_rate": 3.9019189765458425e-06,
+      "loss": 0.465701162815094,
+      "memory(GiB)": 41.86,
+      "step": 366,
+      "token_acc": 0.8381742738589212,
+      "train_speed(iter/s)": 0.240099
+    },
+    {
+      "epoch": 0.11744,
+      "grad_norm": 0.6863213111500606,
+      "learning_rate": 3.912579957356077e-06,
+      "loss": 0.385974645614624,
+      "memory(GiB)": 41.86,
+      "step": 367,
+      "token_acc": 0.9273029966703663,
+      "train_speed(iter/s)": 0.240123
+    },
+    {
+      "epoch": 0.11776,
+      "grad_norm": 0.7275958820899372,
+      "learning_rate": 3.9232409381663116e-06,
+      "loss": 0.3946908712387085,
+      "memory(GiB)": 41.86,
+      "step": 368,
+      "token_acc": 0.870161857846587,
+      "train_speed(iter/s)": 0.24013
+    },
+    {
+      "epoch": 0.11808,
+      "grad_norm": 0.7407315515360782,
+      "learning_rate": 3.933901918976546e-06,
+      "loss": 0.40255075693130493,
+      "memory(GiB)": 41.86,
+      "step": 369,
+      "token_acc": 0.9352920601608954,
+      "train_speed(iter/s)": 0.240141
+    },
+    {
+      "epoch": 0.1184,
+      "grad_norm": 0.773261969816718,
+      "learning_rate": 3.944562899786781e-06,
+      "loss": 0.422658771276474,
+      "memory(GiB)": 41.86,
+      "step": 370,
+      "token_acc": 0.8209449292807703,
+      "train_speed(iter/s)": 0.240182
+    },
+    {
+      "epoch": 0.11872,
+      "grad_norm": 0.7700094457892259,
+      "learning_rate": 3.955223880597015e-06,
+      "loss": 0.44361627101898193,
+      "memory(GiB)": 41.86,
+      "step": 371,
+      "token_acc": 0.9455719557195572,
+      "train_speed(iter/s)": 0.240218
+    },
+    {
+      "epoch": 0.11904,
+      "grad_norm": 0.6989705349409174,
+      "learning_rate": 3.96588486140725e-06,
+      "loss": 0.4145239293575287,
+      "memory(GiB)": 41.86,
+      "step": 372,
+      "token_acc": 0.9332899446794664,
+      "train_speed(iter/s)": 0.240189
+    },
+    {
+      "epoch": 0.11936,
+      "grad_norm": 0.735679223840469,
+      "learning_rate": 3.976545842217484e-06,
+      "loss": 0.4269680678844452,
+      "memory(GiB)": 41.86,
+      "step": 373,
+      "token_acc": 0.912778366914104,
+      "train_speed(iter/s)": 0.240158
+    },
+    {
+      "epoch": 0.11968,
+      "grad_norm": 0.8093411445983377,
+      "learning_rate": 3.987206823027719e-06,
+      "loss": 0.48450934886932373,
+      "memory(GiB)": 41.86,
+      "step": 374,
+      "token_acc": 0.826995819231535,
+      "train_speed(iter/s)": 0.240158
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.8135031846129209,
+      "learning_rate": 3.997867803837953e-06,
+      "loss": 0.4589880406856537,
+      "memory(GiB)": 41.86,
+      "step": 375,
+      "token_acc": 0.8431681091004458,
+      "train_speed(iter/s)": 0.240165
+    },
+    {
+      "epoch": 0.12032,
+      "grad_norm": 0.7815460707460408,
+      "learning_rate": 4.008528784648188e-06,
+      "loss": 0.4284605085849762,
+      "memory(GiB)": 41.86,
+      "step": 376,
+      "token_acc": 0.898191365227538,
+      "train_speed(iter/s)": 0.240166
+    },
+    {
+      "epoch": 0.12064,
+      "grad_norm": 0.7435575573863752,
+      "learning_rate": 4.019189765458423e-06,
+      "loss": 0.3345129191875458,
+      "memory(GiB)": 41.86,
+      "step": 377,
+      "token_acc": 0.8550092297365329,
+      "train_speed(iter/s)": 0.240056
+    },
+    {
+      "epoch": 0.12096,
+      "grad_norm": 0.7655961900097236,
+      "learning_rate": 4.029850746268657e-06,
+      "loss": 0.4017585813999176,
+      "memory(GiB)": 41.86,
+      "step": 378,
+      "token_acc": 0.9394449116904963,
+      "train_speed(iter/s)": 0.240052
+    },
+    {
+      "epoch": 0.12128,
+      "grad_norm": 0.8067643385072492,
+      "learning_rate": 4.040511727078892e-06,
+      "loss": 0.3989643454551697,
+      "memory(GiB)": 41.86,
+      "step": 379,
+      "token_acc": 0.8813004032258065,
+      "train_speed(iter/s)": 0.239943
+    },
+    {
+      "epoch": 0.1216,
+      "grad_norm": 1.718016733899616,
+      "learning_rate": 4.051172707889126e-06,
+      "loss": 0.39728641510009766,
+      "memory(GiB)": 41.86,
+      "step": 380,
+      "token_acc": 0.9034386939909691,
+      "train_speed(iter/s)": 0.239935
+    },
+    {
+      "epoch": 0.12192,
+      "grad_norm": 1.757951900483168,
+      "learning_rate": 4.061833688699361e-06,
+      "loss": 0.379787415266037,
+      "memory(GiB)": 41.86,
+      "step": 381,
+      "token_acc": 0.8648801128349789,
+      "train_speed(iter/s)": 0.239964
+    },
+    {
+      "epoch": 0.12224,
+      "grad_norm": 0.775454136881726,
+      "learning_rate": 4.072494669509595e-06,
+      "loss": 0.4977129399776459,
+      "memory(GiB)": 41.86,
+      "step": 382,
+      "token_acc": 0.8454140276800375,
+      "train_speed(iter/s)": 0.239919
+    },
+    {
+      "epoch": 0.12256,
+      "grad_norm": 0.7733519340415651,
+      "learning_rate": 4.08315565031983e-06,
+      "loss": 0.3979816734790802,
+      "memory(GiB)": 41.86,
+      "step": 383,
+      "token_acc": 0.7728927471296556,
+      "train_speed(iter/s)": 0.239909
+    },
+    {
+      "epoch": 0.12288,
+      "grad_norm": 0.8402691151342786,
+      "learning_rate": 4.093816631130064e-06,
+      "loss": 0.5106043219566345,
+      "memory(GiB)": 41.86,
+      "step": 384,
+      "token_acc": 0.8933107535986452,
+      "train_speed(iter/s)": 0.239935
+    },
+    {
+      "epoch": 0.1232,
+      "grad_norm": 0.7023813981668535,
+      "learning_rate": 4.104477611940299e-06,
+      "loss": 0.5310304164886475,
+      "memory(GiB)": 41.86,
+      "step": 385,
+      "token_acc": 0.8799791720906014,
+      "train_speed(iter/s)": 0.239951
+    },
+    {
+      "epoch": 0.12352,
+      "grad_norm": 0.7265062456834858,
+      "learning_rate": 4.115138592750533e-06,
+      "loss": 0.39796650409698486,
+      "memory(GiB)": 41.86,
+      "step": 386,
+      "token_acc": 0.8823662737987308,
+      "train_speed(iter/s)": 0.239942
+    },
+    {
+      "epoch": 0.12384,
+      "grad_norm": 0.7506293693035885,
+      "learning_rate": 4.125799573560768e-06,
+      "loss": 0.413953959941864,
+      "memory(GiB)": 41.86,
+      "step": 387,
+      "token_acc": 0.923922734026746,
+      "train_speed(iter/s)": 0.239935
+    },
+    {
+      "epoch": 0.12416,
+      "grad_norm": 0.7663775978180519,
+      "learning_rate": 4.136460554371002e-06,
+      "loss": 0.3362416625022888,
+      "memory(GiB)": 41.86,
+      "step": 388,
+      "token_acc": 0.880661784648766,
+      "train_speed(iter/s)": 0.239977
+    },
+    {
+      "epoch": 0.12448,
+      "grad_norm": 0.9162291808368352,
+      "learning_rate": 4.1471215351812375e-06,
+      "loss": 0.3517610430717468,
+      "memory(GiB)": 41.86,
+      "step": 389,
+      "token_acc": 0.9295361127422196,
+      "train_speed(iter/s)": 0.239971
+    },
+    {
+      "epoch": 0.1248,
+      "grad_norm": 0.7663814440527071,
+      "learning_rate": 4.157782515991471e-06,
+      "loss": 0.377957820892334,
+      "memory(GiB)": 41.86,
+      "step": 390,
+      "token_acc": 0.8766485647788984,
+      "train_speed(iter/s)": 0.23998
+    },
+    {
+      "epoch": 0.12512,
+      "grad_norm": 0.6921934023407951,
+      "learning_rate": 4.1684434968017065e-06,
+      "loss": 0.4640156626701355,
+      "memory(GiB)": 41.86,
+      "step": 391,
+      "token_acc": 0.8496423927178154,
+      "train_speed(iter/s)": 0.239965
+    },
+    {
+      "epoch": 0.12544,
+      "grad_norm": 0.7079993243828792,
+      "learning_rate": 4.17910447761194e-06,
+      "loss": 0.39487916231155396,
+      "memory(GiB)": 41.86,
+      "step": 392,
+      "token_acc": 0.8871794871794871,
+      "train_speed(iter/s)": 0.23997
+    },
+    {
+      "epoch": 0.12576,
+      "grad_norm": 0.7766078757175032,
+      "learning_rate": 4.1897654584221756e-06,
+      "loss": 0.43649888038635254,
+      "memory(GiB)": 41.86,
+      "step": 393,
+      "token_acc": 0.8670482060312569,
+      "train_speed(iter/s)": 0.239972
+    },
+    {
+      "epoch": 0.12608,
+      "grad_norm": 0.7316527075838458,
+      "learning_rate": 4.200426439232409e-06,
+      "loss": 0.3862738609313965,
+      "memory(GiB)": 41.86,
+      "step": 394,
+      "token_acc": 0.9273544723142452,
+      "train_speed(iter/s)": 0.240008
+    },
+    {
+      "epoch": 0.1264,
+      "grad_norm": 0.7434056255747994,
+      "learning_rate": 4.211087420042645e-06,
+      "loss": 0.41236862540245056,
+      "memory(GiB)": 41.86,
+      "step": 395,
+      "token_acc": 0.9092567259461924,
+      "train_speed(iter/s)": 0.240018
+    },
+    {
+      "epoch": 0.12672,
+      "grad_norm": 0.7153061373961977,
+      "learning_rate": 4.221748400852878e-06,
+      "loss": 0.5322939157485962,
+      "memory(GiB)": 41.86,
+      "step": 396,
+      "token_acc": 0.8658568787958807,
+      "train_speed(iter/s)": 0.239998
+    },
+    {
+      "epoch": 0.12704,
+      "grad_norm": 0.7601207770566222,
+      "learning_rate": 4.232409381663114e-06,
+      "loss": 0.4317474961280823,
+      "memory(GiB)": 41.86,
+      "step": 397,
+      "token_acc": 0.7674003569303985,
+      "train_speed(iter/s)": 0.240019
+    },
+    {
+      "epoch": 0.12736,
+      "grad_norm": 0.6946456867117251,
+      "learning_rate": 4.243070362473347e-06,
+      "loss": 0.35670924186706543,
+      "memory(GiB)": 41.86,
+      "step": 398,
+      "token_acc": 0.8712706029626539,
+      "train_speed(iter/s)": 0.239993
+    },
+    {
+      "epoch": 0.12768,
+      "grad_norm": 0.7553498390201221,
+      "learning_rate": 4.253731343283583e-06,
+      "loss": 0.40526312589645386,
+      "memory(GiB)": 41.86,
+      "step": 399,
+      "token_acc": 0.8783199505867819,
+      "train_speed(iter/s)": 0.239988
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 0.7811725173896594,
+      "learning_rate": 4.264392324093816e-06,
+      "loss": 0.3615596294403076,
+      "memory(GiB)": 41.86,
+      "step": 400,
+      "token_acc": 0.9290891900409707,
+      "train_speed(iter/s)": 0.240012
+    },
+    {
+      "epoch": 0.12832,
+      "grad_norm": 0.7866015499091803,
+      "learning_rate": 4.275053304904052e-06,
+      "loss": 0.38750189542770386,
+      "memory(GiB)": 41.86,
+      "step": 401,
+      "token_acc": 0.8667833041739565,
+      "train_speed(iter/s)": 0.240027
+    },
+    {
+      "epoch": 0.12864,
+      "grad_norm": 0.7373717445797089,
+      "learning_rate": 4.2857142857142855e-06,
+      "loss": 0.4126596450805664,
+      "memory(GiB)": 41.86,
+      "step": 402,
+      "token_acc": 0.9262400411205346,
+      "train_speed(iter/s)": 0.240044
+    },
+    {
+      "epoch": 0.12896,
+      "grad_norm": 0.7773800117067331,
+      "learning_rate": 4.296375266524521e-06,
+      "loss": 0.3075929880142212,
+      "memory(GiB)": 41.86,
+      "step": 403,
+      "token_acc": 0.9309576837416481,
+      "train_speed(iter/s)": 0.240018
+    },
+    {
+      "epoch": 0.12928,
+      "grad_norm": 0.712221683785275,
+      "learning_rate": 4.3070362473347545e-06,
+      "loss": 0.4430937170982361,
+      "memory(GiB)": 41.86,
+      "step": 404,
+      "token_acc": 0.9010587102983638,
+      "train_speed(iter/s)": 0.24001
+    },
+    {
+      "epoch": 0.1296,
+      "grad_norm": 0.7826397610224037,
+      "learning_rate": 4.31769722814499e-06,
+      "loss": 0.44257938861846924,
+      "memory(GiB)": 41.86,
+      "step": 405,
+      "token_acc": 0.8016378525932666,
+      "train_speed(iter/s)": 0.240014
+    },
+    {
+      "epoch": 0.12992,
+      "grad_norm": 0.8285583514033186,
+      "learning_rate": 4.3283582089552236e-06,
+      "loss": 0.45782554149627686,
+      "memory(GiB)": 41.86,
+      "step": 406,
+      "token_acc": 0.7941988950276243,
+      "train_speed(iter/s)": 0.240046
+    },
+    {
+      "epoch": 0.13024,
+      "grad_norm": 0.768155231125396,
+      "learning_rate": 4.339019189765459e-06,
+      "loss": 0.4277716875076294,
+      "memory(GiB)": 41.86,
+      "step": 407,
+      "token_acc": 0.8998406555884362,
+      "train_speed(iter/s)": 0.240059
+    },
+    {
+      "epoch": 0.13056,
+      "grad_norm": 0.7180765512185124,
+      "learning_rate": 4.3496801705756935e-06,
+      "loss": 0.4476096034049988,
+      "memory(GiB)": 41.86,
+      "step": 408,
+      "token_acc": 0.8737541528239202,
+      "train_speed(iter/s)": 0.240056
+    },
+    {
+      "epoch": 0.13088,
+      "grad_norm": 0.744575187407348,
+      "learning_rate": 4.360341151385928e-06,
+      "loss": 0.44965660572052,
+      "memory(GiB)": 41.86,
+      "step": 409,
+      "token_acc": 0.8786349435231915,
+      "train_speed(iter/s)": 0.240061
+    },
+    {
+      "epoch": 0.1312,
+      "grad_norm": 0.9191869571838321,
+      "learning_rate": 4.3710021321961625e-06,
+      "loss": 0.40606701374053955,
+      "memory(GiB)": 41.86,
+      "step": 410,
+      "token_acc": 0.8825796505652621,
+      "train_speed(iter/s)": 0.240083
+    },
+    {
+      "epoch": 0.13152,
+      "grad_norm": 0.7465810851327056,
+      "learning_rate": 4.381663113006397e-06,
+      "loss": 0.4159611165523529,
+      "memory(GiB)": 41.86,
+      "step": 411,
+      "token_acc": 0.9019670050761421,
+      "train_speed(iter/s)": 0.240099
+    },
+    {
+      "epoch": 0.13184,
+      "grad_norm": 0.7034535707270476,
+      "learning_rate": 4.3923240938166316e-06,
+      "loss": 0.4414001405239105,
+      "memory(GiB)": 41.86,
+      "step": 412,
+      "token_acc": 0.9004438807863031,
+      "train_speed(iter/s)": 0.240129
+    },
+    {
+      "epoch": 0.13216,
+      "grad_norm": 0.7835451099058026,
+      "learning_rate": 4.402985074626866e-06,
+      "loss": 0.46758919954299927,
+      "memory(GiB)": 41.86,
+      "step": 413,
+      "token_acc": 0.8863487916394513,
+      "train_speed(iter/s)": 0.240153
+    },
+    {
+      "epoch": 0.13248,
+      "grad_norm": 0.752558344923947,
+      "learning_rate": 4.413646055437101e-06,
+      "loss": 0.4206882417201996,
+      "memory(GiB)": 41.86,
+      "step": 414,
+      "token_acc": 0.8710639708319523,
+      "train_speed(iter/s)": 0.240139
+    },
+    {
+      "epoch": 0.1328,
+      "grad_norm": 0.7430963428060228,
+      "learning_rate": 4.424307036247335e-06,
+      "loss": 0.41270163655281067,
+      "memory(GiB)": 41.86,
+      "step": 415,
+      "token_acc": 0.8815420560747663,
+      "train_speed(iter/s)": 0.240167
+    },
+    {
+      "epoch": 0.13312,
+      "grad_norm": 0.7888810815113609,
+      "learning_rate": 4.43496801705757e-06,
+      "loss": 0.38972175121307373,
+      "memory(GiB)": 41.86,
+      "step": 416,
+      "token_acc": 0.9167408726625111,
+      "train_speed(iter/s)": 0.240185
+    },
+    {
+      "epoch": 0.13344,
+      "grad_norm": 0.7056235377476282,
+      "learning_rate": 4.445628997867804e-06,
+      "loss": 0.3448014557361603,
+      "memory(GiB)": 41.86,
+      "step": 417,
+      "token_acc": 0.8757145881854753,
+      "train_speed(iter/s)": 0.240209
+    },
+    {
+      "epoch": 0.13376,
+      "grad_norm": 0.7454870663762059,
+      "learning_rate": 4.456289978678039e-06,
+      "loss": 0.4793194830417633,
+      "memory(GiB)": 41.86,
+      "step": 418,
+      "token_acc": 0.8903645097485166,
+      "train_speed(iter/s)": 0.240192
+    },
+    {
+      "epoch": 0.13408,
+      "grad_norm": 0.7707599928901607,
+      "learning_rate": 4.466950959488273e-06,
+      "loss": 0.4438665509223938,
+      "memory(GiB)": 41.86,
+      "step": 419,
+      "token_acc": 0.8519658929417337,
+      "train_speed(iter/s)": 0.240211
+    },
+    {
+      "epoch": 0.1344,
+      "grad_norm": 0.7187785205838252,
+      "learning_rate": 4.477611940298508e-06,
+      "loss": 0.4235180616378784,
+      "memory(GiB)": 41.86,
+      "step": 420,
+      "token_acc": 0.9256472004816376,
+      "train_speed(iter/s)": 0.240219
+    },
+    {
+      "epoch": 0.13472,
+      "grad_norm": 0.7404468763941686,
+      "learning_rate": 4.488272921108742e-06,
+      "loss": 0.4464147090911865,
+      "memory(GiB)": 41.86,
+      "step": 421,
+      "token_acc": 0.8301381158524016,
+      "train_speed(iter/s)": 0.240222
+    },
+    {
+      "epoch": 0.13504,
+      "grad_norm": 0.8017665523022893,
+      "learning_rate": 4.498933901918977e-06,
+      "loss": 0.3687342405319214,
+      "memory(GiB)": 41.86,
+      "step": 422,
+      "token_acc": 0.9111111111111111,
+      "train_speed(iter/s)": 0.240244
+    },
+    {
+      "epoch": 0.13536,
+      "grad_norm": 0.761276366099309,
+      "learning_rate": 4.509594882729211e-06,
+      "loss": 0.4876147508621216,
+      "memory(GiB)": 41.86,
+      "step": 423,
+      "token_acc": 0.8697703680402642,
+      "train_speed(iter/s)": 0.240242
+    },
+    {
+      "epoch": 0.13568,
+      "grad_norm": 0.7978566775395347,
+      "learning_rate": 4.520255863539446e-06,
+      "loss": 0.37016117572784424,
+      "memory(GiB)": 41.86,
+      "step": 424,
+      "token_acc": 0.9299495399228258,
+      "train_speed(iter/s)": 0.240234
+    },
+    {
+      "epoch": 0.136,
+      "grad_norm": 0.7095380060039164,
+      "learning_rate": 4.53091684434968e-06,
+      "loss": 0.4326656460762024,
+      "memory(GiB)": 41.86,
+      "step": 425,
+      "token_acc": 0.9297205757832345,
+      "train_speed(iter/s)": 0.240232
+    },
+    {
+      "epoch": 0.13632,
+      "grad_norm": 0.7372710984992958,
+      "learning_rate": 4.541577825159915e-06,
+      "loss": 0.35109943151474,
+      "memory(GiB)": 41.86,
+      "step": 426,
+      "token_acc": 0.8405618531296205,
+      "train_speed(iter/s)": 0.240262
+    },
+    {
+      "epoch": 0.13664,
+      "grad_norm": 0.7662770574387595,
+      "learning_rate": 4.5522388059701495e-06,
+      "loss": 0.3724941611289978,
+      "memory(GiB)": 41.86,
+      "step": 427,
+      "token_acc": 0.9322444041137327,
+      "train_speed(iter/s)": 0.240288
+    },
+    {
+      "epoch": 0.13696,
+      "grad_norm": 0.8432262416769227,
+      "learning_rate": 4.562899786780384e-06,
+      "loss": 0.5000088214874268,
+      "memory(GiB)": 41.86,
+      "step": 428,
+      "token_acc": 0.8317720530835285,
+      "train_speed(iter/s)": 0.240319
+    },
+    {
+      "epoch": 0.13728,
+      "grad_norm": 0.7153037158778891,
+      "learning_rate": 4.5735607675906185e-06,
+      "loss": 0.3968162536621094,
+      "memory(GiB)": 41.86,
+      "step": 429,
+      "token_acc": 0.9204374057315233,
+      "train_speed(iter/s)": 0.240317
+    },
+    {
+      "epoch": 0.1376,
+      "grad_norm": 0.7879976690757311,
+      "learning_rate": 4.584221748400853e-06,
+      "loss": 0.4961619973182678,
+      "memory(GiB)": 41.86,
+      "step": 430,
+      "token_acc": 0.8190070921985816,
+      "train_speed(iter/s)": 0.240338
+    },
+    {
+      "epoch": 0.13792,
+      "grad_norm": 0.6977160477577248,
+      "learning_rate": 4.5948827292110876e-06,
+      "loss": 0.30530205368995667,
+      "memory(GiB)": 41.86,
+      "step": 431,
+      "token_acc": 0.9016697588126159,
+      "train_speed(iter/s)": 0.240335
+    },
+    {
+      "epoch": 0.13824,
+      "grad_norm": 0.6953309402251618,
+      "learning_rate": 4.605543710021322e-06,
+      "loss": 0.41661763191223145,
+      "memory(GiB)": 41.86,
+      "step": 432,
+      "token_acc": 0.8389189189189189,
+      "train_speed(iter/s)": 0.240304
+    },
+    {
+      "epoch": 0.13856,
+      "grad_norm": 0.7474166896200634,
+      "learning_rate": 4.616204690831557e-06,
+      "loss": 0.36193764209747314,
+      "memory(GiB)": 41.86,
+      "step": 433,
+      "token_acc": 0.9236089280100598,
+      "train_speed(iter/s)": 0.240336
+    },
+    {
+      "epoch": 0.13888,
+      "grad_norm": 0.7738101619319373,
+      "learning_rate": 4.626865671641791e-06,
+      "loss": 0.3570512533187866,
+      "memory(GiB)": 41.86,
+      "step": 434,
+      "token_acc": 0.9176392130710237,
+      "train_speed(iter/s)": 0.240367
+    },
+    {
+      "epoch": 0.1392,
+      "grad_norm": 0.8087937542556393,
+      "learning_rate": 4.637526652452026e-06,
+      "loss": 0.43259045481681824,
+      "memory(GiB)": 41.86,
+      "step": 435,
+      "token_acc": 0.9086770981507823,
+      "train_speed(iter/s)": 0.240384
+    },
+    {
+      "epoch": 0.13952,
+      "grad_norm": 0.6726719607850847,
+      "learning_rate": 4.64818763326226e-06,
+      "loss": 0.41652774810791016,
+      "memory(GiB)": 41.86,
+      "step": 436,
+      "token_acc": 0.9400399733510992,
+      "train_speed(iter/s)": 0.240094
+    },
+    {
+      "epoch": 0.13984,
+      "grad_norm": 0.6616737389189811,
+      "learning_rate": 4.658848614072495e-06,
+      "loss": 0.4289194643497467,
+      "memory(GiB)": 41.86,
+      "step": 437,
+      "token_acc": 0.9163356504468719,
+      "train_speed(iter/s)": 0.240061
+    },
+    {
+      "epoch": 0.14016,
+      "grad_norm": 0.7403211547819922,
+      "learning_rate": 4.669509594882729e-06,
+      "loss": 0.49350762367248535,
+      "memory(GiB)": 41.86,
+      "step": 438,
+      "token_acc": 0.8215900527505652,
+      "train_speed(iter/s)": 0.240037
+    },
+    {
+      "epoch": 0.14048,
+      "grad_norm": 0.7161783880219333,
+      "learning_rate": 4.680170575692965e-06,
+      "loss": 0.35738128423690796,
+      "memory(GiB)": 41.86,
+      "step": 439,
+      "token_acc": 0.9297218155197657,
+      "train_speed(iter/s)": 0.240044
+    },
+    {
+      "epoch": 0.1408,
+      "grad_norm": 0.7504870165713982,
+      "learning_rate": 4.690831556503198e-06,
+      "loss": 0.3570151627063751,
+      "memory(GiB)": 41.86,
+      "step": 440,
+      "token_acc": 0.9445692883895132,
+      "train_speed(iter/s)": 0.240046
+    },
+    {
+      "epoch": 0.14112,
+      "grad_norm": 0.7592062989689758,
+      "learning_rate": 4.701492537313434e-06,
+      "loss": 0.3971911072731018,
+      "memory(GiB)": 41.86,
+      "step": 441,
+      "token_acc": 0.9380883417813178,
+      "train_speed(iter/s)": 0.240077
+    },
+    {
+      "epoch": 0.14144,
+      "grad_norm": 0.8042941701744262,
+      "learning_rate": 4.712153518123667e-06,
+      "loss": 0.4420316517353058,
+      "memory(GiB)": 41.86,
+      "step": 442,
+      "token_acc": 0.8800949742777998,
+      "train_speed(iter/s)": 0.239943
+    },
+    {
+      "epoch": 0.14176,
+      "grad_norm": 0.6990729085460707,
+      "learning_rate": 4.722814498933903e-06,
+      "loss": 0.4328658878803253,
+      "memory(GiB)": 41.86,
+      "step": 443,
+      "token_acc": 0.8723994452149791,
+      "train_speed(iter/s)": 0.239934
+    },
+    {
+      "epoch": 0.14208,
+      "grad_norm": 0.7089131366462694,
+      "learning_rate": 4.733475479744136e-06,
+      "loss": 0.3094528913497925,
+      "memory(GiB)": 41.86,
+      "step": 444,
+      "token_acc": 0.9335020708697653,
+      "train_speed(iter/s)": 0.239942
+    },
+    {
+      "epoch": 0.1424,
+      "grad_norm": 0.7633606194441576,
+      "learning_rate": 4.744136460554372e-06,
+      "loss": 0.4399607479572296,
+      "memory(GiB)": 41.86,
+      "step": 445,
+      "token_acc": 0.9007518796992481,
+      "train_speed(iter/s)": 0.239953
+    },
+    {
+      "epoch": 0.14272,
+      "grad_norm": 0.7430419652234066,
+      "learning_rate": 4.7547974413646055e-06,
+      "loss": 0.49510475993156433,
+      "memory(GiB)": 41.86,
+      "step": 446,
+      "token_acc": 0.7972686602307512,
+      "train_speed(iter/s)": 0.239925
+    },
+    {
+      "epoch": 0.14304,
+      "grad_norm": 0.7440256957472273,
+      "learning_rate": 4.765458422174841e-06,
+      "loss": 0.4689873456954956,
+      "memory(GiB)": 41.86,
+      "step": 447,
+      "token_acc": 0.8642521426596627,
+      "train_speed(iter/s)": 0.239932
+    },
+    {
+      "epoch": 0.14336,
+      "grad_norm": 0.6725343500564533,
+      "learning_rate": 4.7761194029850745e-06,
+      "loss": 0.3653256595134735,
+      "memory(GiB)": 41.86,
+      "step": 448,
+      "token_acc": 0.8990066225165563,
+      "train_speed(iter/s)": 0.239948
+    },
+    {
+      "epoch": 0.14368,
+      "grad_norm": 0.7904043217230909,
+      "learning_rate": 4.78678038379531e-06,
+      "loss": 0.4147486686706543,
+      "memory(GiB)": 41.86,
+      "step": 449,
+      "token_acc": 0.8922895821071218,
+      "train_speed(iter/s)": 0.239959
+    },
+    {
+      "epoch": 0.144,
+      "grad_norm": 0.9201541246575352,
+      "learning_rate": 4.797441364605544e-06,
+      "loss": 0.3903222382068634,
+      "memory(GiB)": 41.86,
+      "step": 450,
+      "token_acc": 0.8998664886515354,
+      "train_speed(iter/s)": 0.239966
+    },
+    {
+      "epoch": 0.14432,
+      "grad_norm": 0.7552304831771183,
+      "learning_rate": 4.808102345415779e-06,
+      "loss": 0.3928183913230896,
+      "memory(GiB)": 41.86,
+      "step": 451,
+      "token_acc": 0.8961079723791588,
+      "train_speed(iter/s)": 0.239951
+    },
+    {
+      "epoch": 0.14464,
+      "grad_norm": 0.7736122525851844,
+      "learning_rate": 4.8187633262260135e-06,
+      "loss": 0.4385005235671997,
+      "memory(GiB)": 41.86,
+      "step": 452,
+      "token_acc": 0.9022761009401287,
+      "train_speed(iter/s)": 0.239951
+    },
+    {
+      "epoch": 0.14496,
+      "grad_norm": 0.7072463280257577,
+      "learning_rate": 4.829424307036248e-06,
+      "loss": 0.3216584324836731,
+      "memory(GiB)": 41.86,
+      "step": 453,
+      "token_acc": 0.9247311827956989,
+      "train_speed(iter/s)": 0.239941
+    },
+    {
+      "epoch": 0.14528,
+      "grad_norm": 0.7457360886970802,
+      "learning_rate": 4.8400852878464825e-06,
+      "loss": 0.3786621689796448,
+      "memory(GiB)": 41.86,
+      "step": 454,
+      "token_acc": 0.8299975886182783,
+      "train_speed(iter/s)": 0.239947
+    },
+    {
+      "epoch": 0.1456,
+      "grad_norm": 0.7864093748532963,
+      "learning_rate": 4.850746268656717e-06,
+      "loss": 0.49379590153694153,
+      "memory(GiB)": 41.86,
+      "step": 455,
+      "token_acc": 0.8751440645409143,
+      "train_speed(iter/s)": 0.23997
+    },
+    {
+      "epoch": 0.14592,
+      "grad_norm": 0.7345535425279534,
+      "learning_rate": 4.8614072494669516e-06,
+      "loss": 0.41603416204452515,
+      "memory(GiB)": 41.86,
+      "step": 456,
+      "token_acc": 0.8583906829010058,
+      "train_speed(iter/s)": 0.239838
+    },
+    {
+      "epoch": 0.14624,
+      "grad_norm": 0.7091103517940073,
+      "learning_rate": 4.872068230277186e-06,
+      "loss": 0.39392971992492676,
+      "memory(GiB)": 41.86,
+      "step": 457,
+      "token_acc": 0.8898061737257718,
+      "train_speed(iter/s)": 0.239827
+    },
+    {
+      "epoch": 0.14656,
+      "grad_norm": 0.7782122897677997,
+      "learning_rate": 4.882729211087421e-06,
+      "loss": 0.3989648222923279,
+      "memory(GiB)": 41.86,
+      "step": 458,
+      "token_acc": 0.8714069591527988,
+      "train_speed(iter/s)": 0.239848
+    },
+    {
+      "epoch": 0.14688,
+      "grad_norm": 0.7247215470470478,
+      "learning_rate": 4.893390191897655e-06,
+      "loss": 0.41792333126068115,
+      "memory(GiB)": 41.86,
+      "step": 459,
+      "token_acc": 0.8623000432338954,
+      "train_speed(iter/s)": 0.239862
+    },
+    {
+      "epoch": 0.1472,
+      "grad_norm": 0.7411204235082078,
+      "learning_rate": 4.90405117270789e-06,
+      "loss": 0.3991488218307495,
+      "memory(GiB)": 41.86,
+      "step": 460,
+      "token_acc": 0.909718228867165,
+      "train_speed(iter/s)": 0.239853
+    },
+    {
+      "epoch": 0.14752,
+      "grad_norm": 0.726473952304273,
+      "learning_rate": 4.914712153518124e-06,
+      "loss": 0.4299595355987549,
+      "memory(GiB)": 41.86,
+      "step": 461,
+      "token_acc": 0.8895800933125972,
+      "train_speed(iter/s)": 0.239853
+    },
+    {
+      "epoch": 0.14784,
+      "grad_norm": 0.7654793955413849,
+      "learning_rate": 4.925373134328359e-06,
+      "loss": 0.3551526665687561,
+      "memory(GiB)": 41.86,
+      "step": 462,
+      "token_acc": 0.9072555205047319,
+      "train_speed(iter/s)": 0.239873
+    },
+    {
+      "epoch": 0.14816,
+      "grad_norm": 0.7279016828892926,
+      "learning_rate": 4.936034115138593e-06,
+      "loss": 0.3636777997016907,
+      "memory(GiB)": 41.86,
+      "step": 463,
+      "token_acc": 0.9270650263620387,
+      "train_speed(iter/s)": 0.239884
+    },
+    {
+      "epoch": 0.14848,
+      "grad_norm": 0.7040017645343032,
+      "learning_rate": 4.946695095948828e-06,
+      "loss": 0.42778918147087097,
+      "memory(GiB)": 41.86,
+      "step": 464,
+      "token_acc": 0.9013877207737595,
+      "train_speed(iter/s)": 0.239853
+    },
+    {
+      "epoch": 0.1488,
+      "grad_norm": 0.7737532111703186,
+      "learning_rate": 4.957356076759062e-06,
+      "loss": 0.4469106197357178,
+      "memory(GiB)": 41.86,
+      "step": 465,
+      "token_acc": 0.8488549618320611,
+      "train_speed(iter/s)": 0.239854
+    },
+    {
+      "epoch": 0.14912,
+      "grad_norm": 0.9057637791546586,
+      "learning_rate": 4.968017057569297e-06,
+      "loss": 0.30127114057540894,
+      "memory(GiB)": 41.86,
+      "step": 466,
+      "token_acc": 0.9355459355459356,
+      "train_speed(iter/s)": 0.239886
+    },
+    {
+      "epoch": 0.14944,
+      "grad_norm": 0.7049343362262128,
+      "learning_rate": 4.978678038379531e-06,
+      "loss": 0.36840489506721497,
+      "memory(GiB)": 41.86,
+      "step": 467,
+      "token_acc": 0.9286043298019346,
+      "train_speed(iter/s)": 0.239917
+    },
+    {
+      "epoch": 0.14976,
+      "grad_norm": 0.720030589818441,
+      "learning_rate": 4.989339019189766e-06,
+      "loss": 0.34791100025177,
+      "memory(GiB)": 41.86,
+      "step": 468,
+      "token_acc": 0.9290364583333334,
+      "train_speed(iter/s)": 0.239905
+    },
+    {
+      "epoch": 0.15008,
+      "grad_norm": 0.704374308701066,
+      "learning_rate": 5e-06,
+      "loss": 0.4260786771774292,
+      "memory(GiB)": 41.86,
+      "step": 469,
+      "token_acc": 0.8302900107411385,
+      "train_speed(iter/s)": 0.239905
+    },
+    {
+      "epoch": 0.1504,
+      "grad_norm": 1.6087275965721095,
+      "learning_rate": 4.9999998444591845e-06,
+      "loss": 0.43194711208343506,
+      "memory(GiB)": 41.86,
+      "step": 470,
+      "token_acc": 0.860344356381525,
+      "train_speed(iter/s)": 0.239915
+    },
+    {
+      "epoch": 0.15072,
+      "grad_norm": 0.7135343064631954,
+      "learning_rate": 4.999999377836757e-06,
+      "loss": 0.4190048575401306,
+      "memory(GiB)": 41.86,
+      "step": 471,
+      "token_acc": 0.8626387813064808,
+      "train_speed(iter/s)": 0.23994
+    },
+    {
+      "epoch": 0.15104,
+      "grad_norm": 0.782678070824646,
+      "learning_rate": 4.9999986001327745e-06,
+      "loss": 0.4323235750198364,
+      "memory(GiB)": 41.86,
+      "step": 472,
+      "token_acc": 0.8596032265097013,
+      "train_speed(iter/s)": 0.239931
+    },
+    {
+      "epoch": 0.15136,
+      "grad_norm": 0.70330573232026,
+      "learning_rate": 4.9999975113473356e-06,
+      "loss": 0.4587031900882721,
+      "memory(GiB)": 41.86,
+      "step": 473,
+      "token_acc": 0.8145837814583782,
+      "train_speed(iter/s)": 0.239935
+    },
+    {
+      "epoch": 0.15168,
+      "grad_norm": 0.722100170075211,
+      "learning_rate": 4.999996111480575e-06,
+      "loss": 0.3733265995979309,
+      "memory(GiB)": 41.86,
+      "step": 474,
+      "token_acc": 0.8543113671014738,
+      "train_speed(iter/s)": 0.239944
+    },
+    {
+      "epoch": 0.152,
+      "grad_norm": 0.7827326854948343,
+      "learning_rate": 4.999994400532666e-06,
+      "loss": 0.5017992258071899,
+      "memory(GiB)": 41.86,
+      "step": 475,
+      "token_acc": 0.798049573344169,
+      "train_speed(iter/s)": 0.239947
+    },
+    {
+      "epoch": 0.15232,
+      "grad_norm": 0.7294363979848841,
+      "learning_rate": 4.999992378503823e-06,
+      "loss": 0.4337218999862671,
+      "memory(GiB)": 41.86,
+      "step": 476,
+      "token_acc": 0.8789083200847907,
+      "train_speed(iter/s)": 0.239912
+    },
+    {
+      "epoch": 0.15264,
+      "grad_norm": 0.6830801834186843,
+      "learning_rate": 4.999990045394296e-06,
+      "loss": 0.3844829201698303,
+      "memory(GiB)": 41.86,
+      "step": 477,
+      "token_acc": 0.9175998309740122,
+      "train_speed(iter/s)": 0.239924
+    },
+    {
+      "epoch": 0.15296,
+      "grad_norm": 0.7574361362858754,
+      "learning_rate": 4.999987401204377e-06,
+      "loss": 0.3935595154762268,
+      "memory(GiB)": 41.86,
+      "step": 478,
+      "token_acc": 0.8889947594092424,
+      "train_speed(iter/s)": 0.239945
+    },
+    {
+      "epoch": 0.15328,
+      "grad_norm": 0.6644581137612858,
+      "learning_rate": 4.999984445934394e-06,
+      "loss": 0.38212037086486816,
+      "memory(GiB)": 41.86,
+      "step": 479,
+      "token_acc": 0.8682705580753303,
+      "train_speed(iter/s)": 0.239903
+    },
+    {
+      "epoch": 0.1536,
+      "grad_norm": 0.7145717768232145,
+      "learning_rate": 4.9999811795847145e-06,
+      "loss": 0.43310773372650146,
+      "memory(GiB)": 41.86,
+      "step": 480,
+      "token_acc": 0.9031683873264507,
+      "train_speed(iter/s)": 0.239924
+    },
+    {
+      "epoch": 0.15392,
+      "grad_norm": 0.75434365548136,
+      "learning_rate": 4.999977602155746e-06,
+      "loss": 0.4588850140571594,
+      "memory(GiB)": 41.86,
+      "step": 481,
+      "token_acc": 0.8225524475524476,
+      "train_speed(iter/s)": 0.239925
+    },
+    {
+      "epoch": 0.15424,
+      "grad_norm": 0.7117648039518493,
+      "learning_rate": 4.999973713647933e-06,
+      "loss": 0.3876141607761383,
+      "memory(GiB)": 41.86,
+      "step": 482,
+      "token_acc": 0.930784442979565,
+      "train_speed(iter/s)": 0.23991
+    },
+    {
+      "epoch": 0.15456,
+      "grad_norm": 0.7151517376887505,
+      "learning_rate": 4.999969514061759e-06,
+      "loss": 0.3974360227584839,
+      "memory(GiB)": 41.86,
+      "step": 483,
+      "token_acc": 0.928996036988111,
+      "train_speed(iter/s)": 0.239918
+    },
+    {
+      "epoch": 0.15488,
+      "grad_norm": 0.7945811449111028,
+      "learning_rate": 4.999965003397747e-06,
+      "loss": 0.4497455358505249,
+      "memory(GiB)": 41.86,
+      "step": 484,
+      "token_acc": 0.9050081654872074,
+      "train_speed(iter/s)": 0.239934
+    },
+    {
+      "epoch": 0.1552,
+      "grad_norm": 0.7239201026055758,
+      "learning_rate": 4.999960181656458e-06,
+      "loss": 0.43310630321502686,
+      "memory(GiB)": 41.86,
+      "step": 485,
+      "token_acc": 0.8402323892519971,
+      "train_speed(iter/s)": 0.23996
+    },
+    {
+      "epoch": 0.15552,
+      "grad_norm": 0.7143665166598663,
+      "learning_rate": 4.999955048838493e-06,
+      "loss": 0.4903789162635803,
+      "memory(GiB)": 41.86,
+      "step": 486,
+      "token_acc": 0.8678033658104517,
+      "train_speed(iter/s)": 0.239973
+    },
+    {
+      "epoch": 0.15584,
+      "grad_norm": 0.6746481004802994,
+      "learning_rate": 4.999949604944489e-06,
+      "loss": 0.4141741991043091,
+      "memory(GiB)": 41.86,
+      "step": 487,
+      "token_acc": 0.8668025823989127,
+      "train_speed(iter/s)": 0.23998
+    },
+    {
+      "epoch": 0.15616,
+      "grad_norm": 0.7023917672452247,
+      "learning_rate": 4.999943849975125e-06,
+      "loss": 0.35007524490356445,
+      "memory(GiB)": 41.86,
+      "step": 488,
+      "token_acc": 0.8707372523546606,
+      "train_speed(iter/s)": 0.239958
+    },
+    {
+      "epoch": 0.15648,
+      "grad_norm": 0.6993281414771114,
+      "learning_rate": 4.999937783931117e-06,
+      "loss": 0.33885467052459717,
+      "memory(GiB)": 41.86,
+      "step": 489,
+      "token_acc": 0.9425287356321839,
+      "train_speed(iter/s)": 0.239966
+    },
+    {
+      "epoch": 0.1568,
+      "grad_norm": 0.73068306885795,
+      "learning_rate": 4.999931406813218e-06,
+      "loss": 0.4645715653896332,
+      "memory(GiB)": 41.86,
+      "step": 490,
+      "token_acc": 0.8745748299319728,
+      "train_speed(iter/s)": 0.239957
+    },
+    {
+      "epoch": 0.15712,
+      "grad_norm": 0.7457218009697603,
+      "learning_rate": 4.999924718622223e-06,
+      "loss": 0.4251176416873932,
+      "memory(GiB)": 41.86,
+      "step": 491,
+      "token_acc": 0.8239684843458428,
+      "train_speed(iter/s)": 0.239984
+    },
+    {
+      "epoch": 0.15744,
+      "grad_norm": 0.7729913739203381,
+      "learning_rate": 4.999917719358965e-06,
+      "loss": 0.4445386826992035,
+      "memory(GiB)": 41.86,
+      "step": 492,
+      "token_acc": 0.8920515574650913,
+      "train_speed(iter/s)": 0.240007
+    },
+    {
+      "epoch": 0.15776,
+      "grad_norm": 0.6920276138470032,
+      "learning_rate": 4.9999104090243125e-06,
+      "loss": 0.386310875415802,
+      "memory(GiB)": 41.86,
+      "step": 493,
+      "token_acc": 0.8777651083238313,
+      "train_speed(iter/s)": 0.239998
+    },
+    {
+      "epoch": 0.15808,
+      "grad_norm": 0.6995403635948096,
+      "learning_rate": 4.999902787619177e-06,
+      "loss": 0.37021100521087646,
+      "memory(GiB)": 41.86,
+      "step": 494,
+      "token_acc": 0.9275627615062761,
+      "train_speed(iter/s)": 0.240002
+    },
+    {
+      "epoch": 0.1584,
+      "grad_norm": 0.7336325203968346,
+      "learning_rate": 4.999894855144507e-06,
+      "loss": 0.5206668376922607,
+      "memory(GiB)": 41.86,
+      "step": 495,
+      "token_acc": 0.9339049660593068,
+      "train_speed(iter/s)": 0.239982
+    },
+    {
+      "epoch": 0.15872,
+      "grad_norm": 0.6851661809304453,
+      "learning_rate": 4.999886611601288e-06,
+      "loss": 0.34049439430236816,
+      "memory(GiB)": 41.86,
+      "step": 496,
+      "token_acc": 0.9146005509641874,
+      "train_speed(iter/s)": 0.239954
+    },
+    {
+      "epoch": 0.15904,
+      "grad_norm": 0.7470618077545236,
+      "learning_rate": 4.9998780569905485e-06,
+      "loss": 0.35181865096092224,
+      "memory(GiB)": 41.86,
+      "step": 497,
+      "token_acc": 0.9552562988705473,
+      "train_speed(iter/s)": 0.239953
+    },
+    {
+      "epoch": 0.15936,
+      "grad_norm": 0.7126891205308642,
+      "learning_rate": 4.999869191313349e-06,
+      "loss": 0.41131922602653503,
+      "memory(GiB)": 41.86,
+      "step": 498,
+      "token_acc": 0.800531914893617,
+      "train_speed(iter/s)": 0.239955
+    },
+    {
+      "epoch": 0.15968,
+      "grad_norm": 0.7492784128769695,
+      "learning_rate": 4.999860014570796e-06,
+      "loss": 0.37963297963142395,
+      "memory(GiB)": 41.86,
+      "step": 499,
+      "token_acc": 0.9110520094562647,
+      "train_speed(iter/s)": 0.239982
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.7319764465986598,
+      "learning_rate": 4.999850526764031e-06,
+      "loss": 0.41188380122184753,
+      "memory(GiB)": 41.86,
+      "step": 500,
+      "token_acc": 0.8327289211242067,
+      "train_speed(iter/s)": 0.239998
+    },
+    {
+      "epoch": 0.16032,
+      "grad_norm": 0.6541867353538434,
+      "learning_rate": 4.999840727894232e-06,
+      "loss": 0.43531447649002075,
+      "memory(GiB)": 41.86,
+      "step": 501,
+      "token_acc": 0.8830073568993361,
+      "train_speed(iter/s)": 0.239982
+    },
+    {
+      "epoch": 0.16064,
+      "grad_norm": 0.7211162488690752,
+      "learning_rate": 4.999830617962622e-06,
+      "loss": 0.4297073483467102,
+      "memory(GiB)": 41.86,
+      "step": 502,
+      "token_acc": 0.9025035619784246,
+      "train_speed(iter/s)": 0.239991
+    },
+    {
+      "epoch": 0.16096,
+      "grad_norm": 0.7429641781043748,
+      "learning_rate": 4.999820196970457e-06,
+      "loss": 0.43720877170562744,
+      "memory(GiB)": 41.86,
+      "step": 503,
+      "token_acc": 0.879475982532751,
+      "train_speed(iter/s)": 0.239977
+    },
+    {
+      "epoch": 0.16128,
+      "grad_norm": 0.8418981909807456,
+      "learning_rate": 4.999809464919032e-06,
+      "loss": 0.4410746693611145,
+      "memory(GiB)": 41.86,
+      "step": 504,
+      "token_acc": 0.8964255558682803,
+      "train_speed(iter/s)": 0.24
+    },
+    {
+      "epoch": 0.1616,
+      "grad_norm": 0.7705898057157492,
+      "learning_rate": 4.9997984218096865e-06,
+      "loss": 0.40692082047462463,
+      "memory(GiB)": 41.86,
+      "step": 505,
+      "token_acc": 0.9370851370851371,
+      "train_speed(iter/s)": 0.240028
+    },
+    {
+      "epoch": 0.16192,
+      "grad_norm": 0.7322499613672894,
+      "learning_rate": 4.999787067643791e-06,
+      "loss": 0.37406277656555176,
+      "memory(GiB)": 41.86,
+      "step": 506,
+      "token_acc": 0.9265745007680491,
+      "train_speed(iter/s)": 0.240056
+    },
+    {
+      "epoch": 0.16224,
+      "grad_norm": 0.7037997526265463,
+      "learning_rate": 4.99977540242276e-06,
+      "loss": 0.376261830329895,
+      "memory(GiB)": 41.86,
+      "step": 507,
+      "token_acc": 0.908705575480926,
+      "train_speed(iter/s)": 0.240072
+    },
+    {
+      "epoch": 0.16256,
+      "grad_norm": 0.710591469760506,
+      "learning_rate": 4.999763426148045e-06,
+      "loss": 0.4308719336986542,
+      "memory(GiB)": 41.86,
+      "step": 508,
+      "token_acc": 0.8405507439484788,
+      "train_speed(iter/s)": 0.240066
+    },
+    {
+      "epoch": 0.16288,
+      "grad_norm": 0.8212473162207397,
+      "learning_rate": 4.999751138821136e-06,
+      "loss": 0.3660429120063782,
+      "memory(GiB)": 41.86,
+      "step": 509,
+      "token_acc": 0.9233965203843157,
+      "train_speed(iter/s)": 0.240082
+    },
+    {
+      "epoch": 0.1632,
+      "grad_norm": 0.7368889912060217,
+      "learning_rate": 4.9997385404435626e-06,
+      "loss": 0.43292951583862305,
+      "memory(GiB)": 41.86,
+      "step": 510,
+      "token_acc": 0.9106370712020755,
+      "train_speed(iter/s)": 0.240091
+    },
+    {
+      "epoch": 0.16352,
+      "grad_norm": 0.7426471075659408,
+      "learning_rate": 4.999725631016891e-06,
+      "loss": 0.35908281803131104,
+      "memory(GiB)": 41.86,
+      "step": 511,
+      "token_acc": 0.8613861386138614,
+      "train_speed(iter/s)": 0.240112
+    },
+    {
+      "epoch": 0.16384,
+      "grad_norm": 0.6928641455543809,
+      "learning_rate": 4.999712410542728e-06,
+      "loss": 0.4103066921234131,
+      "memory(GiB)": 41.86,
+      "step": 512,
+      "token_acc": 0.8858123009066405,
+      "train_speed(iter/s)": 0.24011
+    },
+    {
+      "epoch": 0.16416,
+      "grad_norm": 0.8179877283629033,
+      "learning_rate": 4.99969887902272e-06,
+      "loss": 0.46859943866729736,
+      "memory(GiB)": 41.86,
+      "step": 513,
+      "token_acc": 0.8619561661759896,
+      "train_speed(iter/s)": 0.240119
+    },
+    {
+      "epoch": 0.16448,
+      "grad_norm": 0.720989863693229,
+      "learning_rate": 4.99968503645855e-06,
+      "loss": 0.34554195404052734,
+      "memory(GiB)": 41.86,
+      "step": 514,
+      "token_acc": 0.905693950177936,
+      "train_speed(iter/s)": 0.240149
+    },
+    {
+      "epoch": 0.1648,
+      "grad_norm": 0.6318179685987427,
+      "learning_rate": 4.99967088285194e-06,
+      "loss": 0.4476335346698761,
+      "memory(GiB)": 41.86,
+      "step": 515,
+      "token_acc": 0.9117511520737327,
+      "train_speed(iter/s)": 0.240108
+    },
+    {
+      "epoch": 0.16512,
+      "grad_norm": 0.8064297036277955,
+      "learning_rate": 4.999656418204651e-06,
+      "loss": 0.42241039872169495,
+      "memory(GiB)": 41.86,
+      "step": 516,
+      "token_acc": 0.9046734757041164,
+      "train_speed(iter/s)": 0.240132
+    },
+    {
+      "epoch": 0.16544,
+      "grad_norm": 0.688824632997362,
+      "learning_rate": 4.999641642518484e-06,
+      "loss": 0.3794514536857605,
+      "memory(GiB)": 41.86,
+      "step": 517,
+      "token_acc": 0.8403505429605639,
+      "train_speed(iter/s)": 0.240124
+    },
+    {
+      "epoch": 0.16576,
+      "grad_norm": 0.7229498671074948,
+      "learning_rate": 4.999626555795276e-06,
+      "loss": 0.40179306268692017,
+      "memory(GiB)": 41.86,
+      "step": 518,
+      "token_acc": 0.8962199312714777,
+      "train_speed(iter/s)": 0.24013
+    },
+    {
+      "epoch": 0.16608,
+      "grad_norm": 0.7127941836089953,
+      "learning_rate": 4.999611158036906e-06,
+      "loss": 0.33091676235198975,
+      "memory(GiB)": 41.86,
+      "step": 519,
+      "token_acc": 0.8896637608966376,
+      "train_speed(iter/s)": 0.240158
+    },
+    {
+      "epoch": 0.1664,
+      "grad_norm": 0.7255001447010705,
+      "learning_rate": 4.999595449245288e-06,
+      "loss": 0.417441725730896,
+      "memory(GiB)": 41.86,
+      "step": 520,
+      "token_acc": 0.8853100541842264,
+      "train_speed(iter/s)": 0.240131
+    },
+    {
+      "epoch": 0.16672,
+      "grad_norm": 0.7349217193131398,
+      "learning_rate": 4.999579429422379e-06,
+      "loss": 0.4136850833892822,
+      "memory(GiB)": 41.86,
+      "step": 521,
+      "token_acc": 0.8637349024465779,
+      "train_speed(iter/s)": 0.240127
+    },
+    {
+      "epoch": 0.16704,
+      "grad_norm": 0.7080752589533771,
+      "learning_rate": 4.99956309857017e-06,
+      "loss": 0.4458681643009186,
+      "memory(GiB)": 41.86,
+      "step": 522,
+      "token_acc": 0.945049504950495,
+      "train_speed(iter/s)": 0.240139
+    },
+    {
+      "epoch": 0.16736,
+      "grad_norm": 0.6671939414985892,
+      "learning_rate": 4.999546456690696e-06,
+      "loss": 0.37234577536582947,
+      "memory(GiB)": 41.86,
+      "step": 523,
+      "token_acc": 0.8761958356781092,
+      "train_speed(iter/s)": 0.240138
+    },
+    {
+      "epoch": 0.16768,
+      "grad_norm": 0.7426671863636843,
+      "learning_rate": 4.999529503786025e-06,
+      "loss": 0.4264715909957886,
+      "memory(GiB)": 41.86,
+      "step": 524,
+      "token_acc": 0.8872738059922871,
+      "train_speed(iter/s)": 0.240143
+    },
+    {
+      "epoch": 0.168,
+      "grad_norm": 0.6724534676660313,
+      "learning_rate": 4.999512239858267e-06,
+      "loss": 0.38832327723503113,
+      "memory(GiB)": 41.86,
+      "step": 525,
+      "token_acc": 0.9262295081967213,
+      "train_speed(iter/s)": 0.240128
+    },
+    {
+      "epoch": 0.16832,
+      "grad_norm": 0.7434934974411659,
+      "learning_rate": 4.999494664909572e-06,
+      "loss": 0.519243597984314,
+      "memory(GiB)": 41.86,
+      "step": 526,
+      "token_acc": 0.833595470273671,
+      "train_speed(iter/s)": 0.240148
+    },
+    {
+      "epoch": 0.16864,
+      "grad_norm": 0.7692363117707088,
+      "learning_rate": 4.9994767789421255e-06,
+      "loss": 0.38746243715286255,
+      "memory(GiB)": 41.86,
+      "step": 527,
+      "token_acc": 0.8986568986568987,
+      "train_speed(iter/s)": 0.240168
+    },
+    {
+      "epoch": 0.16896,
+      "grad_norm": 0.6785312211485801,
+      "learning_rate": 4.999458581958153e-06,
+      "loss": 0.4877493381500244,
+      "memory(GiB)": 41.86,
+      "step": 528,
+      "token_acc": 0.8467210956017909,
+      "train_speed(iter/s)": 0.240182
+    },
+    {
+      "epoch": 0.16928,
+      "grad_norm": 0.7267195174853616,
+      "learning_rate": 4.9994400739599195e-06,
+      "loss": 0.4311027228832245,
+      "memory(GiB)": 41.86,
+      "step": 529,
+      "token_acc": 0.8937235271467078,
+      "train_speed(iter/s)": 0.240196
+    },
+    {
+      "epoch": 0.1696,
+      "grad_norm": 0.6990368031342535,
+      "learning_rate": 4.999421254949728e-06,
+      "loss": 0.35965317487716675,
+      "memory(GiB)": 41.86,
+      "step": 530,
+      "token_acc": 0.8974587605884975,
+      "train_speed(iter/s)": 0.240201
+    },
+    {
+      "epoch": 0.16992,
+      "grad_norm": 0.697891417784386,
+      "learning_rate": 4.999402124929918e-06,
+      "loss": 0.409152090549469,
+      "memory(GiB)": 41.86,
+      "step": 531,
+      "token_acc": 0.8995107263831389,
+      "train_speed(iter/s)": 0.240207
+    },
+    {
+      "epoch": 0.17024,
+      "grad_norm": 0.7337019010588666,
+      "learning_rate": 4.9993826839028735e-06,
+      "loss": 0.39932721853256226,
+      "memory(GiB)": 41.86,
+      "step": 532,
+      "token_acc": 0.9195816804904435,
+      "train_speed(iter/s)": 0.240225
+    },
+    {
+      "epoch": 0.17056,
+      "grad_norm": 0.7207867798194345,
+      "learning_rate": 4.999362931871011e-06,
+      "loss": 0.3743005096912384,
+      "memory(GiB)": 41.86,
+      "step": 533,
+      "token_acc": 0.8564383561643836,
+      "train_speed(iter/s)": 0.240248
+    },
+    {
+      "epoch": 0.17088,
+      "grad_norm": 0.700887407213289,
+      "learning_rate": 4.9993428688367896e-06,
+      "loss": 0.37754279375076294,
+      "memory(GiB)": 41.86,
+      "step": 534,
+      "token_acc": 0.9059539918809202,
+      "train_speed(iter/s)": 0.240251
+    },
+    {
+      "epoch": 0.1712,
+      "grad_norm": 0.8180199812260442,
+      "learning_rate": 4.9993224948027045e-06,
+      "loss": 0.4487009048461914,
+      "memory(GiB)": 41.86,
+      "step": 535,
+      "token_acc": 0.9076664801343033,
+      "train_speed(iter/s)": 0.240263
+    },
+    {
+      "epoch": 0.17152,
+      "grad_norm": 0.7219699133019961,
+      "learning_rate": 4.999301809771293e-06,
+      "loss": 0.3877941071987152,
+      "memory(GiB)": 41.86,
+      "step": 536,
+      "token_acc": 0.925767586474932,
+      "train_speed(iter/s)": 0.240267
+    },
+    {
+      "epoch": 0.17184,
+      "grad_norm": 0.7813544857160303,
+      "learning_rate": 4.999280813745127e-06,
+      "loss": 0.35562509298324585,
+      "memory(GiB)": 41.86,
+      "step": 537,
+      "token_acc": 0.8670520231213873,
+      "train_speed(iter/s)": 0.240287
+    },
+    {
+      "epoch": 0.17216,
+      "grad_norm": 0.7242394710528224,
+      "learning_rate": 4.999259506726819e-06,
+      "loss": 0.43010619282722473,
+      "memory(GiB)": 41.86,
+      "step": 538,
+      "token_acc": 0.893792071802543,
+      "train_speed(iter/s)": 0.240227
+    },
+    {
+      "epoch": 0.17248,
+      "grad_norm": 0.7227769901146698,
+      "learning_rate": 4.9992378887190214e-06,
+      "loss": 0.35778316855430603,
+      "memory(GiB)": 41.86,
+      "step": 539,
+      "token_acc": 0.9102605339337407,
+      "train_speed(iter/s)": 0.240256
+    },
+    {
+      "epoch": 0.1728,
+      "grad_norm": 0.7193282752452127,
+      "learning_rate": 4.9992159597244236e-06,
+      "loss": 0.40651825070381165,
+      "memory(GiB)": 41.86,
+      "step": 540,
+      "token_acc": 0.8412249705535925,
+      "train_speed(iter/s)": 0.240255
+    },
+    {
+      "epoch": 0.17312,
+      "grad_norm": 0.704997040377488,
+      "learning_rate": 4.999193719745756e-06,
+      "loss": 0.4186462163925171,
+      "memory(GiB)": 41.86,
+      "step": 541,
+      "token_acc": 0.9107537054556922,
+      "train_speed(iter/s)": 0.240279
+    },
+    {
+      "epoch": 0.17344,
+      "grad_norm": 0.7588144768914918,
+      "learning_rate": 4.999171168785783e-06,
+      "loss": 0.4886937737464905,
+      "memory(GiB)": 41.86,
+      "step": 542,
+      "token_acc": 0.8825613768666161,
+      "train_speed(iter/s)": 0.24028
+    },
+    {
+      "epoch": 0.17376,
+      "grad_norm": 0.7314963380024697,
+      "learning_rate": 4.999148306847313e-06,
+      "loss": 0.3259052634239197,
+      "memory(GiB)": 41.86,
+      "step": 543,
+      "token_acc": 0.9088,
+      "train_speed(iter/s)": 0.240299
+    },
+    {
+      "epoch": 0.17408,
+      "grad_norm": 0.7310219502301045,
+      "learning_rate": 4.9991251339331895e-06,
+      "loss": 0.3796643614768982,
+      "memory(GiB)": 41.86,
+      "step": 544,
+      "token_acc": 0.9209164818920916,
+      "train_speed(iter/s)": 0.240277
+    },
+    {
+      "epoch": 0.1744,
+      "grad_norm": 0.7466674737347796,
+      "learning_rate": 4.999101650046296e-06,
+      "loss": 0.4011804759502411,
+      "memory(GiB)": 41.86,
+      "step": 545,
+      "token_acc": 0.8580128205128205,
+      "train_speed(iter/s)": 0.240297
+    },
+    {
+      "epoch": 0.17472,
+      "grad_norm": 0.7101991963517899,
+      "learning_rate": 4.999077855189557e-06,
+      "loss": 0.5033053159713745,
+      "memory(GiB)": 41.86,
+      "step": 546,
+      "token_acc": 0.9077069457659372,
+      "train_speed(iter/s)": 0.240295
+    },
+    {
+      "epoch": 0.17504,
+      "grad_norm": 0.7045310960686249,
+      "learning_rate": 4.99905374936593e-06,
+      "loss": 0.356934130191803,
+      "memory(GiB)": 41.86,
+      "step": 547,
+      "token_acc": 0.8250407830342578,
+      "train_speed(iter/s)": 0.240304
+    },
+    {
+      "epoch": 0.17536,
+      "grad_norm": 0.6675808003876188,
+      "learning_rate": 4.999029332578416e-06,
+      "loss": 0.3722524046897888,
+      "memory(GiB)": 41.86,
+      "step": 548,
+      "token_acc": 0.8863207547169811,
+      "train_speed(iter/s)": 0.240331
+    },
+    {
+      "epoch": 0.17568,
+      "grad_norm": 0.7627899220770223,
+      "learning_rate": 4.9990046048300526e-06,
+      "loss": 0.41290193796157837,
+      "memory(GiB)": 41.86,
+      "step": 549,
+      "token_acc": 0.932952380952381,
+      "train_speed(iter/s)": 0.240358
+    },
+    {
+      "epoch": 0.176,
+      "grad_norm": 0.6799753010388639,
+      "learning_rate": 4.998979566123918e-06,
+      "loss": 0.4469655156135559,
+      "memory(GiB)": 41.86,
+      "step": 550,
+      "token_acc": 0.8945104983556792,
+      "train_speed(iter/s)": 0.240363
+    },
+    {
+      "epoch": 0.17632,
+      "grad_norm": 0.701193171577847,
+      "learning_rate": 4.998954216463128e-06,
+      "loss": 0.30783504247665405,
+      "memory(GiB)": 41.86,
+      "step": 551,
+      "token_acc": 0.9347626339969373,
+      "train_speed(iter/s)": 0.240364
+    },
+    {
+      "epoch": 0.17664,
+      "grad_norm": 0.6678607410388682,
+      "learning_rate": 4.998928555850835e-06,
+      "loss": 0.4034227728843689,
+      "memory(GiB)": 41.86,
+      "step": 552,
+      "token_acc": 0.9083613771680041,
+      "train_speed(iter/s)": 0.240346
+    },
+    {
+      "epoch": 0.17696,
+      "grad_norm": 0.7067561049582544,
+      "learning_rate": 4.998902584290234e-06,
+      "loss": 0.43521934747695923,
+      "memory(GiB)": 41.86,
+      "step": 553,
+      "token_acc": 0.851675903932436,
+      "train_speed(iter/s)": 0.240357
+    },
+    {
+      "epoch": 0.17728,
+      "grad_norm": 0.6654317468403823,
+      "learning_rate": 4.998876301784556e-06,
+      "loss": 0.3983107805252075,
+      "memory(GiB)": 41.86,
+      "step": 554,
+      "token_acc": 0.8349956255468066,
+      "train_speed(iter/s)": 0.24036
+    },
+    {
+      "epoch": 0.1776,
+      "grad_norm": 0.7316024202711119,
+      "learning_rate": 4.99884970833707e-06,
+      "loss": 0.3884185254573822,
+      "memory(GiB)": 41.86,
+      "step": 555,
+      "token_acc": 0.9602240896358544,
+      "train_speed(iter/s)": 0.240372
+    },
+    {
+      "epoch": 0.17792,
+      "grad_norm": 0.6909036921137306,
+      "learning_rate": 4.998822803951088e-06,
+      "loss": 0.40356987714767456,
+      "memory(GiB)": 41.86,
+      "step": 556,
+      "token_acc": 0.8415942769545223,
+      "train_speed(iter/s)": 0.240371
+    },
+    {
+      "epoch": 0.17824,
+      "grad_norm": 0.8573381495450896,
+      "learning_rate": 4.9987955886299545e-06,
+      "loss": 0.38136205077171326,
+      "memory(GiB)": 41.86,
+      "step": 557,
+      "token_acc": 0.8584952665670155,
+      "train_speed(iter/s)": 0.240369
+    },
+    {
+      "epoch": 0.17856,
+      "grad_norm": 0.6964208573118333,
+      "learning_rate": 4.998768062377058e-06,
+      "loss": 0.39367440342903137,
+      "memory(GiB)": 41.86,
+      "step": 558,
+      "token_acc": 0.8946288060212111,
+      "train_speed(iter/s)": 0.240367
+    },
+    {
+      "epoch": 0.17888,
+      "grad_norm": 0.7570067768711339,
+      "learning_rate": 4.998740225195824e-06,
+      "loss": 0.3773024082183838,
+      "memory(GiB)": 41.86,
+      "step": 559,
+      "token_acc": 0.9304388422035481,
+      "train_speed(iter/s)": 0.240383
+    },
+    {
+      "epoch": 0.1792,
+      "grad_norm": 1.3261977413909418,
+      "learning_rate": 4.998712077089716e-06,
+      "loss": 0.4005555510520935,
+      "memory(GiB)": 41.86,
+      "step": 560,
+      "token_acc": 0.8703662597114318,
+      "train_speed(iter/s)": 0.240368
+    },
+    {
+      "epoch": 0.17952,
+      "grad_norm": 0.7932299114661436,
+      "learning_rate": 4.998683618062235e-06,
+      "loss": 0.3728886842727661,
+      "memory(GiB)": 41.86,
+      "step": 561,
+      "token_acc": 0.9546130952380952,
+      "train_speed(iter/s)": 0.240382
+    },
+    {
+      "epoch": 0.17984,
+      "grad_norm": 0.717010869983448,
+      "learning_rate": 4.998654848116924e-06,
+      "loss": 0.420939564704895,
+      "memory(GiB)": 41.86,
+      "step": 562,
+      "token_acc": 0.8821102269378132,
+      "train_speed(iter/s)": 0.240385
+    },
+    {
+      "epoch": 0.18016,
+      "grad_norm": 0.7762042692611968,
+      "learning_rate": 4.998625767257362e-06,
+      "loss": 0.4041133522987366,
+      "memory(GiB)": 41.86,
+      "step": 563,
+      "token_acc": 0.8707692307692307,
+      "train_speed(iter/s)": 0.240381
+    },
+    {
+      "epoch": 0.18048,
+      "grad_norm": 0.719747085518272,
+      "learning_rate": 4.9985963754871684e-06,
+      "loss": 0.43100330233573914,
+      "memory(GiB)": 41.86,
+      "step": 564,
+      "token_acc": 0.8861693861693861,
+      "train_speed(iter/s)": 0.240391
+    },
+    {
+      "epoch": 0.1808,
+      "grad_norm": 0.7614233951906714,
+      "learning_rate": 4.99856667281e-06,
+      "loss": 0.3803737461566925,
+      "memory(GiB)": 41.86,
+      "step": 565,
+      "token_acc": 0.880469583778015,
+      "train_speed(iter/s)": 0.240393
+    },
+    {
+      "epoch": 0.18112,
+      "grad_norm": 0.7314640643496934,
+      "learning_rate": 4.9985366592295525e-06,
+      "loss": 0.3606047034263611,
+      "memory(GiB)": 41.86,
+      "step": 566,
+      "token_acc": 0.9113463446907046,
+      "train_speed(iter/s)": 0.240413
+    },
+    {
+      "epoch": 0.18144,
+      "grad_norm": 0.7295855799942644,
+      "learning_rate": 4.9985063347495615e-06,
+      "loss": 0.4645580053329468,
+      "memory(GiB)": 41.86,
+      "step": 567,
+      "token_acc": 0.8910810810810811,
+      "train_speed(iter/s)": 0.240413
+    },
+    {
+      "epoch": 0.18176,
+      "grad_norm": 0.7887665968756749,
+      "learning_rate": 4.9984756993738e-06,
+      "loss": 0.4417746067047119,
+      "memory(GiB)": 41.86,
+      "step": 568,
+      "token_acc": 0.94201564657156,
+      "train_speed(iter/s)": 0.240425
+    },
+    {
+      "epoch": 0.18208,
+      "grad_norm": 0.7490808155481795,
+      "learning_rate": 4.9984447531060785e-06,
+      "loss": 0.38317275047302246,
+      "memory(GiB)": 41.86,
+      "step": 569,
+      "token_acc": 0.871661463753035,
+      "train_speed(iter/s)": 0.240447
+    },
+    {
+      "epoch": 0.1824,
+      "grad_norm": 0.714256420739665,
+      "learning_rate": 4.99841349595025e-06,
+      "loss": 0.36582478880882263,
+      "memory(GiB)": 41.86,
+      "step": 570,
+      "token_acc": 0.9073665637406264,
+      "train_speed(iter/s)": 0.240467
+    },
+    {
+      "epoch": 0.18272,
+      "grad_norm": 0.7206218226587658,
+      "learning_rate": 4.998381927910202e-06,
+      "loss": 0.42719489336013794,
+      "memory(GiB)": 41.86,
+      "step": 571,
+      "token_acc": 0.8439891940567312,
+      "train_speed(iter/s)": 0.240485
+    },
+    {
+      "epoch": 0.18304,
+      "grad_norm": 0.6566178167562026,
+      "learning_rate": 4.998350048989864e-06,
+      "loss": 0.36069872975349426,
+      "memory(GiB)": 41.86,
+      "step": 572,
+      "token_acc": 0.92187967674349,
+      "train_speed(iter/s)": 0.24049
+    },
+    {
+      "epoch": 0.18336,
+      "grad_norm": 0.6632231618493382,
+      "learning_rate": 4.998317859193202e-06,
+      "loss": 0.35563305020332336,
+      "memory(GiB)": 41.86,
+      "step": 573,
+      "token_acc": 0.9249110320284698,
+      "train_speed(iter/s)": 0.240494
+    },
+    {
+      "epoch": 0.18368,
+      "grad_norm": 0.7008643935083931,
+      "learning_rate": 4.998285358524222e-06,
+      "loss": 0.42981112003326416,
+      "memory(GiB)": 41.86,
+      "step": 574,
+      "token_acc": 0.7943280531425652,
+      "train_speed(iter/s)": 0.240483
+    },
+    {
+      "epoch": 0.184,
+      "grad_norm": 0.699254545077358,
+      "learning_rate": 4.998252546986968e-06,
+      "loss": 0.40948110818862915,
+      "memory(GiB)": 41.86,
+      "step": 575,
+      "token_acc": 0.8648788035069623,
+      "train_speed(iter/s)": 0.240471
+    },
+    {
+      "epoch": 0.18432,
+      "grad_norm": 0.7752934212931661,
+      "learning_rate": 4.998219424585523e-06,
+      "loss": 0.3346802592277527,
+      "memory(GiB)": 41.86,
+      "step": 576,
+      "token_acc": 0.9201732673267327,
+      "train_speed(iter/s)": 0.24049
+    },
+    {
+      "epoch": 0.18464,
+      "grad_norm": 0.7612484285659876,
+      "learning_rate": 4.998185991324008e-06,
+      "loss": 0.3833213448524475,
+      "memory(GiB)": 41.86,
+      "step": 577,
+      "token_acc": 0.8590287600188591,
+      "train_speed(iter/s)": 0.240515
+    },
+    {
+      "epoch": 0.18496,
+      "grad_norm": 0.7626696937140971,
+      "learning_rate": 4.998152247206584e-06,
+      "loss": 0.3548380136489868,
+      "memory(GiB)": 41.86,
+      "step": 578,
+      "token_acc": 0.9172777940745086,
+      "train_speed(iter/s)": 0.240535
+    },
+    {
+      "epoch": 0.18528,
+      "grad_norm": 0.6722808780391896,
+      "learning_rate": 4.9981181922374475e-06,
+      "loss": 0.39473259449005127,
+      "memory(GiB)": 41.86,
+      "step": 579,
+      "token_acc": 0.937059652418976,
+      "train_speed(iter/s)": 0.240539
+    },
+    {
+      "epoch": 0.1856,
+      "grad_norm": 0.7102040915588876,
+      "learning_rate": 4.99808382642084e-06,
+      "loss": 0.38578078150749207,
+      "memory(GiB)": 41.86,
+      "step": 580,
+      "token_acc": 0.8708791208791209,
+      "train_speed(iter/s)": 0.240536
+    },
+    {
+      "epoch": 0.18592,
+      "grad_norm": 0.6566941932299604,
+      "learning_rate": 4.998049149761034e-06,
+      "loss": 0.3175215721130371,
+      "memory(GiB)": 41.86,
+      "step": 581,
+      "token_acc": 0.9702276707530648,
+      "train_speed(iter/s)": 0.240545
+    },
+    {
+      "epoch": 0.18624,
+      "grad_norm": 0.692942632328679,
+      "learning_rate": 4.998014162262347e-06,
+      "loss": 0.3402339518070221,
+      "memory(GiB)": 41.86,
+      "step": 582,
+      "token_acc": 0.9054395226072987,
+      "train_speed(iter/s)": 0.240525
+    },
+    {
+      "epoch": 0.18656,
+      "grad_norm": 0.6827632356957141,
+      "learning_rate": 4.997978863929131e-06,
+      "loss": 0.350196897983551,
+      "memory(GiB)": 41.86,
+      "step": 583,
+      "token_acc": 0.7907068320535539,
+      "train_speed(iter/s)": 0.240518
+    },
+    {
+      "epoch": 0.18688,
+      "grad_norm": 0.7318762633401616,
+      "learning_rate": 4.997943254765779e-06,
+      "loss": 0.3818226158618927,
+      "memory(GiB)": 41.86,
+      "step": 584,
+      "token_acc": 0.7990768395329894,
+      "train_speed(iter/s)": 0.240541
+    },
+    {
+      "epoch": 0.1872,
+      "grad_norm": 0.7079086614000479,
+      "learning_rate": 4.997907334776722e-06,
+      "loss": 0.44802767038345337,
+      "memory(GiB)": 41.86,
+      "step": 585,
+      "token_acc": 0.812691914022518,
+      "train_speed(iter/s)": 0.240508
+    },
+    {
+      "epoch": 0.18752,
+      "grad_norm": 0.7541375581891403,
+      "learning_rate": 4.997871103966429e-06,
+      "loss": 0.42247796058654785,
+      "memory(GiB)": 41.86,
+      "step": 586,
+      "token_acc": 0.8794132272501243,
+      "train_speed(iter/s)": 0.240525
+    },
+    {
+      "epoch": 0.18784,
+      "grad_norm": 0.7288502850474142,
+      "learning_rate": 4.997834562339409e-06,
+      "loss": 0.3354640007019043,
+      "memory(GiB)": 41.86,
+      "step": 587,
+      "token_acc": 0.8979449669104842,
+      "train_speed(iter/s)": 0.240536
+    },
+    {
+      "epoch": 0.18816,
+      "grad_norm": 0.7150580398990505,
+      "learning_rate": 4.997797709900209e-06,
+      "loss": 0.3432292938232422,
+      "memory(GiB)": 41.86,
+      "step": 588,
+      "token_acc": 0.9255429162357808,
+      "train_speed(iter/s)": 0.240546
+    },
+    {
+      "epoch": 0.18848,
+      "grad_norm": 0.7107770223881175,
+      "learning_rate": 4.997760546653414e-06,
+      "loss": 0.5230749845504761,
+      "memory(GiB)": 41.86,
+      "step": 589,
+      "token_acc": 0.8551136363636364,
+      "train_speed(iter/s)": 0.240551
+    },
+    {
+      "epoch": 0.1888,
+      "grad_norm": 0.7070378092994455,
+      "learning_rate": 4.9977230726036485e-06,
+      "loss": 0.39623939990997314,
+      "memory(GiB)": 41.86,
+      "step": 590,
+      "token_acc": 0.8286311389759665,
+      "train_speed(iter/s)": 0.240557
+    },
+    {
+      "epoch": 0.18912,
+      "grad_norm": 0.6911786126779319,
+      "learning_rate": 4.9976852877555755e-06,
+      "loss": 0.39785629510879517,
+      "memory(GiB)": 41.86,
+      "step": 591,
+      "token_acc": 0.9223254705742197,
+      "train_speed(iter/s)": 0.240565
+    },
+    {
+      "epoch": 0.18944,
+      "grad_norm": 0.7495228501551652,
+      "learning_rate": 4.997647192113897e-06,
+      "loss": 0.3889058530330658,
+      "memory(GiB)": 41.86,
+      "step": 592,
+      "token_acc": 0.8795856711264566,
+      "train_speed(iter/s)": 0.240581
+    },
+    {
+      "epoch": 0.18976,
+      "grad_norm": 0.726904913182407,
+      "learning_rate": 4.997608785683353e-06,
+      "loss": 0.4155130982398987,
+      "memory(GiB)": 41.86,
+      "step": 593,
+      "token_acc": 0.8987175271292338,
+      "train_speed(iter/s)": 0.240591
+    },
+    {
+      "epoch": 0.19008,
+      "grad_norm": 0.7298826496071571,
+      "learning_rate": 4.997570068468723e-06,
+      "loss": 0.47346314787864685,
+      "memory(GiB)": 41.86,
+      "step": 594,
+      "token_acc": 0.9125456760048721,
+      "train_speed(iter/s)": 0.240587
+    },
+    {
+      "epoch": 0.1904,
+      "grad_norm": 0.695997842712418,
+      "learning_rate": 4.997531040474824e-06,
+      "loss": 0.4436187148094177,
+      "memory(GiB)": 41.86,
+      "step": 595,
+      "token_acc": 0.8410443463236705,
+      "train_speed(iter/s)": 0.240587
+    },
+    {
+      "epoch": 0.19072,
+      "grad_norm": 0.7463401086554157,
+      "learning_rate": 4.997491701706513e-06,
+      "loss": 0.3639387786388397,
+      "memory(GiB)": 41.86,
+      "step": 596,
+      "token_acc": 0.9289940828402367,
+      "train_speed(iter/s)": 0.240608
+    },
+    {
+      "epoch": 0.19104,
+      "grad_norm": 0.7071974015609407,
+      "learning_rate": 4.997452052168684e-06,
+      "loss": 0.3634309768676758,
+      "memory(GiB)": 41.86,
+      "step": 597,
+      "token_acc": 0.9278485145282402,
+      "train_speed(iter/s)": 0.240622
+    },
+    {
+      "epoch": 0.19136,
+      "grad_norm": 0.6366899927652607,
+      "learning_rate": 4.997412091866273e-06,
+      "loss": 0.39992132782936096,
+      "memory(GiB)": 41.86,
+      "step": 598,
+      "token_acc": 0.8722996992070002,
+      "train_speed(iter/s)": 0.240615
+    },
+    {
+      "epoch": 0.19168,
+      "grad_norm": 0.7487868327688413,
+      "learning_rate": 4.997371820804249e-06,
+      "loss": 0.3806472718715668,
+      "memory(GiB)": 41.86,
+      "step": 599,
+      "token_acc": 0.910048266783677,
+      "train_speed(iter/s)": 0.240635
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 0.7448494133914384,
+      "learning_rate": 4.9973312389876265e-06,
+      "loss": 0.3898313045501709,
+      "memory(GiB)": 41.86,
+      "step": 600,
+      "token_acc": 0.8377777777777777,
+      "train_speed(iter/s)": 0.240631
+    },
+    {
+      "epoch": 0.19232,
+      "grad_norm": 0.6899476925520243,
+      "learning_rate": 4.997290346421451e-06,
+      "loss": 0.355000376701355,
+      "memory(GiB)": 41.86,
+      "step": 601,
+      "token_acc": 0.9196900317013033,
+      "train_speed(iter/s)": 0.240646
+    },
+    {
+      "epoch": 0.19264,
+      "grad_norm": 0.7324549370099168,
+      "learning_rate": 4.997249143110816e-06,
+      "loss": 0.4301047921180725,
+      "memory(GiB)": 41.86,
+      "step": 602,
+      "token_acc": 0.8924143727673881,
+      "train_speed(iter/s)": 0.240656
+    },
+    {
+      "epoch": 0.19296,
+      "grad_norm": 0.7356784503240977,
+      "learning_rate": 4.997207629060845e-06,
+      "loss": 0.46152374148368835,
+      "memory(GiB)": 41.86,
+      "step": 603,
+      "token_acc": 0.9217616580310881,
+      "train_speed(iter/s)": 0.24065
+    },
+    {
+      "epoch": 0.19328,
+      "grad_norm": 0.7663266212783498,
+      "learning_rate": 4.997165804276705e-06,
+      "loss": 0.3720739483833313,
+      "memory(GiB)": 41.86,
+      "step": 604,
+      "token_acc": 0.9042263122017723,
+      "train_speed(iter/s)": 0.240652
+    },
+    {
+      "epoch": 0.1936,
+      "grad_norm": 0.9399264100619061,
+      "learning_rate": 4.997123668763599e-06,
+      "loss": 0.3939239978790283,
+      "memory(GiB)": 41.86,
+      "step": 605,
+      "token_acc": 0.8625429553264605,
+      "train_speed(iter/s)": 0.240629
+    },
+    {
+      "epoch": 0.19392,
+      "grad_norm": 0.6777912336787236,
+      "learning_rate": 4.997081222526772e-06,
+      "loss": 0.37303873896598816,
+      "memory(GiB)": 41.86,
+      "step": 606,
+      "token_acc": 0.9304884594739667,
+      "train_speed(iter/s)": 0.240648
+    },
+    {
+      "epoch": 0.19424,
+      "grad_norm": 0.7892460850101191,
+      "learning_rate": 4.997038465571504e-06,
+      "loss": 0.49259454011917114,
+      "memory(GiB)": 41.86,
+      "step": 607,
+      "token_acc": 0.8501669449081803,
+      "train_speed(iter/s)": 0.240652
+    },
+    {
+      "epoch": 0.19456,
+      "grad_norm": 0.6890807872556636,
+      "learning_rate": 4.9969953979031174e-06,
+      "loss": 0.41470372676849365,
+      "memory(GiB)": 41.86,
+      "step": 608,
+      "token_acc": 0.9322147651006711,
+      "train_speed(iter/s)": 0.240639
+    },
+    {
+      "epoch": 0.19488,
+      "grad_norm": 0.7174067179656343,
+      "learning_rate": 4.996952019526968e-06,
+      "loss": 0.3633441925048828,
+      "memory(GiB)": 41.86,
+      "step": 609,
+      "token_acc": 0.892267365661861,
+      "train_speed(iter/s)": 0.240662
+    },
+    {
+      "epoch": 0.1952,
+      "grad_norm": 0.6960540570229644,
+      "learning_rate": 4.996908330448456e-06,
+      "loss": 0.310346394777298,
+      "memory(GiB)": 41.86,
+      "step": 610,
+      "token_acc": 0.8476098034457656,
+      "train_speed(iter/s)": 0.240676
+    },
+    {
+      "epoch": 0.19552,
+      "grad_norm": 0.7351546859104893,
+      "learning_rate": 4.996864330673019e-06,
+      "loss": 0.367519736289978,
+      "memory(GiB)": 41.86,
+      "step": 611,
+      "token_acc": 0.836912362159025,
+      "train_speed(iter/s)": 0.240691
+    },
+    {
+      "epoch": 0.19584,
+      "grad_norm": 0.6633069760681427,
+      "learning_rate": 4.9968200202061275e-06,
+      "loss": 0.41480374336242676,
+      "memory(GiB)": 41.86,
+      "step": 612,
+      "token_acc": 0.9037171350861287,
+      "train_speed(iter/s)": 0.240691
+    },
+    {
+      "epoch": 0.19616,
+      "grad_norm": 0.7297234628369268,
+      "learning_rate": 4.9967753990533e-06,
+      "loss": 0.3049129247665405,
+      "memory(GiB)": 41.86,
+      "step": 613,
+      "token_acc": 0.9025934861278649,
+      "train_speed(iter/s)": 0.240713
+    },
+    {
+      "epoch": 0.19648,
+      "grad_norm": 0.7008172814466513,
+      "learning_rate": 4.996730467220086e-06,
+      "loss": 0.4790416359901428,
+      "memory(GiB)": 41.86,
+      "step": 614,
+      "token_acc": 0.9024451726745651,
+      "train_speed(iter/s)": 0.240724
+    },
+    {
+      "epoch": 0.1968,
+      "grad_norm": 0.7100437959428243,
+      "learning_rate": 4.996685224712077e-06,
+      "loss": 0.30980467796325684,
+      "memory(GiB)": 41.86,
+      "step": 615,
+      "token_acc": 0.8532873959230548,
+      "train_speed(iter/s)": 0.240741
+    },
+    {
+      "epoch": 0.19712,
+      "grad_norm": 0.6337352556093074,
+      "learning_rate": 4.996639671534902e-06,
+      "loss": 0.36125442385673523,
+      "memory(GiB)": 41.86,
+      "step": 616,
+      "token_acc": 0.9189397838394235,
+      "train_speed(iter/s)": 0.240754
+    },
+    {
+      "epoch": 0.19744,
+      "grad_norm": 0.6694176123236347,
+      "learning_rate": 4.996593807694231e-06,
+      "loss": 0.36232417821884155,
+      "memory(GiB)": 41.86,
+      "step": 617,
+      "token_acc": 0.8979942693409743,
+      "train_speed(iter/s)": 0.240763
+    },
+    {
+      "epoch": 0.19776,
+      "grad_norm": 0.6834012430437612,
+      "learning_rate": 4.99654763319577e-06,
+      "loss": 0.500540018081665,
+      "memory(GiB)": 41.86,
+      "step": 618,
+      "token_acc": 0.8259456264775413,
+      "train_speed(iter/s)": 0.240764
+    },
+    {
+      "epoch": 0.19808,
+      "grad_norm": 0.7347964370077852,
+      "learning_rate": 4.996501148045265e-06,
+      "loss": 0.35871589183807373,
+      "memory(GiB)": 41.86,
+      "step": 619,
+      "token_acc": 0.9084830756372754,
+      "train_speed(iter/s)": 0.24078
+    },
+    {
+      "epoch": 0.1984,
+      "grad_norm": 0.7178315887019402,
+      "learning_rate": 4.996454352248499e-06,
+      "loss": 0.510735809803009,
+      "memory(GiB)": 41.86,
+      "step": 620,
+      "token_acc": 0.7712082262210797,
+      "train_speed(iter/s)": 0.240793
+    },
+    {
+      "epoch": 0.19872,
+      "grad_norm": 0.7401470454396356,
+      "learning_rate": 4.996407245811297e-06,
+      "loss": 0.37660109996795654,
+      "memory(GiB)": 41.86,
+      "step": 621,
+      "token_acc": 0.9276848354020507,
+      "train_speed(iter/s)": 0.240811
+    },
+    {
+      "epoch": 0.19904,
+      "grad_norm": 0.7795618965043085,
+      "learning_rate": 4.996359828739519e-06,
+      "loss": 0.5003116130828857,
+      "memory(GiB)": 41.86,
+      "step": 622,
+      "token_acc": 0.8593436034829203,
+      "train_speed(iter/s)": 0.240823
+    },
+    {
+      "epoch": 0.19936,
+      "grad_norm": 0.6578701411810297,
+      "learning_rate": 4.996312101039066e-06,
+      "loss": 0.30227798223495483,
+      "memory(GiB)": 41.86,
+      "step": 623,
+      "token_acc": 0.9114774114774115,
+      "train_speed(iter/s)": 0.240841
+    },
+    {
+      "epoch": 0.19968,
+      "grad_norm": 0.6824758352628882,
+      "learning_rate": 4.996264062715875e-06,
+      "loss": 0.430012047290802,
+      "memory(GiB)": 41.86,
+      "step": 624,
+      "token_acc": 0.9412997903563941,
+      "train_speed(iter/s)": 0.240841
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.7186723504036854,
+      "learning_rate": 4.9962157137759265e-06,
+      "loss": 0.37046653032302856,
+      "memory(GiB)": 41.86,
+      "step": 625,
+      "token_acc": 0.9190948543087415,
+      "train_speed(iter/s)": 0.240828
+    },
+    {
+      "epoch": 0.20032,
+      "grad_norm": 0.7437554921480349,
+      "learning_rate": 4.996167054225235e-06,
+      "loss": 0.4950665831565857,
+      "memory(GiB)": 41.86,
+      "step": 626,
+      "token_acc": 0.8419008453278501,
+      "train_speed(iter/s)": 0.240796
+    },
+    {
+      "epoch": 0.20064,
+      "grad_norm": 0.7267636720711464,
+      "learning_rate": 4.996118084069855e-06,
+      "loss": 0.3634376525878906,
+      "memory(GiB)": 41.86,
+      "step": 627,
+      "token_acc": 0.9135602377093462,
+      "train_speed(iter/s)": 0.240804
+    },
+    {
+      "epoch": 0.20096,
+      "grad_norm": 0.6916318702322536,
+      "learning_rate": 4.996068803315882e-06,
+      "loss": 0.2752354145050049,
+      "memory(GiB)": 41.86,
+      "step": 628,
+      "token_acc": 0.9358974358974359,
+      "train_speed(iter/s)": 0.240831
+    },
+    {
+      "epoch": 0.20128,
+      "grad_norm": 0.7302995746598735,
+      "learning_rate": 4.996019211969446e-06,
+      "loss": 0.4127858281135559,
+      "memory(GiB)": 41.86,
+      "step": 629,
+      "token_acc": 0.9296465968586387,
+      "train_speed(iter/s)": 0.240818
+    },
+    {
+      "epoch": 0.2016,
+      "grad_norm": 0.7507055248710407,
+      "learning_rate": 4.995969310036719e-06,
+      "loss": 0.4005252718925476,
+      "memory(GiB)": 41.86,
+      "step": 630,
+      "token_acc": 0.8391862436425285,
+      "train_speed(iter/s)": 0.240824
+    },
+    {
+      "epoch": 0.20192,
+      "grad_norm": 0.6891238082953958,
+      "learning_rate": 4.995919097523909e-06,
+      "loss": 0.45887523889541626,
+      "memory(GiB)": 41.86,
+      "step": 631,
+      "token_acc": 0.8497017892644135,
+      "train_speed(iter/s)": 0.240819
+    },
+    {
+      "epoch": 0.20224,
+      "grad_norm": 0.724869974115601,
+      "learning_rate": 4.995868574437265e-06,
+      "loss": 0.48080503940582275,
+      "memory(GiB)": 41.86,
+      "step": 632,
+      "token_acc": 0.9182754182754183,
+      "train_speed(iter/s)": 0.240827
+    },
+    {
+      "epoch": 0.20256,
+      "grad_norm": 0.707258837009197,
+      "learning_rate": 4.995817740783075e-06,
+      "loss": 0.40979158878326416,
+      "memory(GiB)": 41.86,
+      "step": 633,
+      "token_acc": 0.9125315391084945,
+      "train_speed(iter/s)": 0.240848
+    },
+    {
+      "epoch": 0.20288,
+      "grad_norm": 0.6605348126576681,
+      "learning_rate": 4.995766596567662e-06,
+      "loss": 0.4081265330314636,
+      "memory(GiB)": 41.86,
+      "step": 634,
+      "token_acc": 0.910455764075067,
+      "train_speed(iter/s)": 0.240829
+    },
+    {
+      "epoch": 0.2032,
+      "grad_norm": 0.7610637007795256,
+      "learning_rate": 4.995715141797392e-06,
+      "loss": 0.4674842655658722,
+      "memory(GiB)": 41.86,
+      "step": 635,
+      "token_acc": 0.839852738150023,
+      "train_speed(iter/s)": 0.24083
+    },
+    {
+      "epoch": 0.20352,
+      "grad_norm": 0.6639084080518016,
+      "learning_rate": 4.995663376478666e-06,
+      "loss": 0.3504132032394409,
+      "memory(GiB)": 41.86,
+      "step": 636,
+      "token_acc": 0.919965075669383,
+      "train_speed(iter/s)": 0.240779
+    },
+    {
+      "epoch": 0.20384,
+      "grad_norm": 0.6633018581482668,
+      "learning_rate": 4.995611300617927e-06,
+      "loss": 0.3760378956794739,
+      "memory(GiB)": 41.86,
+      "step": 637,
+      "token_acc": 0.925868001251173,
+      "train_speed(iter/s)": 0.240783
+    },
+    {
+      "epoch": 0.20416,
+      "grad_norm": 0.7178556433270188,
+      "learning_rate": 4.995558914221653e-06,
+      "loss": 0.4086587429046631,
+      "memory(GiB)": 41.86,
+      "step": 638,
+      "token_acc": 0.8946564885496183,
+      "train_speed(iter/s)": 0.240804
+    },
+    {
+      "epoch": 0.20448,
+      "grad_norm": 0.7071764519079325,
+      "learning_rate": 4.995506217296364e-06,
+      "loss": 0.4297142028808594,
+      "memory(GiB)": 41.86,
+      "step": 639,
+      "token_acc": 0.8668494820231566,
+      "train_speed(iter/s)": 0.240808
+    },
+    {
+      "epoch": 0.2048,
+      "grad_norm": 0.7265850580914968,
+      "learning_rate": 4.995453209848617e-06,
+      "loss": 0.4079035818576813,
+      "memory(GiB)": 41.86,
+      "step": 640,
+      "token_acc": 0.9159061277705346,
+      "train_speed(iter/s)": 0.240822
+    },
+    {
+      "epoch": 0.20512,
+      "grad_norm": 0.7348518577795692,
+      "learning_rate": 4.995399891885007e-06,
+      "loss": 0.4221140444278717,
+      "memory(GiB)": 41.86,
+      "step": 641,
+      "token_acc": 0.8953846153846153,
+      "train_speed(iter/s)": 0.240831
+    },
+    {
+      "epoch": 0.20544,
+      "grad_norm": 0.725309552126381,
+      "learning_rate": 4.9953462634121705e-06,
+      "loss": 0.3429161012172699,
+      "memory(GiB)": 41.86,
+      "step": 642,
+      "token_acc": 0.9297820823244553,
+      "train_speed(iter/s)": 0.240854
+    },
+    {
+      "epoch": 0.20576,
+      "grad_norm": 0.7299671807968264,
+      "learning_rate": 4.9952923244367776e-06,
+      "loss": 0.3431488275527954,
+      "memory(GiB)": 41.86,
+      "step": 643,
+      "token_acc": 0.9114194236926361,
+      "train_speed(iter/s)": 0.240869
+    },
+    {
+      "epoch": 0.20608,
+      "grad_norm": 0.6680015750914127,
+      "learning_rate": 4.995238074965544e-06,
+      "loss": 0.36122021079063416,
+      "memory(GiB)": 41.86,
+      "step": 644,
+      "token_acc": 0.948925909688733,
+      "train_speed(iter/s)": 0.240869
+    },
+    {
+      "epoch": 0.2064,
+      "grad_norm": 0.7002113194215094,
+      "learning_rate": 4.9951835150052165e-06,
+      "loss": 0.3564288318157196,
+      "memory(GiB)": 41.86,
+      "step": 645,
+      "token_acc": 0.9147208121827411,
+      "train_speed(iter/s)": 0.24089
+    },
+    {
+      "epoch": 0.20672,
+      "grad_norm": 0.7461916728505239,
+      "learning_rate": 4.995128644562585e-06,
+      "loss": 0.339659184217453,
+      "memory(GiB)": 41.86,
+      "step": 646,
+      "token_acc": 0.8916857360793288,
+      "train_speed(iter/s)": 0.240892
+    },
+    {
+      "epoch": 0.20704,
+      "grad_norm": 0.7348731244200202,
+      "learning_rate": 4.995073463644478e-06,
+      "loss": 0.43801093101501465,
+      "memory(GiB)": 41.86,
+      "step": 647,
+      "token_acc": 0.8897408778424114,
+      "train_speed(iter/s)": 0.240887
+    },
+    {
+      "epoch": 0.20736,
+      "grad_norm": 0.6893289352824309,
+      "learning_rate": 4.9950179722577614e-06,
+      "loss": 0.28794151544570923,
+      "memory(GiB)": 41.86,
+      "step": 648,
+      "token_acc": 0.9357933579335793,
+      "train_speed(iter/s)": 0.240911
+    },
+    {
+      "epoch": 0.20768,
+      "grad_norm": 0.762750783860591,
+      "learning_rate": 4.994962170409342e-06,
+      "loss": 0.4345610737800598,
+      "memory(GiB)": 41.86,
+      "step": 649,
+      "token_acc": 0.8886608517188301,
+      "train_speed(iter/s)": 0.240922
+    },
+    {
+      "epoch": 0.208,
+      "grad_norm": 0.6813465873051964,
+      "learning_rate": 4.9949060581061595e-06,
+      "loss": 0.39386433362960815,
+      "memory(GiB)": 41.86,
+      "step": 650,
+      "token_acc": 0.8239918843520162,
+      "train_speed(iter/s)": 0.240933
+    },
+    {
+      "epoch": 0.20832,
+      "grad_norm": 0.727317211921378,
+      "learning_rate": 4.994849635355199e-06,
+      "loss": 0.4502859115600586,
+      "memory(GiB)": 41.86,
+      "step": 651,
+      "token_acc": 0.8494623655913979,
+      "train_speed(iter/s)": 0.240928
+    },
+    {
+      "epoch": 0.20864,
+      "grad_norm": 0.6871709937485635,
+      "learning_rate": 4.9947929021634815e-06,
+      "loss": 0.41390347480773926,
+      "memory(GiB)": 41.86,
+      "step": 652,
+      "token_acc": 0.8099173553719008,
+      "train_speed(iter/s)": 0.240941
+    },
+    {
+      "epoch": 0.20896,
+      "grad_norm": 0.7361720668304206,
+      "learning_rate": 4.994735858538064e-06,
+      "loss": 0.46877622604370117,
+      "memory(GiB)": 41.86,
+      "step": 653,
+      "token_acc": 0.9154310818231741,
+      "train_speed(iter/s)": 0.240948
+    },
+    {
+      "epoch": 0.20928,
+      "grad_norm": 0.7092564357737654,
+      "learning_rate": 4.994678504486047e-06,
+      "loss": 0.3681297302246094,
+      "memory(GiB)": 41.86,
+      "step": 654,
+      "token_acc": 0.8501619870410367,
+      "train_speed(iter/s)": 0.240936
+    },
+    {
+      "epoch": 0.2096,
+      "grad_norm": 0.688002563646692,
+      "learning_rate": 4.994620840014565e-06,
+      "loss": 0.4735531806945801,
+      "memory(GiB)": 41.86,
+      "step": 655,
+      "token_acc": 0.8019751835907825,
+      "train_speed(iter/s)": 0.240913
+    },
+    {
+      "epoch": 0.20992,
+      "grad_norm": 0.7182833563451828,
+      "learning_rate": 4.994562865130796e-06,
+      "loss": 0.40688467025756836,
+      "memory(GiB)": 41.86,
+      "step": 656,
+      "token_acc": 0.8517273005197188,
+      "train_speed(iter/s)": 0.240933
+    },
+    {
+      "epoch": 0.21024,
+      "grad_norm": 0.712301795121346,
+      "learning_rate": 4.9945045798419524e-06,
+      "loss": 0.3910367488861084,
+      "memory(GiB)": 41.86,
+      "step": 657,
+      "token_acc": 0.8931464174454828,
+      "train_speed(iter/s)": 0.240934
+    },
+    {
+      "epoch": 0.21056,
+      "grad_norm": 0.7154843256917051,
+      "learning_rate": 4.994445984155287e-06,
+      "loss": 0.4038703739643097,
+      "memory(GiB)": 41.86,
+      "step": 658,
+      "token_acc": 0.9252018699532512,
+      "train_speed(iter/s)": 0.240951
+    },
+    {
+      "epoch": 0.21088,
+      "grad_norm": 0.7186817358197332,
+      "learning_rate": 4.994387078078091e-06,
+      "loss": 0.3840501308441162,
+      "memory(GiB)": 41.86,
+      "step": 659,
+      "token_acc": 0.9356233485467211,
+      "train_speed(iter/s)": 0.240962
+    },
+    {
+      "epoch": 0.2112,
+      "grad_norm": 0.6388204153615546,
+      "learning_rate": 4.9943278616176945e-06,
+      "loss": 0.4145182967185974,
+      "memory(GiB)": 41.86,
+      "step": 660,
+      "token_acc": 0.9159792239535595,
+      "train_speed(iter/s)": 0.240941
+    },
+    {
+      "epoch": 0.21152,
+      "grad_norm": 0.7337065491737129,
+      "learning_rate": 4.994268334781465e-06,
+      "loss": 0.4388319253921509,
+      "memory(GiB)": 41.86,
+      "step": 661,
+      "token_acc": 0.8877693814721522,
+      "train_speed(iter/s)": 0.240954
+    },
+    {
+      "epoch": 0.21184,
+      "grad_norm": 0.8094002264166715,
+      "learning_rate": 4.994208497576811e-06,
+      "loss": 0.4007093608379364,
+      "memory(GiB)": 41.86,
+      "step": 662,
+      "token_acc": 0.799672131147541,
+      "train_speed(iter/s)": 0.240964
+    },
+    {
+      "epoch": 0.21216,
+      "grad_norm": 0.7393964954195534,
+      "learning_rate": 4.994148350011178e-06,
+      "loss": 0.4640263020992279,
+      "memory(GiB)": 41.86,
+      "step": 663,
+      "token_acc": 0.8587026332691072,
+      "train_speed(iter/s)": 0.240949
+    },
+    {
+      "epoch": 0.21248,
+      "grad_norm": 0.6793244554997642,
+      "learning_rate": 4.994087892092049e-06,
+      "loss": 0.3085007071495056,
+      "memory(GiB)": 41.86,
+      "step": 664,
+      "token_acc": 0.934462915601023,
+      "train_speed(iter/s)": 0.240962
+    },
+    {
+      "epoch": 0.2128,
+      "grad_norm": 0.7333968359230266,
+      "learning_rate": 4.9940271238269475e-06,
+      "loss": 0.3759646415710449,
+      "memory(GiB)": 41.86,
+      "step": 665,
+      "token_acc": 0.9125619352958321,
+      "train_speed(iter/s)": 0.240961
+    },
+    {
+      "epoch": 0.21312,
+      "grad_norm": 0.7434999652954282,
+      "learning_rate": 4.993966045223436e-06,
+      "loss": 0.42632484436035156,
+      "memory(GiB)": 41.86,
+      "step": 666,
+      "token_acc": 0.8646654795217502,
+      "train_speed(iter/s)": 0.240975
+    },
+    {
+      "epoch": 0.21344,
+      "grad_norm": 0.6675589250344625,
+      "learning_rate": 4.993904656289113e-06,
+      "loss": 0.368966281414032,
+      "memory(GiB)": 41.86,
+      "step": 667,
+      "token_acc": 0.8954918032786885,
+      "train_speed(iter/s)": 0.240958
+    },
+    {
+      "epoch": 0.21376,
+      "grad_norm": 0.7260795862486636,
+      "learning_rate": 4.993842957031619e-06,
+      "loss": 0.3905546963214874,
+      "memory(GiB)": 41.86,
+      "step": 668,
+      "token_acc": 0.8984397163120568,
+      "train_speed(iter/s)": 0.240978
+    },
+    {
+      "epoch": 0.21408,
+      "grad_norm": 0.7383524200328477,
+      "learning_rate": 4.993780947458632e-06,
+      "loss": 0.392816424369812,
+      "memory(GiB)": 41.86,
+      "step": 669,
+      "token_acc": 0.890621875624875,
+      "train_speed(iter/s)": 0.24096
+    },
+    {
+      "epoch": 0.2144,
+      "grad_norm": 0.6683192719987626,
+      "learning_rate": 4.9937186275778646e-06,
+      "loss": 0.3148327171802521,
+      "memory(GiB)": 41.86,
+      "step": 670,
+      "token_acc": 0.8907902924704418,
+      "train_speed(iter/s)": 0.24097
+    },
+    {
+      "epoch": 0.21472,
+      "grad_norm": 0.7205793263368735,
+      "learning_rate": 4.993655997397075e-06,
+      "loss": 0.47282326221466064,
+      "memory(GiB)": 41.86,
+      "step": 671,
+      "token_acc": 0.8849921011058451,
+      "train_speed(iter/s)": 0.240968
+    },
+    {
+      "epoch": 0.21504,
+      "grad_norm": 0.9123442927137485,
+      "learning_rate": 4.993593056924055e-06,
+      "loss": 0.38779354095458984,
+      "memory(GiB)": 41.86,
+      "step": 672,
+      "token_acc": 0.9281559045956952,
+      "train_speed(iter/s)": 0.240981
+    },
+    {
+      "epoch": 0.21536,
+      "grad_norm": 0.6943919384296121,
+      "learning_rate": 4.9935298061666356e-06,
+      "loss": 0.4451703131198883,
+      "memory(GiB)": 41.86,
+      "step": 673,
+      "token_acc": 0.8061052631578948,
+      "train_speed(iter/s)": 0.240976
+    },
+    {
+      "epoch": 0.21568,
+      "grad_norm": 0.6887922012887568,
+      "learning_rate": 4.9934662451326885e-06,
+      "loss": 0.3671219050884247,
+      "memory(GiB)": 41.86,
+      "step": 674,
+      "token_acc": 0.8544500119303269,
+      "train_speed(iter/s)": 0.24097
+    },
+    {
+      "epoch": 0.216,
+      "grad_norm": 0.6847091472772892,
+      "learning_rate": 4.9934023738301215e-06,
+      "loss": 0.34528207778930664,
+      "memory(GiB)": 41.86,
+      "step": 675,
+      "token_acc": 0.9237835998638992,
+      "train_speed(iter/s)": 0.240984
+    },
+    {
+      "epoch": 0.21632,
+      "grad_norm": 0.6858998952654874,
+      "learning_rate": 4.993338192266885e-06,
+      "loss": 0.39834946393966675,
+      "memory(GiB)": 41.86,
+      "step": 676,
+      "token_acc": 0.8597758405977584,
+      "train_speed(iter/s)": 0.240959
+    },
+    {
+      "epoch": 0.21664,
+      "grad_norm": 0.686641174823756,
+      "learning_rate": 4.993273700450962e-06,
+      "loss": 0.37345531582832336,
+      "memory(GiB)": 41.86,
+      "step": 677,
+      "token_acc": 0.9496176338281601,
+      "train_speed(iter/s)": 0.240969
+    },
+    {
+      "epoch": 0.21696,
+      "grad_norm": 0.6805802712438582,
+      "learning_rate": 4.9932088983903795e-06,
+      "loss": 0.4547409117221832,
+      "memory(GiB)": 41.86,
+      "step": 678,
+      "token_acc": 0.915282392026578,
+      "train_speed(iter/s)": 0.24094
+    },
+    {
+      "epoch": 0.21728,
+      "grad_norm": 0.664417238464341,
+      "learning_rate": 4.9931437860932e-06,
+      "loss": 0.41881075501441956,
+      "memory(GiB)": 41.86,
+      "step": 679,
+      "token_acc": 0.9328712148850784,
+      "train_speed(iter/s)": 0.240928
+    },
+    {
+      "epoch": 0.2176,
+      "grad_norm": 0.7080536559680454,
+      "learning_rate": 4.993078363567526e-06,
+      "loss": 0.31501907110214233,
+      "memory(GiB)": 41.86,
+      "step": 680,
+      "token_acc": 0.9295430763864667,
+      "train_speed(iter/s)": 0.240946
+    },
+    {
+      "epoch": 0.21792,
+      "grad_norm": 0.7391345860639904,
+      "learning_rate": 4.993012630821498e-06,
+      "loss": 0.35557496547698975,
+      "memory(GiB)": 41.86,
+      "step": 681,
+      "token_acc": 0.8859910581222057,
+      "train_speed(iter/s)": 0.240949
+    },
+    {
+      "epoch": 0.21824,
+      "grad_norm": 0.6767188115269217,
+      "learning_rate": 4.992946587863295e-06,
+      "loss": 0.3342413306236267,
+      "memory(GiB)": 41.86,
+      "step": 682,
+      "token_acc": 0.9353140278300113,
+      "train_speed(iter/s)": 0.240965
+    },
+    {
+      "epoch": 0.21856,
+      "grad_norm": 0.6851841808904401,
+      "learning_rate": 4.992880234701136e-06,
+      "loss": 0.3321181535720825,
+      "memory(GiB)": 41.86,
+      "step": 683,
+      "token_acc": 0.9253255381344672,
+      "train_speed(iter/s)": 0.240982
+    },
+    {
+      "epoch": 0.21888,
+      "grad_norm": 0.6774063128016391,
+      "learning_rate": 4.992813571343276e-06,
+      "loss": 0.3438548743724823,
+      "memory(GiB)": 41.86,
+      "step": 684,
+      "token_acc": 0.8530805687203792,
+      "train_speed(iter/s)": 0.240967
+    },
+    {
+      "epoch": 0.2192,
+      "grad_norm": 0.7448192956757836,
+      "learning_rate": 4.992746597798012e-06,
+      "loss": 0.40210121870040894,
+      "memory(GiB)": 41.86,
+      "step": 685,
+      "token_acc": 0.9288014311270125,
+      "train_speed(iter/s)": 0.240984
+    },
+    {
+      "epoch": 0.21952,
+      "grad_norm": 0.741257000523544,
+      "learning_rate": 4.9926793140736756e-06,
+      "loss": 0.5914468765258789,
+      "memory(GiB)": 41.86,
+      "step": 686,
+      "token_acc": 0.8430114787305875,
+      "train_speed(iter/s)": 0.240981
+    },
+    {
+      "epoch": 0.21984,
+      "grad_norm": 0.6668227853801081,
+      "learning_rate": 4.9926117201786405e-06,
+      "loss": 0.36227187514305115,
+      "memory(GiB)": 41.86,
+      "step": 687,
+      "token_acc": 0.8855659911023233,
+      "train_speed(iter/s)": 0.240999
+    },
+    {
+      "epoch": 0.22016,
+      "grad_norm": 0.8048767755071963,
+      "learning_rate": 4.992543816121317e-06,
+      "loss": 0.44223666191101074,
+      "memory(GiB)": 41.86,
+      "step": 688,
+      "token_acc": 0.9143029571514786,
+      "train_speed(iter/s)": 0.24101
+    },
+    {
+      "epoch": 0.22048,
+      "grad_norm": 0.6978728199884829,
+      "learning_rate": 4.992475601910155e-06,
+      "loss": 0.42237889766693115,
+      "memory(GiB)": 41.86,
+      "step": 689,
+      "token_acc": 0.906876227897839,
+      "train_speed(iter/s)": 0.241012
+    },
+    {
+      "epoch": 0.2208,
+      "grad_norm": 0.6953847446727337,
+      "learning_rate": 4.992407077553643e-06,
+      "loss": 0.49450770020484924,
+      "memory(GiB)": 41.86,
+      "step": 690,
+      "token_acc": 0.8197539075490522,
+      "train_speed(iter/s)": 0.241016
+    },
+    {
+      "epoch": 0.22112,
+      "grad_norm": 0.6369955643516892,
+      "learning_rate": 4.992338243060305e-06,
+      "loss": 0.39748892188072205,
+      "memory(GiB)": 41.86,
+      "step": 691,
+      "token_acc": 0.9084359749012317,
+      "train_speed(iter/s)": 0.240994
+    },
+    {
+      "epoch": 0.22144,
+      "grad_norm": 0.7194077036465691,
+      "learning_rate": 4.9922690984387105e-06,
+      "loss": 0.4647546410560608,
+      "memory(GiB)": 41.86,
+      "step": 692,
+      "token_acc": 0.8419638057695753,
+      "train_speed(iter/s)": 0.24099
+    },
+    {
+      "epoch": 0.22176,
+      "grad_norm": 0.7664964095767078,
+      "learning_rate": 4.9921996436974595e-06,
+      "loss": 0.39649444818496704,
+      "memory(GiB)": 41.86,
+      "step": 693,
+      "token_acc": 0.8478792822185971,
+      "train_speed(iter/s)": 0.240996
+    },
+    {
+      "epoch": 0.22208,
+      "grad_norm": 0.6827671298657165,
+      "learning_rate": 4.992129878845197e-06,
+      "loss": 0.36891406774520874,
+      "memory(GiB)": 41.86,
+      "step": 694,
+      "token_acc": 0.8773034756239795,
+      "train_speed(iter/s)": 0.240994
+    },
+    {
+      "epoch": 0.2224,
+      "grad_norm": 0.6654600490631626,
+      "learning_rate": 4.992059803890602e-06,
+      "loss": 0.49363040924072266,
+      "memory(GiB)": 41.86,
+      "step": 695,
+      "token_acc": 0.8214101904271744,
+      "train_speed(iter/s)": 0.241002
+    },
+    {
+      "epoch": 0.22272,
+      "grad_norm": 0.7027668271033155,
+      "learning_rate": 4.9919894188423965e-06,
+      "loss": 0.3547956943511963,
+      "memory(GiB)": 41.86,
+      "step": 696,
+      "token_acc": 0.840042372881356,
+      "train_speed(iter/s)": 0.241013
+    },
+    {
+      "epoch": 0.22304,
+      "grad_norm": 0.6861007676527083,
+      "learning_rate": 4.991918723709337e-06,
+      "loss": 0.4164801239967346,
+      "memory(GiB)": 41.86,
+      "step": 697,
+      "token_acc": 0.9363662539591131,
+      "train_speed(iter/s)": 0.240989
+    },
+    {
+      "epoch": 0.22336,
+      "grad_norm": 0.7049227479366047,
+      "learning_rate": 4.99184771850022e-06,
+      "loss": 0.3631105422973633,
+      "memory(GiB)": 41.86,
+      "step": 698,
+      "token_acc": 0.9063709961281239,
+      "train_speed(iter/s)": 0.241
+    },
+    {
+      "epoch": 0.22368,
+      "grad_norm": 0.699942029026459,
+      "learning_rate": 4.991776403223882e-06,
+      "loss": 0.45336928963661194,
+      "memory(GiB)": 41.86,
+      "step": 699,
+      "token_acc": 0.880465644520159,
+      "train_speed(iter/s)": 0.241004
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 0.7016149244053942,
+      "learning_rate": 4.991704777889196e-06,
+      "loss": 0.3199717402458191,
+      "memory(GiB)": 41.86,
+      "step": 700,
+      "token_acc": 0.8741429970617042,
+      "train_speed(iter/s)": 0.241021
+    },
+    {
+      "epoch": 0.22432,
+      "grad_norm": 0.7022150031987149,
+      "learning_rate": 4.991632842505076e-06,
+      "loss": 0.3656160235404968,
+      "memory(GiB)": 41.86,
+      "step": 701,
+      "token_acc": 0.8396176314391928,
+      "train_speed(iter/s)": 0.241044
+    },
+    {
+      "epoch": 0.22464,
+      "grad_norm": 0.7289044318829413,
+      "learning_rate": 4.991560597080471e-06,
+      "loss": 0.402595192193985,
+      "memory(GiB)": 41.86,
+      "step": 702,
+      "token_acc": 0.8854103343465045,
+      "train_speed(iter/s)": 0.241054
+    },
+    {
+      "epoch": 0.22496,
+      "grad_norm": 0.6591403781970326,
+      "learning_rate": 4.991488041624373e-06,
+      "loss": 0.40790414810180664,
+      "memory(GiB)": 41.86,
+      "step": 703,
+      "token_acc": 0.9103699843668578,
+      "train_speed(iter/s)": 0.241054
+    },
+    {
+      "epoch": 0.22528,
+      "grad_norm": 0.7040653699282617,
+      "learning_rate": 4.9914151761458084e-06,
+      "loss": 0.4283745288848877,
+      "memory(GiB)": 41.86,
+      "step": 704,
+      "token_acc": 0.7714620568414884,
+      "train_speed(iter/s)": 0.241065
+    },
+    {
+      "epoch": 0.2256,
+      "grad_norm": 0.6860353000403746,
+      "learning_rate": 4.991342000653845e-06,
+      "loss": 0.5238885879516602,
+      "memory(GiB)": 41.86,
+      "step": 705,
+      "token_acc": 0.8626214867349619,
+      "train_speed(iter/s)": 0.241066
+    },
+    {
+      "epoch": 0.22592,
+      "grad_norm": 0.7619410160164504,
+      "learning_rate": 4.991268515157587e-06,
+      "loss": 0.44094744324684143,
+      "memory(GiB)": 41.86,
+      "step": 706,
+      "token_acc": 0.8567408544384754,
+      "train_speed(iter/s)": 0.241083
+    },
+    {
+      "epoch": 0.22624,
+      "grad_norm": 0.7010678425196203,
+      "learning_rate": 4.99119471966618e-06,
+      "loss": 0.37000611424446106,
+      "memory(GiB)": 41.86,
+      "step": 707,
+      "token_acc": 0.8783783783783784,
+      "train_speed(iter/s)": 0.241085
+    },
+    {
+      "epoch": 0.22656,
+      "grad_norm": 0.6578009571827106,
+      "learning_rate": 4.991120614188807e-06,
+      "loss": 0.44439181685447693,
+      "memory(GiB)": 41.86,
+      "step": 708,
+      "token_acc": 0.8354007633587787,
+      "train_speed(iter/s)": 0.241099
+    },
+    {
+      "epoch": 0.22688,
+      "grad_norm": 0.9938102576951828,
+      "learning_rate": 4.991046198734686e-06,
+      "loss": 0.47150009870529175,
+      "memory(GiB)": 41.86,
+      "step": 709,
+      "token_acc": 0.8784576697401508,
+      "train_speed(iter/s)": 0.241103
+    },
+    {
+      "epoch": 0.2272,
+      "grad_norm": 0.7226908817772437,
+      "learning_rate": 4.990971473313081e-06,
+      "loss": 0.4176260530948639,
+      "memory(GiB)": 41.86,
+      "step": 710,
+      "token_acc": 0.8262603246938194,
+      "train_speed(iter/s)": 0.241113
+    },
+    {
+      "epoch": 0.22752,
+      "grad_norm": 0.6808667852870662,
+      "learning_rate": 4.990896437933286e-06,
+      "loss": 0.4292218089103699,
+      "memory(GiB)": 41.86,
+      "step": 711,
+      "token_acc": 0.8457552809884417,
+      "train_speed(iter/s)": 0.24112
+    },
+    {
+      "epoch": 0.22784,
+      "grad_norm": 0.7011431408123251,
+      "learning_rate": 4.9908210926046405e-06,
+      "loss": 0.29058289527893066,
+      "memory(GiB)": 41.86,
+      "step": 712,
+      "token_acc": 0.9057009680889208,
+      "train_speed(iter/s)": 0.241122
+    },
+    {
+      "epoch": 0.22816,
+      "grad_norm": 0.7208696004909105,
+      "learning_rate": 4.99074543733652e-06,
+      "loss": 0.3040674328804016,
+      "memory(GiB)": 41.86,
+      "step": 713,
+      "token_acc": 0.9348575007829627,
+      "train_speed(iter/s)": 0.241132
+    },
+    {
+      "epoch": 0.22848,
+      "grad_norm": 0.6422848741537666,
+      "learning_rate": 4.990669472138337e-06,
+      "loss": 0.4201911687850952,
+      "memory(GiB)": 41.86,
+      "step": 714,
+      "token_acc": 0.8763141620284477,
+      "train_speed(iter/s)": 0.241132
+    },
+    {
+      "epoch": 0.2288,
+      "grad_norm": 0.7204342722880653,
+      "learning_rate": 4.990593197019545e-06,
+      "loss": 0.46834367513656616,
+      "memory(GiB)": 41.86,
+      "step": 715,
+      "token_acc": 0.8136551424222657,
+      "train_speed(iter/s)": 0.241134
+    },
+    {
+      "epoch": 0.22912,
+      "grad_norm": 0.7308820312406343,
+      "learning_rate": 4.990516611989635e-06,
+      "loss": 0.4614957869052887,
+      "memory(GiB)": 41.86,
+      "step": 716,
+      "token_acc": 0.9403166869671132,
+      "train_speed(iter/s)": 0.241143
+    },
+    {
+      "epoch": 0.22944,
+      "grad_norm": 0.7144913280032881,
+      "learning_rate": 4.9904397170581375e-06,
+      "loss": 0.3112773001194,
+      "memory(GiB)": 41.86,
+      "step": 717,
+      "token_acc": 0.8633208756006406,
+      "train_speed(iter/s)": 0.241152
+    },
+    {
+      "epoch": 0.22976,
+      "grad_norm": 1.3895308866489895,
+      "learning_rate": 4.990362512234619e-06,
+      "loss": 0.37629514932632446,
+      "memory(GiB)": 41.86,
+      "step": 718,
+      "token_acc": 0.8763992537313433,
+      "train_speed(iter/s)": 0.24116
+    },
+    {
+      "epoch": 0.23008,
+      "grad_norm": 0.7005165692441128,
+      "learning_rate": 4.9902849975286875e-06,
+      "loss": 0.4847871661186218,
+      "memory(GiB)": 41.86,
+      "step": 719,
+      "token_acc": 0.8423889607589479,
+      "train_speed(iter/s)": 0.241178
+    },
+    {
+      "epoch": 0.2304,
+      "grad_norm": 0.6743386397509609,
+      "learning_rate": 4.9902071729499875e-06,
+      "loss": 0.3656957745552063,
+      "memory(GiB)": 41.86,
+      "step": 720,
+      "token_acc": 0.896329928111994,
+      "train_speed(iter/s)": 0.241187
+    },
+    {
+      "epoch": 0.23072,
+      "grad_norm": 0.6962408456353995,
+      "learning_rate": 4.990129038508204e-06,
+      "loss": 0.2761991024017334,
+      "memory(GiB)": 41.86,
+      "step": 721,
+      "token_acc": 0.9480326651818857,
+      "train_speed(iter/s)": 0.241177
+    },
+    {
+      "epoch": 0.23104,
+      "grad_norm": 0.6613538662665709,
+      "learning_rate": 4.990050594213059e-06,
+      "loss": 0.3765658438205719,
+      "memory(GiB)": 41.86,
+      "step": 722,
+      "token_acc": 0.8843237524246165,
+      "train_speed(iter/s)": 0.241177
+    },
+    {
+      "epoch": 0.23136,
+      "grad_norm": 0.692821096264721,
+      "learning_rate": 4.989971840074314e-06,
+      "loss": 0.3937222957611084,
+      "memory(GiB)": 41.86,
+      "step": 723,
+      "token_acc": 0.8708718626155878,
+      "train_speed(iter/s)": 0.241175
+    },
+    {
+      "epoch": 0.23168,
+      "grad_norm": 0.669704367795362,
+      "learning_rate": 4.989892776101767e-06,
+      "loss": 0.39325904846191406,
+      "memory(GiB)": 41.86,
+      "step": 724,
+      "token_acc": 0.8430664684646422,
+      "train_speed(iter/s)": 0.241179
+    },
+    {
+      "epoch": 0.232,
+      "grad_norm": 0.7396164844927292,
+      "learning_rate": 4.989813402305257e-06,
+      "loss": 0.33057376742362976,
+      "memory(GiB)": 41.86,
+      "step": 725,
+      "token_acc": 0.9015617605300521,
+      "train_speed(iter/s)": 0.241192
+    },
+    {
+      "epoch": 0.23232,
+      "grad_norm": 0.6959833975600347,
+      "learning_rate": 4.9897337186946614e-06,
+      "loss": 0.48343226313591003,
+      "memory(GiB)": 41.86,
+      "step": 726,
+      "token_acc": 0.8811978399607265,
+      "train_speed(iter/s)": 0.2412
+    },
+    {
+      "epoch": 0.23264,
+      "grad_norm": 0.7517759667828947,
+      "learning_rate": 4.989653725279895e-06,
+      "loss": 0.3619033694267273,
+      "memory(GiB)": 41.86,
+      "step": 727,
+      "token_acc": 0.9105952654562169,
+      "train_speed(iter/s)": 0.241212
+    },
+    {
+      "epoch": 0.23296,
+      "grad_norm": 0.679091624494513,
+      "learning_rate": 4.989573422070911e-06,
+      "loss": 0.35209378600120544,
+      "memory(GiB)": 41.86,
+      "step": 728,
+      "token_acc": 0.9167331737164139,
+      "train_speed(iter/s)": 0.241207
+    },
+    {
+      "epoch": 0.23328,
+      "grad_norm": 0.6581875098344869,
+      "learning_rate": 4.989492809077703e-06,
+      "loss": 0.32696542143821716,
+      "memory(GiB)": 41.86,
+      "step": 729,
+      "token_acc": 0.908515686791458,
+      "train_speed(iter/s)": 0.241223
+    },
+    {
+      "epoch": 0.2336,
+      "grad_norm": 0.712515495437383,
+      "learning_rate": 4.989411886310301e-06,
+      "loss": 0.42448902130126953,
+      "memory(GiB)": 41.86,
+      "step": 730,
+      "token_acc": 0.8153745072273325,
+      "train_speed(iter/s)": 0.241234
+    },
+    {
+      "epoch": 0.23392,
+      "grad_norm": 0.6264798279474986,
+      "learning_rate": 4.989330653778775e-06,
+      "loss": 0.3822171688079834,
+      "memory(GiB)": 41.86,
+      "step": 731,
+      "token_acc": 0.8916116870876531,
+      "train_speed(iter/s)": 0.241233
+    },
+    {
+      "epoch": 0.23424,
+      "grad_norm": 0.653708236217313,
+      "learning_rate": 4.989249111493232e-06,
+      "loss": 0.3497483730316162,
+      "memory(GiB)": 41.86,
+      "step": 732,
+      "token_acc": 0.8794877658358107,
+      "train_speed(iter/s)": 0.241219
+    },
+    {
+      "epoch": 0.23456,
+      "grad_norm": 0.6870266358600734,
+      "learning_rate": 4.989167259463819e-06,
+      "loss": 0.3854964077472687,
+      "memory(GiB)": 41.86,
+      "step": 733,
+      "token_acc": 0.8794093519278097,
+      "train_speed(iter/s)": 0.241233
+    },
+    {
+      "epoch": 0.23488,
+      "grad_norm": 0.7211605122105674,
+      "learning_rate": 4.989085097700721e-06,
+      "loss": 0.4352648854255676,
+      "memory(GiB)": 41.86,
+      "step": 734,
+      "token_acc": 0.8755118755118755,
+      "train_speed(iter/s)": 0.241227
+    },
+    {
+      "epoch": 0.2352,
+      "grad_norm": 0.6449815787597096,
+      "learning_rate": 4.989002626214162e-06,
+      "loss": 0.45732951164245605,
+      "memory(GiB)": 41.86,
+      "step": 735,
+      "token_acc": 0.8550685668190374,
+      "train_speed(iter/s)": 0.241224
+    },
+    {
+      "epoch": 0.23552,
+      "grad_norm": 0.6825320982404367,
+      "learning_rate": 4.988919845014404e-06,
+      "loss": 0.3792175352573395,
+      "memory(GiB)": 41.86,
+      "step": 736,
+      "token_acc": 0.9140625,
+      "train_speed(iter/s)": 0.241215
+    },
+    {
+      "epoch": 0.23584,
+      "grad_norm": 0.6569404038097346,
+      "learning_rate": 4.988836754111748e-06,
+      "loss": 0.4009462594985962,
+      "memory(GiB)": 41.86,
+      "step": 737,
+      "token_acc": 0.8227104633456602,
+      "train_speed(iter/s)": 0.241228
+    },
+    {
+      "epoch": 0.23616,
+      "grad_norm": 0.763748339126226,
+      "learning_rate": 4.988753353516533e-06,
+      "loss": 0.4065232276916504,
+      "memory(GiB)": 41.86,
+      "step": 738,
+      "token_acc": 0.872663139329806,
+      "train_speed(iter/s)": 0.241244
+    },
+    {
+      "epoch": 0.23648,
+      "grad_norm": 0.6484439905928115,
+      "learning_rate": 4.9886696432391355e-06,
+      "loss": 0.36816778779029846,
+      "memory(GiB)": 41.86,
+      "step": 739,
+      "token_acc": 0.9186390532544378,
+      "train_speed(iter/s)": 0.241237
+    },
+    {
+      "epoch": 0.2368,
+      "grad_norm": 0.7449373468515752,
+      "learning_rate": 4.988585623289973e-06,
+      "loss": 0.35024338960647583,
+      "memory(GiB)": 41.86,
+      "step": 740,
+      "token_acc": 0.9211914365497983,
+      "train_speed(iter/s)": 0.241258
+    },
+    {
+      "epoch": 0.23712,
+      "grad_norm": 0.665838614086917,
+      "learning_rate": 4.988501293679501e-06,
+      "loss": 0.3503490090370178,
+      "memory(GiB)": 41.86,
+      "step": 741,
+      "token_acc": 0.867621776504298,
+      "train_speed(iter/s)": 0.241269
+    },
+    {
+      "epoch": 0.23744,
+      "grad_norm": 0.6455009166314636,
+      "learning_rate": 4.988416654418211e-06,
+      "loss": 0.3522324562072754,
+      "memory(GiB)": 41.86,
+      "step": 742,
+      "token_acc": 0.885190976100067,
+      "train_speed(iter/s)": 0.241277
+    },
+    {
+      "epoch": 0.23776,
+      "grad_norm": 0.6837894337396082,
+      "learning_rate": 4.988331705516637e-06,
+      "loss": 0.3517313599586487,
+      "memory(GiB)": 41.86,
+      "step": 743,
+      "token_acc": 0.92005772005772,
+      "train_speed(iter/s)": 0.24127
+    },
+    {
+      "epoch": 0.23808,
+      "grad_norm": 0.6999495531834725,
+      "learning_rate": 4.988246446985348e-06,
+      "loss": 0.4222472310066223,
+      "memory(GiB)": 41.86,
+      "step": 744,
+      "token_acc": 0.8715296679368536,
+      "train_speed(iter/s)": 0.241275
+    },
+    {
+      "epoch": 0.2384,
+      "grad_norm": 0.6960290683825049,
+      "learning_rate": 4.988160878834953e-06,
+      "loss": 0.3205401599407196,
+      "memory(GiB)": 41.86,
+      "step": 745,
+      "token_acc": 0.9015350056158742,
+      "train_speed(iter/s)": 0.241287
+    },
+    {
+      "epoch": 0.23872,
+      "grad_norm": 0.7282264763228963,
+      "learning_rate": 4.9880750010761e-06,
+      "loss": 0.3726102411746979,
+      "memory(GiB)": 41.86,
+      "step": 746,
+      "token_acc": 0.8978449482227819,
+      "train_speed(iter/s)": 0.2413
+    },
+    {
+      "epoch": 0.23904,
+      "grad_norm": 0.6621095431182941,
+      "learning_rate": 4.987988813719474e-06,
+      "loss": 0.3230005204677582,
+      "memory(GiB)": 41.86,
+      "step": 747,
+      "token_acc": 0.8990590248075278,
+      "train_speed(iter/s)": 0.241308
+    },
+    {
+      "epoch": 0.23936,
+      "grad_norm": 0.7044842055217044,
+      "learning_rate": 4.987902316775801e-06,
+      "loss": 0.431286096572876,
+      "memory(GiB)": 41.86,
+      "step": 748,
+      "token_acc": 0.9382022471910112,
+      "train_speed(iter/s)": 0.241307
+    },
+    {
+      "epoch": 0.23968,
+      "grad_norm": 0.7492547891098454,
+      "learning_rate": 4.987815510255843e-06,
+      "loss": 0.41462385654449463,
+      "memory(GiB)": 41.86,
+      "step": 749,
+      "token_acc": 0.8279151943462898,
+      "train_speed(iter/s)": 0.241316
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.754762540271955,
+      "learning_rate": 4.987728394170403e-06,
+      "loss": 0.36191433668136597,
+      "memory(GiB)": 41.86,
+      "step": 750,
+      "token_acc": 0.9187082405345212,
+      "train_speed(iter/s)": 0.241327
+    },
+    {
+      "epoch": 0.24032,
+      "grad_norm": 0.7456847776182678,
+      "learning_rate": 4.987640968530319e-06,
+      "loss": 0.4400700330734253,
+      "memory(GiB)": 41.86,
+      "step": 751,
+      "token_acc": 0.8670796958603211,
+      "train_speed(iter/s)": 0.241337
+    },
+    {
+      "epoch": 0.24064,
+      "grad_norm": 0.6840735503303398,
+      "learning_rate": 4.987553233346471e-06,
+      "loss": 0.36238688230514526,
+      "memory(GiB)": 41.86,
+      "step": 752,
+      "token_acc": 0.8555758683729433,
+      "train_speed(iter/s)": 0.241353
+    },
+    {
+      "epoch": 0.24096,
+      "grad_norm": 0.6784248987588408,
+      "learning_rate": 4.987465188629775e-06,
+      "loss": 0.42072951793670654,
+      "memory(GiB)": 41.86,
+      "step": 753,
+      "token_acc": 0.8812056737588653,
+      "train_speed(iter/s)": 0.241355
+    },
+    {
+      "epoch": 0.24128,
+      "grad_norm": 0.7320781072838469,
+      "learning_rate": 4.987376834391188e-06,
+      "loss": 0.4233395755290985,
+      "memory(GiB)": 41.86,
+      "step": 754,
+      "token_acc": 0.8050464175196382,
+      "train_speed(iter/s)": 0.241367
+    },
+    {
+      "epoch": 0.2416,
+      "grad_norm": 0.7031800247150163,
+      "learning_rate": 4.9872881706417034e-06,
+      "loss": 0.43180492520332336,
+      "memory(GiB)": 41.86,
+      "step": 755,
+      "token_acc": 0.8751970572779821,
+      "train_speed(iter/s)": 0.24138
+    },
+    {
+      "epoch": 0.24192,
+      "grad_norm": 0.6810445635931163,
+      "learning_rate": 4.987199197392354e-06,
+      "loss": 0.4446945786476135,
+      "memory(GiB)": 41.86,
+      "step": 756,
+      "token_acc": 0.921304347826087,
+      "train_speed(iter/s)": 0.241377
+    },
+    {
+      "epoch": 0.24224,
+      "grad_norm": 0.772729495236444,
+      "learning_rate": 4.987109914654211e-06,
+      "loss": 0.3828134536743164,
+      "memory(GiB)": 41.86,
+      "step": 757,
+      "token_acc": 0.9398355754857997,
+      "train_speed(iter/s)": 0.241392
+    },
+    {
+      "epoch": 0.24256,
+      "grad_norm": 0.7171051894635622,
+      "learning_rate": 4.987020322438384e-06,
+      "loss": 0.5047861337661743,
+      "memory(GiB)": 41.86,
+      "step": 758,
+      "token_acc": 0.8178846602848471,
+      "train_speed(iter/s)": 0.241401
+    },
+    {
+      "epoch": 0.24288,
+      "grad_norm": 0.6580636309149671,
+      "learning_rate": 4.986930420756021e-06,
+      "loss": 0.4189501106739044,
+      "memory(GiB)": 41.86,
+      "step": 759,
+      "token_acc": 0.8768400392541708,
+      "train_speed(iter/s)": 0.241413
+    },
+    {
+      "epoch": 0.2432,
+      "grad_norm": 0.6569513565247892,
+      "learning_rate": 4.9868402096183085e-06,
+      "loss": 0.36138713359832764,
+      "memory(GiB)": 41.86,
+      "step": 760,
+      "token_acc": 0.819581428915083,
+      "train_speed(iter/s)": 0.241414
+    },
+    {
+      "epoch": 0.24352,
+      "grad_norm": 1.841501369395737,
+      "learning_rate": 4.9867496890364734e-06,
+      "loss": 0.4113994240760803,
+      "memory(GiB)": 41.86,
+      "step": 761,
+      "token_acc": 0.8580765639589168,
+      "train_speed(iter/s)": 0.241398
+    },
+    {
+      "epoch": 0.24384,
+      "grad_norm": 0.6581233382677719,
+      "learning_rate": 4.986658859021777e-06,
+      "loss": 0.3386306166648865,
+      "memory(GiB)": 41.86,
+      "step": 762,
+      "token_acc": 0.9150157378263285,
+      "train_speed(iter/s)": 0.241375
+    },
+    {
+      "epoch": 0.24416,
+      "grad_norm": 0.6944938239300734,
+      "learning_rate": 4.9865677195855235e-06,
+      "loss": 0.3702167868614197,
+      "memory(GiB)": 41.86,
+      "step": 763,
+      "token_acc": 0.9303818857722204,
+      "train_speed(iter/s)": 0.241383
+    },
+    {
+      "epoch": 0.24448,
+      "grad_norm": 0.7663926229244526,
+      "learning_rate": 4.9864762707390525e-06,
+      "loss": 0.4663710594177246,
+      "memory(GiB)": 41.86,
+      "step": 764,
+      "token_acc": 0.8321114369501467,
+      "train_speed(iter/s)": 0.241384
+    },
+    {
+      "epoch": 0.2448,
+      "grad_norm": 0.6475569117266546,
+      "learning_rate": 4.986384512493743e-06,
+      "loss": 0.47731685638427734,
+      "memory(GiB)": 41.86,
+      "step": 765,
+      "token_acc": 0.8602356810084955,
+      "train_speed(iter/s)": 0.241362
+    },
+    {
+      "epoch": 0.24512,
+      "grad_norm": 0.6365655931023085,
+      "learning_rate": 4.986292444861014e-06,
+      "loss": 0.36407917737960815,
+      "memory(GiB)": 41.86,
+      "step": 766,
+      "token_acc": 0.9302940204823258,
+      "train_speed(iter/s)": 0.241361
+    },
+    {
+      "epoch": 0.24544,
+      "grad_norm": 0.6555825694329673,
+      "learning_rate": 4.98620006785232e-06,
+      "loss": 0.4675138592720032,
+      "memory(GiB)": 41.86,
+      "step": 767,
+      "token_acc": 0.857653201428964,
+      "train_speed(iter/s)": 0.241357
+    },
+    {
+      "epoch": 0.24576,
+      "grad_norm": 0.7086865197701768,
+      "learning_rate": 4.986107381479158e-06,
+      "loss": 0.3552117943763733,
+      "memory(GiB)": 41.86,
+      "step": 768,
+      "token_acc": 0.9206049149338374,
+      "train_speed(iter/s)": 0.241363
+    },
+    {
+      "epoch": 0.24608,
+      "grad_norm": 1.08562762378281,
+      "learning_rate": 4.986014385753058e-06,
+      "loss": 0.38791224360466003,
+      "memory(GiB)": 41.86,
+      "step": 769,
+      "token_acc": 0.9213813372520205,
+      "train_speed(iter/s)": 0.241346
+    },
+    {
+      "epoch": 0.2464,
+      "grad_norm": 0.7123815211398292,
+      "learning_rate": 4.9859210806855955e-06,
+      "loss": 0.3464595675468445,
+      "memory(GiB)": 41.86,
+      "step": 770,
+      "token_acc": 0.8723623262995368,
+      "train_speed(iter/s)": 0.241362
+    },
+    {
+      "epoch": 0.24672,
+      "grad_norm": 0.6783356082662719,
+      "learning_rate": 4.985827466288378e-06,
+      "loss": 0.3627921938896179,
+      "memory(GiB)": 41.86,
+      "step": 771,
+      "token_acc": 0.9193635382955772,
+      "train_speed(iter/s)": 0.241367
+    },
+    {
+      "epoch": 0.24704,
+      "grad_norm": 0.7338676216265779,
+      "learning_rate": 4.985733542573055e-06,
+      "loss": 0.35144561529159546,
+      "memory(GiB)": 41.86,
+      "step": 772,
+      "token_acc": 0.8917599770312948,
+      "train_speed(iter/s)": 0.241367
+    },
+    {
+      "epoch": 0.24736,
+      "grad_norm": 0.6444559516121929,
+      "learning_rate": 4.985639309551315e-06,
+      "loss": 0.33224761486053467,
+      "memory(GiB)": 41.86,
+      "step": 773,
+      "token_acc": 0.8685483870967742,
+      "train_speed(iter/s)": 0.241382
+    },
+    {
+      "epoch": 0.24768,
+      "grad_norm": 0.6336186523131149,
+      "learning_rate": 4.98554476723488e-06,
+      "loss": 0.3296525180339813,
+      "memory(GiB)": 41.86,
+      "step": 774,
+      "token_acc": 0.9042929292929293,
+      "train_speed(iter/s)": 0.241386
+    },
+    {
+      "epoch": 0.248,
+      "grad_norm": 0.6505253103033791,
+      "learning_rate": 4.9854499156355175e-06,
+      "loss": 0.4456222653388977,
+      "memory(GiB)": 41.86,
+      "step": 775,
+      "token_acc": 0.9387755102040817,
+      "train_speed(iter/s)": 0.241373
+    },
+    {
+      "epoch": 0.24832,
+      "grad_norm": 0.6783573497958472,
+      "learning_rate": 4.98535475476503e-06,
+      "loss": 0.37147411704063416,
+      "memory(GiB)": 41.86,
+      "step": 776,
+      "token_acc": 0.8556048131728943,
+      "train_speed(iter/s)": 0.241331
+    },
+    {
+      "epoch": 0.24864,
+      "grad_norm": 0.6892156662907595,
+      "learning_rate": 4.9852592846352565e-06,
+      "loss": 0.4287664294242859,
+      "memory(GiB)": 41.86,
+      "step": 777,
+      "token_acc": 0.9594972067039106,
+      "train_speed(iter/s)": 0.241335
+    },
+    {
+      "epoch": 0.24896,
+      "grad_norm": 0.642461448861593,
+      "learning_rate": 4.9851635052580784e-06,
+      "loss": 0.34628570079803467,
+      "memory(GiB)": 41.86,
+      "step": 778,
+      "token_acc": 0.8839709136895353,
+      "train_speed(iter/s)": 0.241312
+    },
+    {
+      "epoch": 0.24928,
+      "grad_norm": 0.800238947068369,
+      "learning_rate": 4.985067416645412e-06,
+      "loss": 0.4460781216621399,
+      "memory(GiB)": 41.86,
+      "step": 779,
+      "token_acc": 0.8925554382259767,
+      "train_speed(iter/s)": 0.241325
+    },
+    {
+      "epoch": 0.2496,
+      "grad_norm": 0.6653529839690546,
+      "learning_rate": 4.984971018809217e-06,
+      "loss": 0.4186139702796936,
+      "memory(GiB)": 41.86,
+      "step": 780,
+      "token_acc": 0.8422459893048129,
+      "train_speed(iter/s)": 0.241334
+    },
+    {
+      "epoch": 0.24992,
+      "grad_norm": 0.6887542780956875,
+      "learning_rate": 4.984874311761485e-06,
+      "loss": 0.375389039516449,
+      "memory(GiB)": 41.86,
+      "step": 781,
+      "token_acc": 0.8824769433465086,
+      "train_speed(iter/s)": 0.241337
+    },
+    {
+      "epoch": 0.25024,
+      "grad_norm": 0.6491334878149633,
+      "learning_rate": 4.984777295514252e-06,
+      "loss": 0.4598641097545624,
+      "memory(GiB)": 41.86,
+      "step": 782,
+      "token_acc": 0.882145998240985,
+      "train_speed(iter/s)": 0.241346
+    },
+    {
+      "epoch": 0.25056,
+      "grad_norm": 0.6657680858295223,
+      "learning_rate": 4.984679970079589e-06,
+      "loss": 0.40942925214767456,
+      "memory(GiB)": 41.86,
+      "step": 783,
+      "token_acc": 0.8514492753623188,
+      "train_speed(iter/s)": 0.241342
+    },
+    {
+      "epoch": 0.25088,
+      "grad_norm": 0.7525216471147947,
+      "learning_rate": 4.984582335469606e-06,
+      "loss": 0.4095529317855835,
+      "memory(GiB)": 41.86,
+      "step": 784,
+      "token_acc": 0.8382521162205445,
+      "train_speed(iter/s)": 0.241355
+    },
+    {
+      "epoch": 0.2512,
+      "grad_norm": 0.634684240047649,
+      "learning_rate": 4.984484391696453e-06,
+      "loss": 0.4507801830768585,
+      "memory(GiB)": 41.86,
+      "step": 785,
+      "token_acc": 0.9057507987220448,
+      "train_speed(iter/s)": 0.241351
+    },
+    {
+      "epoch": 0.25152,
+      "grad_norm": 0.6538312727816594,
+      "learning_rate": 4.984386138772316e-06,
+      "loss": 0.3365633487701416,
+      "memory(GiB)": 41.86,
+      "step": 786,
+      "token_acc": 0.9039064727687482,
+      "train_speed(iter/s)": 0.24136
+    },
+    {
+      "epoch": 0.25184,
+      "grad_norm": 0.7525592140274128,
+      "learning_rate": 4.984287576709422e-06,
+      "loss": 0.3403449058532715,
+      "memory(GiB)": 41.86,
+      "step": 787,
+      "token_acc": 0.9132356361944638,
+      "train_speed(iter/s)": 0.241365
+    },
+    {
+      "epoch": 0.25216,
+      "grad_norm": 0.6605425015786026,
+      "learning_rate": 4.984188705520035e-06,
+      "loss": 0.3794463276863098,
+      "memory(GiB)": 41.86,
+      "step": 788,
+      "token_acc": 0.862798131300713,
+      "train_speed(iter/s)": 0.24136
+    },
+    {
+      "epoch": 0.25248,
+      "grad_norm": 0.6567516781038947,
+      "learning_rate": 4.984089525216458e-06,
+      "loss": 0.436498761177063,
+      "memory(GiB)": 41.86,
+      "step": 789,
+      "token_acc": 0.8891170431211499,
+      "train_speed(iter/s)": 0.241368
+    },
+    {
+      "epoch": 0.2528,
+      "grad_norm": 0.6250929727139392,
+      "learning_rate": 4.983990035811032e-06,
+      "loss": 0.3370034098625183,
+      "memory(GiB)": 41.86,
+      "step": 790,
+      "token_acc": 0.8714312027997789,
+      "train_speed(iter/s)": 0.241349
+    },
+    {
+      "epoch": 0.25312,
+      "grad_norm": 0.707631890563472,
+      "learning_rate": 4.983890237316137e-06,
+      "loss": 0.3521242141723633,
+      "memory(GiB)": 41.86,
+      "step": 791,
+      "token_acc": 0.8526678141135973,
+      "train_speed(iter/s)": 0.24134
+    },
+    {
+      "epoch": 0.25344,
+      "grad_norm": 0.6813724909580211,
+      "learning_rate": 4.98379012974419e-06,
+      "loss": 0.4086916148662567,
+      "memory(GiB)": 41.86,
+      "step": 792,
+      "token_acc": 0.8824358612912321,
+      "train_speed(iter/s)": 0.241346
+    },
+    {
+      "epoch": 0.25376,
+      "grad_norm": 0.6535661275566989,
+      "learning_rate": 4.98368971310765e-06,
+      "loss": 0.2912856340408325,
+      "memory(GiB)": 41.86,
+      "step": 793,
+      "token_acc": 0.9539170506912442,
+      "train_speed(iter/s)": 0.24133
+    },
+    {
+      "epoch": 0.25408,
+      "grad_norm": 0.7034241854577231,
+      "learning_rate": 4.98358898741901e-06,
+      "loss": 0.41266027092933655,
+      "memory(GiB)": 41.86,
+      "step": 794,
+      "token_acc": 0.849502487562189,
+      "train_speed(iter/s)": 0.241343
+    },
+    {
+      "epoch": 0.2544,
+      "grad_norm": 0.7919564929282495,
+      "learning_rate": 4.9834879526908055e-06,
+      "loss": 0.4953688979148865,
+      "memory(GiB)": 41.86,
+      "step": 795,
+      "token_acc": 0.8152119700748129,
+      "train_speed(iter/s)": 0.241324
+    },
+    {
+      "epoch": 0.25472,
+      "grad_norm": 0.707477914261136,
+      "learning_rate": 4.9833866089356065e-06,
+      "loss": 0.43112221360206604,
+      "memory(GiB)": 41.86,
+      "step": 796,
+      "token_acc": 0.8519607843137255,
+      "train_speed(iter/s)": 0.241332
+    },
+    {
+      "epoch": 0.25504,
+      "grad_norm": 0.6815745086398735,
+      "learning_rate": 4.983284956166024e-06,
+      "loss": 0.3807457685470581,
+      "memory(GiB)": 41.86,
+      "step": 797,
+      "token_acc": 0.8558266932270916,
+      "train_speed(iter/s)": 0.241328
+    },
+    {
+      "epoch": 0.25536,
+      "grad_norm": 0.6981132809686224,
+      "learning_rate": 4.983182994394707e-06,
+      "loss": 0.48848676681518555,
+      "memory(GiB)": 41.86,
+      "step": 798,
+      "token_acc": 0.8606431852986217,
+      "train_speed(iter/s)": 0.241332
+    },
+    {
+      "epoch": 0.25568,
+      "grad_norm": 0.6959000766229894,
+      "learning_rate": 4.983080723634344e-06,
+      "loss": 0.41059327125549316,
+      "memory(GiB)": 41.86,
+      "step": 799,
+      "token_acc": 0.8616296947067867,
+      "train_speed(iter/s)": 0.241332
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 0.6993805170109814,
+      "learning_rate": 4.98297814389766e-06,
+      "loss": 0.44298049807548523,
+      "memory(GiB)": 41.86,
+      "step": 800,
+      "token_acc": 0.8124255657006749,
+      "train_speed(iter/s)": 0.241342
+    },
+    {
+      "epoch": 0.25632,
+      "grad_norm": 0.6844304054831327,
+      "learning_rate": 4.982875255197419e-06,
+      "loss": 0.38893401622772217,
+      "memory(GiB)": 41.86,
+      "step": 801,
+      "token_acc": 0.9067966733581876,
+      "train_speed(iter/s)": 0.241332
+    },
+    {
+      "epoch": 0.25664,
+      "grad_norm": 0.6888090745147593,
+      "learning_rate": 4.982772057546424e-06,
+      "loss": 0.36828774213790894,
+      "memory(GiB)": 41.86,
+      "step": 802,
+      "token_acc": 0.9373626373626374,
+      "train_speed(iter/s)": 0.24132
+    },
+    {
+      "epoch": 0.25696,
+      "grad_norm": 0.6753780411690784,
+      "learning_rate": 4.982668550957516e-06,
+      "loss": 0.32084327936172485,
+      "memory(GiB)": 41.86,
+      "step": 803,
+      "token_acc": 0.9209710743801653,
+      "train_speed(iter/s)": 0.241322
+    },
+    {
+      "epoch": 0.25728,
+      "grad_norm": 0.7717722337181671,
+      "learning_rate": 4.982564735443574e-06,
+      "loss": 0.33746790885925293,
+      "memory(GiB)": 41.86,
+      "step": 804,
+      "token_acc": 0.9091801669121257,
+      "train_speed(iter/s)": 0.241339
+    },
+    {
+      "epoch": 0.2576,
+      "grad_norm": 0.6483289121322274,
+      "learning_rate": 4.982460611017518e-06,
+      "loss": 0.3582516610622406,
+      "memory(GiB)": 41.86,
+      "step": 805,
+      "token_acc": 0.8964165733482643,
+      "train_speed(iter/s)": 0.241347
+    },
+    {
+      "epoch": 0.25792,
+      "grad_norm": 0.6775382485165395,
+      "learning_rate": 4.982356177692303e-06,
+      "loss": 0.3853127360343933,
+      "memory(GiB)": 41.86,
+      "step": 806,
+      "token_acc": 0.8727388130752142,
+      "train_speed(iter/s)": 0.24135
+    },
+    {
+      "epoch": 0.25824,
+      "grad_norm": 0.7090027184658955,
+      "learning_rate": 4.982251435480924e-06,
+      "loss": 0.40342938899993896,
+      "memory(GiB)": 41.86,
+      "step": 807,
+      "token_acc": 0.9217588102166182,
+      "train_speed(iter/s)": 0.241358
+    },
+    {
+      "epoch": 0.25856,
+      "grad_norm": 0.69050605610944,
+      "learning_rate": 4.982146384396414e-06,
+      "loss": 0.4222428798675537,
+      "memory(GiB)": 41.86,
+      "step": 808,
+      "token_acc": 0.8914838405284266,
+      "train_speed(iter/s)": 0.24136
+    },
+    {
+      "epoch": 0.25888,
+      "grad_norm": 0.7312880636066453,
+      "learning_rate": 4.982041024451844e-06,
+      "loss": 0.3391638994216919,
+      "memory(GiB)": 41.86,
+      "step": 809,
+      "token_acc": 0.9014503532911863,
+      "train_speed(iter/s)": 0.24137
+    },
+    {
+      "epoch": 0.2592,
+      "grad_norm": 0.726917616596126,
+      "learning_rate": 4.9819353556603275e-06,
+      "loss": 0.3670068681240082,
+      "memory(GiB)": 41.86,
+      "step": 810,
+      "token_acc": 0.8563027358731782,
+      "train_speed(iter/s)": 0.241326
+    },
+    {
+      "epoch": 0.25952,
+      "grad_norm": 0.7153282293704708,
+      "learning_rate": 4.981829378035011e-06,
+      "loss": 0.39773887395858765,
+      "memory(GiB)": 41.86,
+      "step": 811,
+      "token_acc": 0.8734496124031008,
+      "train_speed(iter/s)": 0.241321
+    },
+    {
+      "epoch": 0.25984,
+      "grad_norm": 0.6730086556977734,
+      "learning_rate": 4.981723091589081e-06,
+      "loss": 0.4113270044326782,
+      "memory(GiB)": 41.86,
+      "step": 812,
+      "token_acc": 0.837037037037037,
+      "train_speed(iter/s)": 0.241323
+    },
+    {
+      "epoch": 0.26016,
+      "grad_norm": 0.6684345083277575,
+      "learning_rate": 4.981616496335765e-06,
+      "loss": 0.39969900250434875,
+      "memory(GiB)": 41.86,
+      "step": 813,
+      "token_acc": 0.9255411255411256,
+      "train_speed(iter/s)": 0.241308
+    },
+    {
+      "epoch": 0.26048,
+      "grad_norm": 0.7425312709228351,
+      "learning_rate": 4.981509592288324e-06,
+      "loss": 0.3884389400482178,
+      "memory(GiB)": 41.86,
+      "step": 814,
+      "token_acc": 0.8001942218985191,
+      "train_speed(iter/s)": 0.241307
+    },
+    {
+      "epoch": 0.2608,
+      "grad_norm": 0.705543637913348,
+      "learning_rate": 4.981402379460063e-06,
+      "loss": 0.41326478123664856,
+      "memory(GiB)": 41.86,
+      "step": 815,
+      "token_acc": 0.8603896103896104,
+      "train_speed(iter/s)": 0.241318
+    },
+    {
+      "epoch": 0.26112,
+      "grad_norm": 0.6905577692197622,
+      "learning_rate": 4.981294857864321e-06,
+      "loss": 0.3848215341567993,
+      "memory(GiB)": 41.86,
+      "step": 816,
+      "token_acc": 0.89366391184573,
+      "train_speed(iter/s)": 0.241314
+    },
+    {
+      "epoch": 0.26144,
+      "grad_norm": 0.6915911520138801,
+      "learning_rate": 4.981187027514479e-06,
+      "loss": 0.32628118991851807,
+      "memory(GiB)": 41.86,
+      "step": 817,
+      "token_acc": 0.8826461259628455,
+      "train_speed(iter/s)": 0.241305
+    },
+    {
+      "epoch": 0.26176,
+      "grad_norm": 0.63707654148838,
+      "learning_rate": 4.981078888423953e-06,
+      "loss": 0.3992425203323364,
+      "memory(GiB)": 41.86,
+      "step": 818,
+      "token_acc": 0.860707919531449,
+      "train_speed(iter/s)": 0.241315
+    },
+    {
+      "epoch": 0.26208,
+      "grad_norm": 2.897692433516807,
+      "learning_rate": 4.980970440606199e-06,
+      "loss": 0.4190906286239624,
+      "memory(GiB)": 41.86,
+      "step": 819,
+      "token_acc": 0.8718359500160205,
+      "train_speed(iter/s)": 0.24132
+    },
+    {
+      "epoch": 0.2624,
+      "grad_norm": 0.7168804356956344,
+      "learning_rate": 4.980861684074713e-06,
+      "loss": 0.30127066373825073,
+      "memory(GiB)": 41.86,
+      "step": 820,
+      "token_acc": 0.90494200706001,
+      "train_speed(iter/s)": 0.241316
+    },
+    {
+      "epoch": 0.26272,
+      "grad_norm": 0.6868062499033037,
+      "learning_rate": 4.980752618843027e-06,
+      "loss": 0.47249680757522583,
+      "memory(GiB)": 41.86,
+      "step": 821,
+      "token_acc": 0.8727156139788393,
+      "train_speed(iter/s)": 0.241314
+    },
+    {
+      "epoch": 0.26304,
+      "grad_norm": 0.7845338213721126,
+      "learning_rate": 4.980643244924712e-06,
+      "loss": 0.3796151578426361,
+      "memory(GiB)": 41.86,
+      "step": 822,
+      "token_acc": 0.9494184473897755,
+      "train_speed(iter/s)": 0.241324
+    },
+    {
+      "epoch": 0.26336,
+      "grad_norm": 0.6912670439373593,
+      "learning_rate": 4.980533562333377e-06,
+      "loss": 0.42436304688453674,
+      "memory(GiB)": 41.86,
+      "step": 823,
+      "token_acc": 0.8411049723756906,
+      "train_speed(iter/s)": 0.241318
+    },
+    {
+      "epoch": 0.26368,
+      "grad_norm": 0.6996169595456391,
+      "learning_rate": 4.980423571082672e-06,
+      "loss": 0.3788377642631531,
+      "memory(GiB)": 41.86,
+      "step": 824,
+      "token_acc": 0.9317668323542703,
+      "train_speed(iter/s)": 0.241317
+    },
+    {
+      "epoch": 0.264,
+      "grad_norm": 0.6936779498744393,
+      "learning_rate": 4.980313271186282e-06,
+      "loss": 0.379010409116745,
+      "memory(GiB)": 41.86,
+      "step": 825,
+      "token_acc": 0.8841698841698842,
+      "train_speed(iter/s)": 0.241322
+    },
+    {
+      "epoch": 0.26432,
+      "grad_norm": 0.72951035377029,
+      "learning_rate": 4.980202662657933e-06,
+      "loss": 0.4177994728088379,
+      "memory(GiB)": 41.86,
+      "step": 826,
+      "token_acc": 0.8436003830194702,
+      "train_speed(iter/s)": 0.241332
+    },
+    {
+      "epoch": 0.26464,
+      "grad_norm": 0.6911541112352191,
+      "learning_rate": 4.980091745511388e-06,
+      "loss": 0.42674410343170166,
+      "memory(GiB)": 41.86,
+      "step": 827,
+      "token_acc": 0.9075520833333334,
+      "train_speed(iter/s)": 0.241336
+    },
+    {
+      "epoch": 0.26496,
+      "grad_norm": 0.8651348661067667,
+      "learning_rate": 4.979980519760447e-06,
+      "loss": 0.400503933429718,
+      "memory(GiB)": 41.86,
+      "step": 828,
+      "token_acc": 0.9559322033898305,
+      "train_speed(iter/s)": 0.241336
+    },
+    {
+      "epoch": 0.26528,
+      "grad_norm": 0.6474931160281914,
+      "learning_rate": 4.979868985418953e-06,
+      "loss": 0.3410487473011017,
+      "memory(GiB)": 41.86,
+      "step": 829,
+      "token_acc": 0.8765267599378193,
+      "train_speed(iter/s)": 0.241341
+    },
+    {
+      "epoch": 0.2656,
+      "grad_norm": 0.6808174378997404,
+      "learning_rate": 4.979757142500782e-06,
+      "loss": 0.4173216223716736,
+      "memory(GiB)": 41.86,
+      "step": 830,
+      "token_acc": 0.9035258490157906,
+      "train_speed(iter/s)": 0.24133
+    },
+    {
+      "epoch": 0.26592,
+      "grad_norm": 0.6214789550030165,
+      "learning_rate": 4.979644991019852e-06,
+      "loss": 0.30535757541656494,
+      "memory(GiB)": 41.86,
+      "step": 831,
+      "token_acc": 0.9414239482200647,
+      "train_speed(iter/s)": 0.24134
+    },
+    {
+      "epoch": 0.26624,
+      "grad_norm": 0.7182890601191392,
+      "learning_rate": 4.979532530990118e-06,
+      "loss": 0.4334990382194519,
+      "memory(GiB)": 41.86,
+      "step": 832,
+      "token_acc": 0.9479843953185956,
+      "train_speed(iter/s)": 0.241323
+    },
+    {
+      "epoch": 0.26656,
+      "grad_norm": 0.7854666212182484,
+      "learning_rate": 4.979419762425576e-06,
+      "loss": 0.3788972496986389,
+      "memory(GiB)": 41.86,
+      "step": 833,
+      "token_acc": 0.9253781512605042,
+      "train_speed(iter/s)": 0.241336
+    },
+    {
+      "epoch": 0.26688,
+      "grad_norm": 0.7282545221992143,
+      "learning_rate": 4.9793066853402535e-06,
+      "loss": 0.39225584268569946,
+      "memory(GiB)": 41.86,
+      "step": 834,
+      "token_acc": 0.8950012559658377,
+      "train_speed(iter/s)": 0.241348
+    },
+    {
+      "epoch": 0.2672,
+      "grad_norm": 0.6812636918428608,
+      "learning_rate": 4.979193299748225e-06,
+      "loss": 0.4447840750217438,
+      "memory(GiB)": 41.86,
+      "step": 835,
+      "token_acc": 0.7971737323358271,
+      "train_speed(iter/s)": 0.24134
+    },
+    {
+      "epoch": 0.26752,
+      "grad_norm": 0.7918577363539823,
+      "learning_rate": 4.9790796056635986e-06,
+      "loss": 0.4043129086494446,
+      "memory(GiB)": 41.86,
+      "step": 836,
+      "token_acc": 0.9116561181434599,
+      "train_speed(iter/s)": 0.241344
+    },
+    {
+      "epoch": 0.26784,
+      "grad_norm": 0.7347274033246837,
+      "learning_rate": 4.97896560310052e-06,
+      "loss": 0.4476478397846222,
+      "memory(GiB)": 41.86,
+      "step": 837,
+      "token_acc": 0.8962395543175488,
+      "train_speed(iter/s)": 0.241344
+    },
+    {
+      "epoch": 0.26816,
+      "grad_norm": 0.7158952317937803,
+      "learning_rate": 4.978851292073175e-06,
+      "loss": 0.4438498616218567,
+      "memory(GiB)": 41.86,
+      "step": 838,
+      "token_acc": 0.8884364820846905,
+      "train_speed(iter/s)": 0.24135
+    },
+    {
+      "epoch": 0.26848,
+      "grad_norm": 0.6663404870479899,
+      "learning_rate": 4.978736672595789e-06,
+      "loss": 0.41425442695617676,
+      "memory(GiB)": 41.86,
+      "step": 839,
+      "token_acc": 0.8471512770137525,
+      "train_speed(iter/s)": 0.241364
+    },
+    {
+      "epoch": 0.2688,
+      "grad_norm": 0.7056818448545903,
+      "learning_rate": 4.978621744682623e-06,
+      "loss": 0.4381216764450073,
+      "memory(GiB)": 41.86,
+      "step": 840,
+      "token_acc": 0.918200408997955,
+      "train_speed(iter/s)": 0.241359
+    },
+    {
+      "epoch": 0.26912,
+      "grad_norm": 0.7104931244041744,
+      "learning_rate": 4.97850650834798e-06,
+      "loss": 0.4284476935863495,
+      "memory(GiB)": 41.86,
+      "step": 841,
+      "token_acc": 0.7816764132553606,
+      "train_speed(iter/s)": 0.241362
+    },
+    {
+      "epoch": 0.26944,
+      "grad_norm": 0.6706265453124689,
+      "learning_rate": 4.978390963606197e-06,
+      "loss": 0.4102025032043457,
+      "memory(GiB)": 41.86,
+      "step": 842,
+      "token_acc": 0.9453551912568307,
+      "train_speed(iter/s)": 0.241353
+    },
+    {
+      "epoch": 0.26976,
+      "grad_norm": 0.6865381757157815,
+      "learning_rate": 4.9782751104716525e-06,
+      "loss": 0.37260371446609497,
+      "memory(GiB)": 41.86,
+      "step": 843,
+      "token_acc": 0.896551724137931,
+      "train_speed(iter/s)": 0.241358
+    },
+    {
+      "epoch": 0.27008,
+      "grad_norm": 0.6948020861222234,
+      "learning_rate": 4.9781589489587615e-06,
+      "loss": 0.4424787759780884,
+      "memory(GiB)": 41.86,
+      "step": 844,
+      "token_acc": 0.8721947508558388,
+      "train_speed(iter/s)": 0.241363
+    },
+    {
+      "epoch": 0.2704,
+      "grad_norm": 0.6737972931101782,
+      "learning_rate": 4.978042479081979e-06,
+      "loss": 0.3889673948287964,
+      "memory(GiB)": 41.86,
+      "step": 845,
+      "token_acc": 0.9353233830845771,
+      "train_speed(iter/s)": 0.241338
+    },
+    {
+      "epoch": 0.27072,
+      "grad_norm": 0.6929477994027078,
+      "learning_rate": 4.977925700855799e-06,
+      "loss": 0.38353538513183594,
+      "memory(GiB)": 41.86,
+      "step": 846,
+      "token_acc": 0.903707518022657,
+      "train_speed(iter/s)": 0.241344
+    },
+    {
+      "epoch": 0.27104,
+      "grad_norm": 0.7011954440399505,
+      "learning_rate": 4.97780861429475e-06,
+      "loss": 0.37761881947517395,
+      "memory(GiB)": 41.86,
+      "step": 847,
+      "token_acc": 0.901171875,
+      "train_speed(iter/s)": 0.24136
+    },
+    {
+      "epoch": 0.27136,
+      "grad_norm": 0.7370393665583859,
+      "learning_rate": 4.977691219413402e-06,
+      "loss": 0.4818401038646698,
+      "memory(GiB)": 41.86,
+      "step": 848,
+      "token_acc": 0.9256797583081571,
+      "train_speed(iter/s)": 0.241364
+    },
+    {
+      "epoch": 0.27168,
+      "grad_norm": 0.7475680733834088,
+      "learning_rate": 4.977573516226364e-06,
+      "loss": 0.4123767018318176,
+      "memory(GiB)": 41.86,
+      "step": 849,
+      "token_acc": 0.8808446455505279,
+      "train_speed(iter/s)": 0.241375
+    },
+    {
+      "epoch": 0.272,
+      "grad_norm": 0.7474821675081605,
+      "learning_rate": 4.9774555047482805e-06,
+      "loss": 0.4663333296775818,
+      "memory(GiB)": 41.86,
+      "step": 850,
+      "token_acc": 0.8616370521409845,
+      "train_speed(iter/s)": 0.241387
+    },
+    {
+      "epoch": 0.27232,
+      "grad_norm": 0.7227493769777527,
+      "learning_rate": 4.977337184993838e-06,
+      "loss": 0.4266231656074524,
+      "memory(GiB)": 41.86,
+      "step": 851,
+      "token_acc": 0.9375,
+      "train_speed(iter/s)": 0.241394
+    },
+    {
+      "epoch": 0.27264,
+      "grad_norm": 0.7309698174390097,
+      "learning_rate": 4.977218556977758e-06,
+      "loss": 0.3907462954521179,
+      "memory(GiB)": 41.86,
+      "step": 852,
+      "token_acc": 0.853035143769968,
+      "train_speed(iter/s)": 0.241394
+    },
+    {
+      "epoch": 0.27296,
+      "grad_norm": 0.6888381853197825,
+      "learning_rate": 4.977099620714802e-06,
+      "loss": 0.37958580255508423,
+      "memory(GiB)": 41.86,
+      "step": 853,
+      "token_acc": 0.8546786389413988,
+      "train_speed(iter/s)": 0.241404
+    },
+    {
+      "epoch": 0.27328,
+      "grad_norm": 0.6969882686487512,
+      "learning_rate": 4.9769803762197685e-06,
+      "loss": 0.4280955195426941,
+      "memory(GiB)": 41.86,
+      "step": 854,
+      "token_acc": 0.9014008620689655,
+      "train_speed(iter/s)": 0.241416
+    },
+    {
+      "epoch": 0.2736,
+      "grad_norm": 0.7008938544446637,
+      "learning_rate": 4.976860823507497e-06,
+      "loss": 0.3477323055267334,
+      "memory(GiB)": 41.86,
+      "step": 855,
+      "token_acc": 0.9141705069124424,
+      "train_speed(iter/s)": 0.241424
+    },
+    {
+      "epoch": 0.27392,
+      "grad_norm": 0.6754437648650162,
+      "learning_rate": 4.976740962592863e-06,
+      "loss": 0.3738710284233093,
+      "memory(GiB)": 41.86,
+      "step": 856,
+      "token_acc": 0.9194785276073619,
+      "train_speed(iter/s)": 0.241423
+    },
+    {
+      "epoch": 0.27424,
+      "grad_norm": 0.667734211719335,
+      "learning_rate": 4.976620793490781e-06,
+      "loss": 0.35820943117141724,
+      "memory(GiB)": 41.86,
+      "step": 857,
+      "token_acc": 0.8852619233776388,
+      "train_speed(iter/s)": 0.241435
+    },
+    {
+      "epoch": 0.27456,
+      "grad_norm": 0.6557798340838397,
+      "learning_rate": 4.976500316216205e-06,
+      "loss": 0.3082352876663208,
+      "memory(GiB)": 41.86,
+      "step": 858,
+      "token_acc": 0.8979591836734694,
+      "train_speed(iter/s)": 0.241447
+    },
+    {
+      "epoch": 0.27488,
+      "grad_norm": 0.68058949296096,
+      "learning_rate": 4.976379530784125e-06,
+      "loss": 0.3448728919029236,
+      "memory(GiB)": 41.86,
+      "step": 859,
+      "token_acc": 0.9538943598925694,
+      "train_speed(iter/s)": 0.241449
+    },
+    {
+      "epoch": 0.2752,
+      "grad_norm": 0.7756601499198893,
+      "learning_rate": 4.976258437209571e-06,
+      "loss": 0.47984373569488525,
+      "memory(GiB)": 41.86,
+      "step": 860,
+      "token_acc": 0.8789907312049433,
+      "train_speed(iter/s)": 0.241442
+    },
+    {
+      "epoch": 0.27552,
+      "grad_norm": 0.6334807836789396,
+      "learning_rate": 4.976137035507612e-06,
+      "loss": 0.4275950789451599,
+      "memory(GiB)": 41.86,
+      "step": 861,
+      "token_acc": 0.8337969401947148,
+      "train_speed(iter/s)": 0.241431
+    },
+    {
+      "epoch": 0.27584,
+      "grad_norm": 0.7025979774680785,
+      "learning_rate": 4.976015325693352e-06,
+      "loss": 0.3921700716018677,
+      "memory(GiB)": 41.86,
+      "step": 862,
+      "token_acc": 0.8516780945507038,
+      "train_speed(iter/s)": 0.241432
+    },
+    {
+      "epoch": 0.27616,
+      "grad_norm": 0.6751265115688638,
+      "learning_rate": 4.975893307781938e-06,
+      "loss": 0.3886798620223999,
+      "memory(GiB)": 41.86,
+      "step": 863,
+      "token_acc": 0.8591885441527446,
+      "train_speed(iter/s)": 0.241433
+    },
+    {
+      "epoch": 0.27648,
+      "grad_norm": 0.6674161722210321,
+      "learning_rate": 4.9757709817885525e-06,
+      "loss": 0.37476640939712524,
+      "memory(GiB)": 41.86,
+      "step": 864,
+      "token_acc": 0.8940772185162725,
+      "train_speed(iter/s)": 0.241433
+    },
+    {
+      "epoch": 0.2768,
+      "grad_norm": 0.7089221887975327,
+      "learning_rate": 4.9756483477284166e-06,
+      "loss": 0.3924105763435364,
+      "memory(GiB)": 41.86,
+      "step": 865,
+      "token_acc": 0.910453808752026,
+      "train_speed(iter/s)": 0.241435
+    },
+    {
+      "epoch": 0.27712,
+      "grad_norm": 0.662114873025913,
+      "learning_rate": 4.975525405616789e-06,
+      "loss": 0.3919695019721985,
+      "memory(GiB)": 41.86,
+      "step": 866,
+      "token_acc": 0.9111014744145707,
+      "train_speed(iter/s)": 0.241445
+    },
+    {
+      "epoch": 0.27744,
+      "grad_norm": 0.6645344776655074,
+      "learning_rate": 4.975402155468969e-06,
+      "loss": 0.42643189430236816,
+      "memory(GiB)": 41.86,
+      "step": 867,
+      "token_acc": 0.8357969151670951,
+      "train_speed(iter/s)": 0.241441
+    },
+    {
+      "epoch": 0.27776,
+      "grad_norm": 0.7312173531041785,
+      "learning_rate": 4.975278597300293e-06,
+      "loss": 0.3553208112716675,
+      "memory(GiB)": 41.86,
+      "step": 868,
+      "token_acc": 0.8707280832095097,
+      "train_speed(iter/s)": 0.241446
+    },
+    {
+      "epoch": 0.27808,
+      "grad_norm": 0.7590644549950091,
+      "learning_rate": 4.975154731126135e-06,
+      "loss": 0.45626798272132874,
+      "memory(GiB)": 41.86,
+      "step": 869,
+      "token_acc": 0.8275613275613276,
+      "train_speed(iter/s)": 0.241447
+    },
+    {
+      "epoch": 0.2784,
+      "grad_norm": 0.6787017579013671,
+      "learning_rate": 4.9750305569619085e-06,
+      "loss": 0.349330872297287,
+      "memory(GiB)": 41.86,
+      "step": 870,
+      "token_acc": 0.9083790133124511,
+      "train_speed(iter/s)": 0.241456
+    },
+    {
+      "epoch": 0.27872,
+      "grad_norm": 0.698948305076856,
+      "learning_rate": 4.974906074823064e-06,
+      "loss": 0.3812295198440552,
+      "memory(GiB)": 41.86,
+      "step": 871,
+      "token_acc": 0.9295494149863082,
+      "train_speed(iter/s)": 0.24146
+    },
+    {
+      "epoch": 0.27904,
+      "grad_norm": 0.7199487021079038,
+      "learning_rate": 4.974781284725092e-06,
+      "loss": 0.34978869557380676,
+      "memory(GiB)": 41.86,
+      "step": 872,
+      "token_acc": 0.8286747780335416,
+      "train_speed(iter/s)": 0.241473
+    },
+    {
+      "epoch": 0.27936,
+      "grad_norm": 0.6865360531047445,
+      "learning_rate": 4.97465618668352e-06,
+      "loss": 0.38167816400527954,
+      "memory(GiB)": 41.86,
+      "step": 873,
+      "token_acc": 0.8775993682548039,
+      "train_speed(iter/s)": 0.241455
+    },
+    {
+      "epoch": 0.27968,
+      "grad_norm": 0.6751513035519379,
+      "learning_rate": 4.974530780713914e-06,
+      "loss": 0.3769749402999878,
+      "memory(GiB)": 41.86,
+      "step": 874,
+      "token_acc": 0.8235294117647058,
+      "train_speed(iter/s)": 0.241464
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.646982009890138,
+      "learning_rate": 4.97440506683188e-06,
+      "loss": 0.40149784088134766,
+      "memory(GiB)": 41.86,
+      "step": 875,
+      "token_acc": 0.8576504026527711,
+      "train_speed(iter/s)": 0.241465
+    },
+    {
+      "epoch": 0.28032,
+      "grad_norm": 0.8460064247150936,
+      "learning_rate": 4.974279045053059e-06,
+      "loss": 0.34345951676368713,
+      "memory(GiB)": 41.86,
+      "step": 876,
+      "token_acc": 0.922945205479452,
+      "train_speed(iter/s)": 0.241481
+    },
+    {
+      "epoch": 0.28064,
+      "grad_norm": 0.6686883055467452,
+      "learning_rate": 4.974152715393134e-06,
+      "loss": 0.3293968737125397,
+      "memory(GiB)": 41.86,
+      "step": 877,
+      "token_acc": 0.9156148575549946,
+      "train_speed(iter/s)": 0.241494
+    },
+    {
+      "epoch": 0.28096,
+      "grad_norm": 0.6391706717860814,
+      "learning_rate": 4.974026077867823e-06,
+      "loss": 0.42422202229499817,
+      "memory(GiB)": 41.86,
+      "step": 878,
+      "token_acc": 0.8443293347873501,
+      "train_speed(iter/s)": 0.241499
+    },
+    {
+      "epoch": 0.28128,
+      "grad_norm": 0.7055869022720442,
+      "learning_rate": 4.973899132492886e-06,
+      "loss": 0.36827290058135986,
+      "memory(GiB)": 41.86,
+      "step": 879,
+      "token_acc": 0.9271719038817006,
+      "train_speed(iter/s)": 0.241503
+    },
+    {
+      "epoch": 0.2816,
+      "grad_norm": 0.6699293792004666,
+      "learning_rate": 4.973771879284116e-06,
+      "loss": 0.3548522889614105,
+      "memory(GiB)": 41.86,
+      "step": 880,
+      "token_acc": 0.9261926192619262,
+      "train_speed(iter/s)": 0.241492
+    },
+    {
+      "epoch": 0.28192,
+      "grad_norm": 0.6562773527409582,
+      "learning_rate": 4.973644318257349e-06,
+      "loss": 0.31184637546539307,
+      "memory(GiB)": 41.86,
+      "step": 881,
+      "token_acc": 0.902882797731569,
+      "train_speed(iter/s)": 0.24148
+    },
+    {
+      "epoch": 0.28224,
+      "grad_norm": 0.6405973075614393,
+      "learning_rate": 4.9735164494284595e-06,
+      "loss": 0.4276396334171295,
+      "memory(GiB)": 41.86,
+      "step": 882,
+      "token_acc": 0.9028029844726759,
+      "train_speed(iter/s)": 0.24148
+    },
+    {
+      "epoch": 0.28256,
+      "grad_norm": 0.6473536741908208,
+      "learning_rate": 4.973388272813355e-06,
+      "loss": 0.3479858338832855,
+      "memory(GiB)": 41.86,
+      "step": 883,
+      "token_acc": 0.9328621908127208,
+      "train_speed(iter/s)": 0.241478
+    },
+    {
+      "epoch": 0.28288,
+      "grad_norm": 0.6113653397974941,
+      "learning_rate": 4.9732597884279885e-06,
+      "loss": 0.2951425611972809,
+      "memory(GiB)": 41.86,
+      "step": 884,
+      "token_acc": 0.9305435720448663,
+      "train_speed(iter/s)": 0.24149
+    },
+    {
+      "epoch": 0.2832,
+      "grad_norm": 0.6730281148733999,
+      "learning_rate": 4.973130996288345e-06,
+      "loss": 0.36195170879364014,
+      "memory(GiB)": 41.86,
+      "step": 885,
+      "token_acc": 0.9180274330502939,
+      "train_speed(iter/s)": 0.241492
+    },
+    {
+      "epoch": 0.28352,
+      "grad_norm": 0.7241950728876418,
+      "learning_rate": 4.9730018964104524e-06,
+      "loss": 0.3859631419181824,
+      "memory(GiB)": 41.86,
+      "step": 886,
+      "token_acc": 0.8826130653266332,
+      "train_speed(iter/s)": 0.241499
+    },
+    {
+      "epoch": 0.28384,
+      "grad_norm": 0.6755341219842091,
+      "learning_rate": 4.972872488810373e-06,
+      "loss": 0.37077081203460693,
+      "memory(GiB)": 41.86,
+      "step": 887,
+      "token_acc": 0.867237687366167,
+      "train_speed(iter/s)": 0.241494
+    },
+    {
+      "epoch": 0.28416,
+      "grad_norm": 0.6812963468992782,
+      "learning_rate": 4.9727427735042115e-06,
+      "loss": 0.2684915065765381,
+      "memory(GiB)": 41.86,
+      "step": 888,
+      "token_acc": 0.9121046892039258,
+      "train_speed(iter/s)": 0.241506
+    },
+    {
+      "epoch": 0.28448,
+      "grad_norm": 0.7525157746680431,
+      "learning_rate": 4.972612750508107e-06,
+      "loss": 0.44266653060913086,
+      "memory(GiB)": 41.86,
+      "step": 889,
+      "token_acc": 0.9112011790714812,
+      "train_speed(iter/s)": 0.241504
+    },
+    {
+      "epoch": 0.2848,
+      "grad_norm": 0.6453016199975026,
+      "learning_rate": 4.972482419838238e-06,
+      "loss": 0.32151272892951965,
+      "memory(GiB)": 41.86,
+      "step": 890,
+      "token_acc": 0.8936689836558331,
+      "train_speed(iter/s)": 0.241488
+    },
+    {
+      "epoch": 0.28512,
+      "grad_norm": 0.6212688994067938,
+      "learning_rate": 4.972351781510824e-06,
+      "loss": 0.39796680212020874,
+      "memory(GiB)": 41.86,
+      "step": 891,
+      "token_acc": 0.9022353891731754,
+      "train_speed(iter/s)": 0.241492
+    },
+    {
+      "epoch": 0.28544,
+      "grad_norm": 0.7089115102373374,
+      "learning_rate": 4.97222083554212e-06,
+      "loss": 0.3897097110748291,
+      "memory(GiB)": 41.86,
+      "step": 892,
+      "token_acc": 0.7951541850220264,
+      "train_speed(iter/s)": 0.241498
+    },
+    {
+      "epoch": 0.28576,
+      "grad_norm": 0.6546675408734224,
+      "learning_rate": 4.972089581948418e-06,
+      "loss": 0.36820483207702637,
+      "memory(GiB)": 41.86,
+      "step": 893,
+      "token_acc": 0.9186360567184335,
+      "train_speed(iter/s)": 0.24148
+    },
+    {
+      "epoch": 0.28608,
+      "grad_norm": 0.7262540906460178,
+      "learning_rate": 4.971958020746054e-06,
+      "loss": 0.4262128174304962,
+      "memory(GiB)": 41.86,
+      "step": 894,
+      "token_acc": 0.8278301886792453,
+      "train_speed(iter/s)": 0.241492
+    },
+    {
+      "epoch": 0.2864,
+      "grad_norm": 0.6608761438052999,
+      "learning_rate": 4.971826151951395e-06,
+      "loss": 0.34088167548179626,
+      "memory(GiB)": 41.86,
+      "step": 895,
+      "token_acc": 0.8382084095063985,
+      "train_speed(iter/s)": 0.241493
+    },
+    {
+      "epoch": 0.28672,
+      "grad_norm": 0.734419232580609,
+      "learning_rate": 4.971693975580851e-06,
+      "loss": 0.34007054567337036,
+      "memory(GiB)": 41.86,
+      "step": 896,
+      "token_acc": 0.8838174273858921,
+      "train_speed(iter/s)": 0.2415
+    },
+    {
+      "epoch": 0.28704,
+      "grad_norm": 0.6341645963169661,
+      "learning_rate": 4.9715614916508704e-06,
+      "loss": 0.4050477147102356,
+      "memory(GiB)": 41.86,
+      "step": 897,
+      "token_acc": 0.8474803602222648,
+      "train_speed(iter/s)": 0.241479
+    },
+    {
+      "epoch": 0.28736,
+      "grad_norm": 0.6844718425361049,
+      "learning_rate": 4.971428700177937e-06,
+      "loss": 0.36214596033096313,
+      "memory(GiB)": 41.86,
+      "step": 898,
+      "token_acc": 0.931599572497328,
+      "train_speed(iter/s)": 0.241492
+    },
+    {
+      "epoch": 0.28768,
+      "grad_norm": 0.6748809128081812,
+      "learning_rate": 4.971295601178574e-06,
+      "loss": 0.3591195344924927,
+      "memory(GiB)": 41.86,
+      "step": 899,
+      "token_acc": 0.862404447533009,
+      "train_speed(iter/s)": 0.241507
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 0.6682543082440642,
+      "learning_rate": 4.971162194669345e-06,
+      "loss": 0.42554935812950134,
+      "memory(GiB)": 41.86,
+      "step": 900,
+      "token_acc": 0.9150422949613829,
+      "train_speed(iter/s)": 0.241505
+    },
+    {
+      "epoch": 0.28832,
+      "grad_norm": 0.6541925224309108,
+      "learning_rate": 4.971028480666848e-06,
+      "loss": 0.40456196665763855,
+      "memory(GiB)": 41.86,
+      "step": 901,
+      "token_acc": 0.8156996587030717,
+      "train_speed(iter/s)": 0.241512
+    },
+    {
+      "epoch": 0.28864,
+      "grad_norm": 0.6814521711269722,
+      "learning_rate": 4.9708944591877224e-06,
+      "loss": 0.35836970806121826,
+      "memory(GiB)": 41.86,
+      "step": 902,
+      "token_acc": 0.9325091881055797,
+      "train_speed(iter/s)": 0.241516
+    },
+    {
+      "epoch": 0.28896,
+      "grad_norm": 0.649545456888139,
+      "learning_rate": 4.9707601302486464e-06,
+      "loss": 0.3607296347618103,
+      "memory(GiB)": 41.86,
+      "step": 903,
+      "token_acc": 0.8624255719210279,
+      "train_speed(iter/s)": 0.241516
+    },
+    {
+      "epoch": 0.28928,
+      "grad_norm": 0.6891263598886528,
+      "learning_rate": 4.970625493866333e-06,
+      "loss": 0.3262513279914856,
+      "memory(GiB)": 41.86,
+      "step": 904,
+      "token_acc": 0.8658731975280385,
+      "train_speed(iter/s)": 0.241525
+    },
+    {
+      "epoch": 0.2896,
+      "grad_norm": 0.7705794545296857,
+      "learning_rate": 4.9704905500575355e-06,
+      "loss": 0.5154157876968384,
+      "memory(GiB)": 41.86,
+      "step": 905,
+      "token_acc": 0.8821788040260509,
+      "train_speed(iter/s)": 0.241523
+    },
+    {
+      "epoch": 0.28992,
+      "grad_norm": 0.6751814971991484,
+      "learning_rate": 4.9703552988390456e-06,
+      "loss": 0.35065460205078125,
+      "memory(GiB)": 41.86,
+      "step": 906,
+      "token_acc": 0.9142586451918522,
+      "train_speed(iter/s)": 0.241534
+    },
+    {
+      "epoch": 0.29024,
+      "grad_norm": 0.699380857405434,
+      "learning_rate": 4.970219740227693e-06,
+      "loss": 0.38087108731269836,
+      "memory(GiB)": 41.86,
+      "step": 907,
+      "token_acc": 0.8528839922229423,
+      "train_speed(iter/s)": 0.241543
+    },
+    {
+      "epoch": 0.29056,
+      "grad_norm": 0.7079328478059318,
+      "learning_rate": 4.970083874240346e-06,
+      "loss": 0.42072010040283203,
+      "memory(GiB)": 41.86,
+      "step": 908,
+      "token_acc": 0.8306157215867608,
+      "train_speed(iter/s)": 0.241535
+    },
+    {
+      "epoch": 0.29088,
+      "grad_norm": 0.7533036330931112,
+      "learning_rate": 4.96994770089391e-06,
+      "loss": 0.4003120958805084,
+      "memory(GiB)": 41.86,
+      "step": 909,
+      "token_acc": 0.896037804434751,
+      "train_speed(iter/s)": 0.241538
+    },
+    {
+      "epoch": 0.2912,
+      "grad_norm": 0.6625219352484201,
+      "learning_rate": 4.969811220205331e-06,
+      "loss": 0.3053428530693054,
+      "memory(GiB)": 41.86,
+      "step": 910,
+      "token_acc": 0.9239284700539313,
+      "train_speed(iter/s)": 0.241534
+    },
+    {
+      "epoch": 0.29152,
+      "grad_norm": 0.658103618512496,
+      "learning_rate": 4.969674432191589e-06,
+      "loss": 0.3694823980331421,
+      "memory(GiB)": 41.86,
+      "step": 911,
+      "token_acc": 0.8607216731785796,
+      "train_speed(iter/s)": 0.241532
+    },
+    {
+      "epoch": 0.29184,
+      "grad_norm": 0.6765561916534816,
+      "learning_rate": 4.969537336869707e-06,
+      "loss": 0.36112353205680847,
+      "memory(GiB)": 41.86,
+      "step": 912,
+      "token_acc": 0.8812270582066072,
+      "train_speed(iter/s)": 0.241534
+    },
+    {
+      "epoch": 0.29216,
+      "grad_norm": 0.6308621603918786,
+      "learning_rate": 4.9693999342567435e-06,
+      "loss": 0.39021438360214233,
+      "memory(GiB)": 41.86,
+      "step": 913,
+      "token_acc": 0.8794765840220385,
+      "train_speed(iter/s)": 0.241525
+    },
+    {
+      "epoch": 0.29248,
+      "grad_norm": 0.6717470788996405,
+      "learning_rate": 4.969262224369795e-06,
+      "loss": 0.3180088400840759,
+      "memory(GiB)": 41.86,
+      "step": 914,
+      "token_acc": 0.9439976169198689,
+      "train_speed(iter/s)": 0.241511
+    },
+    {
+      "epoch": 0.2928,
+      "grad_norm": 0.6678257452086631,
+      "learning_rate": 4.969124207225998e-06,
+      "loss": 0.42820611596107483,
+      "memory(GiB)": 41.86,
+      "step": 915,
+      "token_acc": 0.8360393931328187,
+      "train_speed(iter/s)": 0.241505
+    },
+    {
+      "epoch": 0.29312,
+      "grad_norm": 0.7360949685416199,
+      "learning_rate": 4.968985882842527e-06,
+      "loss": 0.3855406641960144,
+      "memory(GiB)": 41.86,
+      "step": 916,
+      "token_acc": 0.931981981981982,
+      "train_speed(iter/s)": 0.241517
+    },
+    {
+      "epoch": 0.29344,
+      "grad_norm": 0.7044535152488363,
+      "learning_rate": 4.968847251236594e-06,
+      "loss": 0.3625899851322174,
+      "memory(GiB)": 41.86,
+      "step": 917,
+      "token_acc": 0.9040910322405852,
+      "train_speed(iter/s)": 0.241526
+    },
+    {
+      "epoch": 0.29376,
+      "grad_norm": 0.6537938220168457,
+      "learning_rate": 4.968708312425449e-06,
+      "loss": 0.4835781455039978,
+      "memory(GiB)": 41.86,
+      "step": 918,
+      "token_acc": 0.8565353625783348,
+      "train_speed(iter/s)": 0.241518
+    },
+    {
+      "epoch": 0.29408,
+      "grad_norm": 0.686896162098333,
+      "learning_rate": 4.968569066426379e-06,
+      "loss": 0.32849764823913574,
+      "memory(GiB)": 41.86,
+      "step": 919,
+      "token_acc": 0.9011274934952298,
+      "train_speed(iter/s)": 0.241526
+    },
+    {
+      "epoch": 0.2944,
+      "grad_norm": 0.687683913617958,
+      "learning_rate": 4.9684295132567115e-06,
+      "loss": 0.39233213663101196,
+      "memory(GiB)": 41.86,
+      "step": 920,
+      "token_acc": 0.8454443194600675,
+      "train_speed(iter/s)": 0.241527
+    },
+    {
+      "epoch": 0.29472,
+      "grad_norm": 0.693908437796633,
+      "learning_rate": 4.968289652933813e-06,
+      "loss": 0.3255015015602112,
+      "memory(GiB)": 41.86,
+      "step": 921,
+      "token_acc": 0.9359557867360208,
+      "train_speed(iter/s)": 0.241525
+    },
+    {
+      "epoch": 0.29504,
+      "grad_norm": 0.7267143275291124,
+      "learning_rate": 4.968149485475085e-06,
+      "loss": 0.4273531436920166,
+      "memory(GiB)": 41.86,
+      "step": 922,
+      "token_acc": 0.8772574227119682,
+      "train_speed(iter/s)": 0.241531
+    },
+    {
+      "epoch": 0.29536,
+      "grad_norm": 0.6452649615739668,
+      "learning_rate": 4.96800901089797e-06,
+      "loss": 0.43422120809555054,
+      "memory(GiB)": 41.86,
+      "step": 923,
+      "token_acc": 0.8881557241834378,
+      "train_speed(iter/s)": 0.241514
+    },
+    {
+      "epoch": 0.29568,
+      "grad_norm": 0.7010011491284999,
+      "learning_rate": 4.967868229219947e-06,
+      "loss": 0.3614301085472107,
+      "memory(GiB)": 41.86,
+      "step": 924,
+      "token_acc": 0.883982683982684,
+      "train_speed(iter/s)": 0.241518
+    },
+    {
+      "epoch": 0.296,
+      "grad_norm": 0.7471760335070439,
+      "learning_rate": 4.967727140458533e-06,
+      "loss": 0.44364720582962036,
+      "memory(GiB)": 41.86,
+      "step": 925,
+      "token_acc": 0.8213296398891967,
+      "train_speed(iter/s)": 0.24152
+    },
+    {
+      "epoch": 0.29632,
+      "grad_norm": 0.6928377160078811,
+      "learning_rate": 4.967585744631287e-06,
+      "loss": 0.3463733196258545,
+      "memory(GiB)": 41.86,
+      "step": 926,
+      "token_acc": 0.9182530795072789,
+      "train_speed(iter/s)": 0.241535
+    },
+    {
+      "epoch": 0.29664,
+      "grad_norm": 0.6782065839536974,
+      "learning_rate": 4.9674440417558e-06,
+      "loss": 0.4339632987976074,
+      "memory(GiB)": 41.86,
+      "step": 927,
+      "token_acc": 0.913106655042139,
+      "train_speed(iter/s)": 0.241544
+    },
+    {
+      "epoch": 0.29696,
+      "grad_norm": 0.6914247003294781,
+      "learning_rate": 4.967302031849706e-06,
+      "loss": 0.31901341676712036,
+      "memory(GiB)": 41.86,
+      "step": 928,
+      "token_acc": 0.9366944655041698,
+      "train_speed(iter/s)": 0.241551
+    },
+    {
+      "epoch": 0.29728,
+      "grad_norm": 0.7903881695999362,
+      "learning_rate": 4.9671597149306764e-06,
+      "loss": 0.42360836267471313,
+      "memory(GiB)": 41.86,
+      "step": 929,
+      "token_acc": 0.8554804804804805,
+      "train_speed(iter/s)": 0.241564
+    },
+    {
+      "epoch": 0.2976,
+      "grad_norm": 0.7492555503394457,
+      "learning_rate": 4.9670170910164175e-06,
+      "loss": 0.46021217107772827,
+      "memory(GiB)": 41.86,
+      "step": 930,
+      "token_acc": 0.8565543071161049,
+      "train_speed(iter/s)": 0.241512
+    },
+    {
+      "epoch": 0.29792,
+      "grad_norm": 0.6731570935279273,
+      "learning_rate": 4.966874160124678e-06,
+      "loss": 0.38581928610801697,
+      "memory(GiB)": 41.86,
+      "step": 931,
+      "token_acc": 0.9304123711340206,
+      "train_speed(iter/s)": 0.241513
+    },
+    {
+      "epoch": 0.29824,
+      "grad_norm": 0.65811219530057,
+      "learning_rate": 4.966730922273244e-06,
+      "loss": 0.4658651351928711,
+      "memory(GiB)": 41.86,
+      "step": 932,
+      "token_acc": 0.8298251872993222,
+      "train_speed(iter/s)": 0.241522
+    },
+    {
+      "epoch": 0.29856,
+      "grad_norm": 0.7093310177772169,
+      "learning_rate": 4.9665873774799385e-06,
+      "loss": 0.5289594531059265,
+      "memory(GiB)": 41.86,
+      "step": 933,
+      "token_acc": 0.8338162251655629,
+      "train_speed(iter/s)": 0.24153
+    },
+    {
+      "epoch": 0.29888,
+      "grad_norm": 0.6748828403599597,
+      "learning_rate": 4.966443525762622e-06,
+      "loss": 0.3499439060688019,
+      "memory(GiB)": 41.86,
+      "step": 934,
+      "token_acc": 0.9264825345247766,
+      "train_speed(iter/s)": 0.241527
+    },
+    {
+      "epoch": 0.2992,
+      "grad_norm": 0.6396606656757102,
+      "learning_rate": 4.966299367139195e-06,
+      "loss": 0.333096981048584,
+      "memory(GiB)": 41.86,
+      "step": 935,
+      "token_acc": 0.8704022988505747,
+      "train_speed(iter/s)": 0.241527
+    },
+    {
+      "epoch": 0.29952,
+      "grad_norm": 0.6875572036699754,
+      "learning_rate": 4.966154901627596e-06,
+      "loss": 0.3107609152793884,
+      "memory(GiB)": 41.86,
+      "step": 936,
+      "token_acc": 0.8930993218986837,
+      "train_speed(iter/s)": 0.241529
+    },
+    {
+      "epoch": 0.29984,
+      "grad_norm": 0.689030173413658,
+      "learning_rate": 4.966010129245801e-06,
+      "loss": 0.36445799469947815,
+      "memory(GiB)": 41.86,
+      "step": 937,
+      "token_acc": 0.9247430249632893,
+      "train_speed(iter/s)": 0.24153
+    },
+    {
+      "epoch": 0.30016,
+      "grad_norm": 0.687135331688922,
+      "learning_rate": 4.965865050011825e-06,
+      "loss": 0.36872753500938416,
+      "memory(GiB)": 41.86,
+      "step": 938,
+      "token_acc": 0.8692786525082388,
+      "train_speed(iter/s)": 0.241521
+    },
+    {
+      "epoch": 0.30048,
+      "grad_norm": 0.6710288075772929,
+      "learning_rate": 4.965719663943718e-06,
+      "loss": 0.35664430260658264,
+      "memory(GiB)": 41.86,
+      "step": 939,
+      "token_acc": 0.9474777448071217,
+      "train_speed(iter/s)": 0.24153
+    },
+    {
+      "epoch": 0.3008,
+      "grad_norm": 0.6879440183609316,
+      "learning_rate": 4.9655739710595744e-06,
+      "loss": 0.32241836190223694,
+      "memory(GiB)": 41.86,
+      "step": 940,
+      "token_acc": 0.9285714285714286,
+      "train_speed(iter/s)": 0.241525
+    },
+    {
+      "epoch": 0.30112,
+      "grad_norm": 0.7165970758183136,
+      "learning_rate": 4.96542797137752e-06,
+      "loss": 0.42401638627052307,
+      "memory(GiB)": 41.86,
+      "step": 941,
+      "token_acc": 0.8841492971400873,
+      "train_speed(iter/s)": 0.241538
+    },
+    {
+      "epoch": 0.30144,
+      "grad_norm": 0.6365745664107615,
+      "learning_rate": 4.965281664915724e-06,
+      "loss": 0.31001606583595276,
+      "memory(GiB)": 41.86,
+      "step": 942,
+      "token_acc": 0.9116642264519278,
+      "train_speed(iter/s)": 0.241539
+    },
+    {
+      "epoch": 0.30176,
+      "grad_norm": 0.656340432291695,
+      "learning_rate": 4.965135051692391e-06,
+      "loss": 0.3231452405452728,
+      "memory(GiB)": 41.86,
+      "step": 943,
+      "token_acc": 0.9170944558521561,
+      "train_speed(iter/s)": 0.241535
+    },
+    {
+      "epoch": 0.30208,
+      "grad_norm": 0.756832797324496,
+      "learning_rate": 4.964988131725765e-06,
+      "loss": 0.33907341957092285,
+      "memory(GiB)": 41.86,
+      "step": 944,
+      "token_acc": 0.9287203001250521,
+      "train_speed(iter/s)": 0.241517
+    },
+    {
+      "epoch": 0.3024,
+      "grad_norm": 0.6757359542610164,
+      "learning_rate": 4.964840905034126e-06,
+      "loss": 0.33235907554626465,
+      "memory(GiB)": 41.86,
+      "step": 945,
+      "token_acc": 0.843654540405443,
+      "train_speed(iter/s)": 0.241514
+    },
+    {
+      "epoch": 0.30272,
+      "grad_norm": 0.7048647704697871,
+      "learning_rate": 4.9646933716357955e-06,
+      "loss": 0.43321874737739563,
+      "memory(GiB)": 41.86,
+      "step": 946,
+      "token_acc": 0.9497939303109779,
+      "train_speed(iter/s)": 0.241523
+    },
+    {
+      "epoch": 0.30304,
+      "grad_norm": 0.719203615853158,
+      "learning_rate": 4.964545531549132e-06,
+      "loss": 0.34369271993637085,
+      "memory(GiB)": 41.86,
+      "step": 947,
+      "token_acc": 0.8483916083916084,
+      "train_speed(iter/s)": 0.241534
+    },
+    {
+      "epoch": 0.30336,
+      "grad_norm": 0.7014787982390394,
+      "learning_rate": 4.96439738479253e-06,
+      "loss": 0.4344375431537628,
+      "memory(GiB)": 41.86,
+      "step": 948,
+      "token_acc": 0.881524926686217,
+      "train_speed(iter/s)": 0.241545
+    },
+    {
+      "epoch": 0.30368,
+      "grad_norm": 0.6472731865624812,
+      "learning_rate": 4.964248931384424e-06,
+      "loss": 0.39773064851760864,
+      "memory(GiB)": 41.86,
+      "step": 949,
+      "token_acc": 0.8263301088270859,
+      "train_speed(iter/s)": 0.241549
+    },
+    {
+      "epoch": 0.304,
+      "grad_norm": 0.64673083388736,
+      "learning_rate": 4.964100171343287e-06,
+      "loss": 0.3737943172454834,
+      "memory(GiB)": 41.86,
+      "step": 950,
+      "token_acc": 0.8646560319042872,
+      "train_speed(iter/s)": 0.241556
+    },
+    {
+      "epoch": 0.30432,
+      "grad_norm": 0.676158685316066,
+      "learning_rate": 4.963951104687629e-06,
+      "loss": 0.4138943552970886,
+      "memory(GiB)": 41.86,
+      "step": 951,
+      "token_acc": 0.9096804075961094,
+      "train_speed(iter/s)": 0.241565
+    },
+    {
+      "epoch": 0.30464,
+      "grad_norm": 0.6766321710285448,
+      "learning_rate": 4.9638017314359995e-06,
+      "loss": 0.35969242453575134,
+      "memory(GiB)": 41.86,
+      "step": 952,
+      "token_acc": 0.8726790450928382,
+      "train_speed(iter/s)": 0.241569
+    },
+    {
+      "epoch": 0.30496,
+      "grad_norm": 0.6429303444148192,
+      "learning_rate": 4.963652051606985e-06,
+      "loss": 0.34353214502334595,
+      "memory(GiB)": 41.86,
+      "step": 953,
+      "token_acc": 0.9011948529411765,
+      "train_speed(iter/s)": 0.241554
+    },
+    {
+      "epoch": 0.30528,
+      "grad_norm": 0.6376362337856939,
+      "learning_rate": 4.9635020652192115e-06,
+      "loss": 0.3803999423980713,
+      "memory(GiB)": 41.86,
+      "step": 954,
+      "token_acc": 0.935048231511254,
+      "train_speed(iter/s)": 0.241559
+    },
+    {
+      "epoch": 0.3056,
+      "grad_norm": 0.6515075835660972,
+      "learning_rate": 4.96335177229134e-06,
+      "loss": 0.31367772817611694,
+      "memory(GiB)": 41.86,
+      "step": 955,
+      "token_acc": 0.9181309904153354,
+      "train_speed(iter/s)": 0.241575
+    },
+    {
+      "epoch": 0.30592,
+      "grad_norm": 0.7959635426232597,
+      "learning_rate": 4.963201172842073e-06,
+      "loss": 0.4915127456188202,
+      "memory(GiB)": 41.86,
+      "step": 956,
+      "token_acc": 0.8430507406240151,
+      "train_speed(iter/s)": 0.24156
+    },
+    {
+      "epoch": 0.30624,
+      "grad_norm": 0.7154725681158437,
+      "learning_rate": 4.963050266890152e-06,
+      "loss": 0.40798258781433105,
+      "memory(GiB)": 41.86,
+      "step": 957,
+      "token_acc": 0.883199079401611,
+      "train_speed(iter/s)": 0.241565
+    },
+    {
+      "epoch": 0.30656,
+      "grad_norm": 0.6467815122017245,
+      "learning_rate": 4.962899054454352e-06,
+      "loss": 0.39871275424957275,
+      "memory(GiB)": 41.86,
+      "step": 958,
+      "token_acc": 0.9438382541720154,
+      "train_speed(iter/s)": 0.241567
+    },
+    {
+      "epoch": 0.30688,
+      "grad_norm": 0.7028902373577559,
+      "learning_rate": 4.9627475355534895e-06,
+      "loss": 0.3961467444896698,
+      "memory(GiB)": 41.86,
+      "step": 959,
+      "token_acc": 0.8863779033270559,
+      "train_speed(iter/s)": 0.241569
+    },
+    {
+      "epoch": 0.3072,
+      "grad_norm": 0.6560061641040955,
+      "learning_rate": 4.962595710206418e-06,
+      "loss": 0.34120070934295654,
+      "memory(GiB)": 41.86,
+      "step": 960,
+      "token_acc": 0.8376825100963032,
+      "train_speed(iter/s)": 0.241576
+    },
+    {
+      "epoch": 0.30752,
+      "grad_norm": 0.6324110110528821,
+      "learning_rate": 4.9624435784320304e-06,
+      "loss": 0.4010915160179138,
+      "memory(GiB)": 41.86,
+      "step": 961,
+      "token_acc": 0.9414990859232175,
+      "train_speed(iter/s)": 0.241565
+    },
+    {
+      "epoch": 0.30784,
+      "grad_norm": 0.7237947756103527,
+      "learning_rate": 4.962291140249257e-06,
+      "loss": 0.47616103291511536,
+      "memory(GiB)": 41.86,
+      "step": 962,
+      "token_acc": 0.9331405854716299,
+      "train_speed(iter/s)": 0.241552
+    },
+    {
+      "epoch": 0.30816,
+      "grad_norm": 0.7424256205140244,
+      "learning_rate": 4.9621383956770656e-06,
+      "loss": 0.4085035026073456,
+      "memory(GiB)": 41.86,
+      "step": 963,
+      "token_acc": 0.8971126474176494,
+      "train_speed(iter/s)": 0.241566
+    },
+    {
+      "epoch": 0.30848,
+      "grad_norm": 0.6873003395077195,
+      "learning_rate": 4.961985344734461e-06,
+      "loss": 0.3208773136138916,
+      "memory(GiB)": 41.86,
+      "step": 964,
+      "token_acc": 0.8979676482787226,
+      "train_speed(iter/s)": 0.241565
+    },
+    {
+      "epoch": 0.3088,
+      "grad_norm": 0.7669685826075835,
+      "learning_rate": 4.961831987440491e-06,
+      "loss": 0.35845038294792175,
+      "memory(GiB)": 41.86,
+      "step": 965,
+      "token_acc": 0.9046849757673667,
+      "train_speed(iter/s)": 0.241576
+    },
+    {
+      "epoch": 0.30912,
+      "grad_norm": 0.7117847514460486,
+      "learning_rate": 4.9616783238142355e-06,
+      "loss": 0.3642219007015228,
+      "memory(GiB)": 41.86,
+      "step": 966,
+      "token_acc": 0.8754716981132076,
+      "train_speed(iter/s)": 0.241588
+    },
+    {
+      "epoch": 0.30944,
+      "grad_norm": 0.6974943386877127,
+      "learning_rate": 4.961524353874817e-06,
+      "loss": 0.3851352632045746,
+      "memory(GiB)": 41.86,
+      "step": 967,
+      "token_acc": 0.8839706652697747,
+      "train_speed(iter/s)": 0.241579
+    },
+    {
+      "epoch": 0.30976,
+      "grad_norm": 0.6490229758901854,
+      "learning_rate": 4.961370077641393e-06,
+      "loss": 0.46044978499412537,
+      "memory(GiB)": 41.86,
+      "step": 968,
+      "token_acc": 0.8507890961262554,
+      "train_speed(iter/s)": 0.241584
+    },
+    {
+      "epoch": 0.31008,
+      "grad_norm": 0.6443416318287054,
+      "learning_rate": 4.961215495133163e-06,
+      "loss": 0.30034536123275757,
+      "memory(GiB)": 41.86,
+      "step": 969,
+      "token_acc": 0.9131075110456554,
+      "train_speed(iter/s)": 0.241593
+    },
+    {
+      "epoch": 0.3104,
+      "grad_norm": 0.6726885120571315,
+      "learning_rate": 4.961060606369358e-06,
+      "loss": 0.3777090907096863,
+      "memory(GiB)": 41.86,
+      "step": 970,
+      "token_acc": 0.794488001900689,
+      "train_speed(iter/s)": 0.241607
+    },
+    {
+      "epoch": 0.31072,
+      "grad_norm": 0.7198028288028475,
+      "learning_rate": 4.960905411369254e-06,
+      "loss": 0.40755361318588257,
+      "memory(GiB)": 41.86,
+      "step": 971,
+      "token_acc": 0.8454728370221328,
+      "train_speed(iter/s)": 0.241615
+    },
+    {
+      "epoch": 0.31104,
+      "grad_norm": 0.7751462576613326,
+      "learning_rate": 4.960749910152163e-06,
+      "loss": 0.371136873960495,
+      "memory(GiB)": 41.86,
+      "step": 972,
+      "token_acc": 0.8503206209922376,
+      "train_speed(iter/s)": 0.241626
+    },
+    {
+      "epoch": 0.31136,
+      "grad_norm": 0.7093532516024367,
+      "learning_rate": 4.960594102737433e-06,
+      "loss": 0.42763015627861023,
+      "memory(GiB)": 41.86,
+      "step": 973,
+      "token_acc": 0.8802768166089966,
+      "train_speed(iter/s)": 0.241625
+    },
+    {
+      "epoch": 0.31168,
+      "grad_norm": 0.690143372001636,
+      "learning_rate": 4.960437989144452e-06,
+      "loss": 0.4157477021217346,
+      "memory(GiB)": 41.86,
+      "step": 974,
+      "token_acc": 0.9145597210113339,
+      "train_speed(iter/s)": 0.241638
+    },
+    {
+      "epoch": 0.312,
+      "grad_norm": 0.651656437287309,
+      "learning_rate": 4.960281569392646e-06,
+      "loss": 0.3468869924545288,
+      "memory(GiB)": 41.86,
+      "step": 975,
+      "token_acc": 0.8351550960118168,
+      "train_speed(iter/s)": 0.24154
+    },
+    {
+      "epoch": 0.31232,
+      "grad_norm": 0.655364140860849,
+      "learning_rate": 4.960124843501476e-06,
+      "loss": 0.36141568422317505,
+      "memory(GiB)": 41.86,
+      "step": 976,
+      "token_acc": 0.9117647058823529,
+      "train_speed(iter/s)": 0.241527
+    },
+    {
+      "epoch": 0.31264,
+      "grad_norm": 0.9610000105611087,
+      "learning_rate": 4.9599678114904475e-06,
+      "loss": 0.418308824300766,
+      "memory(GiB)": 41.86,
+      "step": 977,
+      "token_acc": 0.9174652241112828,
+      "train_speed(iter/s)": 0.241527
+    },
+    {
+      "epoch": 0.31296,
+      "grad_norm": 0.7293321997535062,
+      "learning_rate": 4.959810473379099e-06,
+      "loss": 0.426521360874176,
+      "memory(GiB)": 41.86,
+      "step": 978,
+      "token_acc": 0.8969750109601052,
+      "train_speed(iter/s)": 0.241537
+    },
+    {
+      "epoch": 0.31328,
+      "grad_norm": 0.7086196763606638,
+      "learning_rate": 4.959652829187008e-06,
+      "loss": 0.44412344694137573,
+      "memory(GiB)": 41.86,
+      "step": 979,
+      "token_acc": 0.8377947737412365,
+      "train_speed(iter/s)": 0.241542
+    },
+    {
+      "epoch": 0.3136,
+      "grad_norm": 0.6790496316669521,
+      "learning_rate": 4.959494878933792e-06,
+      "loss": 0.3211071193218231,
+      "memory(GiB)": 41.86,
+      "step": 980,
+      "token_acc": 0.9030318870883429,
+      "train_speed(iter/s)": 0.241545
+    },
+    {
+      "epoch": 0.31392,
+      "grad_norm": 0.7595760736020764,
+      "learning_rate": 4.959336622639103e-06,
+      "loss": 0.3688046336174011,
+      "memory(GiB)": 41.86,
+      "step": 981,
+      "token_acc": 0.9394338380513496,
+      "train_speed(iter/s)": 0.241551
+    },
+    {
+      "epoch": 0.31424,
+      "grad_norm": 0.6593257106960728,
+      "learning_rate": 4.959178060322634e-06,
+      "loss": 0.3620453476905823,
+      "memory(GiB)": 41.86,
+      "step": 982,
+      "token_acc": 0.9118501775912173,
+      "train_speed(iter/s)": 0.241551
+    },
+    {
+      "epoch": 0.31456,
+      "grad_norm": 0.6822043358664656,
+      "learning_rate": 4.959019192004117e-06,
+      "loss": 0.407000333070755,
+      "memory(GiB)": 41.86,
+      "step": 983,
+      "token_acc": 0.8108839446782923,
+      "train_speed(iter/s)": 0.241545
+    },
+    {
+      "epoch": 0.31488,
+      "grad_norm": 0.8137166998431616,
+      "learning_rate": 4.958860017703319e-06,
+      "loss": 0.3293525278568268,
+      "memory(GiB)": 41.86,
+      "step": 984,
+      "token_acc": 0.8594428826986966,
+      "train_speed(iter/s)": 0.241555
+    },
+    {
+      "epoch": 0.3152,
+      "grad_norm": 0.6483660618510628,
+      "learning_rate": 4.958700537440046e-06,
+      "loss": 0.36643415689468384,
+      "memory(GiB)": 41.86,
+      "step": 985,
+      "token_acc": 0.8746982134234669,
+      "train_speed(iter/s)": 0.241564
+    },
+    {
+      "epoch": 0.31552,
+      "grad_norm": 0.7314331263493626,
+      "learning_rate": 4.958540751234143e-06,
+      "loss": 0.4243761897087097,
+      "memory(GiB)": 41.86,
+      "step": 986,
+      "token_acc": 0.8707196029776675,
+      "train_speed(iter/s)": 0.241575
+    },
+    {
+      "epoch": 0.31584,
+      "grad_norm": 0.7155088680321686,
+      "learning_rate": 4.958380659105494e-06,
+      "loss": 0.42605161666870117,
+      "memory(GiB)": 41.86,
+      "step": 987,
+      "token_acc": 0.8307178631051753,
+      "train_speed(iter/s)": 0.241575
+    },
+    {
+      "epoch": 0.31616,
+      "grad_norm": 0.7014508103615489,
+      "learning_rate": 4.958220261074018e-06,
+      "loss": 0.4260730743408203,
+      "memory(GiB)": 41.86,
+      "step": 988,
+      "token_acc": 0.9423195558297347,
+      "train_speed(iter/s)": 0.241572
+    },
+    {
+      "epoch": 0.31648,
+      "grad_norm": 0.747960960960738,
+      "learning_rate": 4.958059557159674e-06,
+      "loss": 0.4288990795612335,
+      "memory(GiB)": 41.86,
+      "step": 989,
+      "token_acc": 0.8430858806404657,
+      "train_speed(iter/s)": 0.241573
+    },
+    {
+      "epoch": 0.3168,
+      "grad_norm": 0.6511621063111808,
+      "learning_rate": 4.9578985473824594e-06,
+      "loss": 0.3697865903377533,
+      "memory(GiB)": 41.86,
+      "step": 990,
+      "token_acc": 0.937160811196801,
+      "train_speed(iter/s)": 0.241582
+    },
+    {
+      "epoch": 0.31712,
+      "grad_norm": 0.6803491779852046,
+      "learning_rate": 4.9577372317624085e-06,
+      "loss": 0.4827129542827606,
+      "memory(GiB)": 41.86,
+      "step": 991,
+      "token_acc": 0.8279078999603017,
+      "train_speed(iter/s)": 0.241575
+    },
+    {
+      "epoch": 0.31744,
+      "grad_norm": 0.6610022822145006,
+      "learning_rate": 4.957575610319594e-06,
+      "loss": 0.48004278540611267,
+      "memory(GiB)": 41.86,
+      "step": 992,
+      "token_acc": 0.8658008658008658,
+      "train_speed(iter/s)": 0.241572
+    },
+    {
+      "epoch": 0.31776,
+      "grad_norm": 0.75144427607101,
+      "learning_rate": 4.957413683074128e-06,
+      "loss": 0.41778141260147095,
+      "memory(GiB)": 41.86,
+      "step": 993,
+      "token_acc": 0.8972292191435768,
+      "train_speed(iter/s)": 0.241574
+    },
+    {
+      "epoch": 0.31808,
+      "grad_norm": 0.6556340506850887,
+      "learning_rate": 4.957251450046159e-06,
+      "loss": 0.38153591752052307,
+      "memory(GiB)": 41.86,
+      "step": 994,
+      "token_acc": 0.9180639038279026,
+      "train_speed(iter/s)": 0.24158
+    },
+    {
+      "epoch": 0.3184,
+      "grad_norm": 0.6735728046899795,
+      "learning_rate": 4.957088911255874e-06,
+      "loss": 0.3668578565120697,
+      "memory(GiB)": 41.86,
+      "step": 995,
+      "token_acc": 0.8867084766336233,
+      "train_speed(iter/s)": 0.241584
+    },
+    {
+      "epoch": 0.31872,
+      "grad_norm": 0.6554964821452093,
+      "learning_rate": 4.956926066723498e-06,
+      "loss": 0.41147565841674805,
+      "memory(GiB)": 41.86,
+      "step": 996,
+      "token_acc": 0.8859154929577465,
+      "train_speed(iter/s)": 0.24159
+    },
+    {
+      "epoch": 0.31904,
+      "grad_norm": 0.6709924681261463,
+      "learning_rate": 4.956762916469294e-06,
+      "loss": 0.25895392894744873,
+      "memory(GiB)": 41.86,
+      "step": 997,
+      "token_acc": 0.9096712416214491,
+      "train_speed(iter/s)": 0.241595
+    },
+    {
+      "epoch": 0.31936,
+      "grad_norm": 0.6725725911167624,
+      "learning_rate": 4.956599460513564e-06,
+      "loss": 0.4014821946620941,
+      "memory(GiB)": 41.86,
+      "step": 998,
+      "token_acc": 0.8690749235474006,
+      "train_speed(iter/s)": 0.241582
+    },
+    {
+      "epoch": 0.31968,
+      "grad_norm": 0.6404288581638261,
+      "learning_rate": 4.956435698876646e-06,
+      "loss": 0.42094728350639343,
+      "memory(GiB)": 41.86,
+      "step": 999,
+      "token_acc": 0.7922720247295209,
+      "train_speed(iter/s)": 0.241582
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.6657477773913097,
+      "learning_rate": 4.956271631578919e-06,
+      "loss": 0.3939965069293976,
+      "memory(GiB)": 41.86,
+      "step": 1000,
+      "token_acc": 0.8648879402347919,
+      "train_speed(iter/s)": 0.241593
+    },
+    {
+      "epoch": 0.32032,
+      "grad_norm": 0.9523643549253229,
+      "learning_rate": 4.956107258640796e-06,
+      "loss": 0.38130831718444824,
+      "memory(GiB)": 41.86,
+      "step": 1001,
+      "token_acc": 0.8752895752895753,
+      "train_speed(iter/s)": 0.2416
+    },
+    {
+      "epoch": 0.32064,
+      "grad_norm": 0.6626284349945473,
+      "learning_rate": 4.955942580082733e-06,
+      "loss": 0.3861386477947235,
+      "memory(GiB)": 41.86,
+      "step": 1002,
+      "token_acc": 0.8783173348390739,
+      "train_speed(iter/s)": 0.241607
+    },
+    {
+      "epoch": 0.32096,
+      "grad_norm": 0.6953711512420279,
+      "learning_rate": 4.955777595925219e-06,
+      "loss": 0.38329997658729553,
+      "memory(GiB)": 41.86,
+      "step": 1003,
+      "token_acc": 0.8404473864414517,
+      "train_speed(iter/s)": 0.241617
+    },
+    {
+      "epoch": 0.32128,
+      "grad_norm": 0.6729126241928775,
+      "learning_rate": 4.955612306188786e-06,
+      "loss": 0.34899717569351196,
+      "memory(GiB)": 41.86,
+      "step": 1004,
+      "token_acc": 0.921830985915493,
+      "train_speed(iter/s)": 0.241618
+    },
+    {
+      "epoch": 0.3216,
+      "grad_norm": 0.6495551002485624,
+      "learning_rate": 4.9554467108939995e-06,
+      "loss": 0.3741927146911621,
+      "memory(GiB)": 41.86,
+      "step": 1005,
+      "token_acc": 0.9096349491322562,
+      "train_speed(iter/s)": 0.241614
+    },
+    {
+      "epoch": 0.32192,
+      "grad_norm": 0.630422037928398,
+      "learning_rate": 4.955280810061466e-06,
+      "loss": 0.430209755897522,
+      "memory(GiB)": 41.86,
+      "step": 1006,
+      "token_acc": 0.9273834621691263,
+      "train_speed(iter/s)": 0.241621
+    },
+    {
+      "epoch": 0.32224,
+      "grad_norm": 0.6689575792558569,
+      "learning_rate": 4.955114603711827e-06,
+      "loss": 0.2834753394126892,
+      "memory(GiB)": 41.86,
+      "step": 1007,
+      "token_acc": 0.9242048274306339,
+      "train_speed(iter/s)": 0.241634
+    },
+    {
+      "epoch": 0.32256,
+      "grad_norm": 0.6245742544905631,
+      "learning_rate": 4.954948091865767e-06,
+      "loss": 0.35588037967681885,
+      "memory(GiB)": 41.86,
+      "step": 1008,
+      "token_acc": 0.9187468160978095,
+      "train_speed(iter/s)": 0.241644
+    },
+    {
+      "epoch": 0.32288,
+      "grad_norm": 0.7449460552439107,
+      "learning_rate": 4.954781274544003e-06,
+      "loss": 0.4113908112049103,
+      "memory(GiB)": 41.86,
+      "step": 1009,
+      "token_acc": 0.8832929782082325,
+      "train_speed(iter/s)": 0.241655
+    },
+    {
+      "epoch": 0.3232,
+      "grad_norm": 0.7063344463900884,
+      "learning_rate": 4.9546141517672926e-06,
+      "loss": 0.4783664047718048,
+      "memory(GiB)": 41.86,
+      "step": 1010,
+      "token_acc": 0.9095955590800952,
+      "train_speed(iter/s)": 0.241656
+    },
+    {
+      "epoch": 0.32352,
+      "grad_norm": 0.613640136360638,
+      "learning_rate": 4.954446723556434e-06,
+      "loss": 0.3812958598136902,
+      "memory(GiB)": 41.86,
+      "step": 1011,
+      "token_acc": 0.916202270381837,
+      "train_speed(iter/s)": 0.241645
+    },
+    {
+      "epoch": 0.32384,
+      "grad_norm": 0.6330400106245359,
+      "learning_rate": 4.954278989932259e-06,
+      "loss": 0.33548861742019653,
+      "memory(GiB)": 41.86,
+      "step": 1012,
+      "token_acc": 0.8412897822445561,
+      "train_speed(iter/s)": 0.241654
+    },
+    {
+      "epoch": 0.32416,
+      "grad_norm": 0.7211298064966235,
+      "learning_rate": 4.954110950915637e-06,
+      "loss": 0.3335844576358795,
+      "memory(GiB)": 41.86,
+      "step": 1013,
+      "token_acc": 0.9252901353965184,
+      "train_speed(iter/s)": 0.241659
+    },
+    {
+      "epoch": 0.32448,
+      "grad_norm": 0.7142141715567591,
+      "learning_rate": 4.953942606527481e-06,
+      "loss": 0.33803191781044006,
+      "memory(GiB)": 41.86,
+      "step": 1014,
+      "token_acc": 0.8642480983031012,
+      "train_speed(iter/s)": 0.241668
+    },
+    {
+      "epoch": 0.3248,
+      "grad_norm": 0.7289077881922351,
+      "learning_rate": 4.9537739567887375e-06,
+      "loss": 0.3617907166481018,
+      "memory(GiB)": 41.86,
+      "step": 1015,
+      "token_acc": 0.881083202511774,
+      "train_speed(iter/s)": 0.241674
+    },
+    {
+      "epoch": 0.32512,
+      "grad_norm": 0.7729384625657163,
+      "learning_rate": 4.953605001720391e-06,
+      "loss": 0.44356679916381836,
+      "memory(GiB)": 41.86,
+      "step": 1016,
+      "token_acc": 0.9472751439964555,
+      "train_speed(iter/s)": 0.241671
+    },
+    {
+      "epoch": 0.32544,
+      "grad_norm": 0.6755624930071814,
+      "learning_rate": 4.953435741343467e-06,
+      "loss": 0.38764992356300354,
+      "memory(GiB)": 41.86,
+      "step": 1017,
+      "token_acc": 0.9303857008466604,
+      "train_speed(iter/s)": 0.241672
+    },
+    {
+      "epoch": 0.32576,
+      "grad_norm": 0.7123496794990265,
+      "learning_rate": 4.953266175679023e-06,
+      "loss": 0.3153836727142334,
+      "memory(GiB)": 41.86,
+      "step": 1018,
+      "token_acc": 0.885049365303244,
+      "train_speed(iter/s)": 0.241677
+    },
+    {
+      "epoch": 0.32608,
+      "grad_norm": 0.6504895125695942,
+      "learning_rate": 4.953096304748164e-06,
+      "loss": 0.34001272916793823,
+      "memory(GiB)": 41.86,
+      "step": 1019,
+      "token_acc": 0.856120826709062,
+      "train_speed(iter/s)": 0.24168
+    },
+    {
+      "epoch": 0.3264,
+      "grad_norm": 0.6760416395826648,
+      "learning_rate": 4.952926128572023e-06,
+      "loss": 0.39267638325691223,
+      "memory(GiB)": 41.86,
+      "step": 1020,
+      "token_acc": 0.8095507205425262,
+      "train_speed(iter/s)": 0.241669
+    },
+    {
+      "epoch": 0.32672,
+      "grad_norm": 0.6528138921995089,
+      "learning_rate": 4.952755647171778e-06,
+      "loss": 0.3707922697067261,
+      "memory(GiB)": 41.86,
+      "step": 1021,
+      "token_acc": 0.8345665961945031,
+      "train_speed(iter/s)": 0.241674
+    },
+    {
+      "epoch": 0.32704,
+      "grad_norm": 0.7022747455094215,
+      "learning_rate": 4.952584860568642e-06,
+      "loss": 0.42911237478256226,
+      "memory(GiB)": 41.86,
+      "step": 1022,
+      "token_acc": 0.8903796745646588,
+      "train_speed(iter/s)": 0.241664
+    },
+    {
+      "epoch": 0.32736,
+      "grad_norm": 0.6609118834321253,
+      "learning_rate": 4.952413768783866e-06,
+      "loss": 0.38422489166259766,
+      "memory(GiB)": 41.86,
+      "step": 1023,
+      "token_acc": 0.9246753246753247,
+      "train_speed(iter/s)": 0.241669
+    },
+    {
+      "epoch": 0.32768,
+      "grad_norm": 0.6820913683930098,
+      "learning_rate": 4.952242371838738e-06,
+      "loss": 0.4425528943538666,
+      "memory(GiB)": 41.86,
+      "step": 1024,
+      "token_acc": 0.9285481239804242,
+      "train_speed(iter/s)": 0.241679
+    },
+    {
+      "epoch": 0.328,
+      "grad_norm": 0.7217433850363421,
+      "learning_rate": 4.952070669754588e-06,
+      "loss": 0.34991931915283203,
+      "memory(GiB)": 41.86,
+      "step": 1025,
+      "token_acc": 0.947928207400842,
+      "train_speed(iter/s)": 0.241682
+    },
+    {
+      "epoch": 0.32832,
+      "grad_norm": 0.6798058554343708,
+      "learning_rate": 4.951898662552781e-06,
+      "loss": 0.4296380281448364,
+      "memory(GiB)": 41.86,
+      "step": 1026,
+      "token_acc": 0.8853333333333333,
+      "train_speed(iter/s)": 0.241688
+    },
+    {
+      "epoch": 0.32864,
+      "grad_norm": 0.7145131275541953,
+      "learning_rate": 4.9517263502547185e-06,
+      "loss": 0.3679383099079132,
+      "memory(GiB)": 41.86,
+      "step": 1027,
+      "token_acc": 0.9034730538922155,
+      "train_speed(iter/s)": 0.241694
+    },
+    {
+      "epoch": 0.32896,
+      "grad_norm": 0.6912580432476901,
+      "learning_rate": 4.951553732881843e-06,
+      "loss": 0.41160011291503906,
+      "memory(GiB)": 41.86,
+      "step": 1028,
+      "token_acc": 0.8494199535962877,
+      "train_speed(iter/s)": 0.241697
+    },
+    {
+      "epoch": 0.32928,
+      "grad_norm": 0.6707161560748471,
+      "learning_rate": 4.951380810455634e-06,
+      "loss": 0.45262056589126587,
+      "memory(GiB)": 41.86,
+      "step": 1029,
+      "token_acc": 0.8594429939077458,
+      "train_speed(iter/s)": 0.2417
+    },
+    {
+      "epoch": 0.3296,
+      "grad_norm": 0.6504642640004275,
+      "learning_rate": 4.951207582997607e-06,
+      "loss": 0.3786610960960388,
+      "memory(GiB)": 41.86,
+      "step": 1030,
+      "token_acc": 0.8936361592084552,
+      "train_speed(iter/s)": 0.241693
+    },
+    {
+      "epoch": 0.32992,
+      "grad_norm": 0.7446991680152788,
+      "learning_rate": 4.9510340505293195e-06,
+      "loss": 0.3011898398399353,
+      "memory(GiB)": 41.86,
+      "step": 1031,
+      "token_acc": 0.8705932932072227,
+      "train_speed(iter/s)": 0.241699
+    },
+    {
+      "epoch": 0.33024,
+      "grad_norm": 0.640116351049959,
+      "learning_rate": 4.950860213072364e-06,
+      "loss": 0.3395574986934662,
+      "memory(GiB)": 41.86,
+      "step": 1032,
+      "token_acc": 0.8471194077888639,
+      "train_speed(iter/s)": 0.241697
+    },
+    {
+      "epoch": 0.33056,
+      "grad_norm": 0.6531998010477197,
+      "learning_rate": 4.95068607064837e-06,
+      "loss": 0.2554836571216583,
+      "memory(GiB)": 41.86,
+      "step": 1033,
+      "token_acc": 0.9306418219461697,
+      "train_speed(iter/s)": 0.24171
+    },
+    {
+      "epoch": 0.33088,
+      "grad_norm": 0.584187152964851,
+      "learning_rate": 4.950511623279007e-06,
+      "loss": 0.3896667957305908,
+      "memory(GiB)": 41.86,
+      "step": 1034,
+      "token_acc": 0.8530228583635975,
+      "train_speed(iter/s)": 0.241708
+    },
+    {
+      "epoch": 0.3312,
+      "grad_norm": 0.6799782142300212,
+      "learning_rate": 4.9503368709859844e-06,
+      "loss": 0.448594331741333,
+      "memory(GiB)": 41.86,
+      "step": 1035,
+      "token_acc": 0.9213641488162345,
+      "train_speed(iter/s)": 0.241712
+    },
+    {
+      "epoch": 0.33152,
+      "grad_norm": 0.7204365619479748,
+      "learning_rate": 4.950161813791044e-06,
+      "loss": 0.47708818316459656,
+      "memory(GiB)": 41.86,
+      "step": 1036,
+      "token_acc": 0.8646788990825688,
+      "train_speed(iter/s)": 0.241714
+    },
+    {
+      "epoch": 0.33184,
+      "grad_norm": 0.6912233665096669,
+      "learning_rate": 4.94998645171597e-06,
+      "loss": 0.46789658069610596,
+      "memory(GiB)": 41.86,
+      "step": 1037,
+      "token_acc": 0.8602329450915142,
+      "train_speed(iter/s)": 0.241722
+    },
+    {
+      "epoch": 0.33216,
+      "grad_norm": 0.6776789809884591,
+      "learning_rate": 4.949810784782583e-06,
+      "loss": 0.38782215118408203,
+      "memory(GiB)": 41.86,
+      "step": 1038,
+      "token_acc": 0.887836853605244,
+      "train_speed(iter/s)": 0.241732
+    },
+    {
+      "epoch": 0.33248,
+      "grad_norm": 0.7189582121687214,
+      "learning_rate": 4.949634813012741e-06,
+      "loss": 0.46340587735176086,
+      "memory(GiB)": 41.86,
+      "step": 1039,
+      "token_acc": 0.9068203650336215,
+      "train_speed(iter/s)": 0.241734
+    },
+    {
+      "epoch": 0.3328,
+      "grad_norm": 0.7368112324181394,
+      "learning_rate": 4.949458536428343e-06,
+      "loss": 0.39033952355384827,
+      "memory(GiB)": 41.86,
+      "step": 1040,
+      "token_acc": 0.8238074774387624,
+      "train_speed(iter/s)": 0.241738
+    },
+    {
+      "epoch": 0.33312,
+      "grad_norm": 0.6507799204174719,
+      "learning_rate": 4.94928195505132e-06,
+      "loss": 0.44069159030914307,
+      "memory(GiB)": 41.86,
+      "step": 1041,
+      "token_acc": 0.8488587291795188,
+      "train_speed(iter/s)": 0.241727
+    },
+    {
+      "epoch": 0.33344,
+      "grad_norm": 0.6736124802625697,
+      "learning_rate": 4.949105068903648e-06,
+      "loss": 0.4081144332885742,
+      "memory(GiB)": 41.86,
+      "step": 1042,
+      "token_acc": 0.9478527607361963,
+      "train_speed(iter/s)": 0.241736
+    },
+    {
+      "epoch": 0.33376,
+      "grad_norm": 0.7206568869755781,
+      "learning_rate": 4.948927878007334e-06,
+      "loss": 0.39775562286376953,
+      "memory(GiB)": 41.86,
+      "step": 1043,
+      "token_acc": 0.8473118279569892,
+      "train_speed(iter/s)": 0.241742
+    },
+    {
+      "epoch": 0.33408,
+      "grad_norm": 0.6843934866901329,
+      "learning_rate": 4.94875038238443e-06,
+      "loss": 0.41933223605155945,
+      "memory(GiB)": 41.86,
+      "step": 1044,
+      "token_acc": 0.9016233766233767,
+      "train_speed(iter/s)": 0.241749
+    },
+    {
+      "epoch": 0.3344,
+      "grad_norm": 0.702910893438572,
+      "learning_rate": 4.94857258205702e-06,
+      "loss": 0.34401804208755493,
+      "memory(GiB)": 41.86,
+      "step": 1045,
+      "token_acc": 0.878168202764977,
+      "train_speed(iter/s)": 0.241758
+    },
+    {
+      "epoch": 0.33472,
+      "grad_norm": 0.6569564029468583,
+      "learning_rate": 4.948394477047228e-06,
+      "loss": 0.3540724515914917,
+      "memory(GiB)": 41.86,
+      "step": 1046,
+      "token_acc": 0.8186228774025005,
+      "train_speed(iter/s)": 0.241747
+    },
+    {
+      "epoch": 0.33504,
+      "grad_norm": 0.6450039506662548,
+      "learning_rate": 4.948216067377216e-06,
+      "loss": 0.30413153767585754,
+      "memory(GiB)": 41.86,
+      "step": 1047,
+      "token_acc": 0.9082875098193244,
+      "train_speed(iter/s)": 0.241757
+    },
+    {
+      "epoch": 0.33536,
+      "grad_norm": 0.7203608030534339,
+      "learning_rate": 4.948037353069186e-06,
+      "loss": 0.36445608735084534,
+      "memory(GiB)": 41.86,
+      "step": 1048,
+      "token_acc": 0.9238171611868484,
+      "train_speed(iter/s)": 0.24176
+    },
+    {
+      "epoch": 0.33568,
+      "grad_norm": 0.8603871751478659,
+      "learning_rate": 4.947858334145373e-06,
+      "loss": 0.39330965280532837,
+      "memory(GiB)": 41.86,
+      "step": 1049,
+      "token_acc": 0.9191499755740108,
+      "train_speed(iter/s)": 0.241755
+    },
+    {
+      "epoch": 0.336,
+      "grad_norm": 0.6555291499642897,
+      "learning_rate": 4.947679010628056e-06,
+      "loss": 0.34528446197509766,
+      "memory(GiB)": 41.86,
+      "step": 1050,
+      "token_acc": 0.9535353535353536,
+      "train_speed(iter/s)": 0.241753
+    },
+    {
+      "epoch": 0.33632,
+      "grad_norm": 0.6248073650451396,
+      "learning_rate": 4.947499382539547e-06,
+      "loss": 0.41887032985687256,
+      "memory(GiB)": 41.86,
+      "step": 1051,
+      "token_acc": 0.8956383190599482,
+      "train_speed(iter/s)": 0.241748
+    },
+    {
+      "epoch": 0.33664,
+      "grad_norm": 0.670933716640286,
+      "learning_rate": 4.947319449902196e-06,
+      "loss": 0.434817910194397,
+      "memory(GiB)": 41.86,
+      "step": 1052,
+      "token_acc": 0.8432264241263763,
+      "train_speed(iter/s)": 0.241748
+    },
+    {
+      "epoch": 0.33696,
+      "grad_norm": 0.6909867137645899,
+      "learning_rate": 4.947139212738395e-06,
+      "loss": 0.3792175352573395,
+      "memory(GiB)": 41.86,
+      "step": 1053,
+      "token_acc": 0.8768303186907838,
+      "train_speed(iter/s)": 0.241746
+    },
+    {
+      "epoch": 0.33728,
+      "grad_norm": 0.6749176047375498,
+      "learning_rate": 4.9469586710705705e-06,
+      "loss": 0.39573103189468384,
+      "memory(GiB)": 41.86,
+      "step": 1054,
+      "token_acc": 0.8690341976700489,
+      "train_speed(iter/s)": 0.241737
+    },
+    {
+      "epoch": 0.3376,
+      "grad_norm": 0.6921414874815627,
+      "learning_rate": 4.946777824921187e-06,
+      "loss": 0.3517976999282837,
+      "memory(GiB)": 41.86,
+      "step": 1055,
+      "token_acc": 0.8405588658311075,
+      "train_speed(iter/s)": 0.241747
+    },
+    {
+      "epoch": 0.33792,
+      "grad_norm": 0.6751923323476415,
+      "learning_rate": 4.94659667431275e-06,
+      "loss": 0.38809794187545776,
+      "memory(GiB)": 41.86,
+      "step": 1056,
+      "token_acc": 0.8897378017016844,
+      "train_speed(iter/s)": 0.241748
+    },
+    {
+      "epoch": 0.33824,
+      "grad_norm": 0.6895372935242522,
+      "learning_rate": 4.946415219267798e-06,
+      "loss": 0.4410780668258667,
+      "memory(GiB)": 41.86,
+      "step": 1057,
+      "token_acc": 0.9129587528418318,
+      "train_speed(iter/s)": 0.241749
+    },
+    {
+      "epoch": 0.33856,
+      "grad_norm": 0.6998110009311518,
+      "learning_rate": 4.946233459808911e-06,
+      "loss": 0.3271169066429138,
+      "memory(GiB)": 41.86,
+      "step": 1058,
+      "token_acc": 0.9075268817204301,
+      "train_speed(iter/s)": 0.241757
+    },
+    {
+      "epoch": 0.33888,
+      "grad_norm": 0.6698930835383077,
+      "learning_rate": 4.946051395958706e-06,
+      "loss": 0.42115816473960876,
+      "memory(GiB)": 41.86,
+      "step": 1059,
+      "token_acc": 0.9074029418857005,
+      "train_speed(iter/s)": 0.241747
+    },
+    {
+      "epoch": 0.3392,
+      "grad_norm": 0.6878599460607422,
+      "learning_rate": 4.945869027739837e-06,
+      "loss": 0.3501240313053131,
+      "memory(GiB)": 41.86,
+      "step": 1060,
+      "token_acc": 0.9381818181818182,
+      "train_speed(iter/s)": 0.241745
+    },
+    {
+      "epoch": 0.33952,
+      "grad_norm": 0.6709027612428627,
+      "learning_rate": 4.9456863551749975e-06,
+      "loss": 0.4142116606235504,
+      "memory(GiB)": 41.86,
+      "step": 1061,
+      "token_acc": 0.9436201780415431,
+      "train_speed(iter/s)": 0.241746
+    },
+    {
+      "epoch": 0.33984,
+      "grad_norm": 0.7631310435433923,
+      "learning_rate": 4.945503378286917e-06,
+      "loss": 0.37564173340797424,
+      "memory(GiB)": 41.86,
+      "step": 1062,
+      "token_acc": 0.918918918918919,
+      "train_speed(iter/s)": 0.241735
+    },
+    {
+      "epoch": 0.34016,
+      "grad_norm": 0.6308933910409932,
+      "learning_rate": 4.945320097098364e-06,
+      "loss": 0.43829452991485596,
+      "memory(GiB)": 41.86,
+      "step": 1063,
+      "token_acc": 0.8815922920892495,
+      "train_speed(iter/s)": 0.24173
+    },
+    {
+      "epoch": 0.34048,
+      "grad_norm": 0.6795472278415157,
+      "learning_rate": 4.945136511632145e-06,
+      "loss": 0.47781962156295776,
+      "memory(GiB)": 41.86,
+      "step": 1064,
+      "token_acc": 0.8337078651685393,
+      "train_speed(iter/s)": 0.241731
+    },
+    {
+      "epoch": 0.3408,
+      "grad_norm": 0.6251405069931333,
+      "learning_rate": 4.944952621911104e-06,
+      "loss": 0.3921976685523987,
+      "memory(GiB)": 41.86,
+      "step": 1065,
+      "token_acc": 0.7466933867735471,
+      "train_speed(iter/s)": 0.241719
+    },
+    {
+      "epoch": 0.34112,
+      "grad_norm": 0.7135380332662487,
+      "learning_rate": 4.9447684279581234e-06,
+      "loss": 0.4389476478099823,
+      "memory(GiB)": 41.86,
+      "step": 1066,
+      "token_acc": 0.9294920394238059,
+      "train_speed(iter/s)": 0.241723
+    },
+    {
+      "epoch": 0.34144,
+      "grad_norm": 0.6776616512792416,
+      "learning_rate": 4.944583929796122e-06,
+      "loss": 0.35050854086875916,
+      "memory(GiB)": 41.86,
+      "step": 1067,
+      "token_acc": 0.9236155315085932,
+      "train_speed(iter/s)": 0.241725
+    },
+    {
+      "epoch": 0.34176,
+      "grad_norm": 0.6389345099016255,
+      "learning_rate": 4.944399127448057e-06,
+      "loss": 0.3605591356754303,
+      "memory(GiB)": 41.86,
+      "step": 1068,
+      "token_acc": 0.883224152663059,
+      "train_speed(iter/s)": 0.241735
+    },
+    {
+      "epoch": 0.34208,
+      "grad_norm": 0.6810958361622542,
+      "learning_rate": 4.944214020936926e-06,
+      "loss": 0.3437727391719818,
+      "memory(GiB)": 41.86,
+      "step": 1069,
+      "token_acc": 0.8635700389105059,
+      "train_speed(iter/s)": 0.241745
+    },
+    {
+      "epoch": 0.3424,
+      "grad_norm": 0.7030062331761373,
+      "learning_rate": 4.944028610285759e-06,
+      "loss": 0.41491276025772095,
+      "memory(GiB)": 41.86,
+      "step": 1070,
+      "token_acc": 0.9341619079610346,
+      "train_speed(iter/s)": 0.241748
+    },
+    {
+      "epoch": 0.34272,
+      "grad_norm": 0.7076725174562205,
+      "learning_rate": 4.943842895517631e-06,
+      "loss": 0.37624073028564453,
+      "memory(GiB)": 41.86,
+      "step": 1071,
+      "token_acc": 0.9047003018542475,
+      "train_speed(iter/s)": 0.241745
+    },
+    {
+      "epoch": 0.34304,
+      "grad_norm": 0.6771166164612088,
+      "learning_rate": 4.943656876655648e-06,
+      "loss": 0.3783903121948242,
+      "memory(GiB)": 41.86,
+      "step": 1072,
+      "token_acc": 0.8821165438713998,
+      "train_speed(iter/s)": 0.241752
+    },
+    {
+      "epoch": 0.34336,
+      "grad_norm": 0.703462793337863,
+      "learning_rate": 4.9434705537229574e-06,
+      "loss": 0.3551523685455322,
+      "memory(GiB)": 41.86,
+      "step": 1073,
+      "token_acc": 0.8453214513049013,
+      "train_speed(iter/s)": 0.241751
+    },
+    {
+      "epoch": 0.34368,
+      "grad_norm": 0.6887465039287771,
+      "learning_rate": 4.943283926742745e-06,
+      "loss": 0.3794945180416107,
+      "memory(GiB)": 41.86,
+      "step": 1074,
+      "token_acc": 0.9053227633069083,
+      "train_speed(iter/s)": 0.241765
+    },
+    {
+      "epoch": 0.344,
+      "grad_norm": 0.6876534938960177,
+      "learning_rate": 4.943096995738233e-06,
+      "loss": 0.35381942987442017,
+      "memory(GiB)": 41.86,
+      "step": 1075,
+      "token_acc": 0.8259236067626801,
+      "train_speed(iter/s)": 0.241768
+    },
+    {
+      "epoch": 0.34432,
+      "grad_norm": 0.6457344205965833,
+      "learning_rate": 4.94290976073268e-06,
+      "loss": 0.47036880254745483,
+      "memory(GiB)": 41.86,
+      "step": 1076,
+      "token_acc": 0.9330357142857143,
+      "train_speed(iter/s)": 0.241757
+    },
+    {
+      "epoch": 0.34464,
+      "grad_norm": 0.711353448068408,
+      "learning_rate": 4.9427222217493855e-06,
+      "loss": 0.4176962375640869,
+      "memory(GiB)": 41.86,
+      "step": 1077,
+      "token_acc": 0.9120452137054045,
+      "train_speed(iter/s)": 0.241769
+    },
+    {
+      "epoch": 0.34496,
+      "grad_norm": 0.6699211751357865,
+      "learning_rate": 4.942534378811687e-06,
+      "loss": 0.35760003328323364,
+      "memory(GiB)": 41.86,
+      "step": 1078,
+      "token_acc": 0.9115822130299897,
+      "train_speed(iter/s)": 0.241764
+    },
+    {
+      "epoch": 0.34528,
+      "grad_norm": 0.7154746650066534,
+      "learning_rate": 4.942346231942955e-06,
+      "loss": 0.3730897903442383,
+      "memory(GiB)": 41.86,
+      "step": 1079,
+      "token_acc": 0.8691860465116279,
+      "train_speed(iter/s)": 0.241766
+    },
+    {
+      "epoch": 0.3456,
+      "grad_norm": 0.6978603050491902,
+      "learning_rate": 4.942157781166604e-06,
+      "loss": 0.3949849009513855,
+      "memory(GiB)": 41.86,
+      "step": 1080,
+      "token_acc": 0.9230114844746916,
+      "train_speed(iter/s)": 0.241779
+    },
+    {
+      "epoch": 0.34592,
+      "grad_norm": 0.6898533390265277,
+      "learning_rate": 4.9419690265060805e-06,
+      "loss": 0.3743131160736084,
+      "memory(GiB)": 41.86,
+      "step": 1081,
+      "token_acc": 0.941398865784499,
+      "train_speed(iter/s)": 0.241785
+    },
+    {
+      "epoch": 0.34624,
+      "grad_norm": 0.6489661496391887,
+      "learning_rate": 4.9417799679848746e-06,
+      "loss": 0.3678518533706665,
+      "memory(GiB)": 41.86,
+      "step": 1082,
+      "token_acc": 0.928115552569701,
+      "train_speed(iter/s)": 0.241784
+    },
+    {
+      "epoch": 0.34656,
+      "grad_norm": 0.6808402783983941,
+      "learning_rate": 4.94159060562651e-06,
+      "loss": 0.3900475800037384,
+      "memory(GiB)": 41.86,
+      "step": 1083,
+      "token_acc": 0.9519443566234588,
+      "train_speed(iter/s)": 0.241795
+    },
+    {
+      "epoch": 0.34688,
+      "grad_norm": 0.7062166542541406,
+      "learning_rate": 4.94140093945455e-06,
+      "loss": 0.4727829396724701,
+      "memory(GiB)": 41.86,
+      "step": 1084,
+      "token_acc": 0.8528102392877017,
+      "train_speed(iter/s)": 0.241801
+    },
+    {
+      "epoch": 0.3472,
+      "grad_norm": 0.6623544272524805,
+      "learning_rate": 4.941210969492596e-06,
+      "loss": 0.4872356951236725,
+      "memory(GiB)": 41.86,
+      "step": 1085,
+      "token_acc": 0.8134311253724501,
+      "train_speed(iter/s)": 0.241779
+    },
+    {
+      "epoch": 0.34752,
+      "grad_norm": 0.6811092097711963,
+      "learning_rate": 4.941020695764284e-06,
+      "loss": 0.37408387660980225,
+      "memory(GiB)": 41.86,
+      "step": 1086,
+      "token_acc": 0.8588516746411483,
+      "train_speed(iter/s)": 0.24178
+    },
+    {
+      "epoch": 0.34784,
+      "grad_norm": 0.7291610143345499,
+      "learning_rate": 4.940830118293292e-06,
+      "loss": 0.37366509437561035,
+      "memory(GiB)": 41.86,
+      "step": 1087,
+      "token_acc": 0.933755942947702,
+      "train_speed(iter/s)": 0.241758
+    },
+    {
+      "epoch": 0.34816,
+      "grad_norm": 0.6416577874791866,
+      "learning_rate": 4.940639237103334e-06,
+      "loss": 0.30158889293670654,
+      "memory(GiB)": 41.86,
+      "step": 1088,
+      "token_acc": 0.9515550239234449,
+      "train_speed(iter/s)": 0.241744
+    },
+    {
+      "epoch": 0.34848,
+      "grad_norm": 0.7011676704182548,
+      "learning_rate": 4.940448052218163e-06,
+      "loss": 0.3744981586933136,
+      "memory(GiB)": 41.86,
+      "step": 1089,
+      "token_acc": 0.8829717291255753,
+      "train_speed(iter/s)": 0.241753
+    },
+    {
+      "epoch": 0.3488,
+      "grad_norm": 0.7185423471294144,
+      "learning_rate": 4.940256563661567e-06,
+      "loss": 0.41718363761901855,
+      "memory(GiB)": 41.86,
+      "step": 1090,
+      "token_acc": 0.8824457593688363,
+      "train_speed(iter/s)": 0.241762
+    },
+    {
+      "epoch": 0.34912,
+      "grad_norm": 0.6852517068291895,
+      "learning_rate": 4.940064771457372e-06,
+      "loss": 0.4089573323726654,
+      "memory(GiB)": 41.86,
+      "step": 1091,
+      "token_acc": 0.8609744094488189,
+      "train_speed(iter/s)": 0.241761
+    },
+    {
+      "epoch": 0.34944,
+      "grad_norm": 0.6851081004645617,
+      "learning_rate": 4.939872675629446e-06,
+      "loss": 0.4145240783691406,
+      "memory(GiB)": 41.86,
+      "step": 1092,
+      "token_acc": 0.8397667314634824,
+      "train_speed(iter/s)": 0.241761
+    },
+    {
+      "epoch": 0.34976,
+      "grad_norm": 0.7738099378707483,
+      "learning_rate": 4.939680276201692e-06,
+      "loss": 0.3972246050834656,
+      "memory(GiB)": 41.86,
+      "step": 1093,
+      "token_acc": 0.8936049801924165,
+      "train_speed(iter/s)": 0.241765
+    },
+    {
+      "epoch": 0.35008,
+      "grad_norm": 0.6193826122392153,
+      "learning_rate": 4.939487573198048e-06,
+      "loss": 0.4223909378051758,
+      "memory(GiB)": 41.86,
+      "step": 1094,
+      "token_acc": 0.8365563406470807,
+      "train_speed(iter/s)": 0.241759
+    },
+    {
+      "epoch": 0.3504,
+      "grad_norm": 0.7032139892133532,
+      "learning_rate": 4.939294566642495e-06,
+      "loss": 0.42995506525039673,
+      "memory(GiB)": 41.86,
+      "step": 1095,
+      "token_acc": 0.9166121648136036,
+      "train_speed(iter/s)": 0.241766
+    },
+    {
+      "epoch": 0.35072,
+      "grad_norm": 0.6859780986295941,
+      "learning_rate": 4.939101256559049e-06,
+      "loss": 0.4055121839046478,
+      "memory(GiB)": 41.86,
+      "step": 1096,
+      "token_acc": 0.8750417641162713,
+      "train_speed(iter/s)": 0.241776
+    },
+    {
+      "epoch": 0.35104,
+      "grad_norm": 0.6708110233130613,
+      "learning_rate": 4.9389076429717635e-06,
+      "loss": 0.35146331787109375,
+      "memory(GiB)": 41.86,
+      "step": 1097,
+      "token_acc": 0.8775349478243749,
+      "train_speed(iter/s)": 0.241777
+    },
+    {
+      "epoch": 0.35136,
+      "grad_norm": 0.6480919097223063,
+      "learning_rate": 4.93871372590473e-06,
+      "loss": 0.40469130873680115,
+      "memory(GiB)": 41.86,
+      "step": 1098,
+      "token_acc": 0.8575268817204301,
+      "train_speed(iter/s)": 0.241766
+    },
+    {
+      "epoch": 0.35168,
+      "grad_norm": 0.6091721521713579,
+      "learning_rate": 4.93851950538208e-06,
+      "loss": 0.3288300037384033,
+      "memory(GiB)": 41.86,
+      "step": 1099,
+      "token_acc": 0.9411146161934806,
+      "train_speed(iter/s)": 0.241742
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 0.673778802554477,
+      "learning_rate": 4.938324981427978e-06,
+      "loss": 0.36022132635116577,
+      "memory(GiB)": 41.86,
+      "step": 1100,
+      "token_acc": 0.8976034858387799,
+      "train_speed(iter/s)": 0.241752
+    },
+    {
+      "epoch": 0.35232,
+      "grad_norm": 0.6469164440986273,
+      "learning_rate": 4.938130154066632e-06,
+      "loss": 0.3891223073005676,
+      "memory(GiB)": 41.86,
+      "step": 1101,
+      "token_acc": 0.9247217340363211,
+      "train_speed(iter/s)": 0.241758
+    },
+    {
+      "epoch": 0.35264,
+      "grad_norm": 0.6910427647261406,
+      "learning_rate": 4.937935023322282e-06,
+      "loss": 0.3942750096321106,
+      "memory(GiB)": 41.86,
+      "step": 1102,
+      "token_acc": 0.8662646328485278,
+      "train_speed(iter/s)": 0.241767
+    },
+    {
+      "epoch": 0.35296,
+      "grad_norm": 0.6825205390504593,
+      "learning_rate": 4.937739589219212e-06,
+      "loss": 0.31600990891456604,
+      "memory(GiB)": 41.86,
+      "step": 1103,
+      "token_acc": 0.9042763157894737,
+      "train_speed(iter/s)": 0.241765
+    },
+    {
+      "epoch": 0.35328,
+      "grad_norm": 0.6784097151886025,
+      "learning_rate": 4.937543851781737e-06,
+      "loss": 0.30458056926727295,
+      "memory(GiB)": 41.86,
+      "step": 1104,
+      "token_acc": 0.9145125553914328,
+      "train_speed(iter/s)": 0.241748
+    },
+    {
+      "epoch": 0.3536,
+      "grad_norm": 0.6967168007513448,
+      "learning_rate": 4.937347811034216e-06,
+      "loss": 0.4172084927558899,
+      "memory(GiB)": 41.86,
+      "step": 1105,
+      "token_acc": 0.892027972027972,
+      "train_speed(iter/s)": 0.241745
+    },
+    {
+      "epoch": 0.35392,
+      "grad_norm": 0.6082566458676967,
+      "learning_rate": 4.937151467001041e-06,
+      "loss": 0.36090007424354553,
+      "memory(GiB)": 41.86,
+      "step": 1106,
+      "token_acc": 0.8916573348264277,
+      "train_speed(iter/s)": 0.241743
+    },
+    {
+      "epoch": 0.35424,
+      "grad_norm": 0.6691130311835397,
+      "learning_rate": 4.936954819706644e-06,
+      "loss": 0.40014395117759705,
+      "memory(GiB)": 41.86,
+      "step": 1107,
+      "token_acc": 0.9053346265761397,
+      "train_speed(iter/s)": 0.241732
+    },
+    {
+      "epoch": 0.35456,
+      "grad_norm": 0.6927884285081477,
+      "learning_rate": 4.9367578691754945e-06,
+      "loss": 0.3111475706100464,
+      "memory(GiB)": 41.86,
+      "step": 1108,
+      "token_acc": 0.8666136303367807,
+      "train_speed(iter/s)": 0.241741
+    },
+    {
+      "epoch": 0.35488,
+      "grad_norm": 0.7107899679212164,
+      "learning_rate": 4.9365606154321e-06,
+      "loss": 0.38657039403915405,
+      "memory(GiB)": 41.86,
+      "step": 1109,
+      "token_acc": 0.8705679862306368,
+      "train_speed(iter/s)": 0.241747
+    },
+    {
+      "epoch": 0.3552,
+      "grad_norm": 0.6522591424559467,
+      "learning_rate": 4.936363058501005e-06,
+      "loss": 0.37128379940986633,
+      "memory(GiB)": 41.86,
+      "step": 1110,
+      "token_acc": 0.9171156237049316,
+      "train_speed(iter/s)": 0.241738
+    },
+    {
+      "epoch": 0.35552,
+      "grad_norm": 0.6754761586672714,
+      "learning_rate": 4.936165198406791e-06,
+      "loss": 0.3615378439426422,
+      "memory(GiB)": 41.86,
+      "step": 1111,
+      "token_acc": 0.8706424661480842,
+      "train_speed(iter/s)": 0.241748
+    },
+    {
+      "epoch": 0.35584,
+      "grad_norm": 0.634825366047745,
+      "learning_rate": 4.93596703517408e-06,
+      "loss": 0.40686851739883423,
+      "memory(GiB)": 41.86,
+      "step": 1112,
+      "token_acc": 0.8639191290824261,
+      "train_speed(iter/s)": 0.24174
+    },
+    {
+      "epoch": 0.35616,
+      "grad_norm": 0.697063175832958,
+      "learning_rate": 4.93576856882753e-06,
+      "loss": 0.41464829444885254,
+      "memory(GiB)": 41.86,
+      "step": 1113,
+      "token_acc": 0.9200483091787439,
+      "train_speed(iter/s)": 0.241743
+    },
+    {
+      "epoch": 0.35648,
+      "grad_norm": 0.7294070261385714,
+      "learning_rate": 4.935569799391835e-06,
+      "loss": 0.32030242681503296,
+      "memory(GiB)": 41.86,
+      "step": 1114,
+      "token_acc": 0.8916558861578266,
+      "train_speed(iter/s)": 0.241756
+    },
+    {
+      "epoch": 0.3568,
+      "grad_norm": 0.6895225812926,
+      "learning_rate": 4.935370726891729e-06,
+      "loss": 0.3237505555152893,
+      "memory(GiB)": 41.86,
+      "step": 1115,
+      "token_acc": 0.9324675324675324,
+      "train_speed(iter/s)": 0.241763
+    },
+    {
+      "epoch": 0.35712,
+      "grad_norm": 0.6516465092404718,
+      "learning_rate": 4.935171351351984e-06,
+      "loss": 0.4073963761329651,
+      "memory(GiB)": 41.86,
+      "step": 1116,
+      "token_acc": 0.8517436197155659,
+      "train_speed(iter/s)": 0.241753
+    },
+    {
+      "epoch": 0.35744,
+      "grad_norm": 0.6948335576999625,
+      "learning_rate": 4.934971672797408e-06,
+      "loss": 0.41810113191604614,
+      "memory(GiB)": 41.86,
+      "step": 1117,
+      "token_acc": 0.8858490566037736,
+      "train_speed(iter/s)": 0.241744
+    },
+    {
+      "epoch": 0.35776,
+      "grad_norm": 0.6224863145580068,
+      "learning_rate": 4.9347716912528475e-06,
+      "loss": 0.3677929937839508,
+      "memory(GiB)": 41.86,
+      "step": 1118,
+      "token_acc": 0.8866436668309512,
+      "train_speed(iter/s)": 0.241727
+    },
+    {
+      "epoch": 0.35808,
+      "grad_norm": 0.7130037098741611,
+      "learning_rate": 4.9345714067431875e-06,
+      "loss": 0.3657136559486389,
+      "memory(GiB)": 41.86,
+      "step": 1119,
+      "token_acc": 0.8947696139476962,
+      "train_speed(iter/s)": 0.241735
+    },
+    {
+      "epoch": 0.3584,
+      "grad_norm": 0.64470976358948,
+      "learning_rate": 4.9343708192933485e-06,
+      "loss": 0.38068661093711853,
+      "memory(GiB)": 41.86,
+      "step": 1120,
+      "token_acc": 0.8431585816837067,
+      "train_speed(iter/s)": 0.241743
+    },
+    {
+      "epoch": 0.35872,
+      "grad_norm": 0.656015823275593,
+      "learning_rate": 4.934169928928292e-06,
+      "loss": 0.4394170045852661,
+      "memory(GiB)": 41.86,
+      "step": 1121,
+      "token_acc": 0.8100164589701387,
+      "train_speed(iter/s)": 0.241739
+    },
+    {
+      "epoch": 0.35904,
+      "grad_norm": 0.711579921360886,
+      "learning_rate": 4.933968735673014e-06,
+      "loss": 0.41988426446914673,
+      "memory(GiB)": 41.86,
+      "step": 1122,
+      "token_acc": 0.9545009784735812,
+      "train_speed(iter/s)": 0.241736
+    },
+    {
+      "epoch": 0.35936,
+      "grad_norm": 0.6595551296372992,
+      "learning_rate": 4.93376723955255e-06,
+      "loss": 0.30958184599876404,
+      "memory(GiB)": 41.86,
+      "step": 1123,
+      "token_acc": 0.9328220858895706,
+      "train_speed(iter/s)": 0.241738
+    },
+    {
+      "epoch": 0.35968,
+      "grad_norm": 0.6330432187421717,
+      "learning_rate": 4.933565440591972e-06,
+      "loss": 0.34373384714126587,
+      "memory(GiB)": 41.86,
+      "step": 1124,
+      "token_acc": 0.9066886870355079,
+      "train_speed(iter/s)": 0.241743
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.6905504709253509,
+      "learning_rate": 4.933363338816392e-06,
+      "loss": 0.46866172552108765,
+      "memory(GiB)": 41.86,
+      "step": 1125,
+      "token_acc": 0.8960176991150443,
+      "train_speed(iter/s)": 0.241739
+    },
+    {
+      "epoch": 0.36032,
+      "grad_norm": 0.7360761758270332,
+      "learning_rate": 4.933160934250957e-06,
+      "loss": 0.4028562903404236,
+      "memory(GiB)": 41.86,
+      "step": 1126,
+      "token_acc": 0.8769771528998243,
+      "train_speed(iter/s)": 0.241739
+    },
+    {
+      "epoch": 0.36064,
+      "grad_norm": 0.6850779688072975,
+      "learning_rate": 4.932958226920852e-06,
+      "loss": 0.4001652002334595,
+      "memory(GiB)": 41.86,
+      "step": 1127,
+      "token_acc": 0.8523866827115925,
+      "train_speed(iter/s)": 0.241745
+    },
+    {
+      "epoch": 0.36096,
+      "grad_norm": 0.6357546565893425,
+      "learning_rate": 4.932755216851302e-06,
+      "loss": 0.3784424066543579,
+      "memory(GiB)": 41.86,
+      "step": 1128,
+      "token_acc": 0.9150990099009901,
+      "train_speed(iter/s)": 0.241744
+    },
+    {
+      "epoch": 0.36128,
+      "grad_norm": 0.6627555587921015,
+      "learning_rate": 4.932551904067566e-06,
+      "loss": 0.456253319978714,
+      "memory(GiB)": 41.86,
+      "step": 1129,
+      "token_acc": 0.8464014716026673,
+      "train_speed(iter/s)": 0.241732
+    },
+    {
+      "epoch": 0.3616,
+      "grad_norm": 0.6851720246085475,
+      "learning_rate": 4.932348288594945e-06,
+      "loss": 0.4036809206008911,
+      "memory(GiB)": 41.86,
+      "step": 1130,
+      "token_acc": 0.8876443822191109,
+      "train_speed(iter/s)": 0.241739
+    },
+    {
+      "epoch": 0.36192,
+      "grad_norm": 0.66097432071818,
+      "learning_rate": 4.932144370458774e-06,
+      "loss": 0.5042710304260254,
+      "memory(GiB)": 41.86,
+      "step": 1131,
+      "token_acc": 0.849217088729944,
+      "train_speed(iter/s)": 0.241739
+    },
+    {
+      "epoch": 0.36224,
+      "grad_norm": 0.6773498930442703,
+      "learning_rate": 4.931940149684428e-06,
+      "loss": 0.3493019938468933,
+      "memory(GiB)": 41.86,
+      "step": 1132,
+      "token_acc": 0.9154034229828851,
+      "train_speed(iter/s)": 0.241726
+    },
+    {
+      "epoch": 0.36256,
+      "grad_norm": 0.7144635376453711,
+      "learning_rate": 4.931735626297318e-06,
+      "loss": 0.3882347345352173,
+      "memory(GiB)": 41.86,
+      "step": 1133,
+      "token_acc": 0.8629531388152077,
+      "train_speed(iter/s)": 0.241733
+    },
+    {
+      "epoch": 0.36288,
+      "grad_norm": 0.6264789557526304,
+      "learning_rate": 4.931530800322893e-06,
+      "loss": 0.3641466498374939,
+      "memory(GiB)": 41.86,
+      "step": 1134,
+      "token_acc": 0.8949232585596222,
+      "train_speed(iter/s)": 0.241738
+    },
+    {
+      "epoch": 0.3632,
+      "grad_norm": 0.6711752637018957,
+      "learning_rate": 4.931325671786641e-06,
+      "loss": 0.41077274084091187,
+      "memory(GiB)": 41.86,
+      "step": 1135,
+      "token_acc": 0.9482327740092824,
+      "train_speed(iter/s)": 0.241744
+    },
+    {
+      "epoch": 0.36352,
+      "grad_norm": 0.687224253913364,
+      "learning_rate": 4.931120240714087e-06,
+      "loss": 0.3374726176261902,
+      "memory(GiB)": 41.86,
+      "step": 1136,
+      "token_acc": 0.91725768321513,
+      "train_speed(iter/s)": 0.241756
+    },
+    {
+      "epoch": 0.36384,
+      "grad_norm": 0.7097046731677357,
+      "learning_rate": 4.930914507130792e-06,
+      "loss": 0.43960127234458923,
+      "memory(GiB)": 41.86,
+      "step": 1137,
+      "token_acc": 0.9224683544303798,
+      "train_speed(iter/s)": 0.241759
+    },
+    {
+      "epoch": 0.36416,
+      "grad_norm": 0.6267255491012794,
+      "learning_rate": 4.930708471062357e-06,
+      "loss": 0.3667910695075989,
+      "memory(GiB)": 41.86,
+      "step": 1138,
+      "token_acc": 0.9364186851211073,
+      "train_speed(iter/s)": 0.241758
+    },
+    {
+      "epoch": 0.36448,
+      "grad_norm": 0.6659234206040214,
+      "learning_rate": 4.9305021325344195e-06,
+      "loss": 0.3990696966648102,
+      "memory(GiB)": 41.86,
+      "step": 1139,
+      "token_acc": 0.8620801033591732,
+      "train_speed(iter/s)": 0.241767
+    },
+    {
+      "epoch": 0.3648,
+      "grad_norm": 0.6849169961778803,
+      "learning_rate": 4.9302954915726535e-06,
+      "loss": 0.3535306453704834,
+      "memory(GiB)": 41.86,
+      "step": 1140,
+      "token_acc": 0.8868406125921724,
+      "train_speed(iter/s)": 0.241773
+    },
+    {
+      "epoch": 0.36512,
+      "grad_norm": 0.6677108033299477,
+      "learning_rate": 4.930088548202774e-06,
+      "loss": 0.36606258153915405,
+      "memory(GiB)": 41.86,
+      "step": 1141,
+      "token_acc": 0.8998161764705882,
+      "train_speed(iter/s)": 0.24176
+    },
+    {
+      "epoch": 0.36544,
+      "grad_norm": 0.6729585071300545,
+      "learning_rate": 4.92988130245053e-06,
+      "loss": 0.3869559168815613,
+      "memory(GiB)": 41.86,
+      "step": 1142,
+      "token_acc": 0.9055140723721998,
+      "train_speed(iter/s)": 0.241745
+    },
+    {
+      "epoch": 0.36576,
+      "grad_norm": 0.6698570710268877,
+      "learning_rate": 4.929673754341709e-06,
+      "loss": 0.38185203075408936,
+      "memory(GiB)": 41.86,
+      "step": 1143,
+      "token_acc": 0.8783068783068783,
+      "train_speed(iter/s)": 0.24175
+    },
+    {
+      "epoch": 0.36608,
+      "grad_norm": 0.6696950006787806,
+      "learning_rate": 4.92946590390214e-06,
+      "loss": 0.40389806032180786,
+      "memory(GiB)": 41.86,
+      "step": 1144,
+      "token_acc": 0.9007936507936508,
+      "train_speed(iter/s)": 0.241755
+    },
+    {
+      "epoch": 0.3664,
+      "grad_norm": 0.672659052240664,
+      "learning_rate": 4.929257751157682e-06,
+      "loss": 0.3612380921840668,
+      "memory(GiB)": 41.86,
+      "step": 1145,
+      "token_acc": 0.8755862068965518,
+      "train_speed(iter/s)": 0.24176
+    },
+    {
+      "epoch": 0.36672,
+      "grad_norm": 0.7074407230394344,
+      "learning_rate": 4.929049296134239e-06,
+      "loss": 0.38194817304611206,
+      "memory(GiB)": 41.86,
+      "step": 1146,
+      "token_acc": 0.8665951359084406,
+      "train_speed(iter/s)": 0.241765
+    },
+    {
+      "epoch": 0.36704,
+      "grad_norm": 0.6361356626590131,
+      "learning_rate": 4.92884053885775e-06,
+      "loss": 0.34763285517692566,
+      "memory(GiB)": 41.86,
+      "step": 1147,
+      "token_acc": 0.9160063391442155,
+      "train_speed(iter/s)": 0.241769
+    },
+    {
+      "epoch": 0.36736,
+      "grad_norm": 0.633676992190601,
+      "learning_rate": 4.928631479354189e-06,
+      "loss": 0.42593854665756226,
+      "memory(GiB)": 41.86,
+      "step": 1148,
+      "token_acc": 0.9316678912564291,
+      "train_speed(iter/s)": 0.241765
+    },
+    {
+      "epoch": 0.36768,
+      "grad_norm": 0.7030079137097175,
+      "learning_rate": 4.928422117649571e-06,
+      "loss": 0.5178966522216797,
+      "memory(GiB)": 41.86,
+      "step": 1149,
+      "token_acc": 0.8204469560750064,
+      "train_speed(iter/s)": 0.241763
+    },
+    {
+      "epoch": 0.368,
+      "grad_norm": 0.6586554549553464,
+      "learning_rate": 4.928212453769947e-06,
+      "loss": 0.41002601385116577,
+      "memory(GiB)": 41.86,
+      "step": 1150,
+      "token_acc": 0.8994235738421785,
+      "train_speed(iter/s)": 0.241761
+    },
+    {
+      "epoch": 0.36832,
+      "grad_norm": 0.6409697340377992,
+      "learning_rate": 4.9280024877414066e-06,
+      "loss": 0.4111045002937317,
+      "memory(GiB)": 41.86,
+      "step": 1151,
+      "token_acc": 0.9194902082685732,
+      "train_speed(iter/s)": 0.241752
+    },
+    {
+      "epoch": 0.36864,
+      "grad_norm": 0.6577341888863575,
+      "learning_rate": 4.927792219590075e-06,
+      "loss": 0.4457213580608368,
+      "memory(GiB)": 41.86,
+      "step": 1152,
+      "token_acc": 0.9073625993778085,
+      "train_speed(iter/s)": 0.241753
+    },
+    {
+      "epoch": 0.36896,
+      "grad_norm": 0.6232443739417185,
+      "learning_rate": 4.927581649342119e-06,
+      "loss": 0.2606956660747528,
+      "memory(GiB)": 41.86,
+      "step": 1153,
+      "token_acc": 0.9258638040925864,
+      "train_speed(iter/s)": 0.241761
+    },
+    {
+      "epoch": 0.36928,
+      "grad_norm": 0.7510861430719112,
+      "learning_rate": 4.927370777023739e-06,
+      "loss": 0.45594000816345215,
+      "memory(GiB)": 41.86,
+      "step": 1154,
+      "token_acc": 0.8718132854578097,
+      "train_speed(iter/s)": 0.241768
+    },
+    {
+      "epoch": 0.3696,
+      "grad_norm": 0.6878323362981834,
+      "learning_rate": 4.927159602661173e-06,
+      "loss": 0.3695269227027893,
+      "memory(GiB)": 41.86,
+      "step": 1155,
+      "token_acc": 0.8955042527339003,
+      "train_speed(iter/s)": 0.241763
+    },
+    {
+      "epoch": 0.36992,
+      "grad_norm": 0.6625686322644976,
+      "learning_rate": 4.926948126280701e-06,
+      "loss": 0.414303719997406,
+      "memory(GiB)": 41.86,
+      "step": 1156,
+      "token_acc": 0.9228925289652418,
+      "train_speed(iter/s)": 0.241763
+    },
+    {
+      "epoch": 0.37024,
+      "grad_norm": 0.6265838430735825,
+      "learning_rate": 4.926736347908635e-06,
+      "loss": 0.3817584812641144,
+      "memory(GiB)": 41.86,
+      "step": 1157,
+      "token_acc": 0.8501144164759725,
+      "train_speed(iter/s)": 0.241747
+    },
+    {
+      "epoch": 0.37056,
+      "grad_norm": 4.119687271251784,
+      "learning_rate": 4.926524267571329e-06,
+      "loss": 0.47082966566085815,
+      "memory(GiB)": 41.86,
+      "step": 1158,
+      "token_acc": 0.8178209086898985,
+      "train_speed(iter/s)": 0.241746
+    },
+    {
+      "epoch": 0.37088,
+      "grad_norm": 0.6808331941957133,
+      "learning_rate": 4.926311885295171e-06,
+      "loss": 0.394379585981369,
+      "memory(GiB)": 41.86,
+      "step": 1159,
+      "token_acc": 0.809587573647563,
+      "train_speed(iter/s)": 0.24175
+    },
+    {
+      "epoch": 0.3712,
+      "grad_norm": 0.6224612204840775,
+      "learning_rate": 4.926099201106589e-06,
+      "loss": 0.4529285430908203,
+      "memory(GiB)": 41.86,
+      "step": 1160,
+      "token_acc": 0.8982188295165394,
+      "train_speed(iter/s)": 0.241747
+    },
+    {
+      "epoch": 0.37152,
+      "grad_norm": 0.6644035281480009,
+      "learning_rate": 4.9258862150320486e-06,
+      "loss": 0.4340992569923401,
+      "memory(GiB)": 41.86,
+      "step": 1161,
+      "token_acc": 0.8733668341708543,
+      "train_speed(iter/s)": 0.24174
+    },
+    {
+      "epoch": 0.37184,
+      "grad_norm": 0.6464055302721461,
+      "learning_rate": 4.925672927098051e-06,
+      "loss": 0.37106865644454956,
+      "memory(GiB)": 41.86,
+      "step": 1162,
+      "token_acc": 0.8918213457076566,
+      "train_speed(iter/s)": 0.24174
+    },
+    {
+      "epoch": 0.37216,
+      "grad_norm": 0.6302720269584053,
+      "learning_rate": 4.925459337331136e-06,
+      "loss": 0.39688047766685486,
+      "memory(GiB)": 41.86,
+      "step": 1163,
+      "token_acc": 0.8548114800225098,
+      "train_speed(iter/s)": 0.241734
+    },
+    {
+      "epoch": 0.37248,
+      "grad_norm": 0.6550728370633362,
+      "learning_rate": 4.925245445757884e-06,
+      "loss": 0.35905706882476807,
+      "memory(GiB)": 41.86,
+      "step": 1164,
+      "token_acc": 0.9190270935960592,
+      "train_speed(iter/s)": 0.241735
+    },
+    {
+      "epoch": 0.3728,
+      "grad_norm": 0.7235184570301425,
+      "learning_rate": 4.925031252404907e-06,
+      "loss": 0.37296849489212036,
+      "memory(GiB)": 41.86,
+      "step": 1165,
+      "token_acc": 0.9597355769230769,
+      "train_speed(iter/s)": 0.241744
+    },
+    {
+      "epoch": 0.37312,
+      "grad_norm": 0.7335476183589521,
+      "learning_rate": 4.924816757298858e-06,
+      "loss": 0.47302213311195374,
+      "memory(GiB)": 41.86,
+      "step": 1166,
+      "token_acc": 0.8397090517241379,
+      "train_speed(iter/s)": 0.241752
+    },
+    {
+      "epoch": 0.37344,
+      "grad_norm": 0.6502101574322988,
+      "learning_rate": 4.924601960466429e-06,
+      "loss": 0.39004456996917725,
+      "memory(GiB)": 41.86,
+      "step": 1167,
+      "token_acc": 0.9252806813782424,
+      "train_speed(iter/s)": 0.241747
+    },
+    {
+      "epoch": 0.37376,
+      "grad_norm": 0.6999674139802613,
+      "learning_rate": 4.9243868619343454e-06,
+      "loss": 0.45789167284965515,
+      "memory(GiB)": 41.86,
+      "step": 1168,
+      "token_acc": 0.9388111888111889,
+      "train_speed(iter/s)": 0.241756
+    },
+    {
+      "epoch": 0.37408,
+      "grad_norm": 0.6513707902946715,
+      "learning_rate": 4.924171461729375e-06,
+      "loss": 0.37105005979537964,
+      "memory(GiB)": 41.86,
+      "step": 1169,
+      "token_acc": 0.9406617445993984,
+      "train_speed(iter/s)": 0.241763
+    },
+    {
+      "epoch": 0.3744,
+      "grad_norm": 0.7351170326734847,
+      "learning_rate": 4.923955759878317e-06,
+      "loss": 0.4217795729637146,
+      "memory(GiB)": 41.86,
+      "step": 1170,
+      "token_acc": 0.8902097902097902,
+      "train_speed(iter/s)": 0.241767
+    },
+    {
+      "epoch": 0.37472,
+      "grad_norm": 0.6490667751872011,
+      "learning_rate": 4.9237397564080155e-06,
+      "loss": 0.39287328720092773,
+      "memory(GiB)": 41.86,
+      "step": 1171,
+      "token_acc": 0.904895461499235,
+      "train_speed(iter/s)": 0.241775
+    },
+    {
+      "epoch": 0.37504,
+      "grad_norm": 0.7079383090451424,
+      "learning_rate": 4.923523451345348e-06,
+      "loss": 0.3905605971813202,
+      "memory(GiB)": 41.86,
+      "step": 1172,
+      "token_acc": 0.8644732870510111,
+      "train_speed(iter/s)": 0.241784
+    },
+    {
+      "epoch": 0.37536,
+      "grad_norm": 0.6661722965535525,
+      "learning_rate": 4.9233068447172275e-06,
+      "loss": 0.4579063355922699,
+      "memory(GiB)": 41.86,
+      "step": 1173,
+      "token_acc": 0.8763396537510305,
+      "train_speed(iter/s)": 0.241783
+    },
+    {
+      "epoch": 0.37568,
+      "grad_norm": 0.6444545661706125,
+      "learning_rate": 4.923089936550608e-06,
+      "loss": 0.29571324586868286,
+      "memory(GiB)": 41.86,
+      "step": 1174,
+      "token_acc": 0.9402099497946144,
+      "train_speed(iter/s)": 0.241777
+    },
+    {
+      "epoch": 0.376,
+      "grad_norm": 0.7068403579868691,
+      "learning_rate": 4.922872726872481e-06,
+      "loss": 0.43438851833343506,
+      "memory(GiB)": 41.86,
+      "step": 1175,
+      "token_acc": 0.9277218664226898,
+      "train_speed(iter/s)": 0.241788
+    },
+    {
+      "epoch": 0.37632,
+      "grad_norm": 0.6455929147372934,
+      "learning_rate": 4.922655215709873e-06,
+      "loss": 0.3272331655025482,
+      "memory(GiB)": 41.86,
+      "step": 1176,
+      "token_acc": 0.9211756847027388,
+      "train_speed(iter/s)": 0.241789
+    },
+    {
+      "epoch": 0.37664,
+      "grad_norm": 0.6654705870058897,
+      "learning_rate": 4.922437403089851e-06,
+      "loss": 0.4420502185821533,
+      "memory(GiB)": 41.86,
+      "step": 1177,
+      "token_acc": 0.8059221113614419,
+      "train_speed(iter/s)": 0.241787
+    },
+    {
+      "epoch": 0.37696,
+      "grad_norm": 0.6559584523568502,
+      "learning_rate": 4.922219289039517e-06,
+      "loss": 0.34142589569091797,
+      "memory(GiB)": 41.86,
+      "step": 1178,
+      "token_acc": 0.926995457495133,
+      "train_speed(iter/s)": 0.241796
+    },
+    {
+      "epoch": 0.37728,
+      "grad_norm": 0.6681676742441536,
+      "learning_rate": 4.922000873586011e-06,
+      "loss": 0.4660865068435669,
+      "memory(GiB)": 41.86,
+      "step": 1179,
+      "token_acc": 0.815196394075982,
+      "train_speed(iter/s)": 0.241796
+    },
+    {
+      "epoch": 0.3776,
+      "grad_norm": 0.6727522374795533,
+      "learning_rate": 4.921782156756512e-06,
+      "loss": 0.4172089695930481,
+      "memory(GiB)": 41.86,
+      "step": 1180,
+      "token_acc": 0.8236613400616765,
+      "train_speed(iter/s)": 0.241798
+    },
+    {
+      "epoch": 0.37792,
+      "grad_norm": 0.843437709292062,
+      "learning_rate": 4.921563138578236e-06,
+      "loss": 0.40737003087997437,
+      "memory(GiB)": 41.86,
+      "step": 1181,
+      "token_acc": 0.9272373540856031,
+      "train_speed(iter/s)": 0.241795
+    },
+    {
+      "epoch": 0.37824,
+      "grad_norm": 0.67337451906828,
+      "learning_rate": 4.921343819078435e-06,
+      "loss": 0.34142768383026123,
+      "memory(GiB)": 41.86,
+      "step": 1182,
+      "token_acc": 0.9274258219727346,
+      "train_speed(iter/s)": 0.24179
+    },
+    {
+      "epoch": 0.37856,
+      "grad_norm": 0.7129055699289771,
+      "learning_rate": 4.921124198284399e-06,
+      "loss": 0.4573971629142761,
+      "memory(GiB)": 41.86,
+      "step": 1183,
+      "token_acc": 0.8558091286307054,
+      "train_speed(iter/s)": 0.241786
+    },
+    {
+      "epoch": 0.37888,
+      "grad_norm": 0.6225298854307416,
+      "learning_rate": 4.920904276223457e-06,
+      "loss": 0.3546687960624695,
+      "memory(GiB)": 41.86,
+      "step": 1184,
+      "token_acc": 0.8893748392076152,
+      "train_speed(iter/s)": 0.241769
+    },
+    {
+      "epoch": 0.3792,
+      "grad_norm": 0.7590166155739679,
+      "learning_rate": 4.920684052922975e-06,
+      "loss": 0.44733312726020813,
+      "memory(GiB)": 41.86,
+      "step": 1185,
+      "token_acc": 0.9061640066042927,
+      "train_speed(iter/s)": 0.241782
+    },
+    {
+      "epoch": 0.37952,
+      "grad_norm": 0.7228457109013919,
+      "learning_rate": 4.920463528410354e-06,
+      "loss": 0.46552446484565735,
+      "memory(GiB)": 41.86,
+      "step": 1186,
+      "token_acc": 0.7802926829268293,
+      "train_speed(iter/s)": 0.241786
+    },
+    {
+      "epoch": 0.37984,
+      "grad_norm": 0.7600234775059914,
+      "learning_rate": 4.920242702713037e-06,
+      "loss": 0.3014151453971863,
+      "memory(GiB)": 41.86,
+      "step": 1187,
+      "token_acc": 0.9319945230488361,
+      "train_speed(iter/s)": 0.241795
+    },
+    {
+      "epoch": 0.38016,
+      "grad_norm": 0.6665412736917736,
+      "learning_rate": 4.9200215758585e-06,
+      "loss": 0.3813929259777069,
+      "memory(GiB)": 41.86,
+      "step": 1188,
+      "token_acc": 0.931189229618549,
+      "train_speed(iter/s)": 0.2418
+    },
+    {
+      "epoch": 0.38048,
+      "grad_norm": 0.6384311523947301,
+      "learning_rate": 4.919800147874259e-06,
+      "loss": 0.3531501591205597,
+      "memory(GiB)": 41.86,
+      "step": 1189,
+      "token_acc": 0.8704294478527608,
+      "train_speed(iter/s)": 0.24181
+    },
+    {
+      "epoch": 0.3808,
+      "grad_norm": 0.6291720877357635,
+      "learning_rate": 4.919578418787866e-06,
+      "loss": 0.4022018313407898,
+      "memory(GiB)": 41.86,
+      "step": 1190,
+      "token_acc": 0.9055327373761778,
+      "train_speed(iter/s)": 0.241807
+    },
+    {
+      "epoch": 0.38112,
+      "grad_norm": 0.6952673888517285,
+      "learning_rate": 4.919356388626913e-06,
+      "loss": 0.4953402280807495,
+      "memory(GiB)": 41.86,
+      "step": 1191,
+      "token_acc": 0.8755641521598968,
+      "train_speed(iter/s)": 0.241815
+    },
+    {
+      "epoch": 0.38144,
+      "grad_norm": 0.6726992152501142,
+      "learning_rate": 4.9191340574190274e-06,
+      "loss": 0.39621368050575256,
+      "memory(GiB)": 41.86,
+      "step": 1192,
+      "token_acc": 0.8839738941261784,
+      "train_speed(iter/s)": 0.241826
+    },
+    {
+      "epoch": 0.38176,
+      "grad_norm": 0.6908550529832542,
+      "learning_rate": 4.918911425191873e-06,
+      "loss": 0.4029190242290497,
+      "memory(GiB)": 41.86,
+      "step": 1193,
+      "token_acc": 0.9177570093457944,
+      "train_speed(iter/s)": 0.241824
+    },
+    {
+      "epoch": 0.38208,
+      "grad_norm": 0.6978236537801533,
+      "learning_rate": 4.918688491973154e-06,
+      "loss": 0.507056474685669,
+      "memory(GiB)": 41.86,
+      "step": 1194,
+      "token_acc": 0.9136377757067412,
+      "train_speed(iter/s)": 0.24183
+    },
+    {
+      "epoch": 0.3824,
+      "grad_norm": 0.6597534033668986,
+      "learning_rate": 4.9184652577906105e-06,
+      "loss": 0.34853118658065796,
+      "memory(GiB)": 41.86,
+      "step": 1195,
+      "token_acc": 0.9379422972237343,
+      "train_speed(iter/s)": 0.241834
+    },
+    {
+      "epoch": 0.38272,
+      "grad_norm": 0.6405611525435052,
+      "learning_rate": 4.91824172267202e-06,
+      "loss": 0.29890239238739014,
+      "memory(GiB)": 41.86,
+      "step": 1196,
+      "token_acc": 0.9506225848003435,
+      "train_speed(iter/s)": 0.241842
+    },
+    {
+      "epoch": 0.38304,
+      "grad_norm": 0.7429654757354823,
+      "learning_rate": 4.918017886645197e-06,
+      "loss": 0.40424633026123047,
+      "memory(GiB)": 41.86,
+      "step": 1197,
+      "token_acc": 0.805796488258938,
+      "train_speed(iter/s)": 0.241829
+    },
+    {
+      "epoch": 0.38336,
+      "grad_norm": 0.636474728976666,
+      "learning_rate": 4.917793749737993e-06,
+      "loss": 0.4385982155799866,
+      "memory(GiB)": 41.86,
+      "step": 1198,
+      "token_acc": 0.9071259709557582,
+      "train_speed(iter/s)": 0.241832
+    },
+    {
+      "epoch": 0.38368,
+      "grad_norm": 0.754397692601058,
+      "learning_rate": 4.917569311978301e-06,
+      "loss": 0.45639294385910034,
+      "memory(GiB)": 41.86,
+      "step": 1199,
+      "token_acc": 0.8225186982009298,
+      "train_speed(iter/s)": 0.241831
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.693403017315352,
+      "learning_rate": 4.917344573394046e-06,
+      "loss": 0.34493494033813477,
+      "memory(GiB)": 41.86,
+      "step": 1200,
+      "token_acc": 0.8523509174311926,
+      "train_speed(iter/s)": 0.24184
+    },
+    {
+      "epoch": 0.38432,
+      "grad_norm": 0.6627636954742108,
+      "learning_rate": 4.917119534013194e-06,
+      "loss": 0.3570840656757355,
+      "memory(GiB)": 41.86,
+      "step": 1201,
+      "token_acc": 0.9141392567278941,
+      "train_speed(iter/s)": 0.241838
+    },
+    {
+      "epoch": 0.38464,
+      "grad_norm": 0.6386393946459572,
+      "learning_rate": 4.916894193863747e-06,
+      "loss": 0.4296616017818451,
+      "memory(GiB)": 41.86,
+      "step": 1202,
+      "token_acc": 0.8115250504679757,
+      "train_speed(iter/s)": 0.241826
+    },
+    {
+      "epoch": 0.38496,
+      "grad_norm": 0.6337198934410836,
+      "learning_rate": 4.916668552973743e-06,
+      "loss": 0.366534560918808,
+      "memory(GiB)": 41.86,
+      "step": 1203,
+      "token_acc": 0.9160521837776517,
+      "train_speed(iter/s)": 0.241828
+    },
+    {
+      "epoch": 0.38528,
+      "grad_norm": 0.7070414887436854,
+      "learning_rate": 4.916442611371262e-06,
+      "loss": 0.48895466327667236,
+      "memory(GiB)": 41.86,
+      "step": 1204,
+      "token_acc": 0.8914709517923363,
+      "train_speed(iter/s)": 0.241839
+    },
+    {
+      "epoch": 0.3856,
+      "grad_norm": 0.726825962842169,
+      "learning_rate": 4.916216369084417e-06,
+      "loss": 0.37846821546554565,
+      "memory(GiB)": 41.86,
+      "step": 1205,
+      "token_acc": 0.88135103926097,
+      "train_speed(iter/s)": 0.241844
+    },
+    {
+      "epoch": 0.38592,
+      "grad_norm": 0.7188549103775239,
+      "learning_rate": 4.915989826141359e-06,
+      "loss": 0.40104061365127563,
+      "memory(GiB)": 41.86,
+      "step": 1206,
+      "token_acc": 0.8613020622725435,
+      "train_speed(iter/s)": 0.241829
+    },
+    {
+      "epoch": 0.38624,
+      "grad_norm": 0.7286024555990904,
+      "learning_rate": 4.915762982570279e-06,
+      "loss": 0.39014601707458496,
+      "memory(GiB)": 41.86,
+      "step": 1207,
+      "token_acc": 0.8764253513656854,
+      "train_speed(iter/s)": 0.24184
+    },
+    {
+      "epoch": 0.38656,
+      "grad_norm": 0.695541091414225,
+      "learning_rate": 4.915535838399403e-06,
+      "loss": 0.36902227997779846,
+      "memory(GiB)": 41.86,
+      "step": 1208,
+      "token_acc": 0.940974605353466,
+      "train_speed(iter/s)": 0.241833
+    },
+    {
+      "epoch": 0.38688,
+      "grad_norm": 0.6431958480102833,
+      "learning_rate": 4.915308393656995e-06,
+      "loss": 0.397407203912735,
+      "memory(GiB)": 41.86,
+      "step": 1209,
+      "token_acc": 0.8522214302684723,
+      "train_speed(iter/s)": 0.241811
+    },
+    {
+      "epoch": 0.3872,
+      "grad_norm": 0.5946700706891079,
+      "learning_rate": 4.915080648371356e-06,
+      "loss": 0.2938351333141327,
+      "memory(GiB)": 41.86,
+      "step": 1210,
+      "token_acc": 0.9416149068322981,
+      "train_speed(iter/s)": 0.241817
+    },
+    {
+      "epoch": 0.38752,
+      "grad_norm": 0.6266178205566414,
+      "learning_rate": 4.9148526025708265e-06,
+      "loss": 0.3515031933784485,
+      "memory(GiB)": 41.86,
+      "step": 1211,
+      "token_acc": 0.8622662266226623,
+      "train_speed(iter/s)": 0.241796
+    },
+    {
+      "epoch": 0.38784,
+      "grad_norm": 0.6256068778987887,
+      "learning_rate": 4.914624256283782e-06,
+      "loss": 0.3115041255950928,
+      "memory(GiB)": 41.86,
+      "step": 1212,
+      "token_acc": 0.8772889917912019,
+      "train_speed(iter/s)": 0.241804
+    },
+    {
+      "epoch": 0.38816,
+      "grad_norm": 0.6732607754491646,
+      "learning_rate": 4.914395609538635e-06,
+      "loss": 0.3414084315299988,
+      "memory(GiB)": 41.86,
+      "step": 1213,
+      "token_acc": 0.8855482566953007,
+      "train_speed(iter/s)": 0.24181
+    },
+    {
+      "epoch": 0.38848,
+      "grad_norm": 0.6043768378809788,
+      "learning_rate": 4.91416666236384e-06,
+      "loss": 0.3297019600868225,
+      "memory(GiB)": 41.86,
+      "step": 1214,
+      "token_acc": 0.8486761353673505,
+      "train_speed(iter/s)": 0.241816
+    },
+    {
+      "epoch": 0.3888,
+      "grad_norm": 0.6785425306994809,
+      "learning_rate": 4.913937414787883e-06,
+      "loss": 0.37749630212783813,
+      "memory(GiB)": 41.86,
+      "step": 1215,
+      "token_acc": 0.8884940026654821,
+      "train_speed(iter/s)": 0.241818
+    },
+    {
+      "epoch": 0.38912,
+      "grad_norm": 0.5931015639640956,
+      "learning_rate": 4.913707866839289e-06,
+      "loss": 0.37859880924224854,
+      "memory(GiB)": 41.86,
+      "step": 1216,
+      "token_acc": 0.9026143790849673,
+      "train_speed(iter/s)": 0.241815
+    },
+    {
+      "epoch": 0.38944,
+      "grad_norm": 0.6641848978681966,
+      "learning_rate": 4.9134780185466235e-06,
+      "loss": 0.3591747581958771,
+      "memory(GiB)": 41.86,
+      "step": 1217,
+      "token_acc": 0.8765625,
+      "train_speed(iter/s)": 0.241817
+    },
+    {
+      "epoch": 0.38976,
+      "grad_norm": 0.6886237469900918,
+      "learning_rate": 4.913247869938486e-06,
+      "loss": 0.4051769971847534,
+      "memory(GiB)": 41.86,
+      "step": 1218,
+      "token_acc": 0.8421866941722538,
+      "train_speed(iter/s)": 0.241826
+    },
+    {
+      "epoch": 0.39008,
+      "grad_norm": 0.6404557259309062,
+      "learning_rate": 4.913017421043515e-06,
+      "loss": 0.2845143675804138,
+      "memory(GiB)": 41.86,
+      "step": 1219,
+      "token_acc": 0.9006609252954135,
+      "train_speed(iter/s)": 0.241833
+    },
+    {
+      "epoch": 0.3904,
+      "grad_norm": 0.7065019630133275,
+      "learning_rate": 4.912786671890385e-06,
+      "loss": 0.41734203696250916,
+      "memory(GiB)": 41.86,
+      "step": 1220,
+      "token_acc": 0.8467128027681661,
+      "train_speed(iter/s)": 0.241835
+    },
+    {
+      "epoch": 0.39072,
+      "grad_norm": 0.6627709988236835,
+      "learning_rate": 4.912555622507809e-06,
+      "loss": 0.3521880507469177,
+      "memory(GiB)": 41.86,
+      "step": 1221,
+      "token_acc": 0.92608,
+      "train_speed(iter/s)": 0.241824
+    },
+    {
+      "epoch": 0.39104,
+      "grad_norm": 0.7339084472401267,
+      "learning_rate": 4.9123242729245385e-06,
+      "loss": 0.46014976501464844,
+      "memory(GiB)": 41.86,
+      "step": 1222,
+      "token_acc": 0.8298649142022636,
+      "train_speed(iter/s)": 0.24182
+    },
+    {
+      "epoch": 0.39136,
+      "grad_norm": 0.6917399666886811,
+      "learning_rate": 4.912092623169359e-06,
+      "loss": 0.35904645919799805,
+      "memory(GiB)": 41.86,
+      "step": 1223,
+      "token_acc": 0.9060235975988408,
+      "train_speed(iter/s)": 0.241826
+    },
+    {
+      "epoch": 0.39168,
+      "grad_norm": 0.6661464163720064,
+      "learning_rate": 4.911860673271096e-06,
+      "loss": 0.3546287417411804,
+      "memory(GiB)": 41.86,
+      "step": 1224,
+      "token_acc": 0.8770855332629356,
+      "train_speed(iter/s)": 0.241827
+    },
+    {
+      "epoch": 0.392,
+      "grad_norm": 0.7446428900027107,
+      "learning_rate": 4.911628423258613e-06,
+      "loss": 0.4017045497894287,
+      "memory(GiB)": 41.86,
+      "step": 1225,
+      "token_acc": 0.9037958115183246,
+      "train_speed(iter/s)": 0.241801
+    },
+    {
+      "epoch": 0.39232,
+      "grad_norm": 0.761212677967474,
+      "learning_rate": 4.9113958731608065e-06,
+      "loss": 0.3983163833618164,
+      "memory(GiB)": 41.86,
+      "step": 1226,
+      "token_acc": 0.8756441855254313,
+      "train_speed(iter/s)": 0.241798
+    },
+    {
+      "epoch": 0.39264,
+      "grad_norm": 0.7339870612776599,
+      "learning_rate": 4.911163023006616e-06,
+      "loss": 0.4625524580478668,
+      "memory(GiB)": 41.86,
+      "step": 1227,
+      "token_acc": 0.9090499774876182,
+      "train_speed(iter/s)": 0.241805
+    },
+    {
+      "epoch": 0.39296,
+      "grad_norm": 0.6983561260249203,
+      "learning_rate": 4.910929872825014e-06,
+      "loss": 0.40505319833755493,
+      "memory(GiB)": 41.86,
+      "step": 1228,
+      "token_acc": 0.8510420923579893,
+      "train_speed(iter/s)": 0.241795
+    },
+    {
+      "epoch": 0.39328,
+      "grad_norm": 0.6183721034355633,
+      "learning_rate": 4.910696422645014e-06,
+      "loss": 0.30205339193344116,
+      "memory(GiB)": 41.86,
+      "step": 1229,
+      "token_acc": 0.8776041666666666,
+      "train_speed(iter/s)": 0.241786
+    },
+    {
+      "epoch": 0.3936,
+      "grad_norm": 0.7292607827967701,
+      "learning_rate": 4.9104626724956624e-06,
+      "loss": 0.36497604846954346,
+      "memory(GiB)": 41.86,
+      "step": 1230,
+      "token_acc": 0.9373318988703604,
+      "train_speed(iter/s)": 0.241795
+    },
+    {
+      "epoch": 0.39392,
+      "grad_norm": 0.6729194907914177,
+      "learning_rate": 4.910228622406047e-06,
+      "loss": 0.38161665201187134,
+      "memory(GiB)": 41.86,
+      "step": 1231,
+      "token_acc": 0.8459227467811159,
+      "train_speed(iter/s)": 0.241794
+    },
+    {
+      "epoch": 0.39424,
+      "grad_norm": 0.7534044697464082,
+      "learning_rate": 4.909994272405291e-06,
+      "loss": 0.4532603621482849,
+      "memory(GiB)": 41.86,
+      "step": 1232,
+      "token_acc": 0.8577903682719547,
+      "train_speed(iter/s)": 0.241795
+    },
+    {
+      "epoch": 0.39456,
+      "grad_norm": 0.6304337304158179,
+      "learning_rate": 4.909759622522554e-06,
+      "loss": 0.4178975224494934,
+      "memory(GiB)": 41.86,
+      "step": 1233,
+      "token_acc": 0.878964552238806,
+      "train_speed(iter/s)": 0.24178
+    },
+    {
+      "epoch": 0.39488,
+      "grad_norm": 0.6556346864759135,
+      "learning_rate": 4.909524672787036e-06,
+      "loss": 0.4755871891975403,
+      "memory(GiB)": 41.86,
+      "step": 1234,
+      "token_acc": 0.9497206703910615,
+      "train_speed(iter/s)": 0.241775
+    },
+    {
+      "epoch": 0.3952,
+      "grad_norm": 0.6754826163963453,
+      "learning_rate": 4.9092894232279705e-06,
+      "loss": 0.45528972148895264,
+      "memory(GiB)": 41.86,
+      "step": 1235,
+      "token_acc": 0.7545003913383772,
+      "train_speed(iter/s)": 0.241772
+    },
+    {
+      "epoch": 0.39552,
+      "grad_norm": 0.7217759079137694,
+      "learning_rate": 4.909053873874632e-06,
+      "loss": 0.38957154750823975,
+      "memory(GiB)": 41.86,
+      "step": 1236,
+      "token_acc": 0.9230421004979629,
+      "train_speed(iter/s)": 0.241764
+    },
+    {
+      "epoch": 0.39584,
+      "grad_norm": 0.7430376150442589,
+      "learning_rate": 4.90881802475633e-06,
+      "loss": 0.4569467604160309,
+      "memory(GiB)": 41.86,
+      "step": 1237,
+      "token_acc": 0.9448040885860307,
+      "train_speed(iter/s)": 0.241771
+    },
+    {
+      "epoch": 0.39616,
+      "grad_norm": 0.6884662784481184,
+      "learning_rate": 4.908581875902411e-06,
+      "loss": 0.3652569651603699,
+      "memory(GiB)": 41.86,
+      "step": 1238,
+      "token_acc": 0.9205572289156626,
+      "train_speed(iter/s)": 0.241765
+    },
+    {
+      "epoch": 0.39648,
+      "grad_norm": 0.6273160357497422,
+      "learning_rate": 4.9083454273422596e-06,
+      "loss": 0.45417994260787964,
+      "memory(GiB)": 41.86,
+      "step": 1239,
+      "token_acc": 0.8865603644646924,
+      "train_speed(iter/s)": 0.241765
+    },
+    {
+      "epoch": 0.3968,
+      "grad_norm": 0.8188890254089909,
+      "learning_rate": 4.908108679105299e-06,
+      "loss": 0.37922215461730957,
+      "memory(GiB)": 41.86,
+      "step": 1240,
+      "token_acc": 0.8701376421304609,
+      "train_speed(iter/s)": 0.241768
+    },
+    {
+      "epoch": 0.39712,
+      "grad_norm": 0.620364193075366,
+      "learning_rate": 4.9078716312209885e-06,
+      "loss": 0.4137468636035919,
+      "memory(GiB)": 41.86,
+      "step": 1241,
+      "token_acc": 0.9157801418439716,
+      "train_speed(iter/s)": 0.241772
+    },
+    {
+      "epoch": 0.39744,
+      "grad_norm": 0.6056946045549613,
+      "learning_rate": 4.907634283718823e-06,
+      "loss": 0.2970924377441406,
+      "memory(GiB)": 41.86,
+      "step": 1242,
+      "token_acc": 0.9325077399380804,
+      "train_speed(iter/s)": 0.241775
+    },
+    {
+      "epoch": 0.39776,
+      "grad_norm": 0.6984748084271502,
+      "learning_rate": 4.9073966366283365e-06,
+      "loss": 0.4137699604034424,
+      "memory(GiB)": 41.86,
+      "step": 1243,
+      "token_acc": 0.8169642857142857,
+      "train_speed(iter/s)": 0.241769
+    },
+    {
+      "epoch": 0.39808,
+      "grad_norm": 0.6521284694929559,
+      "learning_rate": 4.907158689979101e-06,
+      "loss": 0.3726159632205963,
+      "memory(GiB)": 41.86,
+      "step": 1244,
+      "token_acc": 0.8911675126903553,
+      "train_speed(iter/s)": 0.24177
+    },
+    {
+      "epoch": 0.3984,
+      "grad_norm": 0.6789197438937603,
+      "learning_rate": 4.906920443800726e-06,
+      "loss": 0.38499879837036133,
+      "memory(GiB)": 41.86,
+      "step": 1245,
+      "token_acc": 0.912289156626506,
+      "train_speed(iter/s)": 0.241777
+    },
+    {
+      "epoch": 0.39872,
+      "grad_norm": 0.6684047846074724,
+      "learning_rate": 4.906681898122854e-06,
+      "loss": 0.38312456011772156,
+      "memory(GiB)": 41.86,
+      "step": 1246,
+      "token_acc": 0.8865716109810599,
+      "train_speed(iter/s)": 0.241778
+    },
+    {
+      "epoch": 0.39904,
+      "grad_norm": 0.6282065736802485,
+      "learning_rate": 4.90644305297517e-06,
+      "loss": 0.3512309789657593,
+      "memory(GiB)": 41.86,
+      "step": 1247,
+      "token_acc": 0.9296849087893864,
+      "train_speed(iter/s)": 0.241774
+    },
+    {
+      "epoch": 0.39936,
+      "grad_norm": 0.7257045224182788,
+      "learning_rate": 4.906203908387394e-06,
+      "loss": 0.33827269077301025,
+      "memory(GiB)": 41.86,
+      "step": 1248,
+      "token_acc": 0.912292817679558,
+      "train_speed(iter/s)": 0.241777
+    },
+    {
+      "epoch": 0.39968,
+      "grad_norm": 0.6364319841259414,
+      "learning_rate": 4.905964464389282e-06,
+      "loss": 0.3173280954360962,
+      "memory(GiB)": 41.86,
+      "step": 1249,
+      "token_acc": 0.9445591271011501,
+      "train_speed(iter/s)": 0.241768
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.9165513277227055,
+      "learning_rate": 4.90572472101063e-06,
+      "loss": 0.3990221619606018,
+      "memory(GiB)": 54.25,
+      "step": 1250,
+      "token_acc": 0.8329662261380323,
+      "train_speed(iter/s)": 0.241736
+    },
+    {
+      "epoch": 0.40032,
+      "grad_norm": 0.737797033455468,
+      "learning_rate": 4.9054846782812696e-06,
+      "loss": 0.35373908281326294,
+      "memory(GiB)": 54.25,
+      "step": 1251,
+      "token_acc": 0.9015907252628741,
+      "train_speed(iter/s)": 0.241747
+    },
+    {
+      "epoch": 0.40064,
+      "grad_norm": 0.627550916851112,
+      "learning_rate": 4.90524433623107e-06,
+      "loss": 0.41584205627441406,
+      "memory(GiB)": 54.25,
+      "step": 1252,
+      "token_acc": 0.8907161803713528,
+      "train_speed(iter/s)": 0.241749
+    },
+    {
+      "epoch": 0.40096,
+      "grad_norm": 0.7021528239286693,
+      "learning_rate": 4.905003694889937e-06,
+      "loss": 0.44098883867263794,
+      "memory(GiB)": 54.25,
+      "step": 1253,
+      "token_acc": 0.9196217494089834,
+      "train_speed(iter/s)": 0.241745
+    },
+    {
+      "epoch": 0.40128,
+      "grad_norm": 0.6817692052331,
+      "learning_rate": 4.904762754287815e-06,
+      "loss": 0.383311927318573,
+      "memory(GiB)": 54.25,
+      "step": 1254,
+      "token_acc": 0.851401179941003,
+      "train_speed(iter/s)": 0.241755
+    },
+    {
+      "epoch": 0.4016,
+      "grad_norm": 0.6982658539307417,
+      "learning_rate": 4.904521514454686e-06,
+      "loss": 0.37457275390625,
+      "memory(GiB)": 54.25,
+      "step": 1255,
+      "token_acc": 0.8813305364099491,
+      "train_speed(iter/s)": 0.241763
+    },
+    {
+      "epoch": 0.40192,
+      "grad_norm": 0.6507511703763804,
+      "learning_rate": 4.904279975420565e-06,
+      "loss": 0.41099709272384644,
+      "memory(GiB)": 54.25,
+      "step": 1256,
+      "token_acc": 0.8266789753057927,
+      "train_speed(iter/s)": 0.241753
+    },
+    {
+      "epoch": 0.40224,
+      "grad_norm": 0.6524990256219668,
+      "learning_rate": 4.90403813721551e-06,
+      "loss": 0.3188368082046509,
+      "memory(GiB)": 54.25,
+      "step": 1257,
+      "token_acc": 0.8872517616912236,
+      "train_speed(iter/s)": 0.24176
+    },
+    {
+      "epoch": 0.40256,
+      "grad_norm": 0.6529861659047583,
+      "learning_rate": 4.903795999869612e-06,
+      "loss": 0.3554418385028839,
+      "memory(GiB)": 54.25,
+      "step": 1258,
+      "token_acc": 0.911710606989577,
+      "train_speed(iter/s)": 0.241766
+    },
+    {
+      "epoch": 0.40288,
+      "grad_norm": 0.6361371541720696,
+      "learning_rate": 4.903553563413002e-06,
+      "loss": 0.34924161434173584,
+      "memory(GiB)": 54.25,
+      "step": 1259,
+      "token_acc": 0.9198813056379822,
+      "train_speed(iter/s)": 0.241772
+    },
+    {
+      "epoch": 0.4032,
+      "grad_norm": 0.6646010876247846,
+      "learning_rate": 4.903310827875846e-06,
+      "loss": 0.3619754910469055,
+      "memory(GiB)": 54.25,
+      "step": 1260,
+      "token_acc": 0.9065196548418025,
+      "train_speed(iter/s)": 0.241781
+    },
+    {
+      "epoch": 0.40352,
+      "grad_norm": 0.7414888179473273,
+      "learning_rate": 4.903067793288349e-06,
+      "loss": 0.37907034158706665,
+      "memory(GiB)": 54.25,
+      "step": 1261,
+      "token_acc": 0.9004001778568252,
+      "train_speed(iter/s)": 0.241788
+    },
+    {
+      "epoch": 0.40384,
+      "grad_norm": 0.6765763886977797,
+      "learning_rate": 4.9028244596807525e-06,
+      "loss": 0.3840641975402832,
+      "memory(GiB)": 54.25,
+      "step": 1262,
+      "token_acc": 0.8237831176833025,
+      "train_speed(iter/s)": 0.241786
+    },
+    {
+      "epoch": 0.40416,
+      "grad_norm": 0.6129379509479677,
+      "learning_rate": 4.902580827083334e-06,
+      "loss": 0.31380969285964966,
+      "memory(GiB)": 54.25,
+      "step": 1263,
+      "token_acc": 0.9355913381454747,
+      "train_speed(iter/s)": 0.241787
+    },
+    {
+      "epoch": 0.40448,
+      "grad_norm": 0.710066685867633,
+      "learning_rate": 4.902336895526411e-06,
+      "loss": 0.3545820116996765,
+      "memory(GiB)": 54.25,
+      "step": 1264,
+      "token_acc": 0.9085012740328932,
+      "train_speed(iter/s)": 0.241795
+    },
+    {
+      "epoch": 0.4048,
+      "grad_norm": 0.6859696976861693,
+      "learning_rate": 4.902092665040334e-06,
+      "loss": 0.42846930027008057,
+      "memory(GiB)": 54.25,
+      "step": 1265,
+      "token_acc": 0.8158686730506156,
+      "train_speed(iter/s)": 0.241792
+    },
+    {
+      "epoch": 0.40512,
+      "grad_norm": 0.673405372761433,
+      "learning_rate": 4.901848135655497e-06,
+      "loss": 0.3189171850681305,
+      "memory(GiB)": 54.25,
+      "step": 1266,
+      "token_acc": 0.8818691588785047,
+      "train_speed(iter/s)": 0.241793
+    },
+    {
+      "epoch": 0.40544,
+      "grad_norm": 0.691116898447295,
+      "learning_rate": 4.901603307402324e-06,
+      "loss": 0.3380736708641052,
+      "memory(GiB)": 54.25,
+      "step": 1267,
+      "token_acc": 0.9290806754221388,
+      "train_speed(iter/s)": 0.241792
+    },
+    {
+      "epoch": 0.40576,
+      "grad_norm": 0.6561264355030649,
+      "learning_rate": 4.901358180311282e-06,
+      "loss": 0.3639150857925415,
+      "memory(GiB)": 54.25,
+      "step": 1268,
+      "token_acc": 0.926549623790756,
+      "train_speed(iter/s)": 0.241784
+    },
+    {
+      "epoch": 0.40608,
+      "grad_norm": 0.7397625833880722,
+      "learning_rate": 4.901112754412871e-06,
+      "loss": 0.48749417066574097,
+      "memory(GiB)": 54.25,
+      "step": 1269,
+      "token_acc": 0.905076679005817,
+      "train_speed(iter/s)": 0.241784
+    },
+    {
+      "epoch": 0.4064,
+      "grad_norm": 0.6176811249376831,
+      "learning_rate": 4.900867029737631e-06,
+      "loss": 0.3970845937728882,
+      "memory(GiB)": 54.25,
+      "step": 1270,
+      "token_acc": 0.847036328871893,
+      "train_speed(iter/s)": 0.241769
+    },
+    {
+      "epoch": 0.40672,
+      "grad_norm": 0.7071864186200545,
+      "learning_rate": 4.900621006316138e-06,
+      "loss": 0.38648155331611633,
+      "memory(GiB)": 54.25,
+      "step": 1271,
+      "token_acc": 0.8641402423304976,
+      "train_speed(iter/s)": 0.241773
+    },
+    {
+      "epoch": 0.40704,
+      "grad_norm": 0.7597324346283704,
+      "learning_rate": 4.900374684179005e-06,
+      "loss": 0.42800837755203247,
+      "memory(GiB)": 54.25,
+      "step": 1272,
+      "token_acc": 0.8444615978386724,
+      "train_speed(iter/s)": 0.241754
+    },
+    {
+      "epoch": 0.40736,
+      "grad_norm": 0.635838698864964,
+      "learning_rate": 4.900128063356883e-06,
+      "loss": 0.4137975871562958,
+      "memory(GiB)": 54.25,
+      "step": 1273,
+      "token_acc": 0.8675443310048361,
+      "train_speed(iter/s)": 0.24175
+    },
+    {
+      "epoch": 0.40768,
+      "grad_norm": 0.7121970266140076,
+      "learning_rate": 4.89988114388046e-06,
+      "loss": 0.4319247603416443,
+      "memory(GiB)": 54.25,
+      "step": 1274,
+      "token_acc": 0.874356333676622,
+      "train_speed(iter/s)": 0.241744
+    },
+    {
+      "epoch": 0.408,
+      "grad_norm": 0.6497283912080786,
+      "learning_rate": 4.899633925780459e-06,
+      "loss": 0.3982517719268799,
+      "memory(GiB)": 54.25,
+      "step": 1275,
+      "token_acc": 0.8873112463376155,
+      "train_speed(iter/s)": 0.241752
+    },
+    {
+      "epoch": 0.40832,
+      "grad_norm": 0.6549022941167305,
+      "learning_rate": 4.899386409087644e-06,
+      "loss": 0.35507720708847046,
+      "memory(GiB)": 54.25,
+      "step": 1276,
+      "token_acc": 0.8572237960339943,
+      "train_speed(iter/s)": 0.241755
+    },
+    {
+      "epoch": 0.40864,
+      "grad_norm": 0.6313690332398607,
+      "learning_rate": 4.899138593832815e-06,
+      "loss": 0.3065604269504547,
+      "memory(GiB)": 54.25,
+      "step": 1277,
+      "token_acc": 0.9199124726477024,
+      "train_speed(iter/s)": 0.241752
+    },
+    {
+      "epoch": 0.40896,
+      "grad_norm": 0.627005255118462,
+      "learning_rate": 4.898890480046805e-06,
+      "loss": 0.37982720136642456,
+      "memory(GiB)": 54.25,
+      "step": 1278,
+      "token_acc": 0.877572448551029,
+      "train_speed(iter/s)": 0.241753
+    },
+    {
+      "epoch": 0.40928,
+      "grad_norm": 0.625771566915828,
+      "learning_rate": 4.89864206776049e-06,
+      "loss": 0.37364453077316284,
+      "memory(GiB)": 54.25,
+      "step": 1279,
+      "token_acc": 0.9465668559628291,
+      "train_speed(iter/s)": 0.241753
+    },
+    {
+      "epoch": 0.4096,
+      "grad_norm": 0.6081702196108284,
+      "learning_rate": 4.8983933570047806e-06,
+      "loss": 0.39983755350112915,
+      "memory(GiB)": 54.25,
+      "step": 1280,
+      "token_acc": 0.9480954374215153,
+      "train_speed(iter/s)": 0.241743
+    },
+    {
+      "epoch": 0.40992,
+      "grad_norm": 0.6003866736523666,
+      "learning_rate": 4.898144347810623e-06,
+      "loss": 0.3459395170211792,
+      "memory(GiB)": 54.25,
+      "step": 1281,
+      "token_acc": 0.9392789373814042,
+      "train_speed(iter/s)": 0.241742
+    },
+    {
+      "epoch": 0.41024,
+      "grad_norm": 0.6441754691657811,
+      "learning_rate": 4.897895040209003e-06,
+      "loss": 0.3157588243484497,
+      "memory(GiB)": 54.25,
+      "step": 1282,
+      "token_acc": 0.9266409266409267,
+      "train_speed(iter/s)": 0.241743
+    },
+    {
+      "epoch": 0.41056,
+      "grad_norm": 0.705399238988508,
+      "learning_rate": 4.8976454342309425e-06,
+      "loss": 0.4245535135269165,
+      "memory(GiB)": 54.25,
+      "step": 1283,
+      "token_acc": 0.8266242937853108,
+      "train_speed(iter/s)": 0.241744
+    },
+    {
+      "epoch": 0.41088,
+      "grad_norm": 0.6492565073619292,
+      "learning_rate": 4.8973955299075e-06,
+      "loss": 0.41515523195266724,
+      "memory(GiB)": 54.25,
+      "step": 1284,
+      "token_acc": 0.8345938033666748,
+      "train_speed(iter/s)": 0.241735
+    },
+    {
+      "epoch": 0.4112,
+      "grad_norm": 0.6405969355880544,
+      "learning_rate": 4.897145327269773e-06,
+      "loss": 0.3403509259223938,
+      "memory(GiB)": 54.25,
+      "step": 1285,
+      "token_acc": 0.865297833935018,
+      "train_speed(iter/s)": 0.241733
+    },
+    {
+      "epoch": 0.41152,
+      "grad_norm": 0.688385763050708,
+      "learning_rate": 4.896894826348895e-06,
+      "loss": 0.4499348998069763,
+      "memory(GiB)": 54.25,
+      "step": 1286,
+      "token_acc": 0.8558012723417147,
+      "train_speed(iter/s)": 0.241731
+    },
+    {
+      "epoch": 0.41184,
+      "grad_norm": 0.636303979395194,
+      "learning_rate": 4.896644027176034e-06,
+      "loss": 0.3668064475059509,
+      "memory(GiB)": 54.25,
+      "step": 1287,
+      "token_acc": 0.8994315697420201,
+      "train_speed(iter/s)": 0.241711
+    },
+    {
+      "epoch": 0.41216,
+      "grad_norm": 0.622575566146382,
+      "learning_rate": 4.896392929782401e-06,
+      "loss": 0.3714810013771057,
+      "memory(GiB)": 54.25,
+      "step": 1288,
+      "token_acc": 0.8903148528405201,
+      "train_speed(iter/s)": 0.241709
+    },
+    {
+      "epoch": 0.41248,
+      "grad_norm": 0.7370857702254667,
+      "learning_rate": 4.896141534199239e-06,
+      "loss": 0.40914779901504517,
+      "memory(GiB)": 54.25,
+      "step": 1289,
+      "token_acc": 0.8649052841475573,
+      "train_speed(iter/s)": 0.241708
+    },
+    {
+      "epoch": 0.4128,
+      "grad_norm": 0.629535190598867,
+      "learning_rate": 4.895889840457829e-06,
+      "loss": 0.44377973675727844,
+      "memory(GiB)": 54.25,
+      "step": 1290,
+      "token_acc": 0.8575321136629038,
+      "train_speed(iter/s)": 0.2417
+    },
+    {
+      "epoch": 0.41312,
+      "grad_norm": 0.6838835517234205,
+      "learning_rate": 4.895637848589491e-06,
+      "loss": 0.3481270372867584,
+      "memory(GiB)": 54.25,
+      "step": 1291,
+      "token_acc": 0.8770240700218819,
+      "train_speed(iter/s)": 0.241703
+    },
+    {
+      "epoch": 0.41344,
+      "grad_norm": 0.6510539302712932,
+      "learning_rate": 4.895385558625581e-06,
+      "loss": 0.40787768363952637,
+      "memory(GiB)": 54.25,
+      "step": 1292,
+      "token_acc": 0.9059978954752719,
+      "train_speed(iter/s)": 0.241705
+    },
+    {
+      "epoch": 0.41376,
+      "grad_norm": 0.6444807679930352,
+      "learning_rate": 4.895132970597493e-06,
+      "loss": 0.3275423049926758,
+      "memory(GiB)": 54.25,
+      "step": 1293,
+      "token_acc": 0.8946264744429882,
+      "train_speed(iter/s)": 0.241712
+    },
+    {
+      "epoch": 0.41408,
+      "grad_norm": 0.6957545316830331,
+      "learning_rate": 4.894880084536655e-06,
+      "loss": 0.3324955701828003,
+      "memory(GiB)": 54.25,
+      "step": 1294,
+      "token_acc": 0.891290527654164,
+      "train_speed(iter/s)": 0.241717
+    },
+    {
+      "epoch": 0.4144,
+      "grad_norm": 0.7299550298580185,
+      "learning_rate": 4.894626900474535e-06,
+      "loss": 0.4040944576263428,
+      "memory(GiB)": 54.25,
+      "step": 1295,
+      "token_acc": 0.9099471628761774,
+      "train_speed(iter/s)": 0.241725
+    },
+    {
+      "epoch": 0.41472,
+      "grad_norm": 0.7101258840617345,
+      "learning_rate": 4.894373418442639e-06,
+      "loss": 0.3955199420452118,
+      "memory(GiB)": 54.25,
+      "step": 1296,
+      "token_acc": 0.8971014492753623,
+      "train_speed(iter/s)": 0.241697
+    },
+    {
+      "epoch": 0.41504,
+      "grad_norm": 0.6619105282006725,
+      "learning_rate": 4.894119638472507e-06,
+      "loss": 0.37354910373687744,
+      "memory(GiB)": 54.25,
+      "step": 1297,
+      "token_acc": 0.9166142227816236,
+      "train_speed(iter/s)": 0.241702
+    },
+    {
+      "epoch": 0.41536,
+      "grad_norm": 0.6147724952701049,
+      "learning_rate": 4.893865560595718e-06,
+      "loss": 0.358009397983551,
+      "memory(GiB)": 54.25,
+      "step": 1298,
+      "token_acc": 0.8949063231850117,
+      "train_speed(iter/s)": 0.241698
+    },
+    {
+      "epoch": 0.41568,
+      "grad_norm": 0.6553311718461237,
+      "learning_rate": 4.893611184843886e-06,
+      "loss": 0.33957356214523315,
+      "memory(GiB)": 54.25,
+      "step": 1299,
+      "token_acc": 0.9161269430051814,
+      "train_speed(iter/s)": 0.241707
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 0.7956429190939939,
+      "learning_rate": 4.893356511248666e-06,
+      "loss": 0.3854532241821289,
+      "memory(GiB)": 54.25,
+      "step": 1300,
+      "token_acc": 0.8570826306913997,
+      "train_speed(iter/s)": 0.241714
+    },
+    {
+      "epoch": 0.41632,
+      "grad_norm": 0.7251902712436933,
+      "learning_rate": 4.893101539841746e-06,
+      "loss": 0.5117073059082031,
+      "memory(GiB)": 54.25,
+      "step": 1301,
+      "token_acc": 0.7856827220503756,
+      "train_speed(iter/s)": 0.241706
+    },
+    {
+      "epoch": 0.41664,
+      "grad_norm": 0.6976432920541932,
+      "learning_rate": 4.892846270654854e-06,
+      "loss": 0.36443769931793213,
+      "memory(GiB)": 54.25,
+      "step": 1302,
+      "token_acc": 0.9099442651804048,
+      "train_speed(iter/s)": 0.241716
+    },
+    {
+      "epoch": 0.41696,
+      "grad_norm": 0.6417589035018723,
+      "learning_rate": 4.892590703719754e-06,
+      "loss": 0.375042587518692,
+      "memory(GiB)": 54.25,
+      "step": 1303,
+      "token_acc": 0.9102256361017763,
+      "train_speed(iter/s)": 0.241722
+    },
+    {
+      "epoch": 0.41728,
+      "grad_norm": 0.7903217463976845,
+      "learning_rate": 4.892334839068245e-06,
+      "loss": 0.26590147614479065,
+      "memory(GiB)": 54.25,
+      "step": 1304,
+      "token_acc": 0.9175475687103594,
+      "train_speed(iter/s)": 0.241732
+    },
+    {
+      "epoch": 0.4176,
+      "grad_norm": 0.6913579017355007,
+      "learning_rate": 4.892078676732167e-06,
+      "loss": 0.3165406882762909,
+      "memory(GiB)": 54.25,
+      "step": 1305,
+      "token_acc": 0.9093439363817097,
+      "train_speed(iter/s)": 0.241742
+    },
+    {
+      "epoch": 0.41792,
+      "grad_norm": 0.6754529121849585,
+      "learning_rate": 4.891822216743393e-06,
+      "loss": 0.3947480320930481,
+      "memory(GiB)": 54.25,
+      "step": 1306,
+      "token_acc": 0.9085529854760624,
+      "train_speed(iter/s)": 0.241735
+    },
+    {
+      "epoch": 0.41824,
+      "grad_norm": 0.6407465899126465,
+      "learning_rate": 4.891565459133837e-06,
+      "loss": 0.45267099142074585,
+      "memory(GiB)": 54.25,
+      "step": 1307,
+      "token_acc": 0.8574519880984582,
+      "train_speed(iter/s)": 0.241732
+    },
+    {
+      "epoch": 0.41856,
+      "grad_norm": 0.6242970813827109,
+      "learning_rate": 4.891308403935446e-06,
+      "loss": 0.35364830493927,
+      "memory(GiB)": 54.25,
+      "step": 1308,
+      "token_acc": 0.9550438596491229,
+      "train_speed(iter/s)": 0.241723
+    },
+    {
+      "epoch": 0.41888,
+      "grad_norm": 0.6393041293301966,
+      "learning_rate": 4.891051051180208e-06,
+      "loss": 0.32948967814445496,
+      "memory(GiB)": 54.25,
+      "step": 1309,
+      "token_acc": 0.930955497382199,
+      "train_speed(iter/s)": 0.241726
+    },
+    {
+      "epoch": 0.4192,
+      "grad_norm": 0.7121487740748008,
+      "learning_rate": 4.890793400900146e-06,
+      "loss": 0.432616651058197,
+      "memory(GiB)": 54.25,
+      "step": 1310,
+      "token_acc": 0.8199837089329352,
+      "train_speed(iter/s)": 0.241726
+    },
+    {
+      "epoch": 0.41952,
+      "grad_norm": 0.6257557247969497,
+      "learning_rate": 4.890535453127318e-06,
+      "loss": 0.388999342918396,
+      "memory(GiB)": 54.25,
+      "step": 1311,
+      "token_acc": 0.9109102646868947,
+      "train_speed(iter/s)": 0.241717
+    },
+    {
+      "epoch": 0.41984,
+      "grad_norm": 0.6754626932627489,
+      "learning_rate": 4.890277207893823e-06,
+      "loss": 0.2897656559944153,
+      "memory(GiB)": 54.25,
+      "step": 1312,
+      "token_acc": 0.9165664823274826,
+      "train_speed(iter/s)": 0.241723
+    },
+    {
+      "epoch": 0.42016,
+      "grad_norm": 0.6532311067131089,
+      "learning_rate": 4.890018665231794e-06,
+      "loss": 0.3545244336128235,
+      "memory(GiB)": 54.25,
+      "step": 1313,
+      "token_acc": 0.9062611806797853,
+      "train_speed(iter/s)": 0.241717
+    },
+    {
+      "epoch": 0.42048,
+      "grad_norm": 1.2123928083988964,
+      "learning_rate": 4.889759825173403e-06,
+      "loss": 0.3855384588241577,
+      "memory(GiB)": 54.25,
+      "step": 1314,
+      "token_acc": 0.9325173668541185,
+      "train_speed(iter/s)": 0.241721
+    },
+    {
+      "epoch": 0.4208,
+      "grad_norm": 0.6384937154662139,
+      "learning_rate": 4.889500687750859e-06,
+      "loss": 0.3532355725765228,
+      "memory(GiB)": 54.25,
+      "step": 1315,
+      "token_acc": 0.8454649827784156,
+      "train_speed(iter/s)": 0.241725
+    },
+    {
+      "epoch": 0.42112,
+      "grad_norm": 0.6766427851222891,
+      "learning_rate": 4.8892412529964045e-06,
+      "loss": 0.3886632025241852,
+      "memory(GiB)": 54.25,
+      "step": 1316,
+      "token_acc": 0.9055459272097054,
+      "train_speed(iter/s)": 0.241733
+    },
+    {
+      "epoch": 0.42144,
+      "grad_norm": 0.6876635572878447,
+      "learning_rate": 4.888981520942324e-06,
+      "loss": 0.4070173501968384,
+      "memory(GiB)": 54.25,
+      "step": 1317,
+      "token_acc": 0.8337581937363437,
+      "train_speed(iter/s)": 0.241733
+    },
+    {
+      "epoch": 0.42176,
+      "grad_norm": 0.7141017033517059,
+      "learning_rate": 4.888721491620936e-06,
+      "loss": 0.4543421268463135,
+      "memory(GiB)": 54.25,
+      "step": 1318,
+      "token_acc": 0.8679823069071113,
+      "train_speed(iter/s)": 0.241741
+    },
+    {
+      "epoch": 0.42208,
+      "grad_norm": 0.6817767844070617,
+      "learning_rate": 4.888461165064596e-06,
+      "loss": 0.4173312783241272,
+      "memory(GiB)": 54.25,
+      "step": 1319,
+      "token_acc": 0.8495924270312911,
+      "train_speed(iter/s)": 0.241739
+    },
+    {
+      "epoch": 0.4224,
+      "grad_norm": 0.6726990538624524,
+      "learning_rate": 4.888200541305698e-06,
+      "loss": 0.34635308384895325,
+      "memory(GiB)": 54.25,
+      "step": 1320,
+      "token_acc": 0.914006327293644,
+      "train_speed(iter/s)": 0.241741
+    },
+    {
+      "epoch": 0.42272,
+      "grad_norm": 0.6149293574233768,
+      "learning_rate": 4.887939620376671e-06,
+      "loss": 0.4448007643222809,
+      "memory(GiB)": 54.25,
+      "step": 1321,
+      "token_acc": 0.9057883264713006,
+      "train_speed(iter/s)": 0.241732
+    },
+    {
+      "epoch": 0.42304,
+      "grad_norm": 0.6827509473641352,
+      "learning_rate": 4.887678402309984e-06,
+      "loss": 0.3387151062488556,
+      "memory(GiB)": 54.25,
+      "step": 1322,
+      "token_acc": 0.9044358440011908,
+      "train_speed(iter/s)": 0.241739
+    },
+    {
+      "epoch": 0.42336,
+      "grad_norm": 0.7921684084468664,
+      "learning_rate": 4.887416887138139e-06,
+      "loss": 0.4071877896785736,
+      "memory(GiB)": 54.25,
+      "step": 1323,
+      "token_acc": 0.8978193146417446,
+      "train_speed(iter/s)": 0.241743
+    },
+    {
+      "epoch": 0.42368,
+      "grad_norm": 0.8693170541591382,
+      "learning_rate": 4.887155074893677e-06,
+      "loss": 0.4522135257720947,
+      "memory(GiB)": 54.25,
+      "step": 1324,
+      "token_acc": 0.8634380453752182,
+      "train_speed(iter/s)": 0.241739
+    },
+    {
+      "epoch": 0.424,
+      "grad_norm": 2.9542991947574455,
+      "learning_rate": 4.886892965609179e-06,
+      "loss": 0.3745822310447693,
+      "memory(GiB)": 54.25,
+      "step": 1325,
+      "token_acc": 0.8757489300998573,
+      "train_speed(iter/s)": 0.241738
+    },
+    {
+      "epoch": 0.42432,
+      "grad_norm": 0.7356233075442105,
+      "learning_rate": 4.886630559317256e-06,
+      "loss": 0.40559709072113037,
+      "memory(GiB)": 54.25,
+      "step": 1326,
+      "token_acc": 0.8984529948433162,
+      "train_speed(iter/s)": 0.241745
+    },
+    {
+      "epoch": 0.42464,
+      "grad_norm": 0.7786860003507864,
+      "learning_rate": 4.8863678560505626e-06,
+      "loss": 0.3849676251411438,
+      "memory(GiB)": 54.25,
+      "step": 1327,
+      "token_acc": 0.9595861623019722,
+      "train_speed(iter/s)": 0.241745
+    },
+    {
+      "epoch": 0.42496,
+      "grad_norm": 0.6749504488093332,
+      "learning_rate": 4.8861048558417865e-06,
+      "loss": 0.38850563764572144,
+      "memory(GiB)": 54.25,
+      "step": 1328,
+      "token_acc": 0.8091386095321381,
+      "train_speed(iter/s)": 0.241738
+    },
+    {
+      "epoch": 0.42528,
+      "grad_norm": 0.6155887509908604,
+      "learning_rate": 4.885841558723654e-06,
+      "loss": 0.3630657196044922,
+      "memory(GiB)": 54.25,
+      "step": 1329,
+      "token_acc": 0.8816952678107124,
+      "train_speed(iter/s)": 0.24174
+    },
+    {
+      "epoch": 0.4256,
+      "grad_norm": 0.6690164081070308,
+      "learning_rate": 4.885577964728928e-06,
+      "loss": 0.44777727127075195,
+      "memory(GiB)": 54.25,
+      "step": 1330,
+      "token_acc": 0.9311475409836065,
+      "train_speed(iter/s)": 0.241724
+    },
+    {
+      "epoch": 0.42592,
+      "grad_norm": 0.6900324027023143,
+      "learning_rate": 4.885314073890408e-06,
+      "loss": 0.40067026019096375,
+      "memory(GiB)": 54.25,
+      "step": 1331,
+      "token_acc": 0.8907611853573504,
+      "train_speed(iter/s)": 0.241728
+    },
+    {
+      "epoch": 0.42624,
+      "grad_norm": 0.7304230246566736,
+      "learning_rate": 4.88504988624093e-06,
+      "loss": 0.37547188997268677,
+      "memory(GiB)": 54.25,
+      "step": 1332,
+      "token_acc": 0.9328941951420338,
+      "train_speed(iter/s)": 0.241729
+    },
+    {
+      "epoch": 0.42656,
+      "grad_norm": 0.7708386430270687,
+      "learning_rate": 4.884785401813368e-06,
+      "loss": 0.4293668270111084,
+      "memory(GiB)": 54.25,
+      "step": 1333,
+      "token_acc": 0.8931380526173041,
+      "train_speed(iter/s)": 0.241732
+    },
+    {
+      "epoch": 0.42688,
+      "grad_norm": 0.704622487415475,
+      "learning_rate": 4.8845206206406324e-06,
+      "loss": 0.40498292446136475,
+      "memory(GiB)": 54.25,
+      "step": 1334,
+      "token_acc": 0.8460053101617185,
+      "train_speed(iter/s)": 0.24174
+    },
+    {
+      "epoch": 0.4272,
+      "grad_norm": 0.6097909135926494,
+      "learning_rate": 4.884255542755672e-06,
+      "loss": 0.3631764352321625,
+      "memory(GiB)": 54.25,
+      "step": 1335,
+      "token_acc": 0.9273550334123734,
+      "train_speed(iter/s)": 0.241744
+    },
+    {
+      "epoch": 0.42752,
+      "grad_norm": 0.6782029921510473,
+      "learning_rate": 4.883990168191469e-06,
+      "loss": 0.3965047299861908,
+      "memory(GiB)": 54.25,
+      "step": 1336,
+      "token_acc": 0.9194856024601622,
+      "train_speed(iter/s)": 0.241753
+    },
+    {
+      "epoch": 0.42784,
+      "grad_norm": 0.6916957224416845,
+      "learning_rate": 4.883724496981046e-06,
+      "loss": 0.3426264226436615,
+      "memory(GiB)": 54.25,
+      "step": 1337,
+      "token_acc": 0.8814493895234344,
+      "train_speed(iter/s)": 0.241747
+    },
+    {
+      "epoch": 0.42816,
+      "grad_norm": 0.6374334814171009,
+      "learning_rate": 4.88345852915746e-06,
+      "loss": 0.4270450174808502,
+      "memory(GiB)": 54.25,
+      "step": 1338,
+      "token_acc": 0.8339589950909616,
+      "train_speed(iter/s)": 0.241747
+    },
+    {
+      "epoch": 0.42848,
+      "grad_norm": 0.9303860754170122,
+      "learning_rate": 4.883192264753808e-06,
+      "loss": 0.3680263161659241,
+      "memory(GiB)": 54.25,
+      "step": 1339,
+      "token_acc": 0.8525641025641025,
+      "train_speed(iter/s)": 0.241744
+    },
+    {
+      "epoch": 0.4288,
+      "grad_norm": 0.6230151742431499,
+      "learning_rate": 4.88292570380322e-06,
+      "loss": 0.32483208179473877,
+      "memory(GiB)": 54.25,
+      "step": 1340,
+      "token_acc": 0.9105827193569993,
+      "train_speed(iter/s)": 0.241744
+    },
+    {
+      "epoch": 0.42912,
+      "grad_norm": 0.9671569387834574,
+      "learning_rate": 4.8826588463388656e-06,
+      "loss": 0.3627716898918152,
+      "memory(GiB)": 54.25,
+      "step": 1341,
+      "token_acc": 0.9321876451463075,
+      "train_speed(iter/s)": 0.241753
+    },
+    {
+      "epoch": 0.42944,
+      "grad_norm": 0.6262835190342954,
+      "learning_rate": 4.882391692393952e-06,
+      "loss": 0.336712121963501,
+      "memory(GiB)": 54.25,
+      "step": 1342,
+      "token_acc": 0.9130917981773727,
+      "train_speed(iter/s)": 0.241745
+    },
+    {
+      "epoch": 0.42976,
+      "grad_norm": 0.6431543008111696,
+      "learning_rate": 4.882124242001719e-06,
+      "loss": 0.34673011302948,
+      "memory(GiB)": 54.25,
+      "step": 1343,
+      "token_acc": 0.8947157726180944,
+      "train_speed(iter/s)": 0.241748
+    },
+    {
+      "epoch": 0.43008,
+      "grad_norm": 0.6376212985474835,
+      "learning_rate": 4.881856495195449e-06,
+      "loss": 0.32342901825904846,
+      "memory(GiB)": 54.25,
+      "step": 1344,
+      "token_acc": 0.8936904037330087,
+      "train_speed(iter/s)": 0.241739
+    },
+    {
+      "epoch": 0.4304,
+      "grad_norm": 0.776995995729355,
+      "learning_rate": 4.881588452008457e-06,
+      "loss": 0.37168586254119873,
+      "memory(GiB)": 54.25,
+      "step": 1345,
+      "token_acc": 0.8378859857482185,
+      "train_speed(iter/s)": 0.241749
+    },
+    {
+      "epoch": 0.43072,
+      "grad_norm": 0.7035786906633952,
+      "learning_rate": 4.8813201124740965e-06,
+      "loss": 0.3587205708026886,
+      "memory(GiB)": 54.25,
+      "step": 1346,
+      "token_acc": 0.889165186500888,
+      "train_speed(iter/s)": 0.241758
+    },
+    {
+      "epoch": 0.43104,
+      "grad_norm": 0.685779909253052,
+      "learning_rate": 4.881051476625757e-06,
+      "loss": 0.4495074152946472,
+      "memory(GiB)": 54.25,
+      "step": 1347,
+      "token_acc": 0.8226822682268227,
+      "train_speed(iter/s)": 0.241765
+    },
+    {
+      "epoch": 0.43136,
+      "grad_norm": 0.7058207515548859,
+      "learning_rate": 4.880782544496867e-06,
+      "loss": 0.36446863412857056,
+      "memory(GiB)": 54.25,
+      "step": 1348,
+      "token_acc": 0.9193363844393593,
+      "train_speed(iter/s)": 0.241767
+    },
+    {
+      "epoch": 0.43168,
+      "grad_norm": 0.6653790284935017,
+      "learning_rate": 4.880513316120889e-06,
+      "loss": 0.4173201322555542,
+      "memory(GiB)": 54.25,
+      "step": 1349,
+      "token_acc": 0.9273522975929979,
+      "train_speed(iter/s)": 0.24177
+    },
+    {
+      "epoch": 0.432,
+      "grad_norm": 0.6590010841135678,
+      "learning_rate": 4.8802437915313256e-06,
+      "loss": 0.32026103138923645,
+      "memory(GiB)": 54.25,
+      "step": 1350,
+      "token_acc": 0.8931171409662475,
+      "train_speed(iter/s)": 0.241776
+    },
+    {
+      "epoch": 0.43232,
+      "grad_norm": 0.6653377196723516,
+      "learning_rate": 4.879973970761713e-06,
+      "loss": 0.4857190251350403,
+      "memory(GiB)": 54.25,
+      "step": 1351,
+      "token_acc": 0.8658346333853354,
+      "train_speed(iter/s)": 0.241763
+    },
+    {
+      "epoch": 0.43264,
+      "grad_norm": 0.643701279316601,
+      "learning_rate": 4.8797038538456255e-06,
+      "loss": 0.4505487382411957,
+      "memory(GiB)": 54.25,
+      "step": 1352,
+      "token_acc": 0.840297121634169,
+      "train_speed(iter/s)": 0.241766
+    },
+    {
+      "epoch": 0.43296,
+      "grad_norm": 0.7072956786410945,
+      "learning_rate": 4.879433440816676e-06,
+      "loss": 0.3793249726295471,
+      "memory(GiB)": 54.25,
+      "step": 1353,
+      "token_acc": 0.9338877338877339,
+      "train_speed(iter/s)": 0.241768
+    },
+    {
+      "epoch": 0.43328,
+      "grad_norm": 0.6548441343549255,
+      "learning_rate": 4.879162731708511e-06,
+      "loss": 0.3847993016242981,
+      "memory(GiB)": 54.25,
+      "step": 1354,
+      "token_acc": 0.9567930868939031,
+      "train_speed(iter/s)": 0.241773
+    },
+    {
+      "epoch": 0.4336,
+      "grad_norm": 0.7276207618472077,
+      "learning_rate": 4.8788917265548174e-06,
+      "loss": 0.39764106273651123,
+      "memory(GiB)": 54.25,
+      "step": 1355,
+      "token_acc": 0.8936260025327142,
+      "train_speed(iter/s)": 0.241783
+    },
+    {
+      "epoch": 0.43392,
+      "grad_norm": 0.5988014696239595,
+      "learning_rate": 4.878620425389316e-06,
+      "loss": 0.4102374017238617,
+      "memory(GiB)": 54.25,
+      "step": 1356,
+      "token_acc": 0.8941371071494211,
+      "train_speed(iter/s)": 0.241767
+    },
+    {
+      "epoch": 0.43424,
+      "grad_norm": 0.7019136326631011,
+      "learning_rate": 4.878348828245764e-06,
+      "loss": 0.390442430973053,
+      "memory(GiB)": 54.25,
+      "step": 1357,
+      "token_acc": 0.9356955380577427,
+      "train_speed(iter/s)": 0.24177
+    },
+    {
+      "epoch": 0.43456,
+      "grad_norm": 0.6300566115884247,
+      "learning_rate": 4.87807693515796e-06,
+      "loss": 0.4639202654361725,
+      "memory(GiB)": 54.25,
+      "step": 1358,
+      "token_acc": 0.8793208004851425,
+      "train_speed(iter/s)": 0.241764
+    },
+    {
+      "epoch": 0.43488,
+      "grad_norm": 0.6481040854266029,
+      "learning_rate": 4.877804746159734e-06,
+      "loss": 0.36727380752563477,
+      "memory(GiB)": 54.25,
+      "step": 1359,
+      "token_acc": 0.8824557570461,
+      "train_speed(iter/s)": 0.241757
+    },
+    {
+      "epoch": 0.4352,
+      "grad_norm": 0.7178941696898775,
+      "learning_rate": 4.877532261284957e-06,
+      "loss": 0.41963109374046326,
+      "memory(GiB)": 54.25,
+      "step": 1360,
+      "token_acc": 0.8943488943488943,
+      "train_speed(iter/s)": 0.241765
+    },
+    {
+      "epoch": 0.43552,
+      "grad_norm": 0.6821774169619288,
+      "learning_rate": 4.877259480567533e-06,
+      "loss": 0.3929774761199951,
+      "memory(GiB)": 54.25,
+      "step": 1361,
+      "token_acc": 0.870832239432922,
+      "train_speed(iter/s)": 0.241765
+    },
+    {
+      "epoch": 0.43584,
+      "grad_norm": 0.683295876338886,
+      "learning_rate": 4.876986404041406e-06,
+      "loss": 0.33743149042129517,
+      "memory(GiB)": 54.25,
+      "step": 1362,
+      "token_acc": 0.8763050787471244,
+      "train_speed(iter/s)": 0.241766
+    },
+    {
+      "epoch": 0.43616,
+      "grad_norm": 0.6864854894073937,
+      "learning_rate": 4.8767130317405564e-06,
+      "loss": 0.33623820543289185,
+      "memory(GiB)": 54.25,
+      "step": 1363,
+      "token_acc": 0.8551587301587301,
+      "train_speed(iter/s)": 0.241774
+    },
+    {
+      "epoch": 0.43648,
+      "grad_norm": 0.6968798442310556,
+      "learning_rate": 4.876439363698999e-06,
+      "loss": 0.42134207487106323,
+      "memory(GiB)": 54.25,
+      "step": 1364,
+      "token_acc": 0.8449117536612842,
+      "train_speed(iter/s)": 0.241759
+    },
+    {
+      "epoch": 0.4368,
+      "grad_norm": 0.7123028277605915,
+      "learning_rate": 4.876165399950789e-06,
+      "loss": 0.4160800576210022,
+      "memory(GiB)": 54.25,
+      "step": 1365,
+      "token_acc": 0.8751445086705202,
+      "train_speed(iter/s)": 0.241764
+    },
+    {
+      "epoch": 0.43712,
+      "grad_norm": 0.5869527000099894,
+      "learning_rate": 4.875891140530014e-06,
+      "loss": 0.35796743631362915,
+      "memory(GiB)": 54.25,
+      "step": 1366,
+      "token_acc": 0.908835904628331,
+      "train_speed(iter/s)": 0.241742
+    },
+    {
+      "epoch": 0.43744,
+      "grad_norm": 0.6776948942224121,
+      "learning_rate": 4.875616585470803e-06,
+      "loss": 0.40424638986587524,
+      "memory(GiB)": 54.25,
+      "step": 1367,
+      "token_acc": 0.9126625962304221,
+      "train_speed(iter/s)": 0.241745
+    },
+    {
+      "epoch": 0.43776,
+      "grad_norm": 0.6581718543812415,
+      "learning_rate": 4.875341734807319e-06,
+      "loss": 0.34139484167099,
+      "memory(GiB)": 54.25,
+      "step": 1368,
+      "token_acc": 0.9657941701368233,
+      "train_speed(iter/s)": 0.241745
+    },
+    {
+      "epoch": 0.43808,
+      "grad_norm": 0.6192494889890449,
+      "learning_rate": 4.875066588573761e-06,
+      "loss": 0.30496746301651,
+      "memory(GiB)": 54.25,
+      "step": 1369,
+      "token_acc": 0.9213592233009709,
+      "train_speed(iter/s)": 0.241732
+    },
+    {
+      "epoch": 0.4384,
+      "grad_norm": 0.8148400108243367,
+      "learning_rate": 4.874791146804367e-06,
+      "loss": 0.368156373500824,
+      "memory(GiB)": 54.25,
+      "step": 1370,
+      "token_acc": 0.9042227662178702,
+      "train_speed(iter/s)": 0.241742
+    },
+    {
+      "epoch": 0.43872,
+      "grad_norm": 0.692692565750196,
+      "learning_rate": 4.874515409533412e-06,
+      "loss": 0.44202888011932373,
+      "memory(GiB)": 54.25,
+      "step": 1371,
+      "token_acc": 0.8262847965738758,
+      "train_speed(iter/s)": 0.241734
+    },
+    {
+      "epoch": 0.43904,
+      "grad_norm": 0.6299090368989769,
+      "learning_rate": 4.874239376795207e-06,
+      "loss": 0.3335915505886078,
+      "memory(GiB)": 54.25,
+      "step": 1372,
+      "token_acc": 0.9132250580046404,
+      "train_speed(iter/s)": 0.241739
+    },
+    {
+      "epoch": 0.43936,
+      "grad_norm": 0.6086910217331085,
+      "learning_rate": 4.873963048624097e-06,
+      "loss": 0.36554571986198425,
+      "memory(GiB)": 54.25,
+      "step": 1373,
+      "token_acc": 0.8383018867924529,
+      "train_speed(iter/s)": 0.241739
+    },
+    {
+      "epoch": 0.43968,
+      "grad_norm": 0.7187015918760711,
+      "learning_rate": 4.873686425054468e-06,
+      "loss": 0.4994755983352661,
+      "memory(GiB)": 54.25,
+      "step": 1374,
+      "token_acc": 0.9003508771929825,
+      "train_speed(iter/s)": 0.241742
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 0.9578438953893976,
+      "learning_rate": 4.873409506120741e-06,
+      "loss": 0.40452802181243896,
+      "memory(GiB)": 54.25,
+      "step": 1375,
+      "token_acc": 0.8866779089376053,
+      "train_speed(iter/s)": 0.241744
+    },
+    {
+      "epoch": 0.44032,
+      "grad_norm": 0.630047407045523,
+      "learning_rate": 4.873132291857374e-06,
+      "loss": 0.432367205619812,
+      "memory(GiB)": 54.25,
+      "step": 1376,
+      "token_acc": 0.8572647142450952,
+      "train_speed(iter/s)": 0.241744
+    },
+    {
+      "epoch": 0.44064,
+      "grad_norm": 0.6651826273155501,
+      "learning_rate": 4.87285478229886e-06,
+      "loss": 0.390887975692749,
+      "memory(GiB)": 54.25,
+      "step": 1377,
+      "token_acc": 0.8797976792621244,
+      "train_speed(iter/s)": 0.241749
+    },
+    {
+      "epoch": 0.44096,
+      "grad_norm": 0.6492655693883252,
+      "learning_rate": 4.872576977479732e-06,
+      "loss": 0.31533730030059814,
+      "memory(GiB)": 54.25,
+      "step": 1378,
+      "token_acc": 0.9054097829608033,
+      "train_speed(iter/s)": 0.241756
+    },
+    {
+      "epoch": 0.44128,
+      "grad_norm": 1.0382289676680765,
+      "learning_rate": 4.872298877434557e-06,
+      "loss": 0.4353906512260437,
+      "memory(GiB)": 54.25,
+      "step": 1379,
+      "token_acc": 0.8958955223880597,
+      "train_speed(iter/s)": 0.241755
+    },
+    {
+      "epoch": 0.4416,
+      "grad_norm": 0.6111652253950935,
+      "learning_rate": 4.8720204821979386e-06,
+      "loss": 0.2878170609474182,
+      "memory(GiB)": 54.25,
+      "step": 1380,
+      "token_acc": 0.9040322580645161,
+      "train_speed(iter/s)": 0.241761
+    },
+    {
+      "epoch": 0.44192,
+      "grad_norm": 0.6440809698426532,
+      "learning_rate": 4.871741791804521e-06,
+      "loss": 0.4502704441547394,
+      "memory(GiB)": 54.25,
+      "step": 1381,
+      "token_acc": 0.9533497018589968,
+      "train_speed(iter/s)": 0.241764
+    },
+    {
+      "epoch": 0.44224,
+      "grad_norm": 0.6718976875694662,
+      "learning_rate": 4.87146280628898e-06,
+      "loss": 0.3850383758544922,
+      "memory(GiB)": 54.25,
+      "step": 1382,
+      "token_acc": 0.8748890860692103,
+      "train_speed(iter/s)": 0.241769
+    },
+    {
+      "epoch": 0.44256,
+      "grad_norm": 0.6740787531737835,
+      "learning_rate": 4.871183525686033e-06,
+      "loss": 0.4799865484237671,
+      "memory(GiB)": 54.25,
+      "step": 1383,
+      "token_acc": 0.7734513274336283,
+      "train_speed(iter/s)": 0.241775
+    },
+    {
+      "epoch": 0.44288,
+      "grad_norm": 0.6379428482452528,
+      "learning_rate": 4.870903950030429e-06,
+      "loss": 0.4027191400527954,
+      "memory(GiB)": 54.25,
+      "step": 1384,
+      "token_acc": 0.9470899470899471,
+      "train_speed(iter/s)": 0.241773
+    },
+    {
+      "epoch": 0.4432,
+      "grad_norm": 0.6590909772232544,
+      "learning_rate": 4.8706240793569585e-06,
+      "loss": 0.2858898639678955,
+      "memory(GiB)": 54.25,
+      "step": 1385,
+      "token_acc": 0.8855829050581553,
+      "train_speed(iter/s)": 0.241779
+    },
+    {
+      "epoch": 0.44352,
+      "grad_norm": 0.6537595133374319,
+      "learning_rate": 4.870343913700445e-06,
+      "loss": 0.45104703307151794,
+      "memory(GiB)": 54.25,
+      "step": 1386,
+      "token_acc": 0.9395861148197597,
+      "train_speed(iter/s)": 0.241783
+    },
+    {
+      "epoch": 0.44384,
+      "grad_norm": 0.757842911660058,
+      "learning_rate": 4.87006345309575e-06,
+      "loss": 0.4908878207206726,
+      "memory(GiB)": 54.25,
+      "step": 1387,
+      "token_acc": 0.8656876790830945,
+      "train_speed(iter/s)": 0.241792
+    },
+    {
+      "epoch": 0.44416,
+      "grad_norm": 0.752644178388717,
+      "learning_rate": 4.869782697577773e-06,
+      "loss": 0.37011563777923584,
+      "memory(GiB)": 54.25,
+      "step": 1388,
+      "token_acc": 0.9490595611285266,
+      "train_speed(iter/s)": 0.241798
+    },
+    {
+      "epoch": 0.44448,
+      "grad_norm": 0.6532003645317793,
+      "learning_rate": 4.869501647181449e-06,
+      "loss": 0.3889579176902771,
+      "memory(GiB)": 54.25,
+      "step": 1389,
+      "token_acc": 0.8910225636101776,
+      "train_speed(iter/s)": 0.241803
+    },
+    {
+      "epoch": 0.4448,
+      "grad_norm": 0.7214426378114299,
+      "learning_rate": 4.86922030194175e-06,
+      "loss": 0.375772088766098,
+      "memory(GiB)": 54.25,
+      "step": 1390,
+      "token_acc": 0.8952193844138834,
+      "train_speed(iter/s)": 0.241804
+    },
+    {
+      "epoch": 0.44512,
+      "grad_norm": 0.6553689380810623,
+      "learning_rate": 4.868938661893684e-06,
+      "loss": 0.4477576017379761,
+      "memory(GiB)": 54.25,
+      "step": 1391,
+      "token_acc": 0.8201898856810695,
+      "train_speed(iter/s)": 0.241789
+    },
+    {
+      "epoch": 0.44544,
+      "grad_norm": 0.6399429044127155,
+      "learning_rate": 4.868656727072296e-06,
+      "loss": 0.29409581422805786,
+      "memory(GiB)": 54.25,
+      "step": 1392,
+      "token_acc": 0.9045092838196287,
+      "train_speed(iter/s)": 0.241794
+    },
+    {
+      "epoch": 0.44576,
+      "grad_norm": 0.6251744267895303,
+      "learning_rate": 4.868374497512669e-06,
+      "loss": 0.33881592750549316,
+      "memory(GiB)": 54.25,
+      "step": 1393,
+      "token_acc": 0.95645821157218,
+      "train_speed(iter/s)": 0.241797
+    },
+    {
+      "epoch": 0.44608,
+      "grad_norm": 0.6443831560707102,
+      "learning_rate": 4.868091973249921e-06,
+      "loss": 0.32782113552093506,
+      "memory(GiB)": 54.25,
+      "step": 1394,
+      "token_acc": 0.8597240473061761,
+      "train_speed(iter/s)": 0.241803
+    },
+    {
+      "epoch": 0.4464,
+      "grad_norm": 0.6341180388337093,
+      "learning_rate": 4.867809154319207e-06,
+      "loss": 0.3600013852119446,
+      "memory(GiB)": 54.25,
+      "step": 1395,
+      "token_acc": 0.9317614424410541,
+      "train_speed(iter/s)": 0.241811
+    },
+    {
+      "epoch": 0.44672,
+      "grad_norm": 0.7620381680679035,
+      "learning_rate": 4.867526040755719e-06,
+      "loss": 0.45745474100112915,
+      "memory(GiB)": 54.25,
+      "step": 1396,
+      "token_acc": 0.9389279437609842,
+      "train_speed(iter/s)": 0.24182
+    },
+    {
+      "epoch": 0.44704,
+      "grad_norm": 0.6688361618426312,
+      "learning_rate": 4.867242632594687e-06,
+      "loss": 0.33844512701034546,
+      "memory(GiB)": 54.25,
+      "step": 1397,
+      "token_acc": 0.8840116279069767,
+      "train_speed(iter/s)": 0.241823
+    },
+    {
+      "epoch": 0.44736,
+      "grad_norm": 0.6650186372729323,
+      "learning_rate": 4.866958929871373e-06,
+      "loss": 0.44632455706596375,
+      "memory(GiB)": 54.25,
+      "step": 1398,
+      "token_acc": 0.8635761589403973,
+      "train_speed(iter/s)": 0.241824
+    },
+    {
+      "epoch": 0.44768,
+      "grad_norm": 0.6467007295381163,
+      "learning_rate": 4.8666749326210814e-06,
+      "loss": 0.4723467230796814,
+      "memory(GiB)": 54.25,
+      "step": 1399,
+      "token_acc": 0.8733905579399142,
+      "train_speed(iter/s)": 0.241823
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.5847950426484317,
+      "learning_rate": 4.86639064087915e-06,
+      "loss": 0.2702223062515259,
+      "memory(GiB)": 54.25,
+      "step": 1400,
+      "token_acc": 0.9106769016050245,
+      "train_speed(iter/s)": 0.241831
+    },
+    {
+      "epoch": 0.44832,
+      "grad_norm": 0.6400932130615912,
+      "learning_rate": 4.866106054680954e-06,
+      "loss": 0.35586994886398315,
+      "memory(GiB)": 54.25,
+      "step": 1401,
+      "token_acc": 0.8234945705824285,
+      "train_speed(iter/s)": 0.241835
+    },
+    {
+      "epoch": 0.44864,
+      "grad_norm": 0.6077877688346182,
+      "learning_rate": 4.865821174061906e-06,
+      "loss": 0.3937463164329529,
+      "memory(GiB)": 54.25,
+      "step": 1402,
+      "token_acc": 0.8877931769722814,
+      "train_speed(iter/s)": 0.241833
+    },
+    {
+      "epoch": 0.44896,
+      "grad_norm": 0.6743756791422052,
+      "learning_rate": 4.8655359990574535e-06,
+      "loss": 0.43177270889282227,
+      "memory(GiB)": 54.25,
+      "step": 1403,
+      "token_acc": 0.8096820123398196,
+      "train_speed(iter/s)": 0.241837
+    },
+    {
+      "epoch": 0.44928,
+      "grad_norm": 0.5779646985167436,
+      "learning_rate": 4.865250529703082e-06,
+      "loss": 0.4202505052089691,
+      "memory(GiB)": 54.25,
+      "step": 1404,
+      "token_acc": 0.8896658896658897,
+      "train_speed(iter/s)": 0.241835
+    },
+    {
+      "epoch": 0.4496,
+      "grad_norm": 0.6698168537027995,
+      "learning_rate": 4.864964766034313e-06,
+      "loss": 0.41024893522262573,
+      "memory(GiB)": 54.25,
+      "step": 1405,
+      "token_acc": 0.9192499043245312,
+      "train_speed(iter/s)": 0.241831
+    },
+    {
+      "epoch": 0.44992,
+      "grad_norm": 0.6315902468603016,
+      "learning_rate": 4.8646787080867045e-06,
+      "loss": 0.3904609978199005,
+      "memory(GiB)": 54.25,
+      "step": 1406,
+      "token_acc": 0.8261114237478897,
+      "train_speed(iter/s)": 0.241829
+    },
+    {
+      "epoch": 0.45024,
+      "grad_norm": 0.6545834324005627,
+      "learning_rate": 4.864392355895851e-06,
+      "loss": 0.32289209961891174,
+      "memory(GiB)": 54.25,
+      "step": 1407,
+      "token_acc": 0.8791242676534073,
+      "train_speed(iter/s)": 0.241836
+    },
+    {
+      "epoch": 0.45056,
+      "grad_norm": 0.6407019217077954,
+      "learning_rate": 4.864105709497386e-06,
+      "loss": 0.41863322257995605,
+      "memory(GiB)": 54.25,
+      "step": 1408,
+      "token_acc": 0.8626737260092654,
+      "train_speed(iter/s)": 0.241832
+    },
+    {
+      "epoch": 0.45088,
+      "grad_norm": 0.6601611243138582,
+      "learning_rate": 4.863818768926977e-06,
+      "loss": 0.40609967708587646,
+      "memory(GiB)": 54.25,
+      "step": 1409,
+      "token_acc": 0.8688734924300744,
+      "train_speed(iter/s)": 0.241836
+    },
+    {
+      "epoch": 0.4512,
+      "grad_norm": 0.7174621221962957,
+      "learning_rate": 4.863531534220327e-06,
+      "loss": 0.4263560473918915,
+      "memory(GiB)": 54.25,
+      "step": 1410,
+      "token_acc": 0.9122380807774066,
+      "train_speed(iter/s)": 0.241841
+    },
+    {
+      "epoch": 0.45152,
+      "grad_norm": 0.6198772361611069,
+      "learning_rate": 4.863244005413179e-06,
+      "loss": 0.41117462515830994,
+      "memory(GiB)": 54.25,
+      "step": 1411,
+      "token_acc": 0.9384303112313938,
+      "train_speed(iter/s)": 0.241841
+    },
+    {
+      "epoch": 0.45184,
+      "grad_norm": 0.7828455993448517,
+      "learning_rate": 4.862956182541312e-06,
+      "loss": 0.4140855669975281,
+      "memory(GiB)": 54.25,
+      "step": 1412,
+      "token_acc": 0.8926909389542842,
+      "train_speed(iter/s)": 0.241833
+    },
+    {
+      "epoch": 0.45216,
+      "grad_norm": 0.6365803769316366,
+      "learning_rate": 4.862668065640538e-06,
+      "loss": 0.38020676374435425,
+      "memory(GiB)": 54.25,
+      "step": 1413,
+      "token_acc": 0.8582312518673438,
+      "train_speed(iter/s)": 0.241834
+    },
+    {
+      "epoch": 0.45248,
+      "grad_norm": 0.7173878773917757,
+      "learning_rate": 4.86237965474671e-06,
+      "loss": 0.42698922753334045,
+      "memory(GiB)": 54.25,
+      "step": 1414,
+      "token_acc": 0.8704983630411058,
+      "train_speed(iter/s)": 0.241837
+    },
+    {
+      "epoch": 0.4528,
+      "grad_norm": 0.6741683041942471,
+      "learning_rate": 4.862090949895714e-06,
+      "loss": 0.38656336069107056,
+      "memory(GiB)": 54.25,
+      "step": 1415,
+      "token_acc": 0.9337142857142857,
+      "train_speed(iter/s)": 0.241843
+    },
+    {
+      "epoch": 0.45312,
+      "grad_norm": 0.6370471806657942,
+      "learning_rate": 4.861801951123477e-06,
+      "loss": 0.38649970293045044,
+      "memory(GiB)": 54.25,
+      "step": 1416,
+      "token_acc": 0.8512533664802154,
+      "train_speed(iter/s)": 0.241837
+    },
+    {
+      "epoch": 0.45344,
+      "grad_norm": 0.6224484950736938,
+      "learning_rate": 4.861512658465957e-06,
+      "loss": 0.3709070086479187,
+      "memory(GiB)": 54.25,
+      "step": 1417,
+      "token_acc": 0.8943862987630827,
+      "train_speed(iter/s)": 0.241837
+    },
+    {
+      "epoch": 0.45376,
+      "grad_norm": 0.621045901740749,
+      "learning_rate": 4.8612230719591535e-06,
+      "loss": 0.30436834692955017,
+      "memory(GiB)": 54.25,
+      "step": 1418,
+      "token_acc": 0.8833922261484098,
+      "train_speed(iter/s)": 0.241842
+    },
+    {
+      "epoch": 0.45408,
+      "grad_norm": 0.6907364202268645,
+      "learning_rate": 4.8609331916391e-06,
+      "loss": 0.4163115322589874,
+      "memory(GiB)": 54.25,
+      "step": 1419,
+      "token_acc": 0.8853907134767837,
+      "train_speed(iter/s)": 0.241848
+    },
+    {
+      "epoch": 0.4544,
+      "grad_norm": 0.6682014147669898,
+      "learning_rate": 4.860643017541866e-06,
+      "loss": 0.3684418797492981,
+      "memory(GiB)": 54.25,
+      "step": 1420,
+      "token_acc": 0.9164914388705316,
+      "train_speed(iter/s)": 0.241856
+    },
+    {
+      "epoch": 0.45472,
+      "grad_norm": 0.6387981982425855,
+      "learning_rate": 4.860352549703561e-06,
+      "loss": 0.4106927812099457,
+      "memory(GiB)": 54.25,
+      "step": 1421,
+      "token_acc": 0.8775804128660586,
+      "train_speed(iter/s)": 0.24185
+    },
+    {
+      "epoch": 0.45504,
+      "grad_norm": 0.7421759184381147,
+      "learning_rate": 4.860061788160325e-06,
+      "loss": 0.4439920485019684,
+      "memory(GiB)": 54.25,
+      "step": 1422,
+      "token_acc": 0.9016608391608392,
+      "train_speed(iter/s)": 0.241855
+    },
+    {
+      "epoch": 0.45536,
+      "grad_norm": 0.6762732921973349,
+      "learning_rate": 4.859770732948342e-06,
+      "loss": 0.5197451114654541,
+      "memory(GiB)": 54.25,
+      "step": 1423,
+      "token_acc": 0.8647369379209904,
+      "train_speed(iter/s)": 0.241837
+    },
+    {
+      "epoch": 0.45568,
+      "grad_norm": 0.6780065106167816,
+      "learning_rate": 4.859479384103827e-06,
+      "loss": 0.3608526587486267,
+      "memory(GiB)": 54.25,
+      "step": 1424,
+      "token_acc": 0.9382278481012658,
+      "train_speed(iter/s)": 0.241842
+    },
+    {
+      "epoch": 0.456,
+      "grad_norm": 0.6209295612932021,
+      "learning_rate": 4.859187741663033e-06,
+      "loss": 0.4193663001060486,
+      "memory(GiB)": 54.25,
+      "step": 1425,
+      "token_acc": 0.7814110186286167,
+      "train_speed(iter/s)": 0.241847
+    },
+    {
+      "epoch": 0.45632,
+      "grad_norm": 0.689968943463644,
+      "learning_rate": 4.858895805662251e-06,
+      "loss": 0.4211796820163727,
+      "memory(GiB)": 54.25,
+      "step": 1426,
+      "token_acc": 0.8766481101670085,
+      "train_speed(iter/s)": 0.241849
+    },
+    {
+      "epoch": 0.45664,
+      "grad_norm": 0.6236653297898024,
+      "learning_rate": 4.858603576137806e-06,
+      "loss": 0.3624248802661896,
+      "memory(GiB)": 54.25,
+      "step": 1427,
+      "token_acc": 0.8976634131913636,
+      "train_speed(iter/s)": 0.241851
+    },
+    {
+      "epoch": 0.45696,
+      "grad_norm": 0.6230356018543871,
+      "learning_rate": 4.858311053126062e-06,
+      "loss": 0.46036577224731445,
+      "memory(GiB)": 54.25,
+      "step": 1428,
+      "token_acc": 0.873999483604441,
+      "train_speed(iter/s)": 0.24185
+    },
+    {
+      "epoch": 0.45728,
+      "grad_norm": 0.6502356504031781,
+      "learning_rate": 4.858018236663418e-06,
+      "loss": 0.3810836672782898,
+      "memory(GiB)": 54.25,
+      "step": 1429,
+      "token_acc": 0.9039000764720877,
+      "train_speed(iter/s)": 0.241854
+    },
+    {
+      "epoch": 0.4576,
+      "grad_norm": 0.67277355389728,
+      "learning_rate": 4.85772512678631e-06,
+      "loss": 0.37741619348526,
+      "memory(GiB)": 54.25,
+      "step": 1430,
+      "token_acc": 0.8572294634737799,
+      "train_speed(iter/s)": 0.241863
+    },
+    {
+      "epoch": 0.45792,
+      "grad_norm": 0.7015264804989461,
+      "learning_rate": 4.857431723531211e-06,
+      "loss": 0.38409554958343506,
+      "memory(GiB)": 54.25,
+      "step": 1431,
+      "token_acc": 0.9203454894433781,
+      "train_speed(iter/s)": 0.241866
+    },
+    {
+      "epoch": 0.45824,
+      "grad_norm": 0.6602312344225245,
+      "learning_rate": 4.857138026934628e-06,
+      "loss": 0.4160633385181427,
+      "memory(GiB)": 54.25,
+      "step": 1432,
+      "token_acc": 0.9458456973293768,
+      "train_speed(iter/s)": 0.241864
+    },
+    {
+      "epoch": 0.45856,
+      "grad_norm": 0.6651053958693808,
+      "learning_rate": 4.856844037033109e-06,
+      "loss": 0.3292998969554901,
+      "memory(GiB)": 54.25,
+      "step": 1433,
+      "token_acc": 0.9495713565305093,
+      "train_speed(iter/s)": 0.241861
+    },
+    {
+      "epoch": 0.45888,
+      "grad_norm": 0.6288774590470451,
+      "learning_rate": 4.856549753863234e-06,
+      "loss": 0.3308975100517273,
+      "memory(GiB)": 54.25,
+      "step": 1434,
+      "token_acc": 0.9386898096304591,
+      "train_speed(iter/s)": 0.241861
+    },
+    {
+      "epoch": 0.4592,
+      "grad_norm": 0.6981969093269803,
+      "learning_rate": 4.856255177461623e-06,
+      "loss": 0.4663718342781067,
+      "memory(GiB)": 54.25,
+      "step": 1435,
+      "token_acc": 0.8670309653916212,
+      "train_speed(iter/s)": 0.241857
+    },
+    {
+      "epoch": 0.45952,
+      "grad_norm": 0.6757392435448585,
+      "learning_rate": 4.855960307864929e-06,
+      "loss": 0.3273339867591858,
+      "memory(GiB)": 54.25,
+      "step": 1436,
+      "token_acc": 0.8778813143697891,
+      "train_speed(iter/s)": 0.241857
+    },
+    {
+      "epoch": 0.45984,
+      "grad_norm": 0.6534729529161497,
+      "learning_rate": 4.855665145109845e-06,
+      "loss": 0.4435362219810486,
+      "memory(GiB)": 54.25,
+      "step": 1437,
+      "token_acc": 0.9369095816464238,
+      "train_speed(iter/s)": 0.241829
+    },
+    {
+      "epoch": 0.46016,
+      "grad_norm": 0.6606576754168623,
+      "learning_rate": 4.855369689233098e-06,
+      "loss": 0.30629080533981323,
+      "memory(GiB)": 54.25,
+      "step": 1438,
+      "token_acc": 0.9394673123486683,
+      "train_speed(iter/s)": 0.241838
+    },
+    {
+      "epoch": 0.46048,
+      "grad_norm": 0.6574659112723522,
+      "learning_rate": 4.855073940271453e-06,
+      "loss": 0.396911084651947,
+      "memory(GiB)": 54.25,
+      "step": 1439,
+      "token_acc": 0.8672438672438673,
+      "train_speed(iter/s)": 0.241846
+    },
+    {
+      "epoch": 0.4608,
+      "grad_norm": 0.6903621256491916,
+      "learning_rate": 4.854777898261711e-06,
+      "loss": 0.36794042587280273,
+      "memory(GiB)": 54.25,
+      "step": 1440,
+      "token_acc": 0.9265905383360522,
+      "train_speed(iter/s)": 0.241848
+    },
+    {
+      "epoch": 0.46112,
+      "grad_norm": 0.6563508622912902,
+      "learning_rate": 4.854481563240708e-06,
+      "loss": 0.3901998996734619,
+      "memory(GiB)": 54.25,
+      "step": 1441,
+      "token_acc": 0.9206934710438952,
+      "train_speed(iter/s)": 0.241851
+    },
+    {
+      "epoch": 0.46144,
+      "grad_norm": 0.6295791113472529,
+      "learning_rate": 4.854184935245319e-06,
+      "loss": 0.35266730189323425,
+      "memory(GiB)": 54.25,
+      "step": 1442,
+      "token_acc": 0.8841442072103605,
+      "train_speed(iter/s)": 0.241857
+    },
+    {
+      "epoch": 0.46176,
+      "grad_norm": 0.6513398921539877,
+      "learning_rate": 4.853888014312454e-06,
+      "loss": 0.42213016748428345,
+      "memory(GiB)": 54.25,
+      "step": 1443,
+      "token_acc": 0.8437278525868178,
+      "train_speed(iter/s)": 0.241851
+    },
+    {
+      "epoch": 0.46208,
+      "grad_norm": 0.6216878599183627,
+      "learning_rate": 4.853590800479059e-06,
+      "loss": 0.4010796546936035,
+      "memory(GiB)": 54.25,
+      "step": 1444,
+      "token_acc": 0.8480710139979515,
+      "train_speed(iter/s)": 0.241847
+    },
+    {
+      "epoch": 0.4624,
+      "grad_norm": 0.6597357930461395,
+      "learning_rate": 4.853293293782118e-06,
+      "loss": 0.3940823972225189,
+      "memory(GiB)": 54.25,
+      "step": 1445,
+      "token_acc": 0.8692848769050411,
+      "train_speed(iter/s)": 0.241853
+    },
+    {
+      "epoch": 0.46272,
+      "grad_norm": 0.709769341503366,
+      "learning_rate": 4.85299549425865e-06,
+      "loss": 0.39852815866470337,
+      "memory(GiB)": 54.25,
+      "step": 1446,
+      "token_acc": 0.859825327510917,
+      "train_speed(iter/s)": 0.241854
+    },
+    {
+      "epoch": 0.46304,
+      "grad_norm": 0.6185340107948676,
+      "learning_rate": 4.852697401945711e-06,
+      "loss": 0.34628188610076904,
+      "memory(GiB)": 54.25,
+      "step": 1447,
+      "token_acc": 0.8734142305570877,
+      "train_speed(iter/s)": 0.241849
+    },
+    {
+      "epoch": 0.46336,
+      "grad_norm": 0.653357378265671,
+      "learning_rate": 4.8523990168803935e-06,
+      "loss": 0.37518754601478577,
+      "memory(GiB)": 54.25,
+      "step": 1448,
+      "token_acc": 0.8452289588129956,
+      "train_speed(iter/s)": 0.241842
+    },
+    {
+      "epoch": 0.46368,
+      "grad_norm": 0.7376966583836165,
+      "learning_rate": 4.852100339099826e-06,
+      "loss": 0.4429072141647339,
+      "memory(GiB)": 54.25,
+      "step": 1449,
+      "token_acc": 0.9375764993880049,
+      "train_speed(iter/s)": 0.241841
+    },
+    {
+      "epoch": 0.464,
+      "grad_norm": 0.6090636384243845,
+      "learning_rate": 4.851801368641176e-06,
+      "loss": 0.38109028339385986,
+      "memory(GiB)": 54.25,
+      "step": 1450,
+      "token_acc": 0.8765571913929785,
+      "train_speed(iter/s)": 0.241845
+    },
+    {
+      "epoch": 0.46432,
+      "grad_norm": 0.6214327788669147,
+      "learning_rate": 4.8515021055416415e-06,
+      "loss": 0.3926343023777008,
+      "memory(GiB)": 54.25,
+      "step": 1451,
+      "token_acc": 0.8627140974967062,
+      "train_speed(iter/s)": 0.241834
+    },
+    {
+      "epoch": 0.46464,
+      "grad_norm": 0.6687320358216613,
+      "learning_rate": 4.851202549838463e-06,
+      "loss": 0.36032289266586304,
+      "memory(GiB)": 54.25,
+      "step": 1452,
+      "token_acc": 0.9139603542808942,
+      "train_speed(iter/s)": 0.241833
+    },
+    {
+      "epoch": 0.46496,
+      "grad_norm": 0.6533852356700143,
+      "learning_rate": 4.850902701568915e-06,
+      "loss": 0.39747369289398193,
+      "memory(GiB)": 54.25,
+      "step": 1453,
+      "token_acc": 0.8532467532467533,
+      "train_speed(iter/s)": 0.241832
+    },
+    {
+      "epoch": 0.46528,
+      "grad_norm": 0.6051285510988066,
+      "learning_rate": 4.850602560770307e-06,
+      "loss": 0.3518303632736206,
+      "memory(GiB)": 54.25,
+      "step": 1454,
+      "token_acc": 0.9437153689122193,
+      "train_speed(iter/s)": 0.241832
+    },
+    {
+      "epoch": 0.4656,
+      "grad_norm": 0.6432812992491144,
+      "learning_rate": 4.850302127479987e-06,
+      "loss": 0.31848493218421936,
+      "memory(GiB)": 54.25,
+      "step": 1455,
+      "token_acc": 0.9306615776081425,
+      "train_speed(iter/s)": 0.241832
+    },
+    {
+      "epoch": 0.46592,
+      "grad_norm": 0.6913765588708352,
+      "learning_rate": 4.850001401735339e-06,
+      "loss": 0.32415902614593506,
+      "memory(GiB)": 54.25,
+      "step": 1456,
+      "token_acc": 0.9162857142857143,
+      "train_speed(iter/s)": 0.241833
+    },
+    {
+      "epoch": 0.46624,
+      "grad_norm": 0.5892988793974099,
+      "learning_rate": 4.849700383573783e-06,
+      "loss": 0.2838408052921295,
+      "memory(GiB)": 54.25,
+      "step": 1457,
+      "token_acc": 0.9307750188111362,
+      "train_speed(iter/s)": 0.241791
+    },
+    {
+      "epoch": 0.46656,
+      "grad_norm": 0.6413030759681971,
+      "learning_rate": 4.849399073032777e-06,
+      "loss": 0.3857778310775757,
+      "memory(GiB)": 54.25,
+      "step": 1458,
+      "token_acc": 0.8776358776358776,
+      "train_speed(iter/s)": 0.241795
+    },
+    {
+      "epoch": 0.46688,
+      "grad_norm": 0.6412609023018992,
+      "learning_rate": 4.849097470149811e-06,
+      "loss": 0.3490535616874695,
+      "memory(GiB)": 54.25,
+      "step": 1459,
+      "token_acc": 0.9368770764119602,
+      "train_speed(iter/s)": 0.241803
+    },
+    {
+      "epoch": 0.4672,
+      "grad_norm": 0.6305974918176782,
+      "learning_rate": 4.848795574962415e-06,
+      "loss": 0.37057244777679443,
+      "memory(GiB)": 54.25,
+      "step": 1460,
+      "token_acc": 0.9397865853658537,
+      "train_speed(iter/s)": 0.241807
+    },
+    {
+      "epoch": 0.46752,
+      "grad_norm": 0.6525717209730841,
+      "learning_rate": 4.848493387508156e-06,
+      "loss": 0.35291391611099243,
+      "memory(GiB)": 54.25,
+      "step": 1461,
+      "token_acc": 0.8712100139082058,
+      "train_speed(iter/s)": 0.24181
+    },
+    {
+      "epoch": 0.46784,
+      "grad_norm": 0.6603824576447729,
+      "learning_rate": 4.848190907824635e-06,
+      "loss": 0.3310721218585968,
+      "memory(GiB)": 54.25,
+      "step": 1462,
+      "token_acc": 0.8476442994085254,
+      "train_speed(iter/s)": 0.241816
+    },
+    {
+      "epoch": 0.46816,
+      "grad_norm": 0.6519847830709892,
+      "learning_rate": 4.847888135949491e-06,
+      "loss": 0.310594379901886,
+      "memory(GiB)": 54.25,
+      "step": 1463,
+      "token_acc": 0.8964852121731676,
+      "train_speed(iter/s)": 0.24181
+    },
+    {
+      "epoch": 0.46848,
+      "grad_norm": 0.6609194551586883,
+      "learning_rate": 4.8475850719203976e-06,
+      "loss": 0.3937799036502838,
+      "memory(GiB)": 54.25,
+      "step": 1464,
+      "token_acc": 0.8400970445522717,
+      "train_speed(iter/s)": 0.241809
+    },
+    {
+      "epoch": 0.4688,
+      "grad_norm": 0.6950441717947323,
+      "learning_rate": 4.8472817157750665e-06,
+      "loss": 0.4669187664985657,
+      "memory(GiB)": 54.25,
+      "step": 1465,
+      "token_acc": 0.8882193431756553,
+      "train_speed(iter/s)": 0.241815
+    },
+    {
+      "epoch": 0.46912,
+      "grad_norm": 0.6286104048099016,
+      "learning_rate": 4.846978067551245e-06,
+      "loss": 0.3690120577812195,
+      "memory(GiB)": 54.25,
+      "step": 1466,
+      "token_acc": 0.8618996798292423,
+      "train_speed(iter/s)": 0.241806
+    },
+    {
+      "epoch": 0.46944,
+      "grad_norm": 0.6379902047758267,
+      "learning_rate": 4.846674127286718e-06,
+      "loss": 0.37685227394104004,
+      "memory(GiB)": 54.25,
+      "step": 1467,
+      "token_acc": 0.8419886003799874,
+      "train_speed(iter/s)": 0.241809
+    },
+    {
+      "epoch": 0.46976,
+      "grad_norm": 0.667203562243937,
+      "learning_rate": 4.8463698950193035e-06,
+      "loss": 0.41773244738578796,
+      "memory(GiB)": 54.25,
+      "step": 1468,
+      "token_acc": 0.9384277075316108,
+      "train_speed(iter/s)": 0.241803
+    },
+    {
+      "epoch": 0.47008,
+      "grad_norm": 0.6235944122375147,
+      "learning_rate": 4.84606537078686e-06,
+      "loss": 0.34197184443473816,
+      "memory(GiB)": 54.25,
+      "step": 1469,
+      "token_acc": 0.8976997578692494,
+      "train_speed(iter/s)": 0.241802
+    },
+    {
+      "epoch": 0.4704,
+      "grad_norm": 0.6159679808956801,
+      "learning_rate": 4.845760554627279e-06,
+      "loss": 0.365743488073349,
+      "memory(GiB)": 54.25,
+      "step": 1470,
+      "token_acc": 0.9079391891891891,
+      "train_speed(iter/s)": 0.241801
+    },
+    {
+      "epoch": 0.47072,
+      "grad_norm": 0.6544436873052003,
+      "learning_rate": 4.84545544657849e-06,
+      "loss": 0.3941645622253418,
+      "memory(GiB)": 54.25,
+      "step": 1471,
+      "token_acc": 0.8896401835305482,
+      "train_speed(iter/s)": 0.241804
+    },
+    {
+      "epoch": 0.47104,
+      "grad_norm": 0.606961454974234,
+      "learning_rate": 4.845150046678457e-06,
+      "loss": 0.36063116788864136,
+      "memory(GiB)": 54.25,
+      "step": 1472,
+      "token_acc": 0.8695852534562212,
+      "train_speed(iter/s)": 0.241802
+    },
+    {
+      "epoch": 0.47136,
+      "grad_norm": 0.6603971529411751,
+      "learning_rate": 4.844844354965184e-06,
+      "loss": 0.41867026686668396,
+      "memory(GiB)": 54.25,
+      "step": 1473,
+      "token_acc": 0.8959276018099548,
+      "train_speed(iter/s)": 0.241785
+    },
+    {
+      "epoch": 0.47168,
+      "grad_norm": 0.6329646160652255,
+      "learning_rate": 4.844538371476708e-06,
+      "loss": 0.4201732575893402,
+      "memory(GiB)": 54.25,
+      "step": 1474,
+      "token_acc": 0.909328968903437,
+      "train_speed(iter/s)": 0.241774
+    },
+    {
+      "epoch": 0.472,
+      "grad_norm": 0.6019775292480608,
+      "learning_rate": 4.8442320962511034e-06,
+      "loss": 0.36481499671936035,
+      "memory(GiB)": 54.25,
+      "step": 1475,
+      "token_acc": 0.9222542163718634,
+      "train_speed(iter/s)": 0.241775
+    },
+    {
+      "epoch": 0.47232,
+      "grad_norm": 0.6941887679680937,
+      "learning_rate": 4.84392552932648e-06,
+      "loss": 0.4066670835018158,
+      "memory(GiB)": 54.25,
+      "step": 1476,
+      "token_acc": 0.8852320675105485,
+      "train_speed(iter/s)": 0.241771
+    },
+    {
+      "epoch": 0.47264,
+      "grad_norm": 0.6412840439059975,
+      "learning_rate": 4.843618670740986e-06,
+      "loss": 0.30425935983657837,
+      "memory(GiB)": 54.25,
+      "step": 1477,
+      "token_acc": 0.9144320578487496,
+      "train_speed(iter/s)": 0.241769
+    },
+    {
+      "epoch": 0.47296,
+      "grad_norm": 0.6645101114657694,
+      "learning_rate": 4.843311520532804e-06,
+      "loss": 0.39848119020462036,
+      "memory(GiB)": 54.25,
+      "step": 1478,
+      "token_acc": 0.9406257698940625,
+      "train_speed(iter/s)": 0.241769
+    },
+    {
+      "epoch": 0.47328,
+      "grad_norm": 0.6360468398863378,
+      "learning_rate": 4.843004078740154e-06,
+      "loss": 0.39256346225738525,
+      "memory(GiB)": 54.25,
+      "step": 1479,
+      "token_acc": 0.8783116299955096,
+      "train_speed(iter/s)": 0.241773
+    },
+    {
+      "epoch": 0.4736,
+      "grad_norm": 0.7308225363677872,
+      "learning_rate": 4.842696345401291e-06,
+      "loss": 0.45674777030944824,
+      "memory(GiB)": 54.25,
+      "step": 1480,
+      "token_acc": 0.9075882794891059,
+      "train_speed(iter/s)": 0.241772
+    },
+    {
+      "epoch": 0.47392,
+      "grad_norm": 0.6950063504024618,
+      "learning_rate": 4.842388320554507e-06,
+      "loss": 0.46128541231155396,
+      "memory(GiB)": 54.25,
+      "step": 1481,
+      "token_acc": 0.8768042967438738,
+      "train_speed(iter/s)": 0.241775
+    },
+    {
+      "epoch": 0.47424,
+      "grad_norm": 0.7479808257057875,
+      "learning_rate": 4.842080004238132e-06,
+      "loss": 0.4864889979362488,
+      "memory(GiB)": 54.25,
+      "step": 1482,
+      "token_acc": 0.8570251339101772,
+      "train_speed(iter/s)": 0.241779
+    },
+    {
+      "epoch": 0.47456,
+      "grad_norm": 0.6565587099321127,
+      "learning_rate": 4.8417713964905294e-06,
+      "loss": 0.3807644844055176,
+      "memory(GiB)": 54.25,
+      "step": 1483,
+      "token_acc": 0.8772038354469532,
+      "train_speed(iter/s)": 0.241783
+    },
+    {
+      "epoch": 0.47488,
+      "grad_norm": 0.7543911231574814,
+      "learning_rate": 4.8414624973501e-06,
+      "loss": 0.38640326261520386,
+      "memory(GiB)": 54.25,
+      "step": 1484,
+      "token_acc": 0.925770841263799,
+      "train_speed(iter/s)": 0.241774
+    },
+    {
+      "epoch": 0.4752,
+      "grad_norm": 0.6708951466646187,
+      "learning_rate": 4.841153306855281e-06,
+      "loss": 0.36758190393447876,
+      "memory(GiB)": 54.25,
+      "step": 1485,
+      "token_acc": 0.8763216917654598,
+      "train_speed(iter/s)": 0.241765
+    },
+    {
+      "epoch": 0.47552,
+      "grad_norm": 0.5844437826967844,
+      "learning_rate": 4.840843825044546e-06,
+      "loss": 0.37181928753852844,
+      "memory(GiB)": 54.25,
+      "step": 1486,
+      "token_acc": 0.9137651821862348,
+      "train_speed(iter/s)": 0.241756
+    },
+    {
+      "epoch": 0.47584,
+      "grad_norm": 0.6359591727994109,
+      "learning_rate": 4.840534051956404e-06,
+      "loss": 0.2721696197986603,
+      "memory(GiB)": 54.25,
+      "step": 1487,
+      "token_acc": 0.9221751872354282,
+      "train_speed(iter/s)": 0.241762
+    },
+    {
+      "epoch": 0.47616,
+      "grad_norm": 0.5697667248037063,
+      "learning_rate": 4.840223987629402e-06,
+      "loss": 0.3613870143890381,
+      "memory(GiB)": 54.25,
+      "step": 1488,
+      "token_acc": 0.8189181371131038,
+      "train_speed(iter/s)": 0.24175
+    },
+    {
+      "epoch": 0.47648,
+      "grad_norm": 0.6689593299164841,
+      "learning_rate": 4.839913632102121e-06,
+      "loss": 0.38320374488830566,
+      "memory(GiB)": 54.25,
+      "step": 1489,
+      "token_acc": 0.8707326428845417,
+      "train_speed(iter/s)": 0.241758
+    },
+    {
+      "epoch": 0.4768,
+      "grad_norm": 0.696072179864704,
+      "learning_rate": 4.839602985413181e-06,
+      "loss": 0.47587648034095764,
+      "memory(GiB)": 54.25,
+      "step": 1490,
+      "token_acc": 0.8665058303176518,
+      "train_speed(iter/s)": 0.241759
+    },
+    {
+      "epoch": 0.47712,
+      "grad_norm": 0.7018430495647888,
+      "learning_rate": 4.839292047601234e-06,
+      "loss": 0.36884844303131104,
+      "memory(GiB)": 54.25,
+      "step": 1491,
+      "token_acc": 0.8866194247603167,
+      "train_speed(iter/s)": 0.241766
+    },
+    {
+      "epoch": 0.47744,
+      "grad_norm": 0.6754145978653285,
+      "learning_rate": 4.838980818704974e-06,
+      "loss": 0.3894452154636383,
+      "memory(GiB)": 54.25,
+      "step": 1492,
+      "token_acc": 0.8992069583013559,
+      "train_speed(iter/s)": 0.241773
+    },
+    {
+      "epoch": 0.47776,
+      "grad_norm": 0.6686512740450504,
+      "learning_rate": 4.838669298763125e-06,
+      "loss": 0.4050920009613037,
+      "memory(GiB)": 54.25,
+      "step": 1493,
+      "token_acc": 0.9028930817610062,
+      "train_speed(iter/s)": 0.241775
+    },
+    {
+      "epoch": 0.47808,
+      "grad_norm": 0.730996499552223,
+      "learning_rate": 4.8383574878144524e-06,
+      "loss": 0.43009987473487854,
+      "memory(GiB)": 54.25,
+      "step": 1494,
+      "token_acc": 0.8817619783616693,
+      "train_speed(iter/s)": 0.241777
+    },
+    {
+      "epoch": 0.4784,
+      "grad_norm": 0.6771846406261665,
+      "learning_rate": 4.838045385897755e-06,
+      "loss": 0.4533268213272095,
+      "memory(GiB)": 54.25,
+      "step": 1495,
+      "token_acc": 0.934375,
+      "train_speed(iter/s)": 0.241778
+    },
+    {
+      "epoch": 0.47872,
+      "grad_norm": 0.6176501871414141,
+      "learning_rate": 4.837732993051868e-06,
+      "loss": 0.36898577213287354,
+      "memory(GiB)": 54.25,
+      "step": 1496,
+      "token_acc": 0.8668032786885246,
+      "train_speed(iter/s)": 0.241773
+    },
+    {
+      "epoch": 0.47904,
+      "grad_norm": 0.6444717398866658,
+      "learning_rate": 4.837420309315663e-06,
+      "loss": 0.4033448100090027,
+      "memory(GiB)": 54.25,
+      "step": 1497,
+      "token_acc": 0.8979766315189512,
+      "train_speed(iter/s)": 0.241761
+    },
+    {
+      "epoch": 0.47936,
+      "grad_norm": 0.635695026558458,
+      "learning_rate": 4.83710733472805e-06,
+      "loss": 0.353000283241272,
+      "memory(GiB)": 54.25,
+      "step": 1498,
+      "token_acc": 0.8586702305379218,
+      "train_speed(iter/s)": 0.241763
+    },
+    {
+      "epoch": 0.47968,
+      "grad_norm": 0.6512841613292042,
+      "learning_rate": 4.836794069327971e-06,
+      "loss": 0.32141709327697754,
+      "memory(GiB)": 54.25,
+      "step": 1499,
+      "token_acc": 0.9395348837209302,
+      "train_speed(iter/s)": 0.241761
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.6676330768676315,
+      "learning_rate": 4.8364805131544075e-06,
+      "loss": 0.4188171625137329,
+      "memory(GiB)": 54.25,
+      "step": 1500,
+      "token_acc": 0.8808653260207191,
+      "train_speed(iter/s)": 0.241762
+    },
+    {
+      "epoch": 0.48032,
+      "grad_norm": 0.6493968981066774,
+      "learning_rate": 4.836166666246376e-06,
+      "loss": 0.40889984369277954,
+      "memory(GiB)": 54.25,
+      "step": 1501,
+      "token_acc": 0.9105992582471208,
+      "train_speed(iter/s)": 0.241755
+    },
+    {
+      "epoch": 0.48064,
+      "grad_norm": 0.6191748725204426,
+      "learning_rate": 4.835852528642929e-06,
+      "loss": 0.3153862953186035,
+      "memory(GiB)": 54.25,
+      "step": 1502,
+      "token_acc": 0.9281183932346723,
+      "train_speed(iter/s)": 0.241761
+    },
+    {
+      "epoch": 0.48096,
+      "grad_norm": 0.7009957365600362,
+      "learning_rate": 4.835538100383157e-06,
+      "loss": 0.39617669582366943,
+      "memory(GiB)": 54.25,
+      "step": 1503,
+      "token_acc": 0.9291942797349145,
+      "train_speed(iter/s)": 0.241767
+    },
+    {
+      "epoch": 0.48128,
+      "grad_norm": 0.601580433358991,
+      "learning_rate": 4.8352233815061825e-06,
+      "loss": 0.3203248381614685,
+      "memory(GiB)": 54.25,
+      "step": 1504,
+      "token_acc": 0.9537296690970275,
+      "train_speed(iter/s)": 0.241772
+    },
+    {
+      "epoch": 0.4816,
+      "grad_norm": 0.6310861600781692,
+      "learning_rate": 4.834908372051169e-06,
+      "loss": 0.35158130526542664,
+      "memory(GiB)": 54.25,
+      "step": 1505,
+      "token_acc": 0.9183006535947712,
+      "train_speed(iter/s)": 0.241774
+    },
+    {
+      "epoch": 0.48192,
+      "grad_norm": 0.5974947379680431,
+      "learning_rate": 4.834593072057313e-06,
+      "loss": 0.36691075563430786,
+      "memory(GiB)": 54.25,
+      "step": 1506,
+      "token_acc": 0.8986948415164698,
+      "train_speed(iter/s)": 0.241753
+    },
+    {
+      "epoch": 0.48224,
+      "grad_norm": 0.6786729285566938,
+      "learning_rate": 4.834277481563849e-06,
+      "loss": 0.3334679901599884,
+      "memory(GiB)": 54.25,
+      "step": 1507,
+      "token_acc": 0.8978925497180172,
+      "train_speed(iter/s)": 0.241761
+    },
+    {
+      "epoch": 0.48256,
+      "grad_norm": 0.6447024176817246,
+      "learning_rate": 4.833961600610045e-06,
+      "loss": 0.32462602853775024,
+      "memory(GiB)": 54.25,
+      "step": 1508,
+      "token_acc": 0.9096146921137919,
+      "train_speed(iter/s)": 0.241767
+    },
+    {
+      "epoch": 0.48288,
+      "grad_norm": 0.6625293392031373,
+      "learning_rate": 4.8336454292352085e-06,
+      "loss": 0.326140820980072,
+      "memory(GiB)": 54.25,
+      "step": 1509,
+      "token_acc": 0.8853059728838403,
+      "train_speed(iter/s)": 0.241776
+    },
+    {
+      "epoch": 0.4832,
+      "grad_norm": 0.6971449673108976,
+      "learning_rate": 4.833328967478682e-06,
+      "loss": 0.3713795840740204,
+      "memory(GiB)": 54.25,
+      "step": 1510,
+      "token_acc": 0.8594958822061393,
+      "train_speed(iter/s)": 0.241774
+    },
+    {
+      "epoch": 0.48352,
+      "grad_norm": 0.640245658212126,
+      "learning_rate": 4.833012215379841e-06,
+      "loss": 0.39579901099205017,
+      "memory(GiB)": 54.25,
+      "step": 1511,
+      "token_acc": 0.8377710678012626,
+      "train_speed(iter/s)": 0.241761
+    },
+    {
+      "epoch": 0.48384,
+      "grad_norm": 0.6696428885912792,
+      "learning_rate": 4.832695172978102e-06,
+      "loss": 0.3933345079421997,
+      "memory(GiB)": 54.25,
+      "step": 1512,
+      "token_acc": 0.8623234916559692,
+      "train_speed(iter/s)": 0.24176
+    },
+    {
+      "epoch": 0.48416,
+      "grad_norm": 0.6356316518681527,
+      "learning_rate": 4.832377840312916e-06,
+      "loss": 0.33851271867752075,
+      "memory(GiB)": 54.25,
+      "step": 1513,
+      "token_acc": 0.9359104781281791,
+      "train_speed(iter/s)": 0.241763
+    },
+    {
+      "epoch": 0.48448,
+      "grad_norm": 0.6559001420913474,
+      "learning_rate": 4.832060217423767e-06,
+      "loss": 0.36699724197387695,
+      "memory(GiB)": 54.25,
+      "step": 1514,
+      "token_acc": 0.9138913891389139,
+      "train_speed(iter/s)": 0.24176
+    },
+    {
+      "epoch": 0.4848,
+      "grad_norm": 0.6383498012737833,
+      "learning_rate": 4.8317423043501795e-06,
+      "loss": 0.377672016620636,
+      "memory(GiB)": 54.25,
+      "step": 1515,
+      "token_acc": 0.9257241891557316,
+      "train_speed(iter/s)": 0.241764
+    },
+    {
+      "epoch": 0.48512,
+      "grad_norm": 0.6706135025753575,
+      "learning_rate": 4.831424101131713e-06,
+      "loss": 0.44356995820999146,
+      "memory(GiB)": 54.25,
+      "step": 1516,
+      "token_acc": 0.870640904806786,
+      "train_speed(iter/s)": 0.241766
+    },
+    {
+      "epoch": 0.48544,
+      "grad_norm": 0.7188096196737824,
+      "learning_rate": 4.83110560780796e-06,
+      "loss": 0.3727024793624878,
+      "memory(GiB)": 54.25,
+      "step": 1517,
+      "token_acc": 0.9497041420118343,
+      "train_speed(iter/s)": 0.241769
+    },
+    {
+      "epoch": 0.48576,
+      "grad_norm": 0.6623039055080492,
+      "learning_rate": 4.830786824418554e-06,
+      "loss": 0.3090604543685913,
+      "memory(GiB)": 54.25,
+      "step": 1518,
+      "token_acc": 0.9146948941469489,
+      "train_speed(iter/s)": 0.241777
+    },
+    {
+      "epoch": 0.48608,
+      "grad_norm": 0.6278899077648262,
+      "learning_rate": 4.83046775100316e-06,
+      "loss": 0.35559195280075073,
+      "memory(GiB)": 54.25,
+      "step": 1519,
+      "token_acc": 0.8754098360655738,
+      "train_speed(iter/s)": 0.241785
+    },
+    {
+      "epoch": 0.4864,
+      "grad_norm": 0.6143198708057166,
+      "learning_rate": 4.830148387601482e-06,
+      "loss": 0.35513895750045776,
+      "memory(GiB)": 54.25,
+      "step": 1520,
+      "token_acc": 0.8890905790524596,
+      "train_speed(iter/s)": 0.241784
+    },
+    {
+      "epoch": 0.48672,
+      "grad_norm": 0.6661181904411209,
+      "learning_rate": 4.829828734253259e-06,
+      "loss": 0.4068344831466675,
+      "memory(GiB)": 54.25,
+      "step": 1521,
+      "token_acc": 0.8639519609682867,
+      "train_speed(iter/s)": 0.241791
+    },
+    {
+      "epoch": 0.48704,
+      "grad_norm": 0.6435077737521738,
+      "learning_rate": 4.8295087909982664e-06,
+      "loss": 0.44284987449645996,
+      "memory(GiB)": 54.25,
+      "step": 1522,
+      "token_acc": 0.9510751012776566,
+      "train_speed(iter/s)": 0.241786
+    },
+    {
+      "epoch": 0.48736,
+      "grad_norm": 0.6251708416823181,
+      "learning_rate": 4.829188557876317e-06,
+      "loss": 0.3747749626636505,
+      "memory(GiB)": 54.25,
+      "step": 1523,
+      "token_acc": 0.8716991197652707,
+      "train_speed(iter/s)": 0.241785
+    },
+    {
+      "epoch": 0.48768,
+      "grad_norm": 0.6960858505963365,
+      "learning_rate": 4.828868034927256e-06,
+      "loss": 0.46793705224990845,
+      "memory(GiB)": 54.25,
+      "step": 1524,
+      "token_acc": 0.8477357252242398,
+      "train_speed(iter/s)": 0.241788
+    },
+    {
+      "epoch": 0.488,
+      "grad_norm": 0.6032279459356941,
+      "learning_rate": 4.828547222190967e-06,
+      "loss": 0.36403191089630127,
+      "memory(GiB)": 54.25,
+      "step": 1525,
+      "token_acc": 0.9422761561167596,
+      "train_speed(iter/s)": 0.241782
+    },
+    {
+      "epoch": 0.48832,
+      "grad_norm": 0.716463648036825,
+      "learning_rate": 4.828226119707372e-06,
+      "loss": 0.3849448561668396,
+      "memory(GiB)": 54.25,
+      "step": 1526,
+      "token_acc": 0.8573236317621006,
+      "train_speed(iter/s)": 0.241783
+    },
+    {
+      "epoch": 0.48864,
+      "grad_norm": 0.6977974878718189,
+      "learning_rate": 4.827904727516424e-06,
+      "loss": 0.4114413559436798,
+      "memory(GiB)": 54.25,
+      "step": 1527,
+      "token_acc": 0.8507884208048953,
+      "train_speed(iter/s)": 0.241788
+    },
+    {
+      "epoch": 0.48896,
+      "grad_norm": 0.6222228787187861,
+      "learning_rate": 4.827583045658116e-06,
+      "loss": 0.40755054354667664,
+      "memory(GiB)": 54.25,
+      "step": 1528,
+      "token_acc": 0.9228222636043865,
+      "train_speed(iter/s)": 0.241787
+    },
+    {
+      "epoch": 0.48928,
+      "grad_norm": 1.1219248675523057,
+      "learning_rate": 4.827261074172476e-06,
+      "loss": 0.3799545466899872,
+      "memory(GiB)": 54.25,
+      "step": 1529,
+      "token_acc": 0.9113880235375562,
+      "train_speed(iter/s)": 0.241791
+    },
+    {
+      "epoch": 0.4896,
+      "grad_norm": 0.6492501607014584,
+      "learning_rate": 4.826938813099567e-06,
+      "loss": 0.35900962352752686,
+      "memory(GiB)": 54.25,
+      "step": 1530,
+      "token_acc": 0.8904252543699452,
+      "train_speed(iter/s)": 0.241797
+    },
+    {
+      "epoch": 0.48992,
+      "grad_norm": 0.6670911967974511,
+      "learning_rate": 4.826616262479489e-06,
+      "loss": 0.3292381763458252,
+      "memory(GiB)": 54.25,
+      "step": 1531,
+      "token_acc": 0.9409282700421941,
+      "train_speed(iter/s)": 0.241804
+    },
+    {
+      "epoch": 0.49024,
+      "grad_norm": 0.67262318613554,
+      "learning_rate": 4.8262934223523775e-06,
+      "loss": 0.42597293853759766,
+      "memory(GiB)": 54.25,
+      "step": 1532,
+      "token_acc": 0.8135292627311882,
+      "train_speed(iter/s)": 0.241806
+    },
+    {
+      "epoch": 0.49056,
+      "grad_norm": 0.6446637664265896,
+      "learning_rate": 4.825970292758405e-06,
+      "loss": 0.418919175863266,
+      "memory(GiB)": 54.25,
+      "step": 1533,
+      "token_acc": 0.8364470665355621,
+      "train_speed(iter/s)": 0.241798
+    },
+    {
+      "epoch": 0.49088,
+      "grad_norm": 0.6174944583522314,
+      "learning_rate": 4.825646873737779e-06,
+      "loss": 0.3500853180885315,
+      "memory(GiB)": 54.25,
+      "step": 1534,
+      "token_acc": 0.9029905178701677,
+      "train_speed(iter/s)": 0.241802
+    },
+    {
+      "epoch": 0.4912,
+      "grad_norm": 0.695069199117932,
+      "learning_rate": 4.825323165330744e-06,
+      "loss": 0.4295937716960907,
+      "memory(GiB)": 54.25,
+      "step": 1535,
+      "token_acc": 0.9277797640328924,
+      "train_speed(iter/s)": 0.241804
+    },
+    {
+      "epoch": 0.49152,
+      "grad_norm": 0.695473573788252,
+      "learning_rate": 4.8249991675775795e-06,
+      "loss": 0.4199369549751282,
+      "memory(GiB)": 54.25,
+      "step": 1536,
+      "token_acc": 0.9023941068139963,
+      "train_speed(iter/s)": 0.241812
+    },
+    {
+      "epoch": 0.49184,
+      "grad_norm": 0.667972055900042,
+      "learning_rate": 4.8246748805186e-06,
+      "loss": 0.3536589741706848,
+      "memory(GiB)": 54.25,
+      "step": 1537,
+      "token_acc": 0.8998870907038012,
+      "train_speed(iter/s)": 0.241812
+    },
+    {
+      "epoch": 0.49216,
+      "grad_norm": 0.671943236216822,
+      "learning_rate": 4.824350304194161e-06,
+      "loss": 0.503467321395874,
+      "memory(GiB)": 54.25,
+      "step": 1538,
+      "token_acc": 0.8883196721311475,
+      "train_speed(iter/s)": 0.24181
+    },
+    {
+      "epoch": 0.49248,
+      "grad_norm": 0.6682744042843137,
+      "learning_rate": 4.824025438644646e-06,
+      "loss": 0.3976234495639801,
+      "memory(GiB)": 54.25,
+      "step": 1539,
+      "token_acc": 0.8398382204246714,
+      "train_speed(iter/s)": 0.24181
+    },
+    {
+      "epoch": 0.4928,
+      "grad_norm": 0.733585513358462,
+      "learning_rate": 4.823700283910482e-06,
+      "loss": 0.46138644218444824,
+      "memory(GiB)": 54.25,
+      "step": 1540,
+      "token_acc": 0.8795215038450583,
+      "train_speed(iter/s)": 0.241812
+    },
+    {
+      "epoch": 0.49312,
+      "grad_norm": 0.6802333660508275,
+      "learning_rate": 4.823374840032128e-06,
+      "loss": 0.34198933839797974,
+      "memory(GiB)": 54.25,
+      "step": 1541,
+      "token_acc": 0.8833333333333333,
+      "train_speed(iter/s)": 0.24182
+    },
+    {
+      "epoch": 0.49344,
+      "grad_norm": 0.6577572612007987,
+      "learning_rate": 4.823049107050079e-06,
+      "loss": 0.42427170276641846,
+      "memory(GiB)": 54.25,
+      "step": 1542,
+      "token_acc": 0.8414872798434442,
+      "train_speed(iter/s)": 0.241816
+    },
+    {
+      "epoch": 0.49376,
+      "grad_norm": 0.6482692286676788,
+      "learning_rate": 4.822723085004868e-06,
+      "loss": 0.3193492889404297,
+      "memory(GiB)": 54.25,
+      "step": 1543,
+      "token_acc": 0.9561978545887961,
+      "train_speed(iter/s)": 0.24182
+    },
+    {
+      "epoch": 0.49408,
+      "grad_norm": 0.7534609808855515,
+      "learning_rate": 4.822396773937061e-06,
+      "loss": 0.4268062114715576,
+      "memory(GiB)": 54.25,
+      "step": 1544,
+      "token_acc": 0.888268156424581,
+      "train_speed(iter/s)": 0.241823
+    },
+    {
+      "epoch": 0.4944,
+      "grad_norm": 0.659343628102621,
+      "learning_rate": 4.8220701738872645e-06,
+      "loss": 0.3726666569709778,
+      "memory(GiB)": 54.25,
+      "step": 1545,
+      "token_acc": 0.8811447034387261,
+      "train_speed(iter/s)": 0.241829
+    },
+    {
+      "epoch": 0.49472,
+      "grad_norm": 0.6091462481234744,
+      "learning_rate": 4.821743284896117e-06,
+      "loss": 0.35635942220687866,
+      "memory(GiB)": 54.25,
+      "step": 1546,
+      "token_acc": 0.8236594803758983,
+      "train_speed(iter/s)": 0.241817
+    },
+    {
+      "epoch": 0.49504,
+      "grad_norm": 0.6397814082943194,
+      "learning_rate": 4.821416107004293e-06,
+      "loss": 0.40842103958129883,
+      "memory(GiB)": 54.25,
+      "step": 1547,
+      "token_acc": 0.8251144769284959,
+      "train_speed(iter/s)": 0.241817
+    },
+    {
+      "epoch": 0.49536,
+      "grad_norm": 0.6451523341984937,
+      "learning_rate": 4.821088640252505e-06,
+      "loss": 0.3273735046386719,
+      "memory(GiB)": 54.25,
+      "step": 1548,
+      "token_acc": 0.8848177376925968,
+      "train_speed(iter/s)": 0.241823
+    },
+    {
+      "epoch": 0.49568,
+      "grad_norm": 0.6636007048450937,
+      "learning_rate": 4.820760884681501e-06,
+      "loss": 0.3489418029785156,
+      "memory(GiB)": 54.25,
+      "step": 1549,
+      "token_acc": 0.8920599039276632,
+      "train_speed(iter/s)": 0.24183
+    },
+    {
+      "epoch": 0.496,
+      "grad_norm": 0.57434845545398,
+      "learning_rate": 4.820432840332064e-06,
+      "loss": 0.3211090862751007,
+      "memory(GiB)": 54.25,
+      "step": 1550,
+      "token_acc": 0.8776748642606196,
+      "train_speed(iter/s)": 0.241832
+    },
+    {
+      "epoch": 0.49632,
+      "grad_norm": 0.6523802183872731,
+      "learning_rate": 4.820104507245014e-06,
+      "loss": 0.3728730082511902,
+      "memory(GiB)": 54.25,
+      "step": 1551,
+      "token_acc": 0.9095607235142119,
+      "train_speed(iter/s)": 0.241831
+    },
+    {
+      "epoch": 0.49664,
+      "grad_norm": 0.7767849702675478,
+      "learning_rate": 4.819775885461206e-06,
+      "loss": 0.44868987798690796,
+      "memory(GiB)": 54.25,
+      "step": 1552,
+      "token_acc": 0.8925809223718132,
+      "train_speed(iter/s)": 0.241834
+    },
+    {
+      "epoch": 0.49696,
+      "grad_norm": 0.6774921582299002,
+      "learning_rate": 4.81944697502153e-06,
+      "loss": 0.46661466360092163,
+      "memory(GiB)": 54.25,
+      "step": 1553,
+      "token_acc": 0.8666044776119403,
+      "train_speed(iter/s)": 0.241837
+    },
+    {
+      "epoch": 0.49728,
+      "grad_norm": 0.6358405427571643,
+      "learning_rate": 4.819117775966915e-06,
+      "loss": 0.38544756174087524,
+      "memory(GiB)": 54.25,
+      "step": 1554,
+      "token_acc": 0.817628298057408,
+      "train_speed(iter/s)": 0.241837
+    },
+    {
+      "epoch": 0.4976,
+      "grad_norm": 0.5984621377904535,
+      "learning_rate": 4.818788288338323e-06,
+      "loss": 0.4033125638961792,
+      "memory(GiB)": 54.25,
+      "step": 1555,
+      "token_acc": 0.8910472972972973,
+      "train_speed(iter/s)": 0.241838
+    },
+    {
+      "epoch": 0.49792,
+      "grad_norm": 0.8161557551222747,
+      "learning_rate": 4.818458512176754e-06,
+      "loss": 0.3106280565261841,
+      "memory(GiB)": 54.25,
+      "step": 1556,
+      "token_acc": 0.8919198895027625,
+      "train_speed(iter/s)": 0.241836
+    },
+    {
+      "epoch": 0.49824,
+      "grad_norm": 0.6101679214362422,
+      "learning_rate": 4.818128447523242e-06,
+      "loss": 0.3878135681152344,
+      "memory(GiB)": 54.25,
+      "step": 1557,
+      "token_acc": 0.9247558874210224,
+      "train_speed(iter/s)": 0.241831
+    },
+    {
+      "epoch": 0.49856,
+      "grad_norm": 0.6335982132060257,
+      "learning_rate": 4.8177980944188586e-06,
+      "loss": 0.33754998445510864,
+      "memory(GiB)": 54.25,
+      "step": 1558,
+      "token_acc": 0.9201435621354868,
+      "train_speed(iter/s)": 0.24183
+    },
+    {
+      "epoch": 0.49888,
+      "grad_norm": 0.673952288678112,
+      "learning_rate": 4.81746745290471e-06,
+      "loss": 0.33724695444107056,
+      "memory(GiB)": 54.25,
+      "step": 1559,
+      "token_acc": 0.9014577259475218,
+      "train_speed(iter/s)": 0.241828
+    },
+    {
+      "epoch": 0.4992,
+      "grad_norm": 0.7091780650342607,
+      "learning_rate": 4.8171365230219395e-06,
+      "loss": 0.43171244859695435,
+      "memory(GiB)": 54.25,
+      "step": 1560,
+      "token_acc": 0.8598097289535093,
+      "train_speed(iter/s)": 0.241832
+    },
+    {
+      "epoch": 0.49952,
+      "grad_norm": 0.6070920147110431,
+      "learning_rate": 4.8168053048117235e-06,
+      "loss": 0.4040122628211975,
+      "memory(GiB)": 54.25,
+      "step": 1561,
+      "token_acc": 0.8661281015579919,
+      "train_speed(iter/s)": 0.241837
+    },
+    {
+      "epoch": 0.49984,
+      "grad_norm": 0.6578992226751443,
+      "learning_rate": 4.81647379831528e-06,
+      "loss": 0.4357371926307678,
+      "memory(GiB)": 54.25,
+      "step": 1562,
+      "token_acc": 0.8640749931072512,
+      "train_speed(iter/s)": 0.241839
+    },
+    {
+      "epoch": 0.50016,
+      "grad_norm": 0.6254833198102008,
+      "learning_rate": 4.816142003573855e-06,
+      "loss": 0.33640122413635254,
+      "memory(GiB)": 54.25,
+      "step": 1563,
+      "token_acc": 0.9168463934819076,
+      "train_speed(iter/s)": 0.241838
+    },
+    {
+      "epoch": 0.50048,
+      "grad_norm": 0.6241395083808589,
+      "learning_rate": 4.815809920628738e-06,
+      "loss": 0.39594364166259766,
+      "memory(GiB)": 54.25,
+      "step": 1564,
+      "token_acc": 0.9241603466955579,
+      "train_speed(iter/s)": 0.241841
+    },
+    {
+      "epoch": 0.5008,
+      "grad_norm": 0.6079885031096157,
+      "learning_rate": 4.815477549521249e-06,
+      "loss": 0.3507034182548523,
+      "memory(GiB)": 54.25,
+      "step": 1565,
+      "token_acc": 0.8901705115346038,
+      "train_speed(iter/s)": 0.241838
+    },
+    {
+      "epoch": 0.50112,
+      "grad_norm": 0.6896896912006278,
+      "learning_rate": 4.815144890292746e-06,
+      "loss": 0.4295618236064911,
+      "memory(GiB)": 54.25,
+      "step": 1566,
+      "token_acc": 0.8753221010901883,
+      "train_speed(iter/s)": 0.241836
+    },
+    {
+      "epoch": 0.50144,
+      "grad_norm": 0.6660443304133443,
+      "learning_rate": 4.814811942984625e-06,
+      "loss": 0.34144657850265503,
+      "memory(GiB)": 54.25,
+      "step": 1567,
+      "token_acc": 0.9249692496924969,
+      "train_speed(iter/s)": 0.241841
+    },
+    {
+      "epoch": 0.50176,
+      "grad_norm": 0.6401540881970936,
+      "learning_rate": 4.814478707638312e-06,
+      "loss": 0.43878406286239624,
+      "memory(GiB)": 54.25,
+      "step": 1568,
+      "token_acc": 0.866039654295882,
+      "train_speed(iter/s)": 0.241844
+    },
+    {
+      "epoch": 0.50208,
+      "grad_norm": 0.5938266611309596,
+      "learning_rate": 4.8141451842952755e-06,
+      "loss": 0.3193020224571228,
+      "memory(GiB)": 54.25,
+      "step": 1569,
+      "token_acc": 0.9028850060950833,
+      "train_speed(iter/s)": 0.241836
+    },
+    {
+      "epoch": 0.5024,
+      "grad_norm": 0.6323854832513351,
+      "learning_rate": 4.813811372997014e-06,
+      "loss": 0.4334718883037567,
+      "memory(GiB)": 54.25,
+      "step": 1570,
+      "token_acc": 0.8531027466937945,
+      "train_speed(iter/s)": 0.24184
+    },
+    {
+      "epoch": 0.50272,
+      "grad_norm": 0.6937280734717718,
+      "learning_rate": 4.813477273785066e-06,
+      "loss": 0.4528685212135315,
+      "memory(GiB)": 54.25,
+      "step": 1571,
+      "token_acc": 0.8383902906419675,
+      "train_speed(iter/s)": 0.241844
+    },
+    {
+      "epoch": 0.50304,
+      "grad_norm": 0.6868142779654376,
+      "learning_rate": 4.813142886701005e-06,
+      "loss": 0.3815188705921173,
+      "memory(GiB)": 54.25,
+      "step": 1572,
+      "token_acc": 0.9255981645362177,
+      "train_speed(iter/s)": 0.241851
+    },
+    {
+      "epoch": 0.50336,
+      "grad_norm": 0.6812174360971962,
+      "learning_rate": 4.812808211786438e-06,
+      "loss": 0.39587730169296265,
+      "memory(GiB)": 54.25,
+      "step": 1573,
+      "token_acc": 0.8877551020408163,
+      "train_speed(iter/s)": 0.241848
+    },
+    {
+      "epoch": 0.50368,
+      "grad_norm": 0.7953682821796039,
+      "learning_rate": 4.812473249083011e-06,
+      "loss": 0.41292816400527954,
+      "memory(GiB)": 54.25,
+      "step": 1574,
+      "token_acc": 0.916626036079961,
+      "train_speed(iter/s)": 0.241855
+    },
+    {
+      "epoch": 0.504,
+      "grad_norm": 0.6607210462240795,
+      "learning_rate": 4.8121379986324025e-06,
+      "loss": 0.44143953919410706,
+      "memory(GiB)": 54.25,
+      "step": 1575,
+      "token_acc": 0.8284191829484903,
+      "train_speed(iter/s)": 0.241857
+    },
+    {
+      "epoch": 0.50432,
+      "grad_norm": 0.6752927524693729,
+      "learning_rate": 4.81180246047633e-06,
+      "loss": 0.35833513736724854,
+      "memory(GiB)": 54.25,
+      "step": 1576,
+      "token_acc": 0.8459079283887468,
+      "train_speed(iter/s)": 0.241863
+    },
+    {
+      "epoch": 0.50464,
+      "grad_norm": 0.6307803202911265,
+      "learning_rate": 4.811466634656545e-06,
+      "loss": 0.3719581067562103,
+      "memory(GiB)": 54.25,
+      "step": 1577,
+      "token_acc": 0.8958999709217796,
+      "train_speed(iter/s)": 0.241859
+    },
+    {
+      "epoch": 0.50496,
+      "grad_norm": 0.6873395561472704,
+      "learning_rate": 4.811130521214836e-06,
+      "loss": 0.36361265182495117,
+      "memory(GiB)": 54.25,
+      "step": 1578,
+      "token_acc": 0.9124605678233438,
+      "train_speed(iter/s)": 0.24186
+    },
+    {
+      "epoch": 0.50528,
+      "grad_norm": 0.6626714323595104,
+      "learning_rate": 4.810794120193025e-06,
+      "loss": 0.3004828095436096,
+      "memory(GiB)": 54.25,
+      "step": 1579,
+      "token_acc": 0.889227421109902,
+      "train_speed(iter/s)": 0.241863
+    },
+    {
+      "epoch": 0.5056,
+      "grad_norm": 0.6859527977639291,
+      "learning_rate": 4.810457431632972e-06,
+      "loss": 0.3555012345314026,
+      "memory(GiB)": 54.25,
+      "step": 1580,
+      "token_acc": 0.8946188340807175,
+      "train_speed(iter/s)": 0.241866
+    },
+    {
+      "epoch": 0.50592,
+      "grad_norm": 0.6075685087727429,
+      "learning_rate": 4.810120455576572e-06,
+      "loss": 0.3691089153289795,
+      "memory(GiB)": 54.25,
+      "step": 1581,
+      "token_acc": 0.8935909980430529,
+      "train_speed(iter/s)": 0.24186
+    },
+    {
+      "epoch": 0.50624,
+      "grad_norm": 0.5997089655705168,
+      "learning_rate": 4.809783192065757e-06,
+      "loss": 0.35233819484710693,
+      "memory(GiB)": 54.25,
+      "step": 1582,
+      "token_acc": 0.9202635914332784,
+      "train_speed(iter/s)": 0.241854
+    },
+    {
+      "epoch": 0.50656,
+      "grad_norm": 0.6966341002165961,
+      "learning_rate": 4.809445641142492e-06,
+      "loss": 0.37033599615097046,
+      "memory(GiB)": 54.25,
+      "step": 1583,
+      "token_acc": 0.8956597983340641,
+      "train_speed(iter/s)": 0.24185
+    },
+    {
+      "epoch": 0.50688,
+      "grad_norm": 0.6407207307031189,
+      "learning_rate": 4.809107802848779e-06,
+      "loss": 0.34409695863723755,
+      "memory(GiB)": 54.25,
+      "step": 1584,
+      "token_acc": 0.8212417557425518,
+      "train_speed(iter/s)": 0.241854
+    },
+    {
+      "epoch": 0.5072,
+      "grad_norm": 0.6417287622534791,
+      "learning_rate": 4.808769677226657e-06,
+      "loss": 0.34822577238082886,
+      "memory(GiB)": 54.25,
+      "step": 1585,
+      "token_acc": 0.9421579532814238,
+      "train_speed(iter/s)": 0.241842
+    },
+    {
+      "epoch": 0.50752,
+      "grad_norm": 0.6336346888181467,
+      "learning_rate": 4.808431264318201e-06,
+      "loss": 0.3390272855758667,
+      "memory(GiB)": 54.25,
+      "step": 1586,
+      "token_acc": 0.9395267309377738,
+      "train_speed(iter/s)": 0.241843
+    },
+    {
+      "epoch": 0.50784,
+      "grad_norm": 0.6545563089850327,
+      "learning_rate": 4.808092564165518e-06,
+      "loss": 0.35041338205337524,
+      "memory(GiB)": 54.25,
+      "step": 1587,
+      "token_acc": 0.9076406381192276,
+      "train_speed(iter/s)": 0.241843
+    },
+    {
+      "epoch": 0.50816,
+      "grad_norm": 0.6511557655512387,
+      "learning_rate": 4.807753576810756e-06,
+      "loss": 0.32432517409324646,
+      "memory(GiB)": 54.25,
+      "step": 1588,
+      "token_acc": 0.9040907528360261,
+      "train_speed(iter/s)": 0.241848
+    },
+    {
+      "epoch": 0.50848,
+      "grad_norm": 0.6516212602223845,
+      "learning_rate": 4.807414302296095e-06,
+      "loss": 0.36840689182281494,
+      "memory(GiB)": 54.25,
+      "step": 1589,
+      "token_acc": 0.9152864512625577,
+      "train_speed(iter/s)": 0.241845
+    },
+    {
+      "epoch": 0.5088,
+      "grad_norm": 0.7303349748276434,
+      "learning_rate": 4.807074740663751e-06,
+      "loss": 0.44645851850509644,
+      "memory(GiB)": 54.25,
+      "step": 1590,
+      "token_acc": 0.87630128597673,
+      "train_speed(iter/s)": 0.241853
+    },
+    {
+      "epoch": 0.50912,
+      "grad_norm": 0.6670902748201561,
+      "learning_rate": 4.806734891955977e-06,
+      "loss": 0.3895314335823059,
+      "memory(GiB)": 54.25,
+      "step": 1591,
+      "token_acc": 0.9294431731502669,
+      "train_speed(iter/s)": 0.241858
+    },
+    {
+      "epoch": 0.50944,
+      "grad_norm": 0.6995448554701168,
+      "learning_rate": 4.806394756215063e-06,
+      "loss": 0.3255465030670166,
+      "memory(GiB)": 54.25,
+      "step": 1592,
+      "token_acc": 0.903954802259887,
+      "train_speed(iter/s)": 0.241858
+    },
+    {
+      "epoch": 0.50976,
+      "grad_norm": 0.6035513224747423,
+      "learning_rate": 4.80605433348333e-06,
+      "loss": 0.33167362213134766,
+      "memory(GiB)": 54.25,
+      "step": 1593,
+      "token_acc": 0.9237536656891495,
+      "train_speed(iter/s)": 0.241853
+    },
+    {
+      "epoch": 0.51008,
+      "grad_norm": 0.6744075091935525,
+      "learning_rate": 4.80571362380314e-06,
+      "loss": 0.3918830156326294,
+      "memory(GiB)": 54.25,
+      "step": 1594,
+      "token_acc": 0.9102250489236791,
+      "train_speed(iter/s)": 0.241853
+    },
+    {
+      "epoch": 0.5104,
+      "grad_norm": 0.603107044502817,
+      "learning_rate": 4.805372627216888e-06,
+      "loss": 0.31479907035827637,
+      "memory(GiB)": 54.25,
+      "step": 1595,
+      "token_acc": 0.9257463638683338,
+      "train_speed(iter/s)": 0.241854
+    },
+    {
+      "epoch": 0.51072,
+      "grad_norm": 0.6404574241175068,
+      "learning_rate": 4.805031343767005e-06,
+      "loss": 0.35303178429603577,
+      "memory(GiB)": 54.25,
+      "step": 1596,
+      "token_acc": 0.89888,
+      "train_speed(iter/s)": 0.241861
+    },
+    {
+      "epoch": 0.51104,
+      "grad_norm": 0.6301922227185892,
+      "learning_rate": 4.804689773495956e-06,
+      "loss": 0.4279358983039856,
+      "memory(GiB)": 54.25,
+      "step": 1597,
+      "token_acc": 0.872135503155098,
+      "train_speed(iter/s)": 0.241859
+    },
+    {
+      "epoch": 0.51136,
+      "grad_norm": 0.7631396285487042,
+      "learning_rate": 4.804347916446246e-06,
+      "loss": 0.46427690982818604,
+      "memory(GiB)": 54.25,
+      "step": 1598,
+      "token_acc": 0.904497843499692,
+      "train_speed(iter/s)": 0.241863
+    },
+    {
+      "epoch": 0.51168,
+      "grad_norm": 0.673034189780144,
+      "learning_rate": 4.804005772660412e-06,
+      "loss": 0.37359654903411865,
+      "memory(GiB)": 54.25,
+      "step": 1599,
+      "token_acc": 0.9162345432788193,
+      "train_speed(iter/s)": 0.241868
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.6631672343178693,
+      "learning_rate": 4.80366334218103e-06,
+      "loss": 0.44712120294570923,
+      "memory(GiB)": 54.25,
+      "step": 1600,
+      "token_acc": 0.8462394303515799,
+      "train_speed(iter/s)": 0.241865
+    },
+    {
+      "epoch": 0.51232,
+      "grad_norm": 0.634016968133855,
+      "learning_rate": 4.803320625050706e-06,
+      "loss": 0.29124611616134644,
+      "memory(GiB)": 54.25,
+      "step": 1601,
+      "token_acc": 0.95391532409142,
+      "train_speed(iter/s)": 0.24186
+    },
+    {
+      "epoch": 0.51264,
+      "grad_norm": 0.6565284519126027,
+      "learning_rate": 4.802977621312086e-06,
+      "loss": 0.3875572383403778,
+      "memory(GiB)": 54.25,
+      "step": 1602,
+      "token_acc": 0.9003115264797508,
+      "train_speed(iter/s)": 0.241863
+    },
+    {
+      "epoch": 0.51296,
+      "grad_norm": 0.6882269261543599,
+      "learning_rate": 4.802634331007853e-06,
+      "loss": 0.45121821761131287,
+      "memory(GiB)": 54.25,
+      "step": 1603,
+      "token_acc": 0.9124245038826575,
+      "train_speed(iter/s)": 0.241863
+    },
+    {
+      "epoch": 0.51328,
+      "grad_norm": 0.6581739850346053,
+      "learning_rate": 4.802290754180722e-06,
+      "loss": 0.3274728059768677,
+      "memory(GiB)": 54.25,
+      "step": 1604,
+      "token_acc": 0.9330531371960372,
+      "train_speed(iter/s)": 0.241868
+    },
+    {
+      "epoch": 0.5136,
+      "grad_norm": 0.6720473433056398,
+      "learning_rate": 4.801946890873445e-06,
+      "loss": 0.43131762742996216,
+      "memory(GiB)": 54.25,
+      "step": 1605,
+      "token_acc": 0.8587777523460746,
+      "train_speed(iter/s)": 0.241874
+    },
+    {
+      "epoch": 0.51392,
+      "grad_norm": 0.6893650649603072,
+      "learning_rate": 4.801602741128811e-06,
+      "loss": 0.3550516963005066,
+      "memory(GiB)": 54.25,
+      "step": 1606,
+      "token_acc": 0.8899769585253456,
+      "train_speed(iter/s)": 0.241875
+    },
+    {
+      "epoch": 0.51424,
+      "grad_norm": 0.6632233484649679,
+      "learning_rate": 4.801258304989642e-06,
+      "loss": 0.38765859603881836,
+      "memory(GiB)": 54.25,
+      "step": 1607,
+      "token_acc": 0.8972746331236897,
+      "train_speed(iter/s)": 0.241875
+    },
+    {
+      "epoch": 0.51456,
+      "grad_norm": 0.630304241564044,
+      "learning_rate": 4.800913582498799e-06,
+      "loss": 0.35500484704971313,
+      "memory(GiB)": 54.25,
+      "step": 1608,
+      "token_acc": 0.898895790200138,
+      "train_speed(iter/s)": 0.241871
+    },
+    {
+      "epoch": 0.51488,
+      "grad_norm": 0.6845849956422666,
+      "learning_rate": 4.800568573699174e-06,
+      "loss": 0.3986101746559143,
+      "memory(GiB)": 54.25,
+      "step": 1609,
+      "token_acc": 0.8815060908084164,
+      "train_speed(iter/s)": 0.241879
+    },
+    {
+      "epoch": 0.5152,
+      "grad_norm": 0.6254596716219368,
+      "learning_rate": 4.800223278633699e-06,
+      "loss": 0.347015917301178,
+      "memory(GiB)": 54.25,
+      "step": 1610,
+      "token_acc": 0.9135297326786689,
+      "train_speed(iter/s)": 0.241865
+    },
+    {
+      "epoch": 0.51552,
+      "grad_norm": 4.654225400016807,
+      "learning_rate": 4.799877697345341e-06,
+      "loss": 0.44562438130378723,
+      "memory(GiB)": 54.25,
+      "step": 1611,
+      "token_acc": 0.9245147375988497,
+      "train_speed(iter/s)": 0.241867
+    },
+    {
+      "epoch": 0.51584,
+      "grad_norm": 0.6691539818992568,
+      "learning_rate": 4.7995318298771e-06,
+      "loss": 0.3658391833305359,
+      "memory(GiB)": 54.25,
+      "step": 1612,
+      "token_acc": 0.8493107769423559,
+      "train_speed(iter/s)": 0.241869
+    },
+    {
+      "epoch": 0.51616,
+      "grad_norm": 0.5895834254379761,
+      "learning_rate": 4.7991856762720135e-06,
+      "loss": 0.30213695764541626,
+      "memory(GiB)": 54.25,
+      "step": 1613,
+      "token_acc": 0.9024137036075786,
+      "train_speed(iter/s)": 0.241876
+    },
+    {
+      "epoch": 0.51648,
+      "grad_norm": 0.6573414730284204,
+      "learning_rate": 4.798839236573154e-06,
+      "loss": 0.42023444175720215,
+      "memory(GiB)": 54.25,
+      "step": 1614,
+      "token_acc": 0.8461417816813049,
+      "train_speed(iter/s)": 0.241875
+    },
+    {
+      "epoch": 0.5168,
+      "grad_norm": 0.5863915934592941,
+      "learning_rate": 4.798492510823631e-06,
+      "loss": 0.3499654531478882,
+      "memory(GiB)": 54.25,
+      "step": 1615,
+      "token_acc": 0.9248875958741074,
+      "train_speed(iter/s)": 0.24187
+    },
+    {
+      "epoch": 0.51712,
+      "grad_norm": 0.6132500161344128,
+      "learning_rate": 4.7981454990665885e-06,
+      "loss": 0.4065876305103302,
+      "memory(GiB)": 54.25,
+      "step": 1616,
+      "token_acc": 0.9456484348125215,
+      "train_speed(iter/s)": 0.241859
+    },
+    {
+      "epoch": 0.51744,
+      "grad_norm": 0.6597652497530269,
+      "learning_rate": 4.7977982013452055e-06,
+      "loss": 0.4040476083755493,
+      "memory(GiB)": 54.25,
+      "step": 1617,
+      "token_acc": 0.8952967525195968,
+      "train_speed(iter/s)": 0.241845
+    },
+    {
+      "epoch": 0.51776,
+      "grad_norm": 0.6284607063563155,
+      "learning_rate": 4.797450617702696e-06,
+      "loss": 0.379196435213089,
+      "memory(GiB)": 54.25,
+      "step": 1618,
+      "token_acc": 0.8120373977405532,
+      "train_speed(iter/s)": 0.241827
+    },
+    {
+      "epoch": 0.51808,
+      "grad_norm": 0.6555189728507588,
+      "learning_rate": 4.797102748182312e-06,
+      "loss": 0.3872315287590027,
+      "memory(GiB)": 54.25,
+      "step": 1619,
+      "token_acc": 0.852808988764045,
+      "train_speed(iter/s)": 0.241829
+    },
+    {
+      "epoch": 0.5184,
+      "grad_norm": 0.6123392858170771,
+      "learning_rate": 4.79675459282734e-06,
+      "loss": 0.34902381896972656,
+      "memory(GiB)": 54.25,
+      "step": 1620,
+      "token_acc": 0.9648823729969315,
+      "train_speed(iter/s)": 0.241835
+    },
+    {
+      "epoch": 0.51872,
+      "grad_norm": 0.6880900526797497,
+      "learning_rate": 4.796406151681103e-06,
+      "loss": 0.36194103956222534,
+      "memory(GiB)": 54.25,
+      "step": 1621,
+      "token_acc": 0.9397590361445783,
+      "train_speed(iter/s)": 0.241838
+    },
+    {
+      "epoch": 0.51904,
+      "grad_norm": 0.6468327592440479,
+      "learning_rate": 4.796057424786956e-06,
+      "loss": 0.4041372537612915,
+      "memory(GiB)": 54.25,
+      "step": 1622,
+      "token_acc": 0.8850795392210642,
+      "train_speed(iter/s)": 0.241818
+    },
+    {
+      "epoch": 0.51936,
+      "grad_norm": 1.0821288604011743,
+      "learning_rate": 4.795708412188293e-06,
+      "loss": 0.45212557911872864,
+      "memory(GiB)": 54.25,
+      "step": 1623,
+      "token_acc": 0.8201296870594869,
+      "train_speed(iter/s)": 0.241815
+    },
+    {
+      "epoch": 0.51968,
+      "grad_norm": 0.6713804660702141,
+      "learning_rate": 4.795359113928543e-06,
+      "loss": 0.3753165304660797,
+      "memory(GiB)": 54.25,
+      "step": 1624,
+      "token_acc": 0.8111876903349896,
+      "train_speed(iter/s)": 0.24182
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.644549811314491,
+      "learning_rate": 4.7950095300511696e-06,
+      "loss": 0.3454955816268921,
+      "memory(GiB)": 54.25,
+      "step": 1625,
+      "token_acc": 0.8629441624365483,
+      "train_speed(iter/s)": 0.241824
+    },
+    {
+      "epoch": 0.52032,
+      "grad_norm": 0.6808180534242114,
+      "learning_rate": 4.794659660599673e-06,
+      "loss": 0.41125786304473877,
+      "memory(GiB)": 54.25,
+      "step": 1626,
+      "token_acc": 0.8359303391384051,
+      "train_speed(iter/s)": 0.241826
+    },
+    {
+      "epoch": 0.52064,
+      "grad_norm": 0.6612406491962356,
+      "learning_rate": 4.794309505617588e-06,
+      "loss": 0.369584321975708,
+      "memory(GiB)": 54.25,
+      "step": 1627,
+      "token_acc": 0.9459876543209876,
+      "train_speed(iter/s)": 0.241812
+    },
+    {
+      "epoch": 0.52096,
+      "grad_norm": 0.6367372138971551,
+      "learning_rate": 4.793959065148484e-06,
+      "loss": 0.46744924783706665,
+      "memory(GiB)": 54.25,
+      "step": 1628,
+      "token_acc": 0.8505025125628141,
+      "train_speed(iter/s)": 0.241817
+    },
+    {
+      "epoch": 0.52128,
+      "grad_norm": 0.6437790122874422,
+      "learning_rate": 4.79360833923597e-06,
+      "loss": 0.4287160038948059,
+      "memory(GiB)": 54.25,
+      "step": 1629,
+      "token_acc": 0.8909224011713031,
+      "train_speed(iter/s)": 0.241816
+    },
+    {
+      "epoch": 0.5216,
+      "grad_norm": 0.6335410353242426,
+      "learning_rate": 4.793257327923686e-06,
+      "loss": 0.3581119477748871,
+      "memory(GiB)": 54.25,
+      "step": 1630,
+      "token_acc": 0.9400137899333486,
+      "train_speed(iter/s)": 0.241812
+    },
+    {
+      "epoch": 0.52192,
+      "grad_norm": 0.6193725939287823,
+      "learning_rate": 4.79290603125531e-06,
+      "loss": 0.2771455943584442,
+      "memory(GiB)": 54.25,
+      "step": 1631,
+      "token_acc": 0.9149250061470371,
+      "train_speed(iter/s)": 0.241812
+    },
+    {
+      "epoch": 0.52224,
+      "grad_norm": 0.614416331276897,
+      "learning_rate": 4.792554449274555e-06,
+      "loss": 0.4105945825576782,
+      "memory(GiB)": 54.25,
+      "step": 1632,
+      "token_acc": 0.8787436084733382,
+      "train_speed(iter/s)": 0.241815
+    },
+    {
+      "epoch": 0.52256,
+      "grad_norm": 0.6381483751178989,
+      "learning_rate": 4.792202582025167e-06,
+      "loss": 0.3688350319862366,
+      "memory(GiB)": 54.25,
+      "step": 1633,
+      "token_acc": 0.8716999753269183,
+      "train_speed(iter/s)": 0.241822
+    },
+    {
+      "epoch": 0.52288,
+      "grad_norm": 0.6205060405276,
+      "learning_rate": 4.7918504295509326e-06,
+      "loss": 0.33853060007095337,
+      "memory(GiB)": 54.25,
+      "step": 1634,
+      "token_acc": 0.8977181208053692,
+      "train_speed(iter/s)": 0.241824
+    },
+    {
+      "epoch": 0.5232,
+      "grad_norm": 0.7155316143155707,
+      "learning_rate": 4.7914979918956685e-06,
+      "loss": 0.38431063294410706,
+      "memory(GiB)": 54.25,
+      "step": 1635,
+      "token_acc": 0.8289521065898452,
+      "train_speed(iter/s)": 0.24183
+    },
+    {
+      "epoch": 0.52352,
+      "grad_norm": 0.666800248019191,
+      "learning_rate": 4.7911452691032325e-06,
+      "loss": 0.37178653478622437,
+      "memory(GiB)": 54.25,
+      "step": 1636,
+      "token_acc": 0.8224276908487435,
+      "train_speed(iter/s)": 0.241839
+    },
+    {
+      "epoch": 0.52384,
+      "grad_norm": 0.643515450030943,
+      "learning_rate": 4.790792261217513e-06,
+      "loss": 0.31211981177330017,
+      "memory(GiB)": 54.25,
+      "step": 1637,
+      "token_acc": 0.849727651393784,
+      "train_speed(iter/s)": 0.24184
+    },
+    {
+      "epoch": 0.52416,
+      "grad_norm": 0.6618358006144097,
+      "learning_rate": 4.7904389682824345e-06,
+      "loss": 0.4168909192085266,
+      "memory(GiB)": 54.25,
+      "step": 1638,
+      "token_acc": 0.9230769230769231,
+      "train_speed(iter/s)": 0.241837
+    },
+    {
+      "epoch": 0.52448,
+      "grad_norm": 0.6552964670420218,
+      "learning_rate": 4.790085390341961e-06,
+      "loss": 0.3379371762275696,
+      "memory(GiB)": 54.25,
+      "step": 1639,
+      "token_acc": 0.892036344200962,
+      "train_speed(iter/s)": 0.241839
+    },
+    {
+      "epoch": 0.5248,
+      "grad_norm": 0.6475929675939892,
+      "learning_rate": 4.789731527440087e-06,
+      "loss": 0.39542946219444275,
+      "memory(GiB)": 54.25,
+      "step": 1640,
+      "token_acc": 0.8661080711354309,
+      "train_speed(iter/s)": 0.241836
+    },
+    {
+      "epoch": 0.52512,
+      "grad_norm": 0.6288211455039003,
+      "learning_rate": 4.789377379620845e-06,
+      "loss": 0.40078893303871155,
+      "memory(GiB)": 54.25,
+      "step": 1641,
+      "token_acc": 0.8841690387562952,
+      "train_speed(iter/s)": 0.241829
+    },
+    {
+      "epoch": 0.52544,
+      "grad_norm": 0.5985121440996761,
+      "learning_rate": 4.7890229469283035e-06,
+      "loss": 0.40689998865127563,
+      "memory(GiB)": 54.25,
+      "step": 1642,
+      "token_acc": 0.9043683589138135,
+      "train_speed(iter/s)": 0.241822
+    },
+    {
+      "epoch": 0.52576,
+      "grad_norm": 0.635867504393454,
+      "learning_rate": 4.788668229406565e-06,
+      "loss": 0.35504063963890076,
+      "memory(GiB)": 54.25,
+      "step": 1643,
+      "token_acc": 0.8297356293960708,
+      "train_speed(iter/s)": 0.241823
+    },
+    {
+      "epoch": 0.52608,
+      "grad_norm": 0.671602326457427,
+      "learning_rate": 4.788313227099768e-06,
+      "loss": 0.392402321100235,
+      "memory(GiB)": 54.25,
+      "step": 1644,
+      "token_acc": 0.8622152395915161,
+      "train_speed(iter/s)": 0.241829
+    },
+    {
+      "epoch": 0.5264,
+      "grad_norm": 0.677736890847526,
+      "learning_rate": 4.787957940052085e-06,
+      "loss": 0.34257280826568604,
+      "memory(GiB)": 54.25,
+      "step": 1645,
+      "token_acc": 0.8680358313305658,
+      "train_speed(iter/s)": 0.241829
+    },
+    {
+      "epoch": 0.52672,
+      "grad_norm": 0.5935925447844256,
+      "learning_rate": 4.787602368307728e-06,
+      "loss": 0.3644135296344757,
+      "memory(GiB)": 54.25,
+      "step": 1646,
+      "token_acc": 0.9214157168566287,
+      "train_speed(iter/s)": 0.241832
+    },
+    {
+      "epoch": 0.52704,
+      "grad_norm": 0.6800017328081486,
+      "learning_rate": 4.787246511910939e-06,
+      "loss": 0.39088839292526245,
+      "memory(GiB)": 54.25,
+      "step": 1647,
+      "token_acc": 0.9255125875940825,
+      "train_speed(iter/s)": 0.241835
+    },
+    {
+      "epoch": 0.52736,
+      "grad_norm": 0.6500793266763433,
+      "learning_rate": 4.786890370906e-06,
+      "loss": 0.3825957477092743,
+      "memory(GiB)": 54.25,
+      "step": 1648,
+      "token_acc": 0.9043017456359103,
+      "train_speed(iter/s)": 0.241841
+    },
+    {
+      "epoch": 0.52768,
+      "grad_norm": 0.6029687698582313,
+      "learning_rate": 4.7865339453372255e-06,
+      "loss": 0.33596399426460266,
+      "memory(GiB)": 54.25,
+      "step": 1649,
+      "token_acc": 0.9499254843517139,
+      "train_speed(iter/s)": 0.241838
+    },
+    {
+      "epoch": 0.528,
+      "grad_norm": 0.6622778813659829,
+      "learning_rate": 4.786177235248968e-06,
+      "loss": 0.3753988742828369,
+      "memory(GiB)": 54.25,
+      "step": 1650,
+      "token_acc": 0.911515940143136,
+      "train_speed(iter/s)": 0.241837
+    },
+    {
+      "epoch": 0.52832,
+      "grad_norm": 0.6918405922568939,
+      "learning_rate": 4.785820240685611e-06,
+      "loss": 0.3988703489303589,
+      "memory(GiB)": 54.25,
+      "step": 1651,
+      "token_acc": 0.9597565099763273,
+      "train_speed(iter/s)": 0.241844
+    },
+    {
+      "epoch": 0.52864,
+      "grad_norm": 0.6787767694872086,
+      "learning_rate": 4.7854629616915795e-06,
+      "loss": 0.30893445014953613,
+      "memory(GiB)": 54.25,
+      "step": 1652,
+      "token_acc": 0.8657233612474733,
+      "train_speed(iter/s)": 0.241852
+    },
+    {
+      "epoch": 0.52896,
+      "grad_norm": 0.679224941541078,
+      "learning_rate": 4.785105398311329e-06,
+      "loss": 0.42479339241981506,
+      "memory(GiB)": 54.25,
+      "step": 1653,
+      "token_acc": 0.9409918392969241,
+      "train_speed(iter/s)": 0.241854
+    },
+    {
+      "epoch": 0.52928,
+      "grad_norm": 0.666820751335812,
+      "learning_rate": 4.784747550589353e-06,
+      "loss": 0.4075589179992676,
+      "memory(GiB)": 54.25,
+      "step": 1654,
+      "token_acc": 0.9220447284345048,
+      "train_speed(iter/s)": 0.241862
+    },
+    {
+      "epoch": 0.5296,
+      "grad_norm": 0.7726105078623063,
+      "learning_rate": 4.7843894185701775e-06,
+      "loss": 0.30400118231773376,
+      "memory(GiB)": 54.25,
+      "step": 1655,
+      "token_acc": 0.9073543457497613,
+      "train_speed(iter/s)": 0.241868
+    },
+    {
+      "epoch": 0.52992,
+      "grad_norm": 0.6114909214912815,
+      "learning_rate": 4.784031002298368e-06,
+      "loss": 0.2954246997833252,
+      "memory(GiB)": 54.25,
+      "step": 1656,
+      "token_acc": 0.9099045346062052,
+      "train_speed(iter/s)": 0.241874
+    },
+    {
+      "epoch": 0.53024,
+      "grad_norm": 0.6342354595241302,
+      "learning_rate": 4.783672301818522e-06,
+      "loss": 0.4098246991634369,
+      "memory(GiB)": 54.25,
+      "step": 1657,
+      "token_acc": 0.8244387971198645,
+      "train_speed(iter/s)": 0.241877
+    },
+    {
+      "epoch": 0.53056,
+      "grad_norm": 0.6182507803907549,
+      "learning_rate": 4.7833133171752735e-06,
+      "loss": 0.36787742376327515,
+      "memory(GiB)": 54.25,
+      "step": 1658,
+      "token_acc": 0.8704632634995574,
+      "train_speed(iter/s)": 0.241875
+    },
+    {
+      "epoch": 0.53088,
+      "grad_norm": 0.7056581360089234,
+      "learning_rate": 4.782954048413292e-06,
+      "loss": 0.3797305226325989,
+      "memory(GiB)": 54.25,
+      "step": 1659,
+      "token_acc": 0.919853539462978,
+      "train_speed(iter/s)": 0.241883
+    },
+    {
+      "epoch": 0.5312,
+      "grad_norm": 0.6129606934140552,
+      "learning_rate": 4.782594495577283e-06,
+      "loss": 0.4137730002403259,
+      "memory(GiB)": 54.25,
+      "step": 1660,
+      "token_acc": 0.8471312289060949,
+      "train_speed(iter/s)": 0.241887
+    },
+    {
+      "epoch": 0.53152,
+      "grad_norm": 0.6599823619375234,
+      "learning_rate": 4.782234658711987e-06,
+      "loss": 0.3478569984436035,
+      "memory(GiB)": 54.25,
+      "step": 1661,
+      "token_acc": 0.8912893587680993,
+      "train_speed(iter/s)": 0.241896
+    },
+    {
+      "epoch": 0.53184,
+      "grad_norm": 0.6874816297329593,
+      "learning_rate": 4.781874537862177e-06,
+      "loss": 0.372641921043396,
+      "memory(GiB)": 54.25,
+      "step": 1662,
+      "token_acc": 0.9451901565995525,
+      "train_speed(iter/s)": 0.241898
+    },
+    {
+      "epoch": 0.53216,
+      "grad_norm": 0.6086871339955046,
+      "learning_rate": 4.781514133072666e-06,
+      "loss": 0.3830077350139618,
+      "memory(GiB)": 54.25,
+      "step": 1663,
+      "token_acc": 0.9150913168856136,
+      "train_speed(iter/s)": 0.241894
+    },
+    {
+      "epoch": 0.53248,
+      "grad_norm": 0.6361215835171247,
+      "learning_rate": 4.7811534443883e-06,
+      "loss": 0.4059317111968994,
+      "memory(GiB)": 54.25,
+      "step": 1664,
+      "token_acc": 0.9067055393586005,
+      "train_speed(iter/s)": 0.241896
+    },
+    {
+      "epoch": 0.5328,
+      "grad_norm": 0.6453663787311871,
+      "learning_rate": 4.7807924718539595e-06,
+      "loss": 0.4620547890663147,
+      "memory(GiB)": 54.25,
+      "step": 1665,
+      "token_acc": 0.8688860435339308,
+      "train_speed(iter/s)": 0.241903
+    },
+    {
+      "epoch": 0.53312,
+      "grad_norm": 0.6298090525826134,
+      "learning_rate": 4.780431215514562e-06,
+      "loss": 0.4217415153980255,
+      "memory(GiB)": 54.25,
+      "step": 1666,
+      "token_acc": 0.9143148588915335,
+      "train_speed(iter/s)": 0.241905
+    },
+    {
+      "epoch": 0.53344,
+      "grad_norm": 0.6972933841981127,
+      "learning_rate": 4.780069675415059e-06,
+      "loss": 0.4003632664680481,
+      "memory(GiB)": 54.25,
+      "step": 1667,
+      "token_acc": 0.9112903225806451,
+      "train_speed(iter/s)": 0.241911
+    },
+    {
+      "epoch": 0.53376,
+      "grad_norm": 0.6808730627526265,
+      "learning_rate": 4.779707851600438e-06,
+      "loss": 0.4512426257133484,
+      "memory(GiB)": 54.25,
+      "step": 1668,
+      "token_acc": 0.8991092528631158,
+      "train_speed(iter/s)": 0.241896
+    },
+    {
+      "epoch": 0.53408,
+      "grad_norm": 0.6671312447088457,
+      "learning_rate": 4.779345744115722e-06,
+      "loss": 0.42650216817855835,
+      "memory(GiB)": 54.25,
+      "step": 1669,
+      "token_acc": 0.7958693563880884,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.5344,
+      "grad_norm": 0.5732031365440313,
+      "learning_rate": 4.7789833530059694e-06,
+      "loss": 0.33369913697242737,
+      "memory(GiB)": 54.25,
+      "step": 1670,
+      "token_acc": 0.8655131734172238,
+      "train_speed(iter/s)": 0.24189
+    },
+    {
+      "epoch": 0.53472,
+      "grad_norm": 0.7251141784338081,
+      "learning_rate": 4.778620678316273e-06,
+      "loss": 0.34540894627571106,
+      "memory(GiB)": 54.25,
+      "step": 1671,
+      "token_acc": 0.9279210925644916,
+      "train_speed(iter/s)": 0.241894
+    },
+    {
+      "epoch": 0.53504,
+      "grad_norm": 0.5786178023800073,
+      "learning_rate": 4.77825772009176e-06,
+      "loss": 0.4079790711402893,
+      "memory(GiB)": 54.25,
+      "step": 1672,
+      "token_acc": 0.8609343755680785,
+      "train_speed(iter/s)": 0.241885
+    },
+    {
+      "epoch": 0.53536,
+      "grad_norm": 0.6837056857485796,
+      "learning_rate": 4.777894478377596e-06,
+      "loss": 0.3558025360107422,
+      "memory(GiB)": 54.25,
+      "step": 1673,
+      "token_acc": 0.8825867052023122,
+      "train_speed(iter/s)": 0.241886
+    },
+    {
+      "epoch": 0.53568,
+      "grad_norm": 0.629079855936947,
+      "learning_rate": 4.777530953218981e-06,
+      "loss": 0.2840113043785095,
+      "memory(GiB)": 54.25,
+      "step": 1674,
+      "token_acc": 0.8981295925183701,
+      "train_speed(iter/s)": 0.241894
+    },
+    {
+      "epoch": 0.536,
+      "grad_norm": 0.698559478444381,
+      "learning_rate": 4.777167144661147e-06,
+      "loss": 0.4973347783088684,
+      "memory(GiB)": 54.25,
+      "step": 1675,
+      "token_acc": 0.7928917609046849,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.53632,
+      "grad_norm": 0.6569750164824181,
+      "learning_rate": 4.776803052749366e-06,
+      "loss": 0.43085965514183044,
+      "memory(GiB)": 54.25,
+      "step": 1676,
+      "token_acc": 0.864881693648817,
+      "train_speed(iter/s)": 0.241902
+    },
+    {
+      "epoch": 0.53664,
+      "grad_norm": 0.6730266695924702,
+      "learning_rate": 4.776438677528941e-06,
+      "loss": 0.42223477363586426,
+      "memory(GiB)": 54.25,
+      "step": 1677,
+      "token_acc": 0.8520535511685954,
+      "train_speed(iter/s)": 0.241904
+    },
+    {
+      "epoch": 0.53696,
+      "grad_norm": 0.6817090856849857,
+      "learning_rate": 4.776074019045213e-06,
+      "loss": 0.41543567180633545,
+      "memory(GiB)": 54.25,
+      "step": 1678,
+      "token_acc": 0.8829393335232127,
+      "train_speed(iter/s)": 0.241906
+    },
+    {
+      "epoch": 0.53728,
+      "grad_norm": 0.5738165434447707,
+      "learning_rate": 4.775709077343556e-06,
+      "loss": 0.3298349976539612,
+      "memory(GiB)": 54.25,
+      "step": 1679,
+      "token_acc": 0.8658512131542009,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.5376,
+      "grad_norm": 0.6425538064520745,
+      "learning_rate": 4.7753438524693825e-06,
+      "loss": 0.3995852768421173,
+      "memory(GiB)": 54.25,
+      "step": 1680,
+      "token_acc": 0.8970489604292421,
+      "train_speed(iter/s)": 0.241896
+    },
+    {
+      "epoch": 0.53792,
+      "grad_norm": 0.6973746808434016,
+      "learning_rate": 4.77497834446814e-06,
+      "loss": 0.4343576729297638,
+      "memory(GiB)": 54.25,
+      "step": 1681,
+      "token_acc": 0.9092620481927711,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.53824,
+      "grad_norm": 0.6547836065565994,
+      "learning_rate": 4.774612553385305e-06,
+      "loss": 0.3457886576652527,
+      "memory(GiB)": 54.25,
+      "step": 1682,
+      "token_acc": 0.9035136642498606,
+      "train_speed(iter/s)": 0.241908
+    },
+    {
+      "epoch": 0.53856,
+      "grad_norm": 0.6627187176186636,
+      "learning_rate": 4.7742464792663975e-06,
+      "loss": 0.37080442905426025,
+      "memory(GiB)": 54.25,
+      "step": 1683,
+      "token_acc": 0.8486183420104125,
+      "train_speed(iter/s)": 0.241911
+    },
+    {
+      "epoch": 0.53888,
+      "grad_norm": 0.5718973022310798,
+      "learning_rate": 4.773880122156968e-06,
+      "loss": 0.3257960081100464,
+      "memory(GiB)": 54.25,
+      "step": 1684,
+      "token_acc": 0.9392605633802817,
+      "train_speed(iter/s)": 0.241912
+    },
+    {
+      "epoch": 0.5392,
+      "grad_norm": 0.6645310054394056,
+      "learning_rate": 4.773513482102603e-06,
+      "loss": 0.346232533454895,
+      "memory(GiB)": 54.25,
+      "step": 1685,
+      "token_acc": 0.8704214257581725,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.53952,
+      "grad_norm": 0.6878970139102694,
+      "learning_rate": 4.773146559148925e-06,
+      "loss": 0.44456738233566284,
+      "memory(GiB)": 54.25,
+      "step": 1686,
+      "token_acc": 0.8782224404615763,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.53984,
+      "grad_norm": 0.7395358804786457,
+      "learning_rate": 4.77277935334159e-06,
+      "loss": 0.41306424140930176,
+      "memory(GiB)": 54.25,
+      "step": 1687,
+      "token_acc": 0.8511254019292605,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.54016,
+      "grad_norm": 0.6986152402230384,
+      "learning_rate": 4.772411864726292e-06,
+      "loss": 0.4318428039550781,
+      "memory(GiB)": 54.25,
+      "step": 1688,
+      "token_acc": 0.8574600355239786,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.54048,
+      "grad_norm": 0.6594252076888413,
+      "learning_rate": 4.772044093348757e-06,
+      "loss": 0.35141289234161377,
+      "memory(GiB)": 54.25,
+      "step": 1689,
+      "token_acc": 0.9043361645060348,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.5408,
+      "grad_norm": 0.6679944428591881,
+      "learning_rate": 4.77167603925475e-06,
+      "loss": 0.3280572295188904,
+      "memory(GiB)": 54.25,
+      "step": 1690,
+      "token_acc": 0.9424960505529226,
+      "train_speed(iter/s)": 0.241919
+    },
+    {
+      "epoch": 0.54112,
+      "grad_norm": 0.6350824423618522,
+      "learning_rate": 4.771307702490068e-06,
+      "loss": 0.3758777379989624,
+      "memory(GiB)": 54.25,
+      "step": 1691,
+      "token_acc": 0.950062034739454,
+      "train_speed(iter/s)": 0.241924
+    },
+    {
+      "epoch": 0.54144,
+      "grad_norm": 0.6720172159191258,
+      "learning_rate": 4.770939083100542e-06,
+      "loss": 0.3800051808357239,
+      "memory(GiB)": 54.25,
+      "step": 1692,
+      "token_acc": 0.9349749903809157,
+      "train_speed(iter/s)": 0.241917
+    },
+    {
+      "epoch": 0.54176,
+      "grad_norm": 0.6118357633665251,
+      "learning_rate": 4.770570181132043e-06,
+      "loss": 0.3875639736652374,
+      "memory(GiB)": 54.25,
+      "step": 1693,
+      "token_acc": 0.8560331434489902,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.54208,
+      "grad_norm": 0.7114622374802463,
+      "learning_rate": 4.770200996630473e-06,
+      "loss": 0.4644817113876343,
+      "memory(GiB)": 54.25,
+      "step": 1694,
+      "token_acc": 0.8904149620105202,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.5424,
+      "grad_norm": 0.632844250638788,
+      "learning_rate": 4.7698315296417714e-06,
+      "loss": 0.3635478615760803,
+      "memory(GiB)": 54.25,
+      "step": 1695,
+      "token_acc": 0.8728323699421965,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.54272,
+      "grad_norm": 0.7421622930228027,
+      "learning_rate": 4.769461780211911e-06,
+      "loss": 0.3639235496520996,
+      "memory(GiB)": 54.25,
+      "step": 1696,
+      "token_acc": 0.8532792427315754,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.54304,
+      "grad_norm": 0.6907978176815959,
+      "learning_rate": 4.7690917483869026e-06,
+      "loss": 0.4361364245414734,
+      "memory(GiB)": 54.25,
+      "step": 1697,
+      "token_acc": 0.832114118507681,
+      "train_speed(iter/s)": 0.241924
+    },
+    {
+      "epoch": 0.54336,
+      "grad_norm": 0.6085925871100911,
+      "learning_rate": 4.768721434212788e-06,
+      "loss": 0.34516531229019165,
+      "memory(GiB)": 54.25,
+      "step": 1698,
+      "token_acc": 0.8069865133760779,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.54368,
+      "grad_norm": 0.6709564261179265,
+      "learning_rate": 4.768350837735648e-06,
+      "loss": 0.3944128751754761,
+      "memory(GiB)": 54.25,
+      "step": 1699,
+      "token_acc": 0.8417963017317288,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.544,
+      "grad_norm": 0.6682134735059763,
+      "learning_rate": 4.7679799590015956e-06,
+      "loss": 0.4138646125793457,
+      "memory(GiB)": 54.25,
+      "step": 1700,
+      "token_acc": 0.8513434579439252,
+      "train_speed(iter/s)": 0.241929
+    },
+    {
+      "epoch": 0.54432,
+      "grad_norm": 0.6382750261277393,
+      "learning_rate": 4.767608798056781e-06,
+      "loss": 0.3381836414337158,
+      "memory(GiB)": 54.25,
+      "step": 1701,
+      "token_acc": 0.8767914012738853,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.54464,
+      "grad_norm": 0.647074403620439,
+      "learning_rate": 4.767237354947389e-06,
+      "loss": 0.39217454195022583,
+      "memory(GiB)": 54.25,
+      "step": 1702,
+      "token_acc": 0.8707881629065338,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.54496,
+      "grad_norm": 0.680735455958201,
+      "learning_rate": 4.766865629719638e-06,
+      "loss": 0.4876878261566162,
+      "memory(GiB)": 54.25,
+      "step": 1703,
+      "token_acc": 0.8819064966605951,
+      "train_speed(iter/s)": 0.241919
+    },
+    {
+      "epoch": 0.54528,
+      "grad_norm": 0.622501310420022,
+      "learning_rate": 4.766493622419784e-06,
+      "loss": 0.3153845965862274,
+      "memory(GiB)": 54.25,
+      "step": 1704,
+      "token_acc": 0.9454042847270214,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.5456,
+      "grad_norm": 0.6876552669453849,
+      "learning_rate": 4.7661213330941166e-06,
+      "loss": 0.3760117292404175,
+      "memory(GiB)": 54.25,
+      "step": 1705,
+      "token_acc": 0.8664302600472813,
+      "train_speed(iter/s)": 0.241924
+    },
+    {
+      "epoch": 0.54592,
+      "grad_norm": 0.6948196966954684,
+      "learning_rate": 4.765748761788961e-06,
+      "loss": 0.40493452548980713,
+      "memory(GiB)": 54.25,
+      "step": 1706,
+      "token_acc": 0.8377448385389095,
+      "train_speed(iter/s)": 0.241928
+    },
+    {
+      "epoch": 0.54624,
+      "grad_norm": 0.6640445199945471,
+      "learning_rate": 4.765375908550677e-06,
+      "loss": 0.40276744961738586,
+      "memory(GiB)": 54.25,
+      "step": 1707,
+      "token_acc": 0.8650908042663592,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.54656,
+      "grad_norm": 0.6512549612288703,
+      "learning_rate": 4.765002773425659e-06,
+      "loss": 0.4037300646305084,
+      "memory(GiB)": 54.25,
+      "step": 1708,
+      "token_acc": 0.8687202053538687,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.54688,
+      "grad_norm": 0.6967699107890171,
+      "learning_rate": 4.764629356460338e-06,
+      "loss": 0.29643842577934265,
+      "memory(GiB)": 54.25,
+      "step": 1709,
+      "token_acc": 0.9545655050727834,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.5472,
+      "grad_norm": 0.6363515478507082,
+      "learning_rate": 4.764255657701179e-06,
+      "loss": 0.399474561214447,
+      "memory(GiB)": 54.25,
+      "step": 1710,
+      "token_acc": 0.8621291448516579,
+      "train_speed(iter/s)": 0.241931
+    },
+    {
+      "epoch": 0.54752,
+      "grad_norm": 0.6333970131710334,
+      "learning_rate": 4.763881677194683e-06,
+      "loss": 0.43602702021598816,
+      "memory(GiB)": 54.25,
+      "step": 1711,
+      "token_acc": 0.8336842105263158,
+      "train_speed(iter/s)": 0.241928
+    },
+    {
+      "epoch": 0.54784,
+      "grad_norm": 0.6579658377447896,
+      "learning_rate": 4.763507414987384e-06,
+      "loss": 0.3302151560783386,
+      "memory(GiB)": 54.25,
+      "step": 1712,
+      "token_acc": 0.9284436493738819,
+      "train_speed(iter/s)": 0.24193
+    },
+    {
+      "epoch": 0.54816,
+      "grad_norm": 0.6242143697570357,
+      "learning_rate": 4.763132871125853e-06,
+      "loss": 0.3588391840457916,
+      "memory(GiB)": 54.25,
+      "step": 1713,
+      "token_acc": 0.9063625450180072,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.54848,
+      "grad_norm": 0.5809802291359155,
+      "learning_rate": 4.762758045656696e-06,
+      "loss": 0.3254948556423187,
+      "memory(GiB)": 54.25,
+      "step": 1714,
+      "token_acc": 0.8943922573299175,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.5488,
+      "grad_norm": 0.6442313615817059,
+      "learning_rate": 4.762382938626553e-06,
+      "loss": 0.35911470651626587,
+      "memory(GiB)": 54.25,
+      "step": 1715,
+      "token_acc": 0.8413284132841329,
+      "train_speed(iter/s)": 0.241919
+    },
+    {
+      "epoch": 0.54912,
+      "grad_norm": 0.7200684976230624,
+      "learning_rate": 4.7620075500820995e-06,
+      "loss": 0.3551109731197357,
+      "memory(GiB)": 54.25,
+      "step": 1716,
+      "token_acc": 0.9095419847328244,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.54944,
+      "grad_norm": 0.6189451924537228,
+      "learning_rate": 4.761631880070047e-06,
+      "loss": 0.32985198497772217,
+      "memory(GiB)": 54.25,
+      "step": 1717,
+      "token_acc": 0.9235639981908639,
+      "train_speed(iter/s)": 0.241928
+    },
+    {
+      "epoch": 0.54976,
+      "grad_norm": 0.7096353757175814,
+      "learning_rate": 4.7612559286371406e-06,
+      "loss": 0.4556298851966858,
+      "memory(GiB)": 54.25,
+      "step": 1718,
+      "token_acc": 0.850204081632653,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.55008,
+      "grad_norm": 0.6814885897397271,
+      "learning_rate": 4.76087969583016e-06,
+      "loss": 0.3932510018348694,
+      "memory(GiB)": 54.25,
+      "step": 1719,
+      "token_acc": 0.9061855670103093,
+      "train_speed(iter/s)": 0.241929
+    },
+    {
+      "epoch": 0.5504,
+      "grad_norm": 0.6801154087769582,
+      "learning_rate": 4.760503181695922e-06,
+      "loss": 0.4726923704147339,
+      "memory(GiB)": 54.25,
+      "step": 1720,
+      "token_acc": 0.8443611036699705,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.55072,
+      "grad_norm": 0.64268904197292,
+      "learning_rate": 4.760126386281278e-06,
+      "loss": 0.3851279318332672,
+      "memory(GiB)": 54.25,
+      "step": 1721,
+      "token_acc": 0.8143522438611346,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.55104,
+      "grad_norm": 0.6537651108197885,
+      "learning_rate": 4.759749309633111e-06,
+      "loss": 0.4191160202026367,
+      "memory(GiB)": 54.25,
+      "step": 1722,
+      "token_acc": 0.8718002081165452,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.55136,
+      "grad_norm": 0.6391447343222275,
+      "learning_rate": 4.759371951798344e-06,
+      "loss": 0.41589897871017456,
+      "memory(GiB)": 54.25,
+      "step": 1723,
+      "token_acc": 0.8307245080500895,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.55168,
+      "grad_norm": 0.6214570133804137,
+      "learning_rate": 4.758994312823931e-06,
+      "loss": 0.2881065607070923,
+      "memory(GiB)": 54.25,
+      "step": 1724,
+      "token_acc": 0.9447274579724911,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.552,
+      "grad_norm": 0.6494886008345389,
+      "learning_rate": 4.758616392756864e-06,
+      "loss": 0.43334123492240906,
+      "memory(GiB)": 54.25,
+      "step": 1725,
+      "token_acc": 0.9001627780792186,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.55232,
+      "grad_norm": 0.6160110742212347,
+      "learning_rate": 4.758238191644169e-06,
+      "loss": 0.3807106018066406,
+      "memory(GiB)": 54.25,
+      "step": 1726,
+      "token_acc": 0.8847177848775293,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.55264,
+      "grad_norm": 0.5863614978633048,
+      "learning_rate": 4.757859709532905e-06,
+      "loss": 0.37055861949920654,
+      "memory(GiB)": 54.25,
+      "step": 1727,
+      "token_acc": 0.9147104851330203,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.55296,
+      "grad_norm": 0.6630303898878792,
+      "learning_rate": 4.7574809464701676e-06,
+      "loss": 0.3719576597213745,
+      "memory(GiB)": 54.25,
+      "step": 1728,
+      "token_acc": 0.8937790943715616,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.55328,
+      "grad_norm": 0.662982040862542,
+      "learning_rate": 4.7571019025030885e-06,
+      "loss": 0.3322984278202057,
+      "memory(GiB)": 54.25,
+      "step": 1729,
+      "token_acc": 0.9484966592427617,
+      "train_speed(iter/s)": 0.241928
+    },
+    {
+      "epoch": 0.5536,
+      "grad_norm": 0.6455154849236364,
+      "learning_rate": 4.7567225776788314e-06,
+      "loss": 0.37174028158187866,
+      "memory(GiB)": 54.25,
+      "step": 1730,
+      "token_acc": 0.8652380952380953,
+      "train_speed(iter/s)": 0.241931
+    },
+    {
+      "epoch": 0.55392,
+      "grad_norm": 0.6492975191194683,
+      "learning_rate": 4.756342972044599e-06,
+      "loss": 0.412747323513031,
+      "memory(GiB)": 54.25,
+      "step": 1731,
+      "token_acc": 0.8422986092889005,
+      "train_speed(iter/s)": 0.241931
+    },
+    {
+      "epoch": 0.55424,
+      "grad_norm": 0.6409994365716849,
+      "learning_rate": 4.755963085647625e-06,
+      "loss": 0.3946393132209778,
+      "memory(GiB)": 54.25,
+      "step": 1732,
+      "token_acc": 0.8106921487603306,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.55456,
+      "grad_norm": 0.5930301438941721,
+      "learning_rate": 4.75558291853518e-06,
+      "loss": 0.43866413831710815,
+      "memory(GiB)": 54.25,
+      "step": 1733,
+      "token_acc": 0.8455414012738853,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.55488,
+      "grad_norm": 0.6418114078480659,
+      "learning_rate": 4.75520247075457e-06,
+      "loss": 0.41745686531066895,
+      "memory(GiB)": 54.25,
+      "step": 1734,
+      "token_acc": 0.8533659730722154,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.5552,
+      "grad_norm": 0.662076139879933,
+      "learning_rate": 4.754821742353134e-06,
+      "loss": 0.3308243751525879,
+      "memory(GiB)": 54.25,
+      "step": 1735,
+      "token_acc": 0.9476614699331849,
+      "train_speed(iter/s)": 0.241924
+    },
+    {
+      "epoch": 0.55552,
+      "grad_norm": 0.6326045245369947,
+      "learning_rate": 4.754440733378247e-06,
+      "loss": 0.3312709927558899,
+      "memory(GiB)": 54.25,
+      "step": 1736,
+      "token_acc": 0.9100575985821887,
+      "train_speed(iter/s)": 0.24193
+    },
+    {
+      "epoch": 0.55584,
+      "grad_norm": 0.6364880221183564,
+      "learning_rate": 4.75405944387732e-06,
+      "loss": 0.3870372176170349,
+      "memory(GiB)": 54.25,
+      "step": 1737,
+      "token_acc": 0.8506581933726737,
+      "train_speed(iter/s)": 0.241928
+    },
+    {
+      "epoch": 0.55616,
+      "grad_norm": 0.6616714454919996,
+      "learning_rate": 4.753677873897796e-06,
+      "loss": 0.4567233920097351,
+      "memory(GiB)": 54.25,
+      "step": 1738,
+      "token_acc": 0.7932737535277516,
+      "train_speed(iter/s)": 0.241931
+    },
+    {
+      "epoch": 0.55648,
+      "grad_norm": 0.6706903457549486,
+      "learning_rate": 4.753296023487158e-06,
+      "loss": 0.4100452661514282,
+      "memory(GiB)": 54.25,
+      "step": 1739,
+      "token_acc": 0.8880097382836275,
+      "train_speed(iter/s)": 0.241931
+    },
+    {
+      "epoch": 0.5568,
+      "grad_norm": 0.6382531822361515,
+      "learning_rate": 4.752913892692918e-06,
+      "loss": 0.4082014560699463,
+      "memory(GiB)": 54.25,
+      "step": 1740,
+      "token_acc": 0.915084388185654,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.55712,
+      "grad_norm": 0.6337767839615603,
+      "learning_rate": 4.7525314815626255e-06,
+      "loss": 0.3920116424560547,
+      "memory(GiB)": 54.25,
+      "step": 1741,
+      "token_acc": 0.8507140932363244,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.55744,
+      "grad_norm": 0.6111844204727378,
+      "learning_rate": 4.752148790143867e-06,
+      "loss": 0.39341235160827637,
+      "memory(GiB)": 54.25,
+      "step": 1742,
+      "token_acc": 0.857307249712313,
+      "train_speed(iter/s)": 0.241929
+    },
+    {
+      "epoch": 0.55776,
+      "grad_norm": 0.6249758244803715,
+      "learning_rate": 4.75176581848426e-06,
+      "loss": 0.3675069808959961,
+      "memory(GiB)": 54.25,
+      "step": 1743,
+      "token_acc": 0.8603714477511748,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.55808,
+      "grad_norm": 0.6242039810737627,
+      "learning_rate": 4.751382566631458e-06,
+      "loss": 0.4128805696964264,
+      "memory(GiB)": 54.25,
+      "step": 1744,
+      "token_acc": 0.8898357929744336,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.5584,
+      "grad_norm": 0.6519932496275362,
+      "learning_rate": 4.7509990346331525e-06,
+      "loss": 0.4031781554222107,
+      "memory(GiB)": 54.25,
+      "step": 1745,
+      "token_acc": 0.8840384615384616,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.55872,
+      "grad_norm": 0.6227677515827402,
+      "learning_rate": 4.750615222537066e-06,
+      "loss": 0.3471803367137909,
+      "memory(GiB)": 54.25,
+      "step": 1746,
+      "token_acc": 0.9231022017745646,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.55904,
+      "grad_norm": 0.6185863126570115,
+      "learning_rate": 4.750231130390957e-06,
+      "loss": 0.4443768262863159,
+      "memory(GiB)": 54.25,
+      "step": 1747,
+      "token_acc": 0.8952421591636441,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.55936,
+      "grad_norm": 0.6551728809582249,
+      "learning_rate": 4.74984675824262e-06,
+      "loss": 0.3390619456768036,
+      "memory(GiB)": 54.25,
+      "step": 1748,
+      "token_acc": 0.8777943368107303,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.55968,
+      "grad_norm": 0.6195254350242192,
+      "learning_rate": 4.749462106139883e-06,
+      "loss": 0.34302324056625366,
+      "memory(GiB)": 54.25,
+      "step": 1749,
+      "token_acc": 0.9469931804091755,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.6430803819230743,
+      "learning_rate": 4.749077174130609e-06,
+      "loss": 0.366433322429657,
+      "memory(GiB)": 54.25,
+      "step": 1750,
+      "token_acc": 0.9177190968235744,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.56032,
+      "grad_norm": 0.706299485224754,
+      "learning_rate": 4.748691962262696e-06,
+      "loss": 0.40689200162887573,
+      "memory(GiB)": 54.25,
+      "step": 1751,
+      "token_acc": 0.8337247534053547,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.56064,
+      "grad_norm": 0.6419720956736918,
+      "learning_rate": 4.748306470584077e-06,
+      "loss": 0.3770413398742676,
+      "memory(GiB)": 54.25,
+      "step": 1752,
+      "token_acc": 0.8844331024425811,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.56096,
+      "grad_norm": 0.7193389826909394,
+      "learning_rate": 4.747920699142721e-06,
+      "loss": 0.4500507712364197,
+      "memory(GiB)": 54.25,
+      "step": 1753,
+      "token_acc": 0.8817795551112222,
+      "train_speed(iter/s)": 0.241904
+    },
+    {
+      "epoch": 0.56128,
+      "grad_norm": 0.6182018889032513,
+      "learning_rate": 4.747534647986629e-06,
+      "loss": 0.34165963530540466,
+      "memory(GiB)": 54.25,
+      "step": 1754,
+      "token_acc": 0.9302446642373764,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.5616,
+      "grad_norm": 0.6445899027455283,
+      "learning_rate": 4.7471483171638395e-06,
+      "loss": 0.3784472644329071,
+      "memory(GiB)": 54.25,
+      "step": 1755,
+      "token_acc": 0.8795503211991434,
+      "train_speed(iter/s)": 0.241897
+    },
+    {
+      "epoch": 0.56192,
+      "grad_norm": 0.6587525538814646,
+      "learning_rate": 4.746761706722424e-06,
+      "loss": 0.32692939043045044,
+      "memory(GiB)": 54.25,
+      "step": 1756,
+      "token_acc": 0.916058394160584,
+      "train_speed(iter/s)": 0.241903
+    },
+    {
+      "epoch": 0.56224,
+      "grad_norm": 0.6134595182958407,
+      "learning_rate": 4.74637481671049e-06,
+      "loss": 0.329830527305603,
+      "memory(GiB)": 54.25,
+      "step": 1757,
+      "token_acc": 0.932182864062973,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.56256,
+      "grad_norm": 0.9104070959234093,
+      "learning_rate": 4.7459876471761775e-06,
+      "loss": 0.42434442043304443,
+      "memory(GiB)": 54.25,
+      "step": 1758,
+      "token_acc": 0.8130161876445325,
+      "train_speed(iter/s)": 0.241912
+    },
+    {
+      "epoch": 0.56288,
+      "grad_norm": 0.7258884521884202,
+      "learning_rate": 4.745600198167665e-06,
+      "loss": 0.36804088950157166,
+      "memory(GiB)": 54.25,
+      "step": 1759,
+      "token_acc": 0.9528115286804182,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.5632,
+      "grad_norm": 0.6467003418809625,
+      "learning_rate": 4.745212469733163e-06,
+      "loss": 0.3190022110939026,
+      "memory(GiB)": 54.25,
+      "step": 1760,
+      "token_acc": 0.906721536351166,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.56352,
+      "grad_norm": 0.6330817935833253,
+      "learning_rate": 4.744824461920918e-06,
+      "loss": 0.30715835094451904,
+      "memory(GiB)": 54.25,
+      "step": 1761,
+      "token_acc": 0.8520637515324888,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.56384,
+      "grad_norm": 0.7226087708235928,
+      "learning_rate": 4.744436174779211e-06,
+      "loss": 0.3926074206829071,
+      "memory(GiB)": 54.25,
+      "step": 1762,
+      "token_acc": 0.8765020026702269,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.56416,
+      "grad_norm": 0.6294294787652727,
+      "learning_rate": 4.744047608356357e-06,
+      "loss": 0.389980286359787,
+      "memory(GiB)": 54.25,
+      "step": 1763,
+      "token_acc": 0.8578610603290676,
+      "train_speed(iter/s)": 0.241911
+    },
+    {
+      "epoch": 0.56448,
+      "grad_norm": 0.6456305987084016,
+      "learning_rate": 4.743658762700706e-06,
+      "loss": 0.4418475329875946,
+      "memory(GiB)": 54.25,
+      "step": 1764,
+      "token_acc": 0.9219595556821418,
+      "train_speed(iter/s)": 0.241903
+    },
+    {
+      "epoch": 0.5648,
+      "grad_norm": 0.6330252097968619,
+      "learning_rate": 4.743269637860644e-06,
+      "loss": 0.34322622418403625,
+      "memory(GiB)": 54.25,
+      "step": 1765,
+      "token_acc": 0.9049128367670365,
+      "train_speed(iter/s)": 0.241906
+    },
+    {
+      "epoch": 0.56512,
+      "grad_norm": 0.6812734926345403,
+      "learning_rate": 4.74288023388459e-06,
+      "loss": 0.34449827671051025,
+      "memory(GiB)": 54.25,
+      "step": 1766,
+      "token_acc": 0.9157142857142857,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.56544,
+      "grad_norm": 0.6031007303975944,
+      "learning_rate": 4.742490550820999e-06,
+      "loss": 0.3827779293060303,
+      "memory(GiB)": 54.25,
+      "step": 1767,
+      "token_acc": 0.8848056537102473,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.56576,
+      "grad_norm": 0.6795076298086795,
+      "learning_rate": 4.742100588718361e-06,
+      "loss": 0.41281187534332275,
+      "memory(GiB)": 54.25,
+      "step": 1768,
+      "token_acc": 0.867983367983368,
+      "train_speed(iter/s)": 0.241917
+    },
+    {
+      "epoch": 0.56608,
+      "grad_norm": 0.6620192910337483,
+      "learning_rate": 4.7417103476252e-06,
+      "loss": 0.42870399355888367,
+      "memory(GiB)": 54.25,
+      "step": 1769,
+      "token_acc": 0.8718302094818081,
+      "train_speed(iter/s)": 0.241919
+    },
+    {
+      "epoch": 0.5664,
+      "grad_norm": 0.6681739659244372,
+      "learning_rate": 4.741319827590073e-06,
+      "loss": 0.481192022562027,
+      "memory(GiB)": 54.25,
+      "step": 1770,
+      "token_acc": 0.842260805319542,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.56672,
+      "grad_norm": 0.6506421994090563,
+      "learning_rate": 4.740929028661575e-06,
+      "loss": 0.3987448215484619,
+      "memory(GiB)": 54.25,
+      "step": 1771,
+      "token_acc": 0.8671271840715157,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.56704,
+      "grad_norm": 0.6966160746078027,
+      "learning_rate": 4.740537950888334e-06,
+      "loss": 0.424798846244812,
+      "memory(GiB)": 54.25,
+      "step": 1772,
+      "token_acc": 0.9041970802919708,
+      "train_speed(iter/s)": 0.241917
+    },
+    {
+      "epoch": 0.56736,
+      "grad_norm": 0.6987433377234162,
+      "learning_rate": 4.740146594319012e-06,
+      "loss": 0.3548508882522583,
+      "memory(GiB)": 54.25,
+      "step": 1773,
+      "token_acc": 0.8272921108742004,
+      "train_speed(iter/s)": 0.241924
+    },
+    {
+      "epoch": 0.56768,
+      "grad_norm": 0.6569243226011326,
+      "learning_rate": 4.739754959002307e-06,
+      "loss": 0.3921222686767578,
+      "memory(GiB)": 54.25,
+      "step": 1774,
+      "token_acc": 0.9029711198836484,
+      "train_speed(iter/s)": 0.241928
+    },
+    {
+      "epoch": 0.568,
+      "grad_norm": 0.5978769608082144,
+      "learning_rate": 4.739363044986951e-06,
+      "loss": 0.3292708396911621,
+      "memory(GiB)": 54.25,
+      "step": 1775,
+      "token_acc": 0.9397746967071057,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.56832,
+      "grad_norm": 0.676326631944193,
+      "learning_rate": 4.738970852321712e-06,
+      "loss": 0.3797937035560608,
+      "memory(GiB)": 54.25,
+      "step": 1776,
+      "token_acc": 0.8772246582409079,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.56864,
+      "grad_norm": 0.6361639046063012,
+      "learning_rate": 4.73857838105539e-06,
+      "loss": 0.3331979811191559,
+      "memory(GiB)": 54.25,
+      "step": 1777,
+      "token_acc": 0.9504310344827587,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.56896,
+      "grad_norm": 0.6066442116758758,
+      "learning_rate": 4.738185631236823e-06,
+      "loss": 0.3624189496040344,
+      "memory(GiB)": 54.25,
+      "step": 1778,
+      "token_acc": 0.9283811778632731,
+      "train_speed(iter/s)": 0.24193
+    },
+    {
+      "epoch": 0.56928,
+      "grad_norm": 0.7025203276723303,
+      "learning_rate": 4.73779260291488e-06,
+      "loss": 0.38638049364089966,
+      "memory(GiB)": 54.25,
+      "step": 1779,
+      "token_acc": 0.8603683897801545,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.5696,
+      "grad_norm": 0.6812612438271654,
+      "learning_rate": 4.737399296138468e-06,
+      "loss": 0.49551159143447876,
+      "memory(GiB)": 54.25,
+      "step": 1780,
+      "token_acc": 0.8763405559203327,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.56992,
+      "grad_norm": 0.6372318257625379,
+      "learning_rate": 4.737005710956526e-06,
+      "loss": 0.3790011405944824,
+      "memory(GiB)": 54.25,
+      "step": 1781,
+      "token_acc": 0.8664815749621403,
+      "train_speed(iter/s)": 0.241943
+    },
+    {
+      "epoch": 0.57024,
+      "grad_norm": 0.64916617877153,
+      "learning_rate": 4.73661184741803e-06,
+      "loss": 0.32817262411117554,
+      "memory(GiB)": 54.25,
+      "step": 1782,
+      "token_acc": 0.9374217772215269,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.57056,
+      "grad_norm": 0.7019179118872425,
+      "learning_rate": 4.736217705571989e-06,
+      "loss": 0.37319111824035645,
+      "memory(GiB)": 54.25,
+      "step": 1783,
+      "token_acc": 0.8443296997513865,
+      "train_speed(iter/s)": 0.241952
+    },
+    {
+      "epoch": 0.57088,
+      "grad_norm": 0.6616505207652147,
+      "learning_rate": 4.735823285467447e-06,
+      "loss": 0.3489619791507721,
+      "memory(GiB)": 54.25,
+      "step": 1784,
+      "token_acc": 0.8849241748438894,
+      "train_speed(iter/s)": 0.24196
+    },
+    {
+      "epoch": 0.5712,
+      "grad_norm": 0.7171809246762367,
+      "learning_rate": 4.735428587153483e-06,
+      "loss": 0.36661937832832336,
+      "memory(GiB)": 54.25,
+      "step": 1785,
+      "token_acc": 0.9030769230769231,
+      "train_speed(iter/s)": 0.241966
+    },
+    {
+      "epoch": 0.57152,
+      "grad_norm": 0.7088312659915446,
+      "learning_rate": 4.7350336106792105e-06,
+      "loss": 0.4244718849658966,
+      "memory(GiB)": 54.25,
+      "step": 1786,
+      "token_acc": 0.8711453744493393,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.57184,
+      "grad_norm": 0.6126567710753559,
+      "learning_rate": 4.734638356093777e-06,
+      "loss": 0.3673321008682251,
+      "memory(GiB)": 54.25,
+      "step": 1787,
+      "token_acc": 0.8972348328518366,
+      "train_speed(iter/s)": 0.241968
+    },
+    {
+      "epoch": 0.57216,
+      "grad_norm": 0.6244567494961059,
+      "learning_rate": 4.7342428234463655e-06,
+      "loss": 0.35194259881973267,
+      "memory(GiB)": 54.25,
+      "step": 1788,
+      "token_acc": 0.899352983465133,
+      "train_speed(iter/s)": 0.241964
+    },
+    {
+      "epoch": 0.57248,
+      "grad_norm": 0.6922175261521196,
+      "learning_rate": 4.7338470127861924e-06,
+      "loss": 0.43254345655441284,
+      "memory(GiB)": 54.25,
+      "step": 1789,
+      "token_acc": 0.8546135512427647,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.5728,
+      "grad_norm": 0.6329375587795568,
+      "learning_rate": 4.73345092416251e-06,
+      "loss": 0.3455372750759125,
+      "memory(GiB)": 54.25,
+      "step": 1790,
+      "token_acc": 0.8648737290915054,
+      "train_speed(iter/s)": 0.24196
+    },
+    {
+      "epoch": 0.57312,
+      "grad_norm": 0.617555770224745,
+      "learning_rate": 4.733054557624605e-06,
+      "loss": 0.36615675687789917,
+      "memory(GiB)": 54.25,
+      "step": 1791,
+      "token_acc": 0.809421265141319,
+      "train_speed(iter/s)": 0.24196
+    },
+    {
+      "epoch": 0.57344,
+      "grad_norm": 0.689462334849659,
+      "learning_rate": 4.732657913221798e-06,
+      "loss": 0.39402520656585693,
+      "memory(GiB)": 54.25,
+      "step": 1792,
+      "token_acc": 0.8873541319361753,
+      "train_speed(iter/s)": 0.241964
+    },
+    {
+      "epoch": 0.57376,
+      "grad_norm": 1.1449909380908412,
+      "learning_rate": 4.732260991003444e-06,
+      "loss": 0.4429539442062378,
+      "memory(GiB)": 54.25,
+      "step": 1793,
+      "token_acc": 0.910054347826087,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.57408,
+      "grad_norm": 0.6492172549658219,
+      "learning_rate": 4.731863791018935e-06,
+      "loss": 0.377286434173584,
+      "memory(GiB)": 54.25,
+      "step": 1794,
+      "token_acc": 0.9003721729172631,
+      "train_speed(iter/s)": 0.24196
+    },
+    {
+      "epoch": 0.5744,
+      "grad_norm": 0.6145238846646529,
+      "learning_rate": 4.731466313317693e-06,
+      "loss": 0.3163700997829437,
+      "memory(GiB)": 54.25,
+      "step": 1795,
+      "token_acc": 0.9000888888888889,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.57472,
+      "grad_norm": 0.6744761942249956,
+      "learning_rate": 4.731068557949178e-06,
+      "loss": 0.3915477991104126,
+      "memory(GiB)": 54.25,
+      "step": 1796,
+      "token_acc": 0.8525739320920044,
+      "train_speed(iter/s)": 0.241956
+    },
+    {
+      "epoch": 0.57504,
+      "grad_norm": 0.6913480388638615,
+      "learning_rate": 4.7306705249628856e-06,
+      "loss": 0.4396110773086548,
+      "memory(GiB)": 54.25,
+      "step": 1797,
+      "token_acc": 0.9209809264305178,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.57536,
+      "grad_norm": 0.6033203614890584,
+      "learning_rate": 4.7302722144083415e-06,
+      "loss": 0.4024497866630554,
+      "memory(GiB)": 54.25,
+      "step": 1798,
+      "token_acc": 0.8845190380761523,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.57568,
+      "grad_norm": 0.6215289406299345,
+      "learning_rate": 4.729873626335111e-06,
+      "loss": 0.31602048873901367,
+      "memory(GiB)": 54.25,
+      "step": 1799,
+      "token_acc": 0.8740914419695194,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 0.640265226718409,
+      "learning_rate": 4.729474760792789e-06,
+      "loss": 0.324046790599823,
+      "memory(GiB)": 54.25,
+      "step": 1800,
+      "token_acc": 0.837017310252996,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.57632,
+      "grad_norm": 0.587115950466922,
+      "learning_rate": 4.729075617831009e-06,
+      "loss": 0.38621726632118225,
+      "memory(GiB)": 54.25,
+      "step": 1801,
+      "token_acc": 0.9049114151154968,
+      "train_speed(iter/s)": 0.241953
+    },
+    {
+      "epoch": 0.57664,
+      "grad_norm": 0.6358495764201721,
+      "learning_rate": 4.728676197499438e-06,
+      "loss": 0.408303439617157,
+      "memory(GiB)": 54.25,
+      "step": 1802,
+      "token_acc": 0.899607843137255,
+      "train_speed(iter/s)": 0.241946
+    },
+    {
+      "epoch": 0.57696,
+      "grad_norm": 0.6479458324247545,
+      "learning_rate": 4.728276499847775e-06,
+      "loss": 0.3367271423339844,
+      "memory(GiB)": 54.25,
+      "step": 1803,
+      "token_acc": 0.8420427553444181,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.57728,
+      "grad_norm": 0.570521557486852,
+      "learning_rate": 4.727876524925756e-06,
+      "loss": 0.3597154915332794,
+      "memory(GiB)": 54.25,
+      "step": 1804,
+      "token_acc": 0.9480789200415368,
+      "train_speed(iter/s)": 0.24194
+    },
+    {
+      "epoch": 0.5776,
+      "grad_norm": 0.7208093788346057,
+      "learning_rate": 4.727476272783153e-06,
+      "loss": 0.37555748224258423,
+      "memory(GiB)": 54.25,
+      "step": 1805,
+      "token_acc": 0.8320715760495526,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.57792,
+      "grad_norm": 0.8592805808101602,
+      "learning_rate": 4.727075743469768e-06,
+      "loss": 0.43025392293930054,
+      "memory(GiB)": 54.25,
+      "step": 1806,
+      "token_acc": 0.892229154849688,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.57824,
+      "grad_norm": 0.6420075880317323,
+      "learning_rate": 4.72667493703544e-06,
+      "loss": 0.5147736668586731,
+      "memory(GiB)": 54.25,
+      "step": 1807,
+      "token_acc": 0.856243854473943,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.57856,
+      "grad_norm": 0.6936085879410177,
+      "learning_rate": 4.7262738535300434e-06,
+      "loss": 0.4516546130180359,
+      "memory(GiB)": 54.25,
+      "step": 1808,
+      "token_acc": 0.8926517571884984,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.57888,
+      "grad_norm": 0.5999944949610937,
+      "learning_rate": 4.725872493003486e-06,
+      "loss": 0.3590053915977478,
+      "memory(GiB)": 54.25,
+      "step": 1809,
+      "token_acc": 0.9182287421896224,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.5792,
+      "grad_norm": 0.6397805375371721,
+      "learning_rate": 4.72547085550571e-06,
+      "loss": 0.3638008236885071,
+      "memory(GiB)": 54.25,
+      "step": 1810,
+      "token_acc": 0.8770197486535009,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.57952,
+      "grad_norm": 0.8087116314177479,
+      "learning_rate": 4.725068941086693e-06,
+      "loss": 0.3281588554382324,
+      "memory(GiB)": 54.25,
+      "step": 1811,
+      "token_acc": 0.8910313901345291,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.57984,
+      "grad_norm": 0.6531301040830392,
+      "learning_rate": 4.724666749796444e-06,
+      "loss": 0.44599318504333496,
+      "memory(GiB)": 54.25,
+      "step": 1812,
+      "token_acc": 0.8816083395383469,
+      "train_speed(iter/s)": 0.24194
+    },
+    {
+      "epoch": 0.58016,
+      "grad_norm": 0.5994763511531765,
+      "learning_rate": 4.72426428168501e-06,
+      "loss": 0.31098484992980957,
+      "memory(GiB)": 54.25,
+      "step": 1813,
+      "token_acc": 0.9493809176984706,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.58048,
+      "grad_norm": 0.6413351296359074,
+      "learning_rate": 4.723861536802472e-06,
+      "loss": 0.3934440016746521,
+      "memory(GiB)": 54.25,
+      "step": 1814,
+      "token_acc": 0.9531645569620253,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.5808,
+      "grad_norm": 1.29522276485793,
+      "learning_rate": 4.7234585151989445e-06,
+      "loss": 0.36183491349220276,
+      "memory(GiB)": 54.25,
+      "step": 1815,
+      "token_acc": 0.8933992234380516,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.58112,
+      "grad_norm": 0.686069620007176,
+      "learning_rate": 4.723055216924576e-06,
+      "loss": 0.4371922016143799,
+      "memory(GiB)": 54.25,
+      "step": 1816,
+      "token_acc": 0.9045267489711935,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.58144,
+      "grad_norm": 0.687803413396611,
+      "learning_rate": 4.72265164202955e-06,
+      "loss": 0.4018932580947876,
+      "memory(GiB)": 54.25,
+      "step": 1817,
+      "token_acc": 0.8973230656398973,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.58176,
+      "grad_norm": 0.6656764600578396,
+      "learning_rate": 4.722247790564084e-06,
+      "loss": 0.3364885747432709,
+      "memory(GiB)": 54.25,
+      "step": 1818,
+      "token_acc": 0.913997840949982,
+      "train_speed(iter/s)": 0.241946
+    },
+    {
+      "epoch": 0.58208,
+      "grad_norm": 0.6570459968425892,
+      "learning_rate": 4.72184366257843e-06,
+      "loss": 0.4190482497215271,
+      "memory(GiB)": 54.25,
+      "step": 1819,
+      "token_acc": 0.9146275149537793,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.5824,
+      "grad_norm": 0.5836856622715874,
+      "learning_rate": 4.721439258122877e-06,
+      "loss": 0.3488476276397705,
+      "memory(GiB)": 54.25,
+      "step": 1820,
+      "token_acc": 0.8268376068376069,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.58272,
+      "grad_norm": 0.592588370972377,
+      "learning_rate": 4.721034577247743e-06,
+      "loss": 0.3563780188560486,
+      "memory(GiB)": 54.25,
+      "step": 1821,
+      "token_acc": 0.897908979089791,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.58304,
+      "grad_norm": 0.5947776414987895,
+      "learning_rate": 4.720629620003386e-06,
+      "loss": 0.4122748374938965,
+      "memory(GiB)": 54.25,
+      "step": 1822,
+      "token_acc": 0.8900881057268722,
+      "train_speed(iter/s)": 0.241943
+    },
+    {
+      "epoch": 0.58336,
+      "grad_norm": 0.895958775524217,
+      "learning_rate": 4.720224386440195e-06,
+      "loss": 0.4483799338340759,
+      "memory(GiB)": 54.25,
+      "step": 1823,
+      "token_acc": 0.9371900826446281,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.58368,
+      "grad_norm": 0.6493686163908919,
+      "learning_rate": 4.7198188766085936e-06,
+      "loss": 0.3813807964324951,
+      "memory(GiB)": 54.25,
+      "step": 1824,
+      "token_acc": 0.9162466072120977,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.584,
+      "grad_norm": 0.6605989580604787,
+      "learning_rate": 4.719413090559042e-06,
+      "loss": 0.4767861068248749,
+      "memory(GiB)": 54.25,
+      "step": 1825,
+      "token_acc": 0.7813552188552189,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.58432,
+      "grad_norm": 0.679270998077196,
+      "learning_rate": 4.719007028342032e-06,
+      "loss": 0.4362083077430725,
+      "memory(GiB)": 54.25,
+      "step": 1826,
+      "token_acc": 0.891832229580574,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.58464,
+      "grad_norm": 0.6466767187048821,
+      "learning_rate": 4.718600690008091e-06,
+      "loss": 0.3476477861404419,
+      "memory(GiB)": 54.25,
+      "step": 1827,
+      "token_acc": 0.903483116192502,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.58496,
+      "grad_norm": 0.6412182348366258,
+      "learning_rate": 4.718194075607781e-06,
+      "loss": 0.38519108295440674,
+      "memory(GiB)": 54.25,
+      "step": 1828,
+      "token_acc": 0.8177391304347826,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.58528,
+      "grad_norm": 0.6360706873761225,
+      "learning_rate": 4.717787185191698e-06,
+      "loss": 0.39760780334472656,
+      "memory(GiB)": 54.25,
+      "step": 1829,
+      "token_acc": 0.8770883054892601,
+      "train_speed(iter/s)": 0.24194
+    },
+    {
+      "epoch": 0.5856,
+      "grad_norm": 0.6566022569903045,
+      "learning_rate": 4.717380018810473e-06,
+      "loss": 0.3461950421333313,
+      "memory(GiB)": 54.25,
+      "step": 1830,
+      "token_acc": 0.8887801696020874,
+      "train_speed(iter/s)": 0.241946
+    },
+    {
+      "epoch": 0.58592,
+      "grad_norm": 0.6412332900861341,
+      "learning_rate": 4.716972576514771e-06,
+      "loss": 0.342499703168869,
+      "memory(GiB)": 54.25,
+      "step": 1831,
+      "token_acc": 0.9278227727489281,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.58624,
+      "grad_norm": 0.6056872772958543,
+      "learning_rate": 4.716564858355291e-06,
+      "loss": 0.36778876185417175,
+      "memory(GiB)": 54.25,
+      "step": 1832,
+      "token_acc": 0.9292831886853102,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.58656,
+      "grad_norm": 0.6334258745699023,
+      "learning_rate": 4.716156864382765e-06,
+      "loss": 0.34735170006752014,
+      "memory(GiB)": 54.25,
+      "step": 1833,
+      "token_acc": 0.8962264150943396,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.58688,
+      "grad_norm": 0.625785684451839,
+      "learning_rate": 4.715748594647961e-06,
+      "loss": 0.3761109709739685,
+      "memory(GiB)": 54.25,
+      "step": 1834,
+      "token_acc": 0.8864833235810415,
+      "train_speed(iter/s)": 0.241941
+    },
+    {
+      "epoch": 0.5872,
+      "grad_norm": 0.6504366539374913,
+      "learning_rate": 4.715340049201683e-06,
+      "loss": 0.40765106678009033,
+      "memory(GiB)": 54.25,
+      "step": 1835,
+      "token_acc": 0.8242280285035629,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.58752,
+      "grad_norm": 0.6279645898902287,
+      "learning_rate": 4.714931228094767e-06,
+      "loss": 0.31422537565231323,
+      "memory(GiB)": 54.25,
+      "step": 1836,
+      "token_acc": 0.9406087602078693,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.58784,
+      "grad_norm": 0.6697938993513486,
+      "learning_rate": 4.714522131378082e-06,
+      "loss": 0.4501338601112366,
+      "memory(GiB)": 54.25,
+      "step": 1837,
+      "token_acc": 0.8982019363762103,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.58816,
+      "grad_norm": 0.6468227570729663,
+      "learning_rate": 4.714112759102534e-06,
+      "loss": 0.31853756308555603,
+      "memory(GiB)": 54.25,
+      "step": 1838,
+      "token_acc": 0.9458154506437768,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.58848,
+      "grad_norm": 0.6443090516958139,
+      "learning_rate": 4.713703111319062e-06,
+      "loss": 0.3752342462539673,
+      "memory(GiB)": 54.25,
+      "step": 1839,
+      "token_acc": 0.9326012873911397,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.5888,
+      "grad_norm": 0.69319889507301,
+      "learning_rate": 4.71329318807864e-06,
+      "loss": 0.4515884518623352,
+      "memory(GiB)": 54.25,
+      "step": 1840,
+      "token_acc": 0.8789459953039395,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.58912,
+      "grad_norm": 0.6336320306050697,
+      "learning_rate": 4.712882989432276e-06,
+      "loss": 0.4417129456996918,
+      "memory(GiB)": 54.25,
+      "step": 1841,
+      "token_acc": 0.8995307756003312,
+      "train_speed(iter/s)": 0.24193
+    },
+    {
+      "epoch": 0.58944,
+      "grad_norm": 0.6785911710982593,
+      "learning_rate": 4.7124725154310116e-06,
+      "loss": 0.4416154623031616,
+      "memory(GiB)": 54.25,
+      "step": 1842,
+      "token_acc": 0.9128962757771623,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.58976,
+      "grad_norm": 0.6877340495884596,
+      "learning_rate": 4.712061766125923e-06,
+      "loss": 0.47496819496154785,
+      "memory(GiB)": 54.25,
+      "step": 1843,
+      "token_acc": 0.9429669977571291,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.59008,
+      "grad_norm": 0.6666697917489173,
+      "learning_rate": 4.711650741568122e-06,
+      "loss": 0.3794732689857483,
+      "memory(GiB)": 54.25,
+      "step": 1844,
+      "token_acc": 0.8656527249683144,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.5904,
+      "grad_norm": 0.6672772481583105,
+      "learning_rate": 4.711239441808751e-06,
+      "loss": 0.3951161205768585,
+      "memory(GiB)": 54.25,
+      "step": 1845,
+      "token_acc": 0.9240421241317499,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.59072,
+      "grad_norm": 0.7592715206788123,
+      "learning_rate": 4.710827866898992e-06,
+      "loss": 0.4339952766895294,
+      "memory(GiB)": 54.25,
+      "step": 1846,
+      "token_acc": 0.9477855477855478,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.59104,
+      "grad_norm": 0.6448940581241043,
+      "learning_rate": 4.7104160168900575e-06,
+      "loss": 0.3923218250274658,
+      "memory(GiB)": 54.25,
+      "step": 1847,
+      "token_acc": 0.887249443207127,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.59136,
+      "grad_norm": 0.6317991578652563,
+      "learning_rate": 4.710003891833194e-06,
+      "loss": 0.34738385677337646,
+      "memory(GiB)": 54.25,
+      "step": 1848,
+      "token_acc": 0.9151329243353783,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.59168,
+      "grad_norm": 0.6395302922754686,
+      "learning_rate": 4.709591491779684e-06,
+      "loss": 0.36953243613243103,
+      "memory(GiB)": 54.25,
+      "step": 1849,
+      "token_acc": 0.9124423963133641,
+      "train_speed(iter/s)": 0.241951
+    },
+    {
+      "epoch": 0.592,
+      "grad_norm": 0.667646933114188,
+      "learning_rate": 4.709178816780844e-06,
+      "loss": 0.38187217712402344,
+      "memory(GiB)": 54.25,
+      "step": 1850,
+      "token_acc": 0.9005186232909005,
+      "train_speed(iter/s)": 0.241951
+    },
+    {
+      "epoch": 0.59232,
+      "grad_norm": 0.7084046084628721,
+      "learning_rate": 4.708765866888023e-06,
+      "loss": 0.4074920415878296,
+      "memory(GiB)": 54.25,
+      "step": 1851,
+      "token_acc": 0.9400129701686122,
+      "train_speed(iter/s)": 0.241957
+    },
+    {
+      "epoch": 0.59264,
+      "grad_norm": 0.6722459900887927,
+      "learning_rate": 4.708352642152606e-06,
+      "loss": 0.3094560503959656,
+      "memory(GiB)": 54.25,
+      "step": 1852,
+      "token_acc": 0.8766622340425532,
+      "train_speed(iter/s)": 0.241961
+    },
+    {
+      "epoch": 0.59296,
+      "grad_norm": 0.6216506467272805,
+      "learning_rate": 4.707939142626013e-06,
+      "loss": 0.34115493297576904,
+      "memory(GiB)": 54.25,
+      "step": 1853,
+      "token_acc": 0.9430051813471503,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.59328,
+      "grad_norm": 0.5954181410720727,
+      "learning_rate": 4.707525368359696e-06,
+      "loss": 0.29457253217697144,
+      "memory(GiB)": 54.25,
+      "step": 1854,
+      "token_acc": 0.918580375782881,
+      "train_speed(iter/s)": 0.241971
+    },
+    {
+      "epoch": 0.5936,
+      "grad_norm": 0.6408381584626066,
+      "learning_rate": 4.7071113194051395e-06,
+      "loss": 0.40060746669769287,
+      "memory(GiB)": 54.25,
+      "step": 1855,
+      "token_acc": 0.8712299465240642,
+      "train_speed(iter/s)": 0.241973
+    },
+    {
+      "epoch": 0.59392,
+      "grad_norm": 0.8159051145030883,
+      "learning_rate": 4.706696995813869e-06,
+      "loss": 0.41655248403549194,
+      "memory(GiB)": 54.25,
+      "step": 1856,
+      "token_acc": 0.9377389404696886,
+      "train_speed(iter/s)": 0.241969
+    },
+    {
+      "epoch": 0.59424,
+      "grad_norm": 0.6507983338240121,
+      "learning_rate": 4.706282397637437e-06,
+      "loss": 0.36722099781036377,
+      "memory(GiB)": 54.25,
+      "step": 1857,
+      "token_acc": 0.9196797520661157,
+      "train_speed(iter/s)": 0.241976
+    },
+    {
+      "epoch": 0.59456,
+      "grad_norm": 0.6834787536619207,
+      "learning_rate": 4.705867524927435e-06,
+      "loss": 0.41155320405960083,
+      "memory(GiB)": 54.25,
+      "step": 1858,
+      "token_acc": 0.8975755924816127,
+      "train_speed(iter/s)": 0.241975
+    },
+    {
+      "epoch": 0.59488,
+      "grad_norm": 0.7105329781030931,
+      "learning_rate": 4.705452377735484e-06,
+      "loss": 0.3797593116760254,
+      "memory(GiB)": 54.25,
+      "step": 1859,
+      "token_acc": 0.927658019729631,
+      "train_speed(iter/s)": 0.24197
+    },
+    {
+      "epoch": 0.5952,
+      "grad_norm": 0.6736718643235267,
+      "learning_rate": 4.7050369561132446e-06,
+      "loss": 0.31527775526046753,
+      "memory(GiB)": 54.25,
+      "step": 1860,
+      "token_acc": 0.9477175185329691,
+      "train_speed(iter/s)": 0.241977
+    },
+    {
+      "epoch": 0.59552,
+      "grad_norm": 0.683308371401664,
+      "learning_rate": 4.704621260112407e-06,
+      "loss": 0.4316435754299164,
+      "memory(GiB)": 54.25,
+      "step": 1861,
+      "token_acc": 0.8573717948717948,
+      "train_speed(iter/s)": 0.241982
+    },
+    {
+      "epoch": 0.59584,
+      "grad_norm": 0.9329077541439923,
+      "learning_rate": 4.704205289784698e-06,
+      "loss": 0.4739769995212555,
+      "memory(GiB)": 54.25,
+      "step": 1862,
+      "token_acc": 0.9328268692522991,
+      "train_speed(iter/s)": 0.241981
+    },
+    {
+      "epoch": 0.59616,
+      "grad_norm": 0.6911107500397672,
+      "learning_rate": 4.703789045181879e-06,
+      "loss": 0.4041091799736023,
+      "memory(GiB)": 54.25,
+      "step": 1863,
+      "token_acc": 0.8242894056847545,
+      "train_speed(iter/s)": 0.241976
+    },
+    {
+      "epoch": 0.59648,
+      "grad_norm": 0.6347736849308343,
+      "learning_rate": 4.703372526355741e-06,
+      "loss": 0.3799161911010742,
+      "memory(GiB)": 54.25,
+      "step": 1864,
+      "token_acc": 0.8602731929425157,
+      "train_speed(iter/s)": 0.241977
+    },
+    {
+      "epoch": 0.5968,
+      "grad_norm": 0.6461436582916157,
+      "learning_rate": 4.702955733358118e-06,
+      "loss": 0.3418427109718323,
+      "memory(GiB)": 54.25,
+      "step": 1865,
+      "token_acc": 0.9265362169584621,
+      "train_speed(iter/s)": 0.241984
+    },
+    {
+      "epoch": 0.59712,
+      "grad_norm": 0.6602360139390672,
+      "learning_rate": 4.702538666240868e-06,
+      "loss": 0.35695260763168335,
+      "memory(GiB)": 54.25,
+      "step": 1866,
+      "token_acc": 0.9421433267587114,
+      "train_speed(iter/s)": 0.241992
+    },
+    {
+      "epoch": 0.59744,
+      "grad_norm": 0.9608637311795543,
+      "learning_rate": 4.7021213250558885e-06,
+      "loss": 0.4163212776184082,
+      "memory(GiB)": 54.25,
+      "step": 1867,
+      "token_acc": 0.9281650071123755,
+      "train_speed(iter/s)": 0.241996
+    },
+    {
+      "epoch": 0.59776,
+      "grad_norm": 0.6586169491849986,
+      "learning_rate": 4.701703709855113e-06,
+      "loss": 0.47320181131362915,
+      "memory(GiB)": 54.25,
+      "step": 1868,
+      "token_acc": 0.8569587628865979,
+      "train_speed(iter/s)": 0.241996
+    },
+    {
+      "epoch": 0.59808,
+      "grad_norm": 0.6213705579438341,
+      "learning_rate": 4.701285820690503e-06,
+      "loss": 0.33058369159698486,
+      "memory(GiB)": 54.25,
+      "step": 1869,
+      "token_acc": 0.8992660086054164,
+      "train_speed(iter/s)": 0.242003
+    },
+    {
+      "epoch": 0.5984,
+      "grad_norm": 0.6362014078866778,
+      "learning_rate": 4.70086765761406e-06,
+      "loss": 0.2701127529144287,
+      "memory(GiB)": 54.25,
+      "step": 1870,
+      "token_acc": 0.9195612431444241,
+      "train_speed(iter/s)": 0.242011
+    },
+    {
+      "epoch": 0.59872,
+      "grad_norm": 0.7336699859138293,
+      "learning_rate": 4.700449220677816e-06,
+      "loss": 0.37908437848091125,
+      "memory(GiB)": 54.25,
+      "step": 1871,
+      "token_acc": 0.927004797806717,
+      "train_speed(iter/s)": 0.242017
+    },
+    {
+      "epoch": 0.59904,
+      "grad_norm": 0.6833601433245742,
+      "learning_rate": 4.70003050993384e-06,
+      "loss": 0.32923102378845215,
+      "memory(GiB)": 54.25,
+      "step": 1872,
+      "token_acc": 0.948948948948949,
+      "train_speed(iter/s)": 0.242013
+    },
+    {
+      "epoch": 0.59936,
+      "grad_norm": 0.5955902019286784,
+      "learning_rate": 4.69961152543423e-06,
+      "loss": 0.3059242367744446,
+      "memory(GiB)": 54.25,
+      "step": 1873,
+      "token_acc": 0.8874543239951279,
+      "train_speed(iter/s)": 0.242014
+    },
+    {
+      "epoch": 0.59968,
+      "grad_norm": 0.6180921030848663,
+      "learning_rate": 4.699192267231124e-06,
+      "loss": 0.34250980615615845,
+      "memory(GiB)": 54.25,
+      "step": 1874,
+      "token_acc": 0.8904688700999231,
+      "train_speed(iter/s)": 0.24201
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.6091369428891455,
+      "learning_rate": 4.698772735376691e-06,
+      "loss": 0.37265241146087646,
+      "memory(GiB)": 54.25,
+      "step": 1875,
+      "token_acc": 0.8041040829278612,
+      "train_speed(iter/s)": 0.242013
+    },
+    {
+      "epoch": 0.60032,
+      "grad_norm": 0.6270883297612253,
+      "learning_rate": 4.698352929923133e-06,
+      "loss": 0.4025137424468994,
+      "memory(GiB)": 54.25,
+      "step": 1876,
+      "token_acc": 0.889751552795031,
+      "train_speed(iter/s)": 0.242005
+    },
+    {
+      "epoch": 0.60064,
+      "grad_norm": 0.6529258699250116,
+      "learning_rate": 4.69793285092269e-06,
+      "loss": 0.43084967136383057,
+      "memory(GiB)": 54.25,
+      "step": 1877,
+      "token_acc": 0.837655707576067,
+      "train_speed(iter/s)": 0.24201
+    },
+    {
+      "epoch": 0.60096,
+      "grad_norm": 0.6323453878315589,
+      "learning_rate": 4.697512498427631e-06,
+      "loss": 0.3335462212562561,
+      "memory(GiB)": 54.25,
+      "step": 1878,
+      "token_acc": 0.8627136752136753,
+      "train_speed(iter/s)": 0.242011
+    },
+    {
+      "epoch": 0.60128,
+      "grad_norm": 0.6025354077401586,
+      "learning_rate": 4.697091872490263e-06,
+      "loss": 0.3304687440395355,
+      "memory(GiB)": 54.25,
+      "step": 1879,
+      "token_acc": 0.8813559322033898,
+      "train_speed(iter/s)": 0.242012
+    },
+    {
+      "epoch": 0.6016,
+      "grad_norm": 0.7098066729322163,
+      "learning_rate": 4.696670973162926e-06,
+      "loss": 0.4528351426124573,
+      "memory(GiB)": 54.25,
+      "step": 1880,
+      "token_acc": 0.8277919863597613,
+      "train_speed(iter/s)": 0.242017
+    },
+    {
+      "epoch": 0.60192,
+      "grad_norm": 0.6286003219626017,
+      "learning_rate": 4.696249800497992e-06,
+      "loss": 0.4293079972267151,
+      "memory(GiB)": 54.25,
+      "step": 1881,
+      "token_acc": 0.8551959114139693,
+      "train_speed(iter/s)": 0.242019
+    },
+    {
+      "epoch": 0.60224,
+      "grad_norm": 0.6267677115086208,
+      "learning_rate": 4.69582835454787e-06,
+      "loss": 0.3244718313217163,
+      "memory(GiB)": 54.25,
+      "step": 1882,
+      "token_acc": 0.8753661784287616,
+      "train_speed(iter/s)": 0.242022
+    },
+    {
+      "epoch": 0.60256,
+      "grad_norm": 0.7294831268484209,
+      "learning_rate": 4.6954066353650005e-06,
+      "loss": 0.42103976011276245,
+      "memory(GiB)": 54.25,
+      "step": 1883,
+      "token_acc": 0.8690941919951851,
+      "train_speed(iter/s)": 0.242024
+    },
+    {
+      "epoch": 0.60288,
+      "grad_norm": 0.685928400116101,
+      "learning_rate": 4.694984643001861e-06,
+      "loss": 0.4847121834754944,
+      "memory(GiB)": 54.25,
+      "step": 1884,
+      "token_acc": 0.8554086862692204,
+      "train_speed(iter/s)": 0.242021
+    },
+    {
+      "epoch": 0.6032,
+      "grad_norm": 0.6090671993851012,
+      "learning_rate": 4.694562377510959e-06,
+      "loss": 0.3983410596847534,
+      "memory(GiB)": 54.25,
+      "step": 1885,
+      "token_acc": 0.910727969348659,
+      "train_speed(iter/s)": 0.242022
+    },
+    {
+      "epoch": 0.60352,
+      "grad_norm": 0.7061843461097482,
+      "learning_rate": 4.69413983894484e-06,
+      "loss": 0.3444811701774597,
+      "memory(GiB)": 54.25,
+      "step": 1886,
+      "token_acc": 0.9184839044652129,
+      "train_speed(iter/s)": 0.242026
+    },
+    {
+      "epoch": 0.60384,
+      "grad_norm": 0.6686790874061302,
+      "learning_rate": 4.6937170273560805e-06,
+      "loss": 0.39927420020103455,
+      "memory(GiB)": 54.25,
+      "step": 1887,
+      "token_acc": 0.8744710860366713,
+      "train_speed(iter/s)": 0.242026
+    },
+    {
+      "epoch": 0.60416,
+      "grad_norm": 0.6887617854651125,
+      "learning_rate": 4.693293942797292e-06,
+      "loss": 0.4538082480430603,
+      "memory(GiB)": 54.25,
+      "step": 1888,
+      "token_acc": 0.9013065326633166,
+      "train_speed(iter/s)": 0.242023
+    },
+    {
+      "epoch": 0.60448,
+      "grad_norm": 0.6296564028091076,
+      "learning_rate": 4.692870585321119e-06,
+      "loss": 0.3960420489311218,
+      "memory(GiB)": 54.25,
+      "step": 1889,
+      "token_acc": 0.8922423429465683,
+      "train_speed(iter/s)": 0.242024
+    },
+    {
+      "epoch": 0.6048,
+      "grad_norm": 0.6663456704196793,
+      "learning_rate": 4.692446954980244e-06,
+      "loss": 0.44303804636001587,
+      "memory(GiB)": 54.25,
+      "step": 1890,
+      "token_acc": 0.8431729518855656,
+      "train_speed(iter/s)": 0.242027
+    },
+    {
+      "epoch": 0.60512,
+      "grad_norm": 0.6719079958366911,
+      "learning_rate": 4.692023051827379e-06,
+      "loss": 0.37473976612091064,
+      "memory(GiB)": 54.25,
+      "step": 1891,
+      "token_acc": 0.9331514324693042,
+      "train_speed(iter/s)": 0.242029
+    },
+    {
+      "epoch": 0.60544,
+      "grad_norm": 0.6759622389259655,
+      "learning_rate": 4.69159887591527e-06,
+      "loss": 0.4063390791416168,
+      "memory(GiB)": 54.25,
+      "step": 1892,
+      "token_acc": 0.8887043189368771,
+      "train_speed(iter/s)": 0.24203
+    },
+    {
+      "epoch": 0.60576,
+      "grad_norm": 0.6719731170815866,
+      "learning_rate": 4.691174427296699e-06,
+      "loss": 0.4363413155078888,
+      "memory(GiB)": 54.25,
+      "step": 1893,
+      "token_acc": 0.8720605819051415,
+      "train_speed(iter/s)": 0.242032
+    },
+    {
+      "epoch": 0.60608,
+      "grad_norm": 0.6759919681589908,
+      "learning_rate": 4.690749706024483e-06,
+      "loss": 0.39094769954681396,
+      "memory(GiB)": 54.25,
+      "step": 1894,
+      "token_acc": 0.8842235257795616,
+      "train_speed(iter/s)": 0.242039
+    },
+    {
+      "epoch": 0.6064,
+      "grad_norm": 0.635368899438073,
+      "learning_rate": 4.69032471215147e-06,
+      "loss": 0.39960670471191406,
+      "memory(GiB)": 54.25,
+      "step": 1895,
+      "token_acc": 0.8227477477477477,
+      "train_speed(iter/s)": 0.242038
+    },
+    {
+      "epoch": 0.60672,
+      "grad_norm": 0.6869858828075381,
+      "learning_rate": 4.689899445730542e-06,
+      "loss": 0.37585121393203735,
+      "memory(GiB)": 54.25,
+      "step": 1896,
+      "token_acc": 0.8812615955473099,
+      "train_speed(iter/s)": 0.24204
+    },
+    {
+      "epoch": 0.60704,
+      "grad_norm": 0.6145271284641804,
+      "learning_rate": 4.689473906814618e-06,
+      "loss": 0.5391930937767029,
+      "memory(GiB)": 54.25,
+      "step": 1897,
+      "token_acc": 0.890400604686319,
+      "train_speed(iter/s)": 0.242038
+    },
+    {
+      "epoch": 0.60736,
+      "grad_norm": 0.9958731516341256,
+      "learning_rate": 4.689048095456647e-06,
+      "loss": 0.34210747480392456,
+      "memory(GiB)": 54.25,
+      "step": 1898,
+      "token_acc": 0.893970189701897,
+      "train_speed(iter/s)": 0.242043
+    },
+    {
+      "epoch": 0.60768,
+      "grad_norm": 0.6171473879454615,
+      "learning_rate": 4.688622011709616e-06,
+      "loss": 0.24367280304431915,
+      "memory(GiB)": 54.25,
+      "step": 1899,
+      "token_acc": 0.9184270393240169,
+      "train_speed(iter/s)": 0.242049
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 0.6636318918283806,
+      "learning_rate": 4.688195655626542e-06,
+      "loss": 0.35518679022789,
+      "memory(GiB)": 54.25,
+      "step": 1900,
+      "token_acc": 0.886354034643008,
+      "train_speed(iter/s)": 0.242045
+    },
+    {
+      "epoch": 0.60832,
+      "grad_norm": 0.6257673688315202,
+      "learning_rate": 4.6877690272604785e-06,
+      "loss": 0.3325139284133911,
+      "memory(GiB)": 54.25,
+      "step": 1901,
+      "token_acc": 0.9424541607898449,
+      "train_speed(iter/s)": 0.242041
+    },
+    {
+      "epoch": 0.60864,
+      "grad_norm": 0.6411932096589633,
+      "learning_rate": 4.687342126664511e-06,
+      "loss": 0.3099289536476135,
+      "memory(GiB)": 54.25,
+      "step": 1902,
+      "token_acc": 0.8996068152031454,
+      "train_speed(iter/s)": 0.242046
+    },
+    {
+      "epoch": 0.60896,
+      "grad_norm": 0.611239666517639,
+      "learning_rate": 4.68691495389176e-06,
+      "loss": 0.3109439015388489,
+      "memory(GiB)": 54.25,
+      "step": 1903,
+      "token_acc": 0.8896297999540124,
+      "train_speed(iter/s)": 0.242041
+    },
+    {
+      "epoch": 0.60928,
+      "grad_norm": 0.6396525879272598,
+      "learning_rate": 4.686487508995382e-06,
+      "loss": 0.3729288578033447,
+      "memory(GiB)": 54.25,
+      "step": 1904,
+      "token_acc": 0.8600430636727161,
+      "train_speed(iter/s)": 0.242042
+    },
+    {
+      "epoch": 0.6096,
+      "grad_norm": 0.5937077517501832,
+      "learning_rate": 4.6860597920285625e-06,
+      "loss": 0.3882848620414734,
+      "memory(GiB)": 54.25,
+      "step": 1905,
+      "token_acc": 0.8452762209767815,
+      "train_speed(iter/s)": 0.242038
+    },
+    {
+      "epoch": 0.60992,
+      "grad_norm": 0.638139295245692,
+      "learning_rate": 4.685631803044523e-06,
+      "loss": 0.3926452696323395,
+      "memory(GiB)": 54.25,
+      "step": 1906,
+      "token_acc": 0.893478765374797,
+      "train_speed(iter/s)": 0.242044
+    },
+    {
+      "epoch": 0.61024,
+      "grad_norm": 0.6331222361335191,
+      "learning_rate": 4.685203542096523e-06,
+      "loss": 0.4422401487827301,
+      "memory(GiB)": 54.25,
+      "step": 1907,
+      "token_acc": 0.948995983935743,
+      "train_speed(iter/s)": 0.242044
+    },
+    {
+      "epoch": 0.61056,
+      "grad_norm": 0.6580522386970272,
+      "learning_rate": 4.6847750092378484e-06,
+      "loss": 0.41037675738334656,
+      "memory(GiB)": 54.25,
+      "step": 1908,
+      "token_acc": 0.8828236639039726,
+      "train_speed(iter/s)": 0.242045
+    },
+    {
+      "epoch": 0.61088,
+      "grad_norm": 0.6594293709603198,
+      "learning_rate": 4.6843462045218245e-06,
+      "loss": 0.38065552711486816,
+      "memory(GiB)": 54.25,
+      "step": 1909,
+      "token_acc": 0.8214818498259573,
+      "train_speed(iter/s)": 0.242049
+    },
+    {
+      "epoch": 0.6112,
+      "grad_norm": 0.6693211634529578,
+      "learning_rate": 4.683917128001809e-06,
+      "loss": 0.31737011671066284,
+      "memory(GiB)": 54.25,
+      "step": 1910,
+      "token_acc": 0.9434276206322796,
+      "train_speed(iter/s)": 0.24205
+    },
+    {
+      "epoch": 0.61152,
+      "grad_norm": 0.553076646384481,
+      "learning_rate": 4.683487779731191e-06,
+      "loss": 0.2934996485710144,
+      "memory(GiB)": 54.25,
+      "step": 1911,
+      "token_acc": 0.9506972111553785,
+      "train_speed(iter/s)": 0.242054
+    },
+    {
+      "epoch": 0.61184,
+      "grad_norm": 0.624833882979184,
+      "learning_rate": 4.683058159763397e-06,
+      "loss": 0.3682295083999634,
+      "memory(GiB)": 54.25,
+      "step": 1912,
+      "token_acc": 0.8346807917479788,
+      "train_speed(iter/s)": 0.242045
+    },
+    {
+      "epoch": 0.61216,
+      "grad_norm": 0.6374055807584373,
+      "learning_rate": 4.682628268151885e-06,
+      "loss": 0.4138621389865875,
+      "memory(GiB)": 54.25,
+      "step": 1913,
+      "token_acc": 0.8655419222903885,
+      "train_speed(iter/s)": 0.242044
+    },
+    {
+      "epoch": 0.61248,
+      "grad_norm": 0.6030902687937366,
+      "learning_rate": 4.682198104950149e-06,
+      "loss": 0.41247934103012085,
+      "memory(GiB)": 54.25,
+      "step": 1914,
+      "token_acc": 0.8995826812728221,
+      "train_speed(iter/s)": 0.242049
+    },
+    {
+      "epoch": 0.6128,
+      "grad_norm": 0.6095215506676755,
+      "learning_rate": 4.681767670211715e-06,
+      "loss": 0.3288329541683197,
+      "memory(GiB)": 54.25,
+      "step": 1915,
+      "token_acc": 0.9098765432098765,
+      "train_speed(iter/s)": 0.242044
+    },
+    {
+      "epoch": 0.61312,
+      "grad_norm": 0.5611592594607614,
+      "learning_rate": 4.68133696399014e-06,
+      "loss": 0.35218214988708496,
+      "memory(GiB)": 54.25,
+      "step": 1916,
+      "token_acc": 0.8915527671969528,
+      "train_speed(iter/s)": 0.242027
+    },
+    {
+      "epoch": 0.61344,
+      "grad_norm": 0.6131758589114785,
+      "learning_rate": 4.680905986339021e-06,
+      "loss": 0.3461551368236542,
+      "memory(GiB)": 54.25,
+      "step": 1917,
+      "token_acc": 0.9346361185983828,
+      "train_speed(iter/s)": 0.242027
+    },
+    {
+      "epoch": 0.61376,
+      "grad_norm": 0.6733723425226066,
+      "learning_rate": 4.6804747373119864e-06,
+      "loss": 0.4124794006347656,
+      "memory(GiB)": 54.25,
+      "step": 1918,
+      "token_acc": 0.8363411619283065,
+      "train_speed(iter/s)": 0.242027
+    },
+    {
+      "epoch": 0.61408,
+      "grad_norm": 0.6445150794726912,
+      "learning_rate": 4.6800432169626954e-06,
+      "loss": 0.39320889115333557,
+      "memory(GiB)": 54.25,
+      "step": 1919,
+      "token_acc": 0.8606949314631814,
+      "train_speed(iter/s)": 0.242032
+    },
+    {
+      "epoch": 0.6144,
+      "grad_norm": 0.6690439351008404,
+      "learning_rate": 4.679611425344844e-06,
+      "loss": 0.3687692880630493,
+      "memory(GiB)": 54.25,
+      "step": 1920,
+      "token_acc": 0.8342397729959802,
+      "train_speed(iter/s)": 0.242032
+    },
+    {
+      "epoch": 0.61472,
+      "grad_norm": 0.6511019178402989,
+      "learning_rate": 4.679179362512162e-06,
+      "loss": 0.3744128942489624,
+      "memory(GiB)": 54.25,
+      "step": 1921,
+      "token_acc": 0.9264442052386078,
+      "train_speed(iter/s)": 0.242035
+    },
+    {
+      "epoch": 0.61504,
+      "grad_norm": 0.8125773604510147,
+      "learning_rate": 4.678747028518411e-06,
+      "loss": 0.44436532258987427,
+      "memory(GiB)": 54.25,
+      "step": 1922,
+      "token_acc": 0.8687040181097906,
+      "train_speed(iter/s)": 0.242031
+    },
+    {
+      "epoch": 0.61536,
+      "grad_norm": 0.6627307084794668,
+      "learning_rate": 4.678314423417388e-06,
+      "loss": 0.3515511155128479,
+      "memory(GiB)": 54.25,
+      "step": 1923,
+      "token_acc": 0.8471794871794872,
+      "train_speed(iter/s)": 0.242031
+    },
+    {
+      "epoch": 0.61568,
+      "grad_norm": 0.5892589385073054,
+      "learning_rate": 4.677881547262924e-06,
+      "loss": 0.3269920349121094,
+      "memory(GiB)": 54.25,
+      "step": 1924,
+      "token_acc": 0.92372634643377,
+      "train_speed(iter/s)": 0.242025
+    },
+    {
+      "epoch": 0.616,
+      "grad_norm": 0.6962898247967905,
+      "learning_rate": 4.677448400108881e-06,
+      "loss": 0.44587835669517517,
+      "memory(GiB)": 54.25,
+      "step": 1925,
+      "token_acc": 0.8223140495867769,
+      "train_speed(iter/s)": 0.242029
+    },
+    {
+      "epoch": 0.61632,
+      "grad_norm": 0.6434032269263447,
+      "learning_rate": 4.677014982009158e-06,
+      "loss": 0.391081303358078,
+      "memory(GiB)": 54.25,
+      "step": 1926,
+      "token_acc": 0.8771213748657357,
+      "train_speed(iter/s)": 0.242035
+    },
+    {
+      "epoch": 0.61664,
+      "grad_norm": 0.6583660100600912,
+      "learning_rate": 4.676581293017686e-06,
+      "loss": 0.4154641032218933,
+      "memory(GiB)": 54.25,
+      "step": 1927,
+      "token_acc": 0.8408373960424433,
+      "train_speed(iter/s)": 0.242039
+    },
+    {
+      "epoch": 0.61696,
+      "grad_norm": 0.6591230375850977,
+      "learning_rate": 4.67614733318843e-06,
+      "loss": 0.41621851921081543,
+      "memory(GiB)": 54.25,
+      "step": 1928,
+      "token_acc": 0.9416628387689481,
+      "train_speed(iter/s)": 0.242041
+    },
+    {
+      "epoch": 0.61728,
+      "grad_norm": 0.7500770788685944,
+      "learning_rate": 4.675713102575389e-06,
+      "loss": 0.45208632946014404,
+      "memory(GiB)": 54.25,
+      "step": 1929,
+      "token_acc": 0.9364493644936449,
+      "train_speed(iter/s)": 0.242045
+    },
+    {
+      "epoch": 0.6176,
+      "grad_norm": 0.6107721329727152,
+      "learning_rate": 4.675278601232595e-06,
+      "loss": 0.43528154492378235,
+      "memory(GiB)": 54.25,
+      "step": 1930,
+      "token_acc": 0.8519603058402473,
+      "train_speed(iter/s)": 0.242048
+    },
+    {
+      "epoch": 0.61792,
+      "grad_norm": 0.6256210710831153,
+      "learning_rate": 4.674843829214115e-06,
+      "loss": 0.328519344329834,
+      "memory(GiB)": 54.25,
+      "step": 1931,
+      "token_acc": 0.9315143246930423,
+      "train_speed(iter/s)": 0.242052
+    },
+    {
+      "epoch": 0.61824,
+      "grad_norm": 0.6985663237485349,
+      "learning_rate": 4.674408786574048e-06,
+      "loss": 0.38824960589408875,
+      "memory(GiB)": 54.25,
+      "step": 1932,
+      "token_acc": 0.8914621500172831,
+      "train_speed(iter/s)": 0.24206
+    },
+    {
+      "epoch": 0.61856,
+      "grad_norm": 0.6393424779321478,
+      "learning_rate": 4.6739734733665275e-06,
+      "loss": 0.3771669566631317,
+      "memory(GiB)": 54.25,
+      "step": 1933,
+      "token_acc": 0.9106858054226475,
+      "train_speed(iter/s)": 0.242064
+    },
+    {
+      "epoch": 0.61888,
+      "grad_norm": 0.7063339235028138,
+      "learning_rate": 4.673537889645722e-06,
+      "loss": 0.3413848280906677,
+      "memory(GiB)": 54.25,
+      "step": 1934,
+      "token_acc": 0.9116171362408336,
+      "train_speed(iter/s)": 0.242069
+    },
+    {
+      "epoch": 0.6192,
+      "grad_norm": 0.6661681196723963,
+      "learning_rate": 4.673102035465831e-06,
+      "loss": 0.37112918496131897,
+      "memory(GiB)": 54.25,
+      "step": 1935,
+      "token_acc": 0.8762997490139836,
+      "train_speed(iter/s)": 0.242075
+    },
+    {
+      "epoch": 0.61952,
+      "grad_norm": 0.6655464387768352,
+      "learning_rate": 4.672665910881089e-06,
+      "loss": 0.40073874592781067,
+      "memory(GiB)": 54.25,
+      "step": 1936,
+      "token_acc": 0.886223440712817,
+      "train_speed(iter/s)": 0.242079
+    },
+    {
+      "epoch": 0.61984,
+      "grad_norm": 0.7172907896340235,
+      "learning_rate": 4.672229515945765e-06,
+      "loss": 0.4278913736343384,
+      "memory(GiB)": 54.25,
+      "step": 1937,
+      "token_acc": 0.8958558558558558,
+      "train_speed(iter/s)": 0.24208
+    },
+    {
+      "epoch": 0.62016,
+      "grad_norm": 0.5801782345701638,
+      "learning_rate": 4.671792850714161e-06,
+      "loss": 0.3664628863334656,
+      "memory(GiB)": 54.25,
+      "step": 1938,
+      "token_acc": 0.9258191349934469,
+      "train_speed(iter/s)": 0.242072
+    },
+    {
+      "epoch": 0.62048,
+      "grad_norm": 0.6020387715869386,
+      "learning_rate": 4.67135591524061e-06,
+      "loss": 0.4127838611602783,
+      "memory(GiB)": 54.25,
+      "step": 1939,
+      "token_acc": 0.8545420420420421,
+      "train_speed(iter/s)": 0.242068
+    },
+    {
+      "epoch": 0.6208,
+      "grad_norm": 0.6130209495356201,
+      "learning_rate": 4.670918709579484e-06,
+      "loss": 0.3207791745662689,
+      "memory(GiB)": 54.25,
+      "step": 1940,
+      "token_acc": 0.9087146470452978,
+      "train_speed(iter/s)": 0.24207
+    },
+    {
+      "epoch": 0.62112,
+      "grad_norm": 0.5758717297431536,
+      "learning_rate": 4.670481233785184e-06,
+      "loss": 0.3832203447818756,
+      "memory(GiB)": 54.25,
+      "step": 1941,
+      "token_acc": 0.9295703025680142,
+      "train_speed(iter/s)": 0.242049
+    },
+    {
+      "epoch": 0.62144,
+      "grad_norm": 0.6400320457718781,
+      "learning_rate": 4.670043487912146e-06,
+      "loss": 0.4048970639705658,
+      "memory(GiB)": 54.25,
+      "step": 1942,
+      "token_acc": 0.8995479658463084,
+      "train_speed(iter/s)": 0.242048
+    },
+    {
+      "epoch": 0.62176,
+      "grad_norm": 0.6492863867539608,
+      "learning_rate": 4.669605472014841e-06,
+      "loss": 0.29992765188217163,
+      "memory(GiB)": 54.25,
+      "step": 1943,
+      "token_acc": 0.8724489795918368,
+      "train_speed(iter/s)": 0.242042
+    },
+    {
+      "epoch": 0.62208,
+      "grad_norm": 0.6826304081522052,
+      "learning_rate": 4.669167186147773e-06,
+      "loss": 0.44557544589042664,
+      "memory(GiB)": 54.25,
+      "step": 1944,
+      "token_acc": 0.7934342357706246,
+      "train_speed(iter/s)": 0.24204
+    },
+    {
+      "epoch": 0.6224,
+      "grad_norm": 0.6015684385594757,
+      "learning_rate": 4.6687286303654775e-06,
+      "loss": 0.43096548318862915,
+      "memory(GiB)": 54.25,
+      "step": 1945,
+      "token_acc": 0.8508193232602681,
+      "train_speed(iter/s)": 0.242038
+    },
+    {
+      "epoch": 0.62272,
+      "grad_norm": 0.5982715357783842,
+      "learning_rate": 4.668289804722526e-06,
+      "loss": 0.37632519006729126,
+      "memory(GiB)": 54.25,
+      "step": 1946,
+      "token_acc": 0.8693638800877407,
+      "train_speed(iter/s)": 0.242038
+    },
+    {
+      "epoch": 0.62304,
+      "grad_norm": 0.7194312785344958,
+      "learning_rate": 4.667850709273522e-06,
+      "loss": 0.3658541142940521,
+      "memory(GiB)": 54.25,
+      "step": 1947,
+      "token_acc": 0.9107005388760585,
+      "train_speed(iter/s)": 0.242041
+    },
+    {
+      "epoch": 0.62336,
+      "grad_norm": 0.6323809563943787,
+      "learning_rate": 4.667411344073104e-06,
+      "loss": 0.4155728220939636,
+      "memory(GiB)": 54.25,
+      "step": 1948,
+      "token_acc": 0.9113247863247863,
+      "train_speed(iter/s)": 0.24204
+    },
+    {
+      "epoch": 0.62368,
+      "grad_norm": 0.6120883913881235,
+      "learning_rate": 4.6669717091759424e-06,
+      "loss": 0.35690414905548096,
+      "memory(GiB)": 54.25,
+      "step": 1949,
+      "token_acc": 0.9311967068509261,
+      "train_speed(iter/s)": 0.242042
+    },
+    {
+      "epoch": 0.624,
+      "grad_norm": 0.6407002890741392,
+      "learning_rate": 4.666531804636744e-06,
+      "loss": 0.46792322397232056,
+      "memory(GiB)": 54.25,
+      "step": 1950,
+      "token_acc": 0.920631067961165,
+      "train_speed(iter/s)": 0.242044
+    },
+    {
+      "epoch": 0.62432,
+      "grad_norm": 0.6852187598624393,
+      "learning_rate": 4.666091630510246e-06,
+      "loss": 0.47894978523254395,
+      "memory(GiB)": 54.25,
+      "step": 1951,
+      "token_acc": 0.8026147141758524,
+      "train_speed(iter/s)": 0.242049
+    },
+    {
+      "epoch": 0.62464,
+      "grad_norm": 0.6448692780158057,
+      "learning_rate": 4.665651186851221e-06,
+      "loss": 0.41521334648132324,
+      "memory(GiB)": 54.25,
+      "step": 1952,
+      "token_acc": 0.8548329141214517,
+      "train_speed(iter/s)": 0.242051
+    },
+    {
+      "epoch": 0.62496,
+      "grad_norm": 0.5992232273325262,
+      "learning_rate": 4.665210473714473e-06,
+      "loss": 0.32369518280029297,
+      "memory(GiB)": 54.25,
+      "step": 1953,
+      "token_acc": 0.8945074106364429,
+      "train_speed(iter/s)": 0.242036
+    },
+    {
+      "epoch": 0.62528,
+      "grad_norm": 0.6861653300694217,
+      "learning_rate": 4.664769491154844e-06,
+      "loss": 0.4114079475402832,
+      "memory(GiB)": 54.25,
+      "step": 1954,
+      "token_acc": 0.8989374262101535,
+      "train_speed(iter/s)": 0.242038
+    },
+    {
+      "epoch": 0.6256,
+      "grad_norm": 0.6545052627943361,
+      "learning_rate": 4.664328239227204e-06,
+      "loss": 0.3037782907485962,
+      "memory(GiB)": 54.25,
+      "step": 1955,
+      "token_acc": 0.9089108910891089,
+      "train_speed(iter/s)": 0.242045
+    },
+    {
+      "epoch": 0.62592,
+      "grad_norm": 0.5892655807709288,
+      "learning_rate": 4.66388671798646e-06,
+      "loss": 0.3009677529335022,
+      "memory(GiB)": 54.25,
+      "step": 1956,
+      "token_acc": 0.9447969543147208,
+      "train_speed(iter/s)": 0.242044
+    },
+    {
+      "epoch": 0.62624,
+      "grad_norm": 0.6340947463775206,
+      "learning_rate": 4.663444927487552e-06,
+      "loss": 0.3781493306159973,
+      "memory(GiB)": 54.25,
+      "step": 1957,
+      "token_acc": 0.8541274817136886,
+      "train_speed(iter/s)": 0.242047
+    },
+    {
+      "epoch": 0.62656,
+      "grad_norm": 0.5835855069123074,
+      "learning_rate": 4.663002867785453e-06,
+      "loss": 0.34882017970085144,
+      "memory(GiB)": 54.25,
+      "step": 1958,
+      "token_acc": 0.9020618556701031,
+      "train_speed(iter/s)": 0.242045
+    },
+    {
+      "epoch": 0.62688,
+      "grad_norm": 0.570161492618228,
+      "learning_rate": 4.662560538935169e-06,
+      "loss": 0.35626018047332764,
+      "memory(GiB)": 54.25,
+      "step": 1959,
+      "token_acc": 0.8886574512402954,
+      "train_speed(iter/s)": 0.242043
+    },
+    {
+      "epoch": 0.6272,
+      "grad_norm": 0.6214163063133312,
+      "learning_rate": 4.662117940991742e-06,
+      "loss": 0.43439650535583496,
+      "memory(GiB)": 54.25,
+      "step": 1960,
+      "token_acc": 0.8762665627435697,
+      "train_speed(iter/s)": 0.242035
+    },
+    {
+      "epoch": 0.62752,
+      "grad_norm": 0.6590667418085603,
+      "learning_rate": 4.661675074010244e-06,
+      "loss": 0.40593114495277405,
+      "memory(GiB)": 54.25,
+      "step": 1961,
+      "token_acc": 0.8704943357363543,
+      "train_speed(iter/s)": 0.242014
+    },
+    {
+      "epoch": 0.62784,
+      "grad_norm": 0.6134012650704175,
+      "learning_rate": 4.661231938045781e-06,
+      "loss": 0.4027106761932373,
+      "memory(GiB)": 54.25,
+      "step": 1962,
+      "token_acc": 0.8677086240580519,
+      "train_speed(iter/s)": 0.242011
+    },
+    {
+      "epoch": 0.62816,
+      "grad_norm": 0.6615636934626108,
+      "learning_rate": 4.660788533153497e-06,
+      "loss": 0.31980371475219727,
+      "memory(GiB)": 54.25,
+      "step": 1963,
+      "token_acc": 0.8617466174661746,
+      "train_speed(iter/s)": 0.241969
+    },
+    {
+      "epoch": 0.62848,
+      "grad_norm": 0.6957258939923855,
+      "learning_rate": 4.660344859388563e-06,
+      "loss": 0.45962297916412354,
+      "memory(GiB)": 54.25,
+      "step": 1964,
+      "token_acc": 0.8320070733863837,
+      "train_speed(iter/s)": 0.241968
+    },
+    {
+      "epoch": 0.6288,
+      "grad_norm": 0.6585152487876823,
+      "learning_rate": 4.659900916806189e-06,
+      "loss": 0.33487510681152344,
+      "memory(GiB)": 54.25,
+      "step": 1965,
+      "token_acc": 0.9023000633044946,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.62912,
+      "grad_norm": 0.8561296661257789,
+      "learning_rate": 4.659456705461613e-06,
+      "loss": 0.34425294399261475,
+      "memory(GiB)": 54.25,
+      "step": 1966,
+      "token_acc": 0.8652760736196319,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.62944,
+      "grad_norm": 0.6337954709104856,
+      "learning_rate": 4.659012225410111e-06,
+      "loss": 0.38371890783309937,
+      "memory(GiB)": 54.25,
+      "step": 1967,
+      "token_acc": 0.8574670903313664,
+      "train_speed(iter/s)": 0.241941
+    },
+    {
+      "epoch": 0.62976,
+      "grad_norm": 0.7433509438870004,
+      "learning_rate": 4.658567476706991e-06,
+      "loss": 0.34408414363861084,
+      "memory(GiB)": 54.25,
+      "step": 1968,
+      "token_acc": 0.9043893959148196,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.63008,
+      "grad_norm": 0.6123349219108039,
+      "learning_rate": 4.658122459407595e-06,
+      "loss": 0.45814818143844604,
+      "memory(GiB)": 54.25,
+      "step": 1969,
+      "token_acc": 0.8709597215315763,
+      "train_speed(iter/s)": 0.24194
+    },
+    {
+      "epoch": 0.6304,
+      "grad_norm": 0.6231311716384937,
+      "learning_rate": 4.6576771735672965e-06,
+      "loss": 0.37207040190696716,
+      "memory(GiB)": 54.25,
+      "step": 1970,
+      "token_acc": 0.8472195862592522,
+      "train_speed(iter/s)": 0.241941
+    },
+    {
+      "epoch": 0.63072,
+      "grad_norm": 0.7121828518277857,
+      "learning_rate": 4.657231619241503e-06,
+      "loss": 0.46325820684432983,
+      "memory(GiB)": 54.25,
+      "step": 1971,
+      "token_acc": 0.8310152990264256,
+      "train_speed(iter/s)": 0.241917
+    },
+    {
+      "epoch": 0.63104,
+      "grad_norm": 0.6555747894973979,
+      "learning_rate": 4.656785796485658e-06,
+      "loss": 0.3829246759414673,
+      "memory(GiB)": 54.25,
+      "step": 1972,
+      "token_acc": 0.874902114330462,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.63136,
+      "grad_norm": 0.6036981327202522,
+      "learning_rate": 4.656339705355235e-06,
+      "loss": 0.33706676959991455,
+      "memory(GiB)": 54.25,
+      "step": 1973,
+      "token_acc": 0.8633107839235973,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.63168,
+      "grad_norm": 0.6013159337480306,
+      "learning_rate": 4.655893345905742e-06,
+      "loss": 0.3934800922870636,
+      "memory(GiB)": 54.25,
+      "step": 1974,
+      "token_acc": 0.9341550437885177,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.632,
+      "grad_norm": 0.5928805877717043,
+      "learning_rate": 4.655446718192721e-06,
+      "loss": 0.3024771809577942,
+      "memory(GiB)": 54.25,
+      "step": 1975,
+      "token_acc": 0.891358024691358,
+      "train_speed(iter/s)": 0.241921
+    },
+    {
+      "epoch": 0.63232,
+      "grad_norm": 0.6712217941312572,
+      "learning_rate": 4.654999822271748e-06,
+      "loss": 0.4432399272918701,
+      "memory(GiB)": 54.25,
+      "step": 1976,
+      "token_acc": 0.8484666265784726,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.63264,
+      "grad_norm": 0.7144408547992509,
+      "learning_rate": 4.654552658198431e-06,
+      "loss": 0.31795239448547363,
+      "memory(GiB)": 54.25,
+      "step": 1977,
+      "token_acc": 0.896976483762598,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.63296,
+      "grad_norm": 0.5914120295231738,
+      "learning_rate": 4.654105226028411e-06,
+      "loss": 0.2936224937438965,
+      "memory(GiB)": 54.25,
+      "step": 1978,
+      "token_acc": 0.9297629499561019,
+      "train_speed(iter/s)": 0.241898
+    },
+    {
+      "epoch": 0.63328,
+      "grad_norm": 0.7866156436185314,
+      "learning_rate": 4.653657525817364e-06,
+      "loss": 0.4134766459465027,
+      "memory(GiB)": 54.25,
+      "step": 1979,
+      "token_acc": 0.8478522681653954,
+      "train_speed(iter/s)": 0.241897
+    },
+    {
+      "epoch": 0.6336,
+      "grad_norm": 0.6325449102731839,
+      "learning_rate": 4.653209557620998e-06,
+      "loss": 0.38820523023605347,
+      "memory(GiB)": 54.25,
+      "step": 1980,
+      "token_acc": 0.9485294117647058,
+      "train_speed(iter/s)": 0.241896
+    },
+    {
+      "epoch": 0.63392,
+      "grad_norm": 0.6856943005088856,
+      "learning_rate": 4.652761321495056e-06,
+      "loss": 0.36519330739974976,
+      "memory(GiB)": 54.25,
+      "step": 1981,
+      "token_acc": 0.9010869565217391,
+      "train_speed(iter/s)": 0.241902
+    },
+    {
+      "epoch": 0.63424,
+      "grad_norm": 0.6746391825182912,
+      "learning_rate": 4.6523128174953115e-06,
+      "loss": 0.4218871593475342,
+      "memory(GiB)": 54.25,
+      "step": 1982,
+      "token_acc": 0.9385253630020743,
+      "train_speed(iter/s)": 0.241903
+    },
+    {
+      "epoch": 0.63456,
+      "grad_norm": 0.6852187465264686,
+      "learning_rate": 4.651864045677574e-06,
+      "loss": 0.3585265874862671,
+      "memory(GiB)": 54.25,
+      "step": 1983,
+      "token_acc": 0.95104,
+      "train_speed(iter/s)": 0.241911
+    },
+    {
+      "epoch": 0.63488,
+      "grad_norm": 0.5963745948751106,
+      "learning_rate": 4.651415006097686e-06,
+      "loss": 0.3162480592727661,
+      "memory(GiB)": 54.25,
+      "step": 1984,
+      "token_acc": 0.9218390804597701,
+      "train_speed(iter/s)": 0.241912
+    },
+    {
+      "epoch": 0.6352,
+      "grad_norm": 0.6698850234769488,
+      "learning_rate": 4.650965698811522e-06,
+      "loss": 0.28856557607650757,
+      "memory(GiB)": 54.25,
+      "step": 1985,
+      "token_acc": 0.8960070206230804,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.63552,
+      "grad_norm": 0.6503935669315343,
+      "learning_rate": 4.650516123874989e-06,
+      "loss": 0.4100812077522278,
+      "memory(GiB)": 54.25,
+      "step": 1986,
+      "token_acc": 0.8784313725490196,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.63584,
+      "grad_norm": 0.682257565274035,
+      "learning_rate": 4.6500662813440315e-06,
+      "loss": 0.4286814332008362,
+      "memory(GiB)": 54.25,
+      "step": 1987,
+      "token_acc": 0.8797202797202798,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.63616,
+      "grad_norm": 0.5859257948703694,
+      "learning_rate": 4.649616171274623e-06,
+      "loss": 0.45097866654396057,
+      "memory(GiB)": 54.25,
+      "step": 1988,
+      "token_acc": 0.8346854155399315,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.63648,
+      "grad_norm": 0.6715666615654339,
+      "learning_rate": 4.649165793722772e-06,
+      "loss": 0.3921581506729126,
+      "memory(GiB)": 54.25,
+      "step": 1989,
+      "token_acc": 0.8721359940872137,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.6368,
+      "grad_norm": 0.6679428744472259,
+      "learning_rate": 4.648715148744521e-06,
+      "loss": 0.39210036396980286,
+      "memory(GiB)": 54.25,
+      "step": 1990,
+      "token_acc": 0.8772554002541296,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.63712,
+      "grad_norm": 0.6105463015728254,
+      "learning_rate": 4.648264236395944e-06,
+      "loss": 0.40102678537368774,
+      "memory(GiB)": 54.25,
+      "step": 1991,
+      "token_acc": 0.9180390654921486,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.63744,
+      "grad_norm": 0.5836394313566068,
+      "learning_rate": 4.647813056733149e-06,
+      "loss": 0.40373939275741577,
+      "memory(GiB)": 54.25,
+      "step": 1992,
+      "token_acc": 0.8356374807987711,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.63776,
+      "grad_norm": 0.743432504482787,
+      "learning_rate": 4.647361609812279e-06,
+      "loss": 0.3083990514278412,
+      "memory(GiB)": 54.25,
+      "step": 1993,
+      "token_acc": 0.9408194233687405,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.63808,
+      "grad_norm": 0.6940948195938488,
+      "learning_rate": 4.646909895689508e-06,
+      "loss": 0.4222117066383362,
+      "memory(GiB)": 54.25,
+      "step": 1994,
+      "token_acc": 0.8818955942243614,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.6384,
+      "grad_norm": 0.5863672894270952,
+      "learning_rate": 4.646457914421043e-06,
+      "loss": 0.4935317635536194,
+      "memory(GiB)": 54.25,
+      "step": 1995,
+      "token_acc": 0.8701025506179332,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.63872,
+      "grad_norm": 0.6392220453590921,
+      "learning_rate": 4.646005666063127e-06,
+      "loss": 0.40153807401657104,
+      "memory(GiB)": 54.25,
+      "step": 1996,
+      "token_acc": 0.8771701388888888,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.63904,
+      "grad_norm": 0.674067885523956,
+      "learning_rate": 4.645553150672032e-06,
+      "loss": 0.39282283186912537,
+      "memory(GiB)": 54.25,
+      "step": 1997,
+      "token_acc": 0.8999574286930608,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.63936,
+      "grad_norm": 0.6683170417323876,
+      "learning_rate": 4.645100368304068e-06,
+      "loss": 0.41772860288619995,
+      "memory(GiB)": 54.25,
+      "step": 1998,
+      "token_acc": 0.8809681697612732,
+      "train_speed(iter/s)": 0.241929
+    },
+    {
+      "epoch": 0.63968,
+      "grad_norm": 0.6051290153323855,
+      "learning_rate": 4.644647319015576e-06,
+      "loss": 0.3073748052120209,
+      "memory(GiB)": 54.25,
+      "step": 1999,
+      "token_acc": 0.9615947329919532,
+      "train_speed(iter/s)": 0.241929
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.5779922266235421,
+      "learning_rate": 4.644194002862929e-06,
+      "loss": 0.4151149392127991,
+      "memory(GiB)": 54.25,
+      "step": 2000,
+      "token_acc": 0.8276368981991915,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.64032,
+      "grad_norm": 0.6629886815133891,
+      "learning_rate": 4.643740419902533e-06,
+      "loss": 0.340211421251297,
+      "memory(GiB)": 54.25,
+      "step": 2001,
+      "token_acc": 0.8524788391777509,
+      "train_speed(iter/s)": 0.24193
+    },
+    {
+      "epoch": 0.64064,
+      "grad_norm": 0.7068132698874501,
+      "learning_rate": 4.643286570190832e-06,
+      "loss": 0.3366629481315613,
+      "memory(GiB)": 54.25,
+      "step": 2002,
+      "token_acc": 0.9130434782608695,
+      "train_speed(iter/s)": 0.241928
+    },
+    {
+      "epoch": 0.64096,
+      "grad_norm": 0.6167134638153261,
+      "learning_rate": 4.642832453784296e-06,
+      "loss": 0.39373624324798584,
+      "memory(GiB)": 54.25,
+      "step": 2003,
+      "token_acc": 0.9160179287567822,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.64128,
+      "grad_norm": 0.6234042202709343,
+      "learning_rate": 4.6423780707394344e-06,
+      "loss": 0.34421026706695557,
+      "memory(GiB)": 54.25,
+      "step": 2004,
+      "token_acc": 0.9164413196322336,
+      "train_speed(iter/s)": 0.24193
+    },
+    {
+      "epoch": 0.6416,
+      "grad_norm": 0.6830850079838252,
+      "learning_rate": 4.641923421112787e-06,
+      "loss": 0.46718519926071167,
+      "memory(GiB)": 54.25,
+      "step": 2005,
+      "token_acc": 0.8484706981088023,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.64192,
+      "grad_norm": 0.5890724567990054,
+      "learning_rate": 4.641468504960926e-06,
+      "loss": 0.39781153202056885,
+      "memory(GiB)": 54.25,
+      "step": 2006,
+      "token_acc": 0.8553964373035278,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.64224,
+      "grad_norm": 0.7403012205269474,
+      "learning_rate": 4.64101332234046e-06,
+      "loss": 0.4962840676307678,
+      "memory(GiB)": 54.25,
+      "step": 2007,
+      "token_acc": 0.8544644514572118,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.64256,
+      "grad_norm": 0.6545240346155525,
+      "learning_rate": 4.640557873308025e-06,
+      "loss": 0.37028154730796814,
+      "memory(GiB)": 54.25,
+      "step": 2008,
+      "token_acc": 0.9378208784940103,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.64288,
+      "grad_norm": 0.632219530060106,
+      "learning_rate": 4.640102157920297e-06,
+      "loss": 0.31671416759490967,
+      "memory(GiB)": 54.25,
+      "step": 2009,
+      "token_acc": 0.9390524967989756,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.6432,
+      "grad_norm": 0.6186565820220504,
+      "learning_rate": 4.63964617623398e-06,
+      "loss": 0.3908785581588745,
+      "memory(GiB)": 54.25,
+      "step": 2010,
+      "token_acc": 0.927143778207608,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.64352,
+      "grad_norm": 0.6541592982153122,
+      "learning_rate": 4.639189928305815e-06,
+      "loss": 0.36169523000717163,
+      "memory(GiB)": 54.25,
+      "step": 2011,
+      "token_acc": 0.837671905697446,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.64384,
+      "grad_norm": 0.6108354472420352,
+      "learning_rate": 4.638733414192571e-06,
+      "loss": 0.35303133726119995,
+      "memory(GiB)": 54.25,
+      "step": 2012,
+      "token_acc": 0.86670598643468,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.64416,
+      "grad_norm": 0.6336700608815171,
+      "learning_rate": 4.638276633951057e-06,
+      "loss": 0.4193176031112671,
+      "memory(GiB)": 54.25,
+      "step": 2013,
+      "token_acc": 0.8591749644381224,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.64448,
+      "grad_norm": 0.6936179796931091,
+      "learning_rate": 4.637819587638108e-06,
+      "loss": 0.45419371128082275,
+      "memory(GiB)": 54.25,
+      "step": 2014,
+      "token_acc": 0.922247882986913,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.6448,
+      "grad_norm": 0.6250333369336042,
+      "learning_rate": 4.637362275310597e-06,
+      "loss": 0.3159584403038025,
+      "memory(GiB)": 54.25,
+      "step": 2015,
+      "token_acc": 0.927801724137931,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.64512,
+      "grad_norm": 0.6100808729239398,
+      "learning_rate": 4.63690469702543e-06,
+      "loss": 0.33871686458587646,
+      "memory(GiB)": 54.25,
+      "step": 2016,
+      "token_acc": 0.9607097591888466,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.64544,
+      "grad_norm": 0.6167614891465284,
+      "learning_rate": 4.636446852839541e-06,
+      "loss": 0.3372134566307068,
+      "memory(GiB)": 54.25,
+      "step": 2017,
+      "token_acc": 0.8985507246376812,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.64576,
+      "grad_norm": 0.7077988843180245,
+      "learning_rate": 4.635988742809905e-06,
+      "loss": 0.4795536398887634,
+      "memory(GiB)": 54.25,
+      "step": 2018,
+      "token_acc": 0.8321711949987978,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.64608,
+      "grad_norm": 0.6363273506912489,
+      "learning_rate": 4.635530366993522e-06,
+      "loss": 0.4402506351470947,
+      "memory(GiB)": 54.25,
+      "step": 2019,
+      "token_acc": 0.890176322418136,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.6464,
+      "grad_norm": 0.6459912455700317,
+      "learning_rate": 4.635071725447432e-06,
+      "loss": 0.4209737777709961,
+      "memory(GiB)": 54.25,
+      "step": 2020,
+      "token_acc": 0.8588192152548588,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.64672,
+      "grad_norm": 0.6548196775571677,
+      "learning_rate": 4.634612818228703e-06,
+      "loss": 0.41652634739875793,
+      "memory(GiB)": 54.25,
+      "step": 2021,
+      "token_acc": 0.8542795232936078,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.64704,
+      "grad_norm": 0.6782700013593458,
+      "learning_rate": 4.6341536453944394e-06,
+      "loss": 0.487751305103302,
+      "memory(GiB)": 54.25,
+      "step": 2022,
+      "token_acc": 0.8822803045894216,
+      "train_speed(iter/s)": 0.241931
+    },
+    {
+      "epoch": 0.64736,
+      "grad_norm": 0.6582736642760078,
+      "learning_rate": 4.633694207001776e-06,
+      "loss": 0.3341176211833954,
+      "memory(GiB)": 54.25,
+      "step": 2023,
+      "token_acc": 0.9016756244072084,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.64768,
+      "grad_norm": 0.6358191322977322,
+      "learning_rate": 4.633234503107884e-06,
+      "loss": 0.41950321197509766,
+      "memory(GiB)": 54.25,
+      "step": 2024,
+      "token_acc": 0.8387978142076503,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.648,
+      "grad_norm": 0.6081236204122868,
+      "learning_rate": 4.632774533769963e-06,
+      "loss": 0.315687358379364,
+      "memory(GiB)": 54.25,
+      "step": 2025,
+      "token_acc": 0.9358710562414266,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.64832,
+      "grad_norm": 0.6114502136454347,
+      "learning_rate": 4.632314299045249e-06,
+      "loss": 0.31237876415252686,
+      "memory(GiB)": 54.25,
+      "step": 2026,
+      "token_acc": 0.9118621603711067,
+      "train_speed(iter/s)": 0.241943
+    },
+    {
+      "epoch": 0.64864,
+      "grad_norm": 0.5958088889311552,
+      "learning_rate": 4.631853798991012e-06,
+      "loss": 0.3062520921230316,
+      "memory(GiB)": 54.25,
+      "step": 2027,
+      "token_acc": 0.9429102496016994,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.64896,
+      "grad_norm": 0.8181729476789952,
+      "learning_rate": 4.6313930336645506e-06,
+      "loss": 0.34753796458244324,
+      "memory(GiB)": 54.25,
+      "step": 2028,
+      "token_acc": 0.9056546719080738,
+      "train_speed(iter/s)": 0.241951
+    },
+    {
+      "epoch": 0.64928,
+      "grad_norm": 0.6083288098388433,
+      "learning_rate": 4.630932003123201e-06,
+      "loss": 0.2872673273086548,
+      "memory(GiB)": 54.25,
+      "step": 2029,
+      "token_acc": 0.9361340971780182,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.6496,
+      "grad_norm": 0.6789443463323817,
+      "learning_rate": 4.630470707424329e-06,
+      "loss": 0.4063149392604828,
+      "memory(GiB)": 54.25,
+      "step": 2030,
+      "token_acc": 0.8516347933374461,
+      "train_speed(iter/s)": 0.241957
+    },
+    {
+      "epoch": 0.64992,
+      "grad_norm": 0.7578602977510688,
+      "learning_rate": 4.630009146625337e-06,
+      "loss": 0.432778000831604,
+      "memory(GiB)": 54.25,
+      "step": 2031,
+      "token_acc": 0.8950459652706844,
+      "train_speed(iter/s)": 0.241956
+    },
+    {
+      "epoch": 0.65024,
+      "grad_norm": 0.6615068124313122,
+      "learning_rate": 4.629547320783656e-06,
+      "loss": 0.3806997537612915,
+      "memory(GiB)": 54.25,
+      "step": 2032,
+      "token_acc": 0.8676992578251048,
+      "train_speed(iter/s)": 0.24196
+    },
+    {
+      "epoch": 0.65056,
+      "grad_norm": 0.6303480066474006,
+      "learning_rate": 4.629085229956753e-06,
+      "loss": 0.3620893061161041,
+      "memory(GiB)": 54.25,
+      "step": 2033,
+      "token_acc": 0.9239884393063584,
+      "train_speed(iter/s)": 0.241964
+    },
+    {
+      "epoch": 0.65088,
+      "grad_norm": 0.6844789051571102,
+      "learning_rate": 4.628622874202127e-06,
+      "loss": 0.4069259762763977,
+      "memory(GiB)": 54.25,
+      "step": 2034,
+      "token_acc": 0.8399233165588306,
+      "train_speed(iter/s)": 0.241969
+    },
+    {
+      "epoch": 0.6512,
+      "grad_norm": 0.6230152290679987,
+      "learning_rate": 4.628160253577311e-06,
+      "loss": 0.3692387044429779,
+      "memory(GiB)": 54.25,
+      "step": 2035,
+      "token_acc": 0.872922578029996,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.65152,
+      "grad_norm": 0.69229268175849,
+      "learning_rate": 4.627697368139868e-06,
+      "loss": 0.35073792934417725,
+      "memory(GiB)": 54.25,
+      "step": 2036,
+      "token_acc": 0.9123563218390804,
+      "train_speed(iter/s)": 0.241965
+    },
+    {
+      "epoch": 0.65184,
+      "grad_norm": 0.646534589899056,
+      "learning_rate": 4.6272342179474e-06,
+      "loss": 0.36655715107917786,
+      "memory(GiB)": 54.25,
+      "step": 2037,
+      "token_acc": 0.8486497801967762,
+      "train_speed(iter/s)": 0.24197
+    },
+    {
+      "epoch": 0.65216,
+      "grad_norm": 0.6685988847234601,
+      "learning_rate": 4.626770803057534e-06,
+      "loss": 0.3943156599998474,
+      "memory(GiB)": 54.25,
+      "step": 2038,
+      "token_acc": 0.9032767469403868,
+      "train_speed(iter/s)": 0.24196
+    },
+    {
+      "epoch": 0.65248,
+      "grad_norm": 0.7221798358966357,
+      "learning_rate": 4.626307123527936e-06,
+      "loss": 0.34491991996765137,
+      "memory(GiB)": 54.25,
+      "step": 2039,
+      "token_acc": 0.9388560157790927,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.6528,
+      "grad_norm": 0.6037597485826991,
+      "learning_rate": 4.625843179416301e-06,
+      "loss": 0.3360830843448639,
+      "memory(GiB)": 54.25,
+      "step": 2040,
+      "token_acc": 0.9140565317035906,
+      "train_speed(iter/s)": 0.241952
+    },
+    {
+      "epoch": 0.65312,
+      "grad_norm": 0.6739052603933086,
+      "learning_rate": 4.625378970780362e-06,
+      "loss": 0.5124650001525879,
+      "memory(GiB)": 54.25,
+      "step": 2041,
+      "token_acc": 0.8967457793002203,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.65344,
+      "grad_norm": 0.5997829142737697,
+      "learning_rate": 4.6249144976778796e-06,
+      "loss": 0.34596186876296997,
+      "memory(GiB)": 54.25,
+      "step": 2042,
+      "token_acc": 0.8308465780084333,
+      "train_speed(iter/s)": 0.24194
+    },
+    {
+      "epoch": 0.65376,
+      "grad_norm": 0.6717055459100214,
+      "learning_rate": 4.62444976016665e-06,
+      "loss": 0.348200261592865,
+      "memory(GiB)": 54.25,
+      "step": 2043,
+      "token_acc": 0.8891464699683878,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.65408,
+      "grad_norm": 0.6209538441239699,
+      "learning_rate": 4.623984758304501e-06,
+      "loss": 0.3759641647338867,
+      "memory(GiB)": 54.25,
+      "step": 2044,
+      "token_acc": 0.8896310432569975,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.6544,
+      "grad_norm": 0.6096028056135795,
+      "learning_rate": 4.623519492149294e-06,
+      "loss": 0.35934293270111084,
+      "memory(GiB)": 54.25,
+      "step": 2045,
+      "token_acc": 0.8953161592505855,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.65472,
+      "grad_norm": 0.6451759293904669,
+      "learning_rate": 4.623053961758924e-06,
+      "loss": 0.3638477921485901,
+      "memory(GiB)": 54.25,
+      "step": 2046,
+      "token_acc": 0.85025,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.65504,
+      "grad_norm": 0.5919676786391546,
+      "learning_rate": 4.622588167191317e-06,
+      "loss": 0.3444078266620636,
+      "memory(GiB)": 54.25,
+      "step": 2047,
+      "token_acc": 0.8945273631840795,
+      "train_speed(iter/s)": 0.241943
+    },
+    {
+      "epoch": 0.65536,
+      "grad_norm": 0.6449805279514448,
+      "learning_rate": 4.622122108504436e-06,
+      "loss": 0.41620326042175293,
+      "memory(GiB)": 54.25,
+      "step": 2048,
+      "token_acc": 0.8190148911798396,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.65568,
+      "grad_norm": 0.65439087644287,
+      "learning_rate": 4.62165578575627e-06,
+      "loss": 0.3882453441619873,
+      "memory(GiB)": 54.25,
+      "step": 2049,
+      "token_acc": 0.9472631842039491,
+      "train_speed(iter/s)": 0.241953
+    },
+    {
+      "epoch": 0.656,
+      "grad_norm": 0.5586698252243611,
+      "learning_rate": 4.621189199004849e-06,
+      "loss": 0.2821381986141205,
+      "memory(GiB)": 54.25,
+      "step": 2050,
+      "token_acc": 0.9378401604124893,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.65632,
+      "grad_norm": 0.5760846566692731,
+      "learning_rate": 4.6207223483082275e-06,
+      "loss": 0.3274834454059601,
+      "memory(GiB)": 54.25,
+      "step": 2051,
+      "token_acc": 0.9545038167938932,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.65664,
+      "grad_norm": 0.5865702677139969,
+      "learning_rate": 4.620255233724499e-06,
+      "loss": 0.41875532269477844,
+      "memory(GiB)": 54.25,
+      "step": 2052,
+      "token_acc": 0.8635014836795252,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.65696,
+      "grad_norm": 0.5753153600639342,
+      "learning_rate": 4.6197878553117885e-06,
+      "loss": 0.3889971673488617,
+      "memory(GiB)": 54.25,
+      "step": 2053,
+      "token_acc": 0.9152755905511811,
+      "train_speed(iter/s)": 0.241931
+    },
+    {
+      "epoch": 0.65728,
+      "grad_norm": 0.6133846291828488,
+      "learning_rate": 4.619320213128251e-06,
+      "loss": 0.37228280305862427,
+      "memory(GiB)": 54.25,
+      "step": 2054,
+      "token_acc": 0.8883955600403632,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.6576,
+      "grad_norm": 0.6017133886318397,
+      "learning_rate": 4.618852307232078e-06,
+      "loss": 0.38927024602890015,
+      "memory(GiB)": 54.25,
+      "step": 2055,
+      "token_acc": 0.884521484375,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.65792,
+      "grad_norm": 0.6143848776566504,
+      "learning_rate": 4.618384137681492e-06,
+      "loss": 0.37542271614074707,
+      "memory(GiB)": 54.25,
+      "step": 2056,
+      "token_acc": 0.8614540466392319,
+      "train_speed(iter/s)": 0.241931
+    },
+    {
+      "epoch": 0.65824,
+      "grad_norm": 0.6544808557562906,
+      "learning_rate": 4.6179157045347485e-06,
+      "loss": 0.38059288263320923,
+      "memory(GiB)": 54.25,
+      "step": 2057,
+      "token_acc": 0.9151515151515152,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.65856,
+      "grad_norm": 0.9525591073186699,
+      "learning_rate": 4.6174470078501365e-06,
+      "loss": 0.4132039546966553,
+      "memory(GiB)": 54.25,
+      "step": 2058,
+      "token_acc": 0.9257352941176471,
+      "train_speed(iter/s)": 0.24194
+    },
+    {
+      "epoch": 0.65888,
+      "grad_norm": 0.6265906810848679,
+      "learning_rate": 4.616978047685977e-06,
+      "loss": 0.3340199589729309,
+      "memory(GiB)": 54.25,
+      "step": 2059,
+      "token_acc": 0.8852333588370314,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.6592,
+      "grad_norm": 0.7163257728526217,
+      "learning_rate": 4.616508824100622e-06,
+      "loss": 0.4100877642631531,
+      "memory(GiB)": 54.25,
+      "step": 2060,
+      "token_acc": 0.8400735294117647,
+      "train_speed(iter/s)": 0.241946
+    },
+    {
+      "epoch": 0.65952,
+      "grad_norm": 2.613214506998481,
+      "learning_rate": 4.616039337152461e-06,
+      "loss": 0.4122094511985779,
+      "memory(GiB)": 54.25,
+      "step": 2061,
+      "token_acc": 0.920236013986014,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.65984,
+      "grad_norm": 0.6174912430256636,
+      "learning_rate": 4.6155695868999114e-06,
+      "loss": 0.370755672454834,
+      "memory(GiB)": 54.25,
+      "step": 2062,
+      "token_acc": 0.8726857142857143,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.66016,
+      "grad_norm": 0.6462741954815353,
+      "learning_rate": 4.615099573401427e-06,
+      "loss": 0.40816307067871094,
+      "memory(GiB)": 54.25,
+      "step": 2063,
+      "token_acc": 0.8156996587030717,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.66048,
+      "grad_norm": 0.5966705591677498,
+      "learning_rate": 4.614629296715492e-06,
+      "loss": 0.31806522607803345,
+      "memory(GiB)": 54.25,
+      "step": 2064,
+      "token_acc": 0.9099232132309509,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.6608,
+      "grad_norm": 0.6214278474110535,
+      "learning_rate": 4.614158756900624e-06,
+      "loss": 0.45688724517822266,
+      "memory(GiB)": 54.25,
+      "step": 2065,
+      "token_acc": 0.8472968700600696,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.66112,
+      "grad_norm": 0.8074573347871916,
+      "learning_rate": 4.613687954015374e-06,
+      "loss": 0.38269513845443726,
+      "memory(GiB)": 54.25,
+      "step": 2066,
+      "token_acc": 0.9007473143390938,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.66144,
+      "grad_norm": 0.7581864113087823,
+      "learning_rate": 4.613216888118326e-06,
+      "loss": 0.38170015811920166,
+      "memory(GiB)": 54.25,
+      "step": 2067,
+      "token_acc": 0.9175946547884187,
+      "train_speed(iter/s)": 0.241946
+    },
+    {
+      "epoch": 0.66176,
+      "grad_norm": 0.62431133056928,
+      "learning_rate": 4.612745559268095e-06,
+      "loss": 0.3905591666698456,
+      "memory(GiB)": 54.25,
+      "step": 2068,
+      "token_acc": 0.8775367389783065,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.66208,
+      "grad_norm": 0.6332906295747384,
+      "learning_rate": 4.612273967523328e-06,
+      "loss": 0.48065271973609924,
+      "memory(GiB)": 54.25,
+      "step": 2069,
+      "token_acc": 0.8532981530343008,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.6624,
+      "grad_norm": 0.6753326261922787,
+      "learning_rate": 4.61180211294271e-06,
+      "loss": 0.4285285770893097,
+      "memory(GiB)": 54.25,
+      "step": 2070,
+      "token_acc": 0.8654406409322651,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.66272,
+      "grad_norm": 0.61176556671619,
+      "learning_rate": 4.611329995584953e-06,
+      "loss": 0.3361331522464752,
+      "memory(GiB)": 54.25,
+      "step": 2071,
+      "token_acc": 0.9166134185303514,
+      "train_speed(iter/s)": 0.241955
+    },
+    {
+      "epoch": 0.66304,
+      "grad_norm": 0.6202813806225204,
+      "learning_rate": 4.6108576155088045e-06,
+      "loss": 0.4028382897377014,
+      "memory(GiB)": 54.25,
+      "step": 2072,
+      "token_acc": 0.929745493107105,
+      "train_speed(iter/s)": 0.241956
+    },
+    {
+      "epoch": 0.66336,
+      "grad_norm": 0.6260606104232999,
+      "learning_rate": 4.610384972773043e-06,
+      "loss": 0.328859806060791,
+      "memory(GiB)": 54.25,
+      "step": 2073,
+      "token_acc": 0.9050887573964497,
+      "train_speed(iter/s)": 0.241959
+    },
+    {
+      "epoch": 0.66368,
+      "grad_norm": 0.5670334579926387,
+      "learning_rate": 4.6099120674364815e-06,
+      "loss": 0.35724568367004395,
+      "memory(GiB)": 54.25,
+      "step": 2074,
+      "token_acc": 0.8738385298368779,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.664,
+      "grad_norm": 0.5858668023184108,
+      "learning_rate": 4.609438899557964e-06,
+      "loss": 0.3535904884338379,
+      "memory(GiB)": 54.25,
+      "step": 2075,
+      "token_acc": 0.9038951583545686,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.66432,
+      "grad_norm": 0.5695502775357897,
+      "learning_rate": 4.6089654691963704e-06,
+      "loss": 0.2902165353298187,
+      "memory(GiB)": 54.25,
+      "step": 2076,
+      "token_acc": 0.924122926298613,
+      "train_speed(iter/s)": 0.241953
+    },
+    {
+      "epoch": 0.66464,
+      "grad_norm": 0.6152175153317431,
+      "learning_rate": 4.608491776410608e-06,
+      "loss": 0.3361961245536804,
+      "memory(GiB)": 54.25,
+      "step": 2077,
+      "token_acc": 0.9079025549613785,
+      "train_speed(iter/s)": 0.241952
+    },
+    {
+      "epoch": 0.66496,
+      "grad_norm": 0.6420348981996388,
+      "learning_rate": 4.6080178212596215e-06,
+      "loss": 0.3566691279411316,
+      "memory(GiB)": 54.25,
+      "step": 2078,
+      "token_acc": 0.8826197901899632,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.66528,
+      "grad_norm": 0.5914700276320629,
+      "learning_rate": 4.607543603802384e-06,
+      "loss": 0.35351434350013733,
+      "memory(GiB)": 54.25,
+      "step": 2079,
+      "token_acc": 0.8895429362880887,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.6656,
+      "grad_norm": 0.6331932894411402,
+      "learning_rate": 4.607069124097908e-06,
+      "loss": 0.3798407316207886,
+      "memory(GiB)": 54.25,
+      "step": 2080,
+      "token_acc": 0.9367547952306895,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.66592,
+      "grad_norm": 0.6588887835998242,
+      "learning_rate": 4.60659438220523e-06,
+      "loss": 0.34420979022979736,
+      "memory(GiB)": 54.25,
+      "step": 2081,
+      "token_acc": 0.8739616155829275,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.66624,
+      "grad_norm": 0.6064299671895841,
+      "learning_rate": 4.6061193781834254e-06,
+      "loss": 0.3535541892051697,
+      "memory(GiB)": 66.66,
+      "step": 2082,
+      "token_acc": 0.9264341528492472,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.66656,
+      "grad_norm": 0.6643955778897458,
+      "learning_rate": 4.605644112091601e-06,
+      "loss": 0.4716654419898987,
+      "memory(GiB)": 66.66,
+      "step": 2083,
+      "token_acc": 0.915096915096915,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.66688,
+      "grad_norm": 0.7427422104981996,
+      "learning_rate": 4.605168583988893e-06,
+      "loss": 0.48347264528274536,
+      "memory(GiB)": 66.66,
+      "step": 2084,
+      "token_acc": 0.7676503548748599,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.6672,
+      "grad_norm": 0.5998895369659307,
+      "learning_rate": 4.6046927939344744e-06,
+      "loss": 0.36312007904052734,
+      "memory(GiB)": 66.66,
+      "step": 2085,
+      "token_acc": 0.90764684152198,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.66752,
+      "grad_norm": 0.6299176056002245,
+      "learning_rate": 4.6042167419875485e-06,
+      "loss": 0.3303380310535431,
+      "memory(GiB)": 66.66,
+      "step": 2086,
+      "token_acc": 0.9118273841236015,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.66784,
+      "grad_norm": 0.6390386712915288,
+      "learning_rate": 4.603740428207352e-06,
+      "loss": 0.3847258687019348,
+      "memory(GiB)": 66.66,
+      "step": 2087,
+      "token_acc": 0.8677660236465463,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.66816,
+      "grad_norm": 0.6280629636749778,
+      "learning_rate": 4.603263852653154e-06,
+      "loss": 0.4362924098968506,
+      "memory(GiB)": 66.66,
+      "step": 2088,
+      "token_acc": 0.8034188034188035,
+      "train_speed(iter/s)": 0.241943
+    },
+    {
+      "epoch": 0.66848,
+      "grad_norm": 0.6700819965253005,
+      "learning_rate": 4.602787015384255e-06,
+      "loss": 0.34015822410583496,
+      "memory(GiB)": 66.66,
+      "step": 2089,
+      "token_acc": 0.9022692889561271,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.6688,
+      "grad_norm": 0.6197654859324425,
+      "learning_rate": 4.60230991645999e-06,
+      "loss": 0.36401107907295227,
+      "memory(GiB)": 66.66,
+      "step": 2090,
+      "token_acc": 0.9431230610134437,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.66912,
+      "grad_norm": 0.62961440867017,
+      "learning_rate": 4.601832555939726e-06,
+      "loss": 0.3315191864967346,
+      "memory(GiB)": 66.66,
+      "step": 2091,
+      "token_acc": 0.9357326478149101,
+      "train_speed(iter/s)": 0.241951
+    },
+    {
+      "epoch": 0.66944,
+      "grad_norm": 0.6021007071939545,
+      "learning_rate": 4.601354933882861e-06,
+      "loss": 0.33663082122802734,
+      "memory(GiB)": 66.66,
+      "step": 2092,
+      "token_acc": 0.9345117357287742,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.66976,
+      "grad_norm": 0.6760393530208358,
+      "learning_rate": 4.6008770503488275e-06,
+      "loss": 0.35370802879333496,
+      "memory(GiB)": 66.66,
+      "step": 2093,
+      "token_acc": 0.8898993179603768,
+      "train_speed(iter/s)": 0.241957
+    },
+    {
+      "epoch": 0.67008,
+      "grad_norm": 0.5831127111204929,
+      "learning_rate": 4.6003989053970905e-06,
+      "loss": 0.3690981864929199,
+      "memory(GiB)": 66.66,
+      "step": 2094,
+      "token_acc": 0.8812383239925273,
+      "train_speed(iter/s)": 0.241955
+    },
+    {
+      "epoch": 0.6704,
+      "grad_norm": 0.6396477893428273,
+      "learning_rate": 4.599920499087146e-06,
+      "loss": 0.4141695499420166,
+      "memory(GiB)": 66.66,
+      "step": 2095,
+      "token_acc": 0.918219944082013,
+      "train_speed(iter/s)": 0.241946
+    },
+    {
+      "epoch": 0.67072,
+      "grad_norm": 0.5961902936136415,
+      "learning_rate": 4.599441831478523e-06,
+      "loss": 0.30224013328552246,
+      "memory(GiB)": 66.66,
+      "step": 2096,
+      "token_acc": 0.9240362811791383,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.67104,
+      "grad_norm": 0.6497351755364918,
+      "learning_rate": 4.598962902630784e-06,
+      "loss": 0.4059687554836273,
+      "memory(GiB)": 66.66,
+      "step": 2097,
+      "token_acc": 0.8451563691838292,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.67136,
+      "grad_norm": 0.6936529270202738,
+      "learning_rate": 4.598483712603524e-06,
+      "loss": 0.4416879415512085,
+      "memory(GiB)": 66.66,
+      "step": 2098,
+      "token_acc": 0.8608247422680413,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.67168,
+      "grad_norm": 0.6507534775731216,
+      "learning_rate": 4.5980042614563695e-06,
+      "loss": 0.37378990650177,
+      "memory(GiB)": 66.66,
+      "step": 2099,
+      "token_acc": 0.912041884816754,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 0.6320941759509382,
+      "learning_rate": 4.597524549248979e-06,
+      "loss": 0.39986032247543335,
+      "memory(GiB)": 66.66,
+      "step": 2100,
+      "token_acc": 0.8616517622304051,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.67232,
+      "grad_norm": 0.6173746528757661,
+      "learning_rate": 4.597044576041045e-06,
+      "loss": 0.3840849995613098,
+      "memory(GiB)": 66.66,
+      "step": 2101,
+      "token_acc": 0.8965050121918179,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.67264,
+      "grad_norm": 0.6380635544152559,
+      "learning_rate": 4.596564341892292e-06,
+      "loss": 0.2522818446159363,
+      "memory(GiB)": 66.66,
+      "step": 2102,
+      "token_acc": 0.9172899252089749,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.67296,
+      "grad_norm": 0.604750374436301,
+      "learning_rate": 4.596083846862476e-06,
+      "loss": 0.4752596616744995,
+      "memory(GiB)": 66.66,
+      "step": 2103,
+      "token_acc": 0.8619367209971237,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.67328,
+      "grad_norm": 0.6328637942629206,
+      "learning_rate": 4.5956030910113875e-06,
+      "loss": 0.33216527104377747,
+      "memory(GiB)": 66.66,
+      "step": 2104,
+      "token_acc": 0.8018300024078979,
+      "train_speed(iter/s)": 0.241929
+    },
+    {
+      "epoch": 0.6736,
+      "grad_norm": 0.6554307736943312,
+      "learning_rate": 4.595122074398848e-06,
+      "loss": 0.3700454831123352,
+      "memory(GiB)": 66.66,
+      "step": 2105,
+      "token_acc": 0.8256743256743256,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.67392,
+      "grad_norm": 0.6589429896060419,
+      "learning_rate": 4.59464079708471e-06,
+      "loss": 0.4724145531654358,
+      "memory(GiB)": 66.66,
+      "step": 2106,
+      "token_acc": 0.8332036316472115,
+      "train_speed(iter/s)": 0.241941
+    },
+    {
+      "epoch": 0.67424,
+      "grad_norm": 0.6437928932708973,
+      "learning_rate": 4.594159259128862e-06,
+      "loss": 0.4298544228076935,
+      "memory(GiB)": 66.66,
+      "step": 2107,
+      "token_acc": 0.815004659832246,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.67456,
+      "grad_norm": 0.5906437413685823,
+      "learning_rate": 4.593677460591223e-06,
+      "loss": 0.31621092557907104,
+      "memory(GiB)": 66.66,
+      "step": 2108,
+      "token_acc": 0.9021419571608568,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.67488,
+      "grad_norm": 0.6214903370505065,
+      "learning_rate": 4.593195401531743e-06,
+      "loss": 0.36188435554504395,
+      "memory(GiB)": 66.66,
+      "step": 2109,
+      "token_acc": 0.914664202094886,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.6752,
+      "grad_norm": 0.6543737259312984,
+      "learning_rate": 4.592713082010407e-06,
+      "loss": 0.296764075756073,
+      "memory(GiB)": 66.66,
+      "step": 2110,
+      "token_acc": 0.857095709570957,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.67552,
+      "grad_norm": 0.6639010350610421,
+      "learning_rate": 4.5922305020872314e-06,
+      "loss": 0.4564563035964966,
+      "memory(GiB)": 66.66,
+      "step": 2111,
+      "token_acc": 0.85041430440471,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.67584,
+      "grad_norm": 0.5760642010426181,
+      "learning_rate": 4.5917476618222644e-06,
+      "loss": 0.363985538482666,
+      "memory(GiB)": 66.66,
+      "step": 2112,
+      "token_acc": 0.9061980527190691,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.67616,
+      "grad_norm": 0.6407755681072149,
+      "learning_rate": 4.591264561275588e-06,
+      "loss": 0.3577921390533447,
+      "memory(GiB)": 66.66,
+      "step": 2113,
+      "token_acc": 0.9134328358208955,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.67648,
+      "grad_norm": 0.6198783869496914,
+      "learning_rate": 4.590781200507314e-06,
+      "loss": 0.3807160258293152,
+      "memory(GiB)": 66.66,
+      "step": 2114,
+      "token_acc": 0.8914073071718539,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.6768,
+      "grad_norm": 0.6428905914114583,
+      "learning_rate": 4.59029757957759e-06,
+      "loss": 0.329864501953125,
+      "memory(GiB)": 66.66,
+      "step": 2115,
+      "token_acc": 0.8403108548508398,
+      "train_speed(iter/s)": 0.24194
+    },
+    {
+      "epoch": 0.67712,
+      "grad_norm": 0.6413959749885232,
+      "learning_rate": 4.589813698546592e-06,
+      "loss": 0.37567228078842163,
+      "memory(GiB)": 66.66,
+      "step": 2116,
+      "token_acc": 0.9140340218712029,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.67744,
+      "grad_norm": 0.6259933403665949,
+      "learning_rate": 4.589329557474533e-06,
+      "loss": 0.3571789860725403,
+      "memory(GiB)": 66.66,
+      "step": 2117,
+      "token_acc": 0.839509612705489,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.67776,
+      "grad_norm": 0.611094912215572,
+      "learning_rate": 4.5888451564216555e-06,
+      "loss": 0.33005228638648987,
+      "memory(GiB)": 66.66,
+      "step": 2118,
+      "token_acc": 0.7807123818754543,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.67808,
+      "grad_norm": 0.6510612677512541,
+      "learning_rate": 4.588360495448234e-06,
+      "loss": 0.42811495065689087,
+      "memory(GiB)": 66.66,
+      "step": 2119,
+      "token_acc": 0.8782435129740519,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.6784,
+      "grad_norm": 0.6961962684133498,
+      "learning_rate": 4.587875574614576e-06,
+      "loss": 0.44399771094322205,
+      "memory(GiB)": 66.66,
+      "step": 2120,
+      "token_acc": 0.880957810718358,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.67872,
+      "grad_norm": 0.6138490688465464,
+      "learning_rate": 4.587390393981023e-06,
+      "loss": 0.31776294112205505,
+      "memory(GiB)": 66.66,
+      "step": 2121,
+      "token_acc": 0.8728699551569506,
+      "train_speed(iter/s)": 0.241941
+    },
+    {
+      "epoch": 0.67904,
+      "grad_norm": 0.6165062113582763,
+      "learning_rate": 4.586904953607946e-06,
+      "loss": 0.38529279828071594,
+      "memory(GiB)": 66.66,
+      "step": 2122,
+      "token_acc": 0.9003677699765965,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.67936,
+      "grad_norm": 0.6756093265742715,
+      "learning_rate": 4.5864192535557494e-06,
+      "loss": 0.4088912010192871,
+      "memory(GiB)": 66.66,
+      "step": 2123,
+      "token_acc": 0.9281702630801064,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.67968,
+      "grad_norm": 0.6291993465033577,
+      "learning_rate": 4.585933293884871e-06,
+      "loss": 0.39276057481765747,
+      "memory(GiB)": 66.66,
+      "step": 2124,
+      "token_acc": 0.8942891859052248,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.6245822991004416,
+      "learning_rate": 4.585447074655779e-06,
+      "loss": 0.3790951371192932,
+      "memory(GiB)": 66.66,
+      "step": 2125,
+      "token_acc": 0.8757196744093707,
+      "train_speed(iter/s)": 0.241921
+    },
+    {
+      "epoch": 0.68032,
+      "grad_norm": 0.6352966455771603,
+      "learning_rate": 4.584960595928977e-06,
+      "loss": 0.29404351115226746,
+      "memory(GiB)": 66.66,
+      "step": 2126,
+      "token_acc": 0.9338810641627543,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.68064,
+      "grad_norm": 0.6552007807555748,
+      "learning_rate": 4.584473857764996e-06,
+      "loss": 0.44398263096809387,
+      "memory(GiB)": 66.66,
+      "step": 2127,
+      "token_acc": 0.9443234836702955,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.68096,
+      "grad_norm": 0.6315181241889366,
+      "learning_rate": 4.583986860224405e-06,
+      "loss": 0.4832325279712677,
+      "memory(GiB)": 66.66,
+      "step": 2128,
+      "token_acc": 0.8283447529751172,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.68128,
+      "grad_norm": 0.5894806224248129,
+      "learning_rate": 4.5834996033678e-06,
+      "loss": 0.3831925094127655,
+      "memory(GiB)": 66.66,
+      "step": 2129,
+      "token_acc": 0.8548098434004474,
+      "train_speed(iter/s)": 0.241929
+    },
+    {
+      "epoch": 0.6816,
+      "grad_norm": 0.6098435935138452,
+      "learning_rate": 4.583012087255813e-06,
+      "loss": 0.42164528369903564,
+      "memory(GiB)": 66.66,
+      "step": 2130,
+      "token_acc": 0.9367122552963261,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.68192,
+      "grad_norm": 0.6602889824029997,
+      "learning_rate": 4.582524311949107e-06,
+      "loss": 0.44841066002845764,
+      "memory(GiB)": 66.66,
+      "step": 2131,
+      "token_acc": 0.839123006833713,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.68224,
+      "grad_norm": 0.5741619111738433,
+      "learning_rate": 4.582036277508376e-06,
+      "loss": 0.3732197880744934,
+      "memory(GiB)": 66.66,
+      "step": 2132,
+      "token_acc": 0.9272415482606565,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.68256,
+      "grad_norm": 0.6396698595001332,
+      "learning_rate": 4.581547983994349e-06,
+      "loss": 0.3272702693939209,
+      "memory(GiB)": 66.66,
+      "step": 2133,
+      "token_acc": 0.9139240506329114,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.68288,
+      "grad_norm": 0.6178833976341476,
+      "learning_rate": 4.581059431467784e-06,
+      "loss": 0.36985206604003906,
+      "memory(GiB)": 66.66,
+      "step": 2134,
+      "token_acc": 0.8716012084592145,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.6832,
+      "grad_norm": 0.6753932103086924,
+      "learning_rate": 4.580570619989474e-06,
+      "loss": 0.37054723501205444,
+      "memory(GiB)": 66.66,
+      "step": 2135,
+      "token_acc": 0.9228876127973749,
+      "train_speed(iter/s)": 0.241911
+    },
+    {
+      "epoch": 0.68352,
+      "grad_norm": 0.6619880898521451,
+      "learning_rate": 4.5800815496202436e-06,
+      "loss": 0.33415859937667847,
+      "memory(GiB)": 66.66,
+      "step": 2136,
+      "token_acc": 0.865278628291488,
+      "train_speed(iter/s)": 0.241908
+    },
+    {
+      "epoch": 0.68384,
+      "grad_norm": 0.6059879257986326,
+      "learning_rate": 4.579592220420948e-06,
+      "loss": 0.3559541702270508,
+      "memory(GiB)": 66.66,
+      "step": 2137,
+      "token_acc": 0.9437180216031836,
+      "train_speed(iter/s)": 0.241912
+    },
+    {
+      "epoch": 0.68416,
+      "grad_norm": 0.6561693550648184,
+      "learning_rate": 4.579102632452476e-06,
+      "loss": 0.26052045822143555,
+      "memory(GiB)": 66.66,
+      "step": 2138,
+      "token_acc": 0.9216867469879518,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.68448,
+      "grad_norm": 0.6315726122957034,
+      "learning_rate": 4.578612785775748e-06,
+      "loss": 0.31627053022384644,
+      "memory(GiB)": 66.66,
+      "step": 2139,
+      "token_acc": 0.9206174200661521,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.6848,
+      "grad_norm": 0.6358594123971809,
+      "learning_rate": 4.578122680451718e-06,
+      "loss": 0.37110453844070435,
+      "memory(GiB)": 66.66,
+      "step": 2140,
+      "token_acc": 0.8277375047691721,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.68512,
+      "grad_norm": 0.6551230669070177,
+      "learning_rate": 4.577632316541369e-06,
+      "loss": 0.38707032799720764,
+      "memory(GiB)": 66.66,
+      "step": 2141,
+      "token_acc": 0.918939393939394,
+      "train_speed(iter/s)": 0.241911
+    },
+    {
+      "epoch": 0.68544,
+      "grad_norm": 0.6891598983168619,
+      "learning_rate": 4.577141694105721e-06,
+      "loss": 0.3869237005710602,
+      "memory(GiB)": 66.66,
+      "step": 2142,
+      "token_acc": 0.8334698893895944,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.68576,
+      "grad_norm": 0.6401254030796424,
+      "learning_rate": 4.576650813205823e-06,
+      "loss": 0.3270450234413147,
+      "memory(GiB)": 66.66,
+      "step": 2143,
+      "token_acc": 0.9494692144373673,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.68608,
+      "grad_norm": 0.6542137285421442,
+      "learning_rate": 4.576159673902755e-06,
+      "loss": 0.3280731439590454,
+      "memory(GiB)": 66.66,
+      "step": 2144,
+      "token_acc": 0.922683923705722,
+      "train_speed(iter/s)": 0.241904
+    },
+    {
+      "epoch": 0.6864,
+      "grad_norm": 0.6557418636640218,
+      "learning_rate": 4.575668276257631e-06,
+      "loss": 0.447399765253067,
+      "memory(GiB)": 66.66,
+      "step": 2145,
+      "token_acc": 0.9373529411764706,
+      "train_speed(iter/s)": 0.241873
+    },
+    {
+      "epoch": 0.68672,
+      "grad_norm": 0.6364094545133695,
+      "learning_rate": 4.5751766203315975e-06,
+      "loss": 0.3775416612625122,
+      "memory(GiB)": 66.66,
+      "step": 2146,
+      "token_acc": 0.8839928057553957,
+      "train_speed(iter/s)": 0.241873
+    },
+    {
+      "epoch": 0.68704,
+      "grad_norm": 0.6495127532463587,
+      "learning_rate": 4.574684706185834e-06,
+      "loss": 0.3963262438774109,
+      "memory(GiB)": 66.66,
+      "step": 2147,
+      "token_acc": 0.8719646799116998,
+      "train_speed(iter/s)": 0.241877
+    },
+    {
+      "epoch": 0.68736,
+      "grad_norm": 0.5978300170603517,
+      "learning_rate": 4.574192533881547e-06,
+      "loss": 0.3631603717803955,
+      "memory(GiB)": 66.66,
+      "step": 2148,
+      "token_acc": 0.9315211709357031,
+      "train_speed(iter/s)": 0.241877
+    },
+    {
+      "epoch": 0.68768,
+      "grad_norm": 0.6686374109879806,
+      "learning_rate": 4.573700103479983e-06,
+      "loss": 0.36967140436172485,
+      "memory(GiB)": 66.66,
+      "step": 2149,
+      "token_acc": 0.8543098370312193,
+      "train_speed(iter/s)": 0.24188
+    },
+    {
+      "epoch": 0.688,
+      "grad_norm": 0.7135694520382568,
+      "learning_rate": 4.5732074150424135e-06,
+      "loss": 0.37544798851013184,
+      "memory(GiB)": 66.66,
+      "step": 2150,
+      "token_acc": 0.9271317829457364,
+      "train_speed(iter/s)": 0.241887
+    },
+    {
+      "epoch": 0.68832,
+      "grad_norm": 0.5935127277034095,
+      "learning_rate": 4.572714468630146e-06,
+      "loss": 0.3864448070526123,
+      "memory(GiB)": 66.66,
+      "step": 2151,
+      "token_acc": 0.8717166979362101,
+      "train_speed(iter/s)": 0.241886
+    },
+    {
+      "epoch": 0.68864,
+      "grad_norm": 0.5983321331797017,
+      "learning_rate": 4.5722212643045194e-06,
+      "loss": 0.3286162316799164,
+      "memory(GiB)": 66.66,
+      "step": 2152,
+      "token_acc": 0.9300378173960021,
+      "train_speed(iter/s)": 0.241889
+    },
+    {
+      "epoch": 0.68896,
+      "grad_norm": 0.6804548189642188,
+      "learning_rate": 4.571727802126904e-06,
+      "loss": 0.39980602264404297,
+      "memory(GiB)": 66.66,
+      "step": 2153,
+      "token_acc": 0.8805918788713007,
+      "train_speed(iter/s)": 0.241893
+    },
+    {
+      "epoch": 0.68928,
+      "grad_norm": 0.7394006530736564,
+      "learning_rate": 4.571234082158703e-06,
+      "loss": 0.4268699288368225,
+      "memory(GiB)": 66.66,
+      "step": 2154,
+      "token_acc": 0.8925178147268409,
+      "train_speed(iter/s)": 0.241888
+    },
+    {
+      "epoch": 0.6896,
+      "grad_norm": 0.6407744831797149,
+      "learning_rate": 4.57074010446135e-06,
+      "loss": 0.40289071202278137,
+      "memory(GiB)": 66.66,
+      "step": 2155,
+      "token_acc": 0.9043311403508771,
+      "train_speed(iter/s)": 0.241888
+    },
+    {
+      "epoch": 0.68992,
+      "grad_norm": 0.7235008284851321,
+      "learning_rate": 4.570245869096314e-06,
+      "loss": 0.4115726053714752,
+      "memory(GiB)": 66.66,
+      "step": 2156,
+      "token_acc": 0.8900892437764208,
+      "train_speed(iter/s)": 0.241888
+    },
+    {
+      "epoch": 0.69024,
+      "grad_norm": 0.583319221936498,
+      "learning_rate": 4.569751376125093e-06,
+      "loss": 0.3529212176799774,
+      "memory(GiB)": 66.66,
+      "step": 2157,
+      "token_acc": 0.9405144694533762,
+      "train_speed(iter/s)": 0.24189
+    },
+    {
+      "epoch": 0.69056,
+      "grad_norm": 0.6465397901665138,
+      "learning_rate": 4.5692566256092176e-06,
+      "loss": 0.3817978501319885,
+      "memory(GiB)": 66.66,
+      "step": 2158,
+      "token_acc": 0.8673122219314315,
+      "train_speed(iter/s)": 0.241892
+    },
+    {
+      "epoch": 0.69088,
+      "grad_norm": 0.652315674744363,
+      "learning_rate": 4.568761617610251e-06,
+      "loss": 0.3009967803955078,
+      "memory(GiB)": 66.66,
+      "step": 2159,
+      "token_acc": 0.9485148514851485,
+      "train_speed(iter/s)": 0.241898
+    },
+    {
+      "epoch": 0.6912,
+      "grad_norm": 0.6112313858557129,
+      "learning_rate": 4.5682663521897895e-06,
+      "loss": 0.3448061943054199,
+      "memory(GiB)": 66.66,
+      "step": 2160,
+      "token_acc": 0.9157455170719725,
+      "train_speed(iter/s)": 0.241899
+    },
+    {
+      "epoch": 0.69152,
+      "grad_norm": 0.9919316397759345,
+      "learning_rate": 4.567770829409459e-06,
+      "loss": 0.39226585626602173,
+      "memory(GiB)": 66.66,
+      "step": 2161,
+      "token_acc": 0.9122306717363752,
+      "train_speed(iter/s)": 0.241904
+    },
+    {
+      "epoch": 0.69184,
+      "grad_norm": 0.6346811278650359,
+      "learning_rate": 4.5672750493309196e-06,
+      "loss": 0.3229006826877594,
+      "memory(GiB)": 66.66,
+      "step": 2162,
+      "token_acc": 0.8937774984286612,
+      "train_speed(iter/s)": 0.241908
+    },
+    {
+      "epoch": 0.69216,
+      "grad_norm": 0.6356076041568732,
+      "learning_rate": 4.566779012015862e-06,
+      "loss": 0.3478655517101288,
+      "memory(GiB)": 66.66,
+      "step": 2163,
+      "token_acc": 0.8820162887959498,
+      "train_speed(iter/s)": 0.241903
+    },
+    {
+      "epoch": 0.69248,
+      "grad_norm": 0.6678393359999601,
+      "learning_rate": 4.56628271752601e-06,
+      "loss": 0.3077484965324402,
+      "memory(GiB)": 66.66,
+      "step": 2164,
+      "token_acc": 0.9063786008230452,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.6928,
+      "grad_norm": 0.7020514049375605,
+      "learning_rate": 4.565786165923119e-06,
+      "loss": 0.38340437412261963,
+      "memory(GiB)": 66.66,
+      "step": 2165,
+      "token_acc": 0.8737422137038812,
+      "train_speed(iter/s)": 0.241903
+    },
+    {
+      "epoch": 0.69312,
+      "grad_norm": 0.6325057405887875,
+      "learning_rate": 4.565289357268974e-06,
+      "loss": 0.43164825439453125,
+      "memory(GiB)": 66.66,
+      "step": 2166,
+      "token_acc": 0.8840655055887705,
+      "train_speed(iter/s)": 0.241899
+    },
+    {
+      "epoch": 0.69344,
+      "grad_norm": 0.6173935360101478,
+      "learning_rate": 4.564792291625397e-06,
+      "loss": 0.36961185932159424,
+      "memory(GiB)": 66.66,
+      "step": 2167,
+      "token_acc": 0.8776559287183002,
+      "train_speed(iter/s)": 0.241897
+    },
+    {
+      "epoch": 0.69376,
+      "grad_norm": 0.6179602421001225,
+      "learning_rate": 4.564294969054237e-06,
+      "loss": 0.3414817452430725,
+      "memory(GiB)": 66.66,
+      "step": 2168,
+      "token_acc": 0.9444781553398058,
+      "train_speed(iter/s)": 0.241895
+    },
+    {
+      "epoch": 0.69408,
+      "grad_norm": 0.6236960103018123,
+      "learning_rate": 4.5637973896173794e-06,
+      "loss": 0.35302066802978516,
+      "memory(GiB)": 66.66,
+      "step": 2169,
+      "token_acc": 0.9491392801251957,
+      "train_speed(iter/s)": 0.241899
+    },
+    {
+      "epoch": 0.6944,
+      "grad_norm": 0.6795697130874947,
+      "learning_rate": 4.563299553376738e-06,
+      "loss": 0.4218558073043823,
+      "memory(GiB)": 66.66,
+      "step": 2170,
+      "token_acc": 0.8102564102564103,
+      "train_speed(iter/s)": 0.241894
+    },
+    {
+      "epoch": 0.69472,
+      "grad_norm": 0.6149009311068019,
+      "learning_rate": 4.56280146039426e-06,
+      "loss": 0.41696619987487793,
+      "memory(GiB)": 66.66,
+      "step": 2171,
+      "token_acc": 0.8622361665715915,
+      "train_speed(iter/s)": 0.241889
+    },
+    {
+      "epoch": 0.69504,
+      "grad_norm": 0.5795035375731575,
+      "learning_rate": 4.5623031107319245e-06,
+      "loss": 0.3453983664512634,
+      "memory(GiB)": 66.66,
+      "step": 2172,
+      "token_acc": 0.8467005076142132,
+      "train_speed(iter/s)": 0.241889
+    },
+    {
+      "epoch": 0.69536,
+      "grad_norm": 0.6437685001010309,
+      "learning_rate": 4.5618045044517425e-06,
+      "loss": 0.35478460788726807,
+      "memory(GiB)": 66.66,
+      "step": 2173,
+      "token_acc": 0.8970641536788692,
+      "train_speed(iter/s)": 0.241893
+    },
+    {
+      "epoch": 0.69568,
+      "grad_norm": 0.6565994530264878,
+      "learning_rate": 4.561305641615756e-06,
+      "loss": 0.29987362027168274,
+      "memory(GiB)": 66.66,
+      "step": 2174,
+      "token_acc": 0.872412815423873,
+      "train_speed(iter/s)": 0.241893
+    },
+    {
+      "epoch": 0.696,
+      "grad_norm": 0.6455429220383431,
+      "learning_rate": 4.560806522286042e-06,
+      "loss": 0.36573559045791626,
+      "memory(GiB)": 66.66,
+      "step": 2175,
+      "token_acc": 0.9331164135936371,
+      "train_speed(iter/s)": 0.241897
+    },
+    {
+      "epoch": 0.69632,
+      "grad_norm": 0.6545881923823849,
+      "learning_rate": 4.560307146524706e-06,
+      "loss": 0.3873975872993469,
+      "memory(GiB)": 66.66,
+      "step": 2176,
+      "token_acc": 0.9144503546099291,
+      "train_speed(iter/s)": 0.2419
+    },
+    {
+      "epoch": 0.69664,
+      "grad_norm": 0.6050089415052097,
+      "learning_rate": 4.5598075143938855e-06,
+      "loss": 0.42902037501335144,
+      "memory(GiB)": 66.66,
+      "step": 2177,
+      "token_acc": 0.8939354838709678,
+      "train_speed(iter/s)": 0.241897
+    },
+    {
+      "epoch": 0.69696,
+      "grad_norm": 0.6593991328452867,
+      "learning_rate": 4.559307625955754e-06,
+      "loss": 0.3220551013946533,
+      "memory(GiB)": 66.66,
+      "step": 2178,
+      "token_acc": 0.8699708454810495,
+      "train_speed(iter/s)": 0.241903
+    },
+    {
+      "epoch": 0.69728,
+      "grad_norm": 0.6854891283732276,
+      "learning_rate": 4.558807481272511e-06,
+      "loss": 0.34670785069465637,
+      "memory(GiB)": 66.66,
+      "step": 2179,
+      "token_acc": 0.913909224011713,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.6976,
+      "grad_norm": 0.6509823714976329,
+      "learning_rate": 4.5583070804063915e-06,
+      "loss": 0.40689513087272644,
+      "memory(GiB)": 66.66,
+      "step": 2180,
+      "token_acc": 0.8947475570032574,
+      "train_speed(iter/s)": 0.241902
+    },
+    {
+      "epoch": 0.69792,
+      "grad_norm": 0.5858818462219659,
+      "learning_rate": 4.5578064234196615e-06,
+      "loss": 0.2752559185028076,
+      "memory(GiB)": 66.66,
+      "step": 2181,
+      "token_acc": 0.9388349514563107,
+      "train_speed(iter/s)": 0.241908
+    },
+    {
+      "epoch": 0.69824,
+      "grad_norm": 0.6838208909284136,
+      "learning_rate": 4.557305510374621e-06,
+      "loss": 0.4067864418029785,
+      "memory(GiB)": 66.66,
+      "step": 2182,
+      "token_acc": 0.8828282828282829,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.69856,
+      "grad_norm": 0.6213043548815798,
+      "learning_rate": 4.5568043413335985e-06,
+      "loss": 0.3504504859447479,
+      "memory(GiB)": 66.66,
+      "step": 2183,
+      "token_acc": 0.8715083798882681,
+      "train_speed(iter/s)": 0.241917
+    },
+    {
+      "epoch": 0.69888,
+      "grad_norm": 0.5970008735609831,
+      "learning_rate": 4.5563029163589555e-06,
+      "loss": 0.3025510311126709,
+      "memory(GiB)": 66.66,
+      "step": 2184,
+      "token_acc": 0.8812911446166914,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.6992,
+      "grad_norm": 0.7532248304271942,
+      "learning_rate": 4.555801235513087e-06,
+      "loss": 0.3334563672542572,
+      "memory(GiB)": 66.66,
+      "step": 2185,
+      "token_acc": 0.9435975609756098,
+      "train_speed(iter/s)": 0.241911
+    },
+    {
+      "epoch": 0.69952,
+      "grad_norm": 0.6681633657240745,
+      "learning_rate": 4.555299298858416e-06,
+      "loss": 0.3974588215351105,
+      "memory(GiB)": 66.66,
+      "step": 2186,
+      "token_acc": 0.9030718759320012,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.69984,
+      "grad_norm": 0.6827054837797257,
+      "learning_rate": 4.554797106457402e-06,
+      "loss": 0.40698710083961487,
+      "memory(GiB)": 66.66,
+      "step": 2187,
+      "token_acc": 0.9048567870485679,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.70016,
+      "grad_norm": 0.6014070182006518,
+      "learning_rate": 4.554294658372535e-06,
+      "loss": 0.27859893441200256,
+      "memory(GiB)": 66.66,
+      "step": 2188,
+      "token_acc": 0.8677124795129946,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.70048,
+      "grad_norm": 0.6343320305964928,
+      "learning_rate": 4.553791954666333e-06,
+      "loss": 0.39292633533477783,
+      "memory(GiB)": 66.66,
+      "step": 2189,
+      "token_acc": 0.9112812850205454,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.7008,
+      "grad_norm": 0.573313086811636,
+      "learning_rate": 4.553288995401349e-06,
+      "loss": 0.3936372399330139,
+      "memory(GiB)": 66.66,
+      "step": 2190,
+      "token_acc": 0.9084479371316306,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.70112,
+      "grad_norm": 0.5958071780222463,
+      "learning_rate": 4.552785780640171e-06,
+      "loss": 0.3080025315284729,
+      "memory(GiB)": 66.66,
+      "step": 2191,
+      "token_acc": 0.9431898376852506,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.70144,
+      "grad_norm": 0.6504987273680198,
+      "learning_rate": 4.552282310445412e-06,
+      "loss": 0.40135809779167175,
+      "memory(GiB)": 66.66,
+      "step": 2192,
+      "token_acc": 0.8847638847638848,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.70176,
+      "grad_norm": 0.6997619546883974,
+      "learning_rate": 4.551778584879722e-06,
+      "loss": 0.40952008962631226,
+      "memory(GiB)": 66.66,
+      "step": 2193,
+      "token_acc": 0.9224852071005917,
+      "train_speed(iter/s)": 0.241919
+    },
+    {
+      "epoch": 0.70208,
+      "grad_norm": 0.679337322804823,
+      "learning_rate": 4.55127460400578e-06,
+      "loss": 0.45890527963638306,
+      "memory(GiB)": 66.66,
+      "step": 2194,
+      "token_acc": 0.8474709702814407,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.7024,
+      "grad_norm": 0.6329329452075569,
+      "learning_rate": 4.550770367886297e-06,
+      "loss": 0.35766366124153137,
+      "memory(GiB)": 66.66,
+      "step": 2195,
+      "token_acc": 0.8956259426847663,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.70272,
+      "grad_norm": 0.7131022307849278,
+      "learning_rate": 4.550265876584018e-06,
+      "loss": 0.30238479375839233,
+      "memory(GiB)": 66.66,
+      "step": 2196,
+      "token_acc": 0.9437533802055165,
+      "train_speed(iter/s)": 0.241924
+    },
+    {
+      "epoch": 0.70304,
+      "grad_norm": 0.6919828206559959,
+      "learning_rate": 4.5497611301617175e-06,
+      "loss": 0.4196329712867737,
+      "memory(GiB)": 66.66,
+      "step": 2197,
+      "token_acc": 0.8698024948024948,
+      "train_speed(iter/s)": 0.241924
+    },
+    {
+      "epoch": 0.70336,
+      "grad_norm": 0.6070581187988257,
+      "learning_rate": 4.549256128682201e-06,
+      "loss": 0.38020047545433044,
+      "memory(GiB)": 66.66,
+      "step": 2198,
+      "token_acc": 0.8403698534542917,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.70368,
+      "grad_norm": 0.659646946027682,
+      "learning_rate": 4.54875087220831e-06,
+      "loss": 0.4337690472602844,
+      "memory(GiB)": 66.66,
+      "step": 2199,
+      "token_acc": 0.8148969889064976,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 0.6254982812238143,
+      "learning_rate": 4.548245360802913e-06,
+      "loss": 0.4367392063140869,
+      "memory(GiB)": 66.66,
+      "step": 2200,
+      "token_acc": 0.8356401384083045,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.70432,
+      "grad_norm": 0.617671228353355,
+      "learning_rate": 4.5477395945289136e-06,
+      "loss": 0.3836784362792969,
+      "memory(GiB)": 66.66,
+      "step": 2201,
+      "token_acc": 0.8639112903225806,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.70464,
+      "grad_norm": 0.6779697407643356,
+      "learning_rate": 4.547233573449243e-06,
+      "loss": 0.36723485589027405,
+      "memory(GiB)": 66.66,
+      "step": 2202,
+      "token_acc": 0.9276116168183789,
+      "train_speed(iter/s)": 0.241919
+    },
+    {
+      "epoch": 0.70496,
+      "grad_norm": 0.6528060437939257,
+      "learning_rate": 4.54672729762687e-06,
+      "loss": 0.40992218255996704,
+      "memory(GiB)": 66.66,
+      "step": 2203,
+      "token_acc": 0.8893645044451761,
+      "train_speed(iter/s)": 0.241916
+    },
+    {
+      "epoch": 0.70528,
+      "grad_norm": 0.6777194547580365,
+      "learning_rate": 4.5462207671247885e-06,
+      "loss": 0.405839741230011,
+      "memory(GiB)": 66.66,
+      "step": 2204,
+      "token_acc": 0.9237046103631171,
+      "train_speed(iter/s)": 0.241921
+    },
+    {
+      "epoch": 0.7056,
+      "grad_norm": 0.6225565024039299,
+      "learning_rate": 4.5457139820060305e-06,
+      "loss": 0.40161317586898804,
+      "memory(GiB)": 66.66,
+      "step": 2205,
+      "token_acc": 0.882208253621208,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.70592,
+      "grad_norm": 0.682001169194645,
+      "learning_rate": 4.545206942333654e-06,
+      "loss": 0.43687495589256287,
+      "memory(GiB)": 66.66,
+      "step": 2206,
+      "token_acc": 0.9508888219343176,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.70624,
+      "grad_norm": 0.6215674740415579,
+      "learning_rate": 4.544699648170754e-06,
+      "loss": 0.34620827436447144,
+      "memory(GiB)": 66.66,
+      "step": 2207,
+      "token_acc": 0.9444444444444444,
+      "train_speed(iter/s)": 0.241919
+    },
+    {
+      "epoch": 0.70656,
+      "grad_norm": 0.7143435967177282,
+      "learning_rate": 4.544192099580452e-06,
+      "loss": 0.4370485544204712,
+      "memory(GiB)": 66.66,
+      "step": 2208,
+      "token_acc": 0.8678294573643411,
+      "train_speed(iter/s)": 0.241924
+    },
+    {
+      "epoch": 0.70688,
+      "grad_norm": 0.6177605724855207,
+      "learning_rate": 4.543684296625906e-06,
+      "loss": 0.407867968082428,
+      "memory(GiB)": 66.66,
+      "step": 2209,
+      "token_acc": 0.9063291139240506,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.7072,
+      "grad_norm": 0.586595141651053,
+      "learning_rate": 4.543176239370301e-06,
+      "loss": 0.3397759795188904,
+      "memory(GiB)": 66.66,
+      "step": 2210,
+      "token_acc": 0.9142526071842411,
+      "train_speed(iter/s)": 0.241929
+    },
+    {
+      "epoch": 0.70752,
+      "grad_norm": 0.6386978105492691,
+      "learning_rate": 4.542667927876856e-06,
+      "loss": 0.34699517488479614,
+      "memory(GiB)": 66.66,
+      "step": 2211,
+      "token_acc": 0.8712121212121212,
+      "train_speed(iter/s)": 0.241931
+    },
+    {
+      "epoch": 0.70784,
+      "grad_norm": 0.6417261442802997,
+      "learning_rate": 4.542159362208823e-06,
+      "loss": 0.4436630606651306,
+      "memory(GiB)": 66.66,
+      "step": 2212,
+      "token_acc": 0.9385382059800664,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.70816,
+      "grad_norm": 0.6347990776474527,
+      "learning_rate": 4.541650542429484e-06,
+      "loss": 0.3466145396232605,
+      "memory(GiB)": 66.66,
+      "step": 2213,
+      "token_acc": 0.9449311639549437,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.70848,
+      "grad_norm": 0.6573763879598704,
+      "learning_rate": 4.541141468602151e-06,
+      "loss": 0.30758148431777954,
+      "memory(GiB)": 66.66,
+      "step": 2214,
+      "token_acc": 0.9420745397395599,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.7088,
+      "grad_norm": 0.7035874929392837,
+      "learning_rate": 4.540632140790173e-06,
+      "loss": 0.39630067348480225,
+      "memory(GiB)": 66.66,
+      "step": 2215,
+      "token_acc": 0.8758248350329934,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.70912,
+      "grad_norm": 0.6889804103049396,
+      "learning_rate": 4.540122559056923e-06,
+      "loss": 0.3702808618545532,
+      "memory(GiB)": 66.66,
+      "step": 2216,
+      "token_acc": 0.9068873780668046,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.70944,
+      "grad_norm": 0.6668932486008611,
+      "learning_rate": 4.5396127234658124e-06,
+      "loss": 0.37195855379104614,
+      "memory(GiB)": 66.66,
+      "step": 2217,
+      "token_acc": 0.9494561740243123,
+      "train_speed(iter/s)": 0.241946
+    },
+    {
+      "epoch": 0.70976,
+      "grad_norm": 0.5857549036509433,
+      "learning_rate": 4.5391026340802796e-06,
+      "loss": 0.39823824167251587,
+      "memory(GiB)": 66.66,
+      "step": 2218,
+      "token_acc": 0.925281473899693,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.71008,
+      "grad_norm": 0.6528273695584925,
+      "learning_rate": 4.538592290963797e-06,
+      "loss": 0.43834370374679565,
+      "memory(GiB)": 66.66,
+      "step": 2219,
+      "token_acc": 0.8799736928641894,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.7104,
+      "grad_norm": 0.6317006036478464,
+      "learning_rate": 4.538081694179869e-06,
+      "loss": 0.36580684781074524,
+      "memory(GiB)": 66.66,
+      "step": 2220,
+      "token_acc": 0.9050596930073905,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.71072,
+      "grad_norm": 0.6053253026498918,
+      "learning_rate": 4.537570843792028e-06,
+      "loss": 0.3012773394584656,
+      "memory(GiB)": 66.66,
+      "step": 2221,
+      "token_acc": 0.9231301939058172,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.71104,
+      "grad_norm": 0.6700079060276917,
+      "learning_rate": 4.537059739863844e-06,
+      "loss": 0.4506133198738098,
+      "memory(GiB)": 66.66,
+      "step": 2222,
+      "token_acc": 0.8707671043538355,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.71136,
+      "grad_norm": 0.6461038507562129,
+      "learning_rate": 4.5365483824589115e-06,
+      "loss": 0.34407898783683777,
+      "memory(GiB)": 66.66,
+      "step": 2223,
+      "token_acc": 0.867485624673288,
+      "train_speed(iter/s)": 0.24194
+    },
+    {
+      "epoch": 0.71168,
+      "grad_norm": 0.5727473305449349,
+      "learning_rate": 4.5360367716408625e-06,
+      "loss": 0.26562780141830444,
+      "memory(GiB)": 66.66,
+      "step": 2224,
+      "token_acc": 0.9195979899497487,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.712,
+      "grad_norm": 0.6310716859097847,
+      "learning_rate": 4.5355249074733574e-06,
+      "loss": 0.44165873527526855,
+      "memory(GiB)": 66.66,
+      "step": 2225,
+      "token_acc": 0.8817204301075269,
+      "train_speed(iter/s)": 0.24193
+    },
+    {
+      "epoch": 0.71232,
+      "grad_norm": 0.7391014790772849,
+      "learning_rate": 4.535012790020088e-06,
+      "loss": 0.4608016014099121,
+      "memory(GiB)": 66.66,
+      "step": 2226,
+      "token_acc": 0.8844621513944223,
+      "train_speed(iter/s)": 0.24193
+    },
+    {
+      "epoch": 0.71264,
+      "grad_norm": 0.7007484963216721,
+      "learning_rate": 4.534500419344779e-06,
+      "loss": 0.37445223331451416,
+      "memory(GiB)": 66.66,
+      "step": 2227,
+      "token_acc": 0.878412813978886,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.71296,
+      "grad_norm": 0.6754753710683292,
+      "learning_rate": 4.533987795511187e-06,
+      "loss": 0.4188425540924072,
+      "memory(GiB)": 66.66,
+      "step": 2228,
+      "token_acc": 0.8352059925093633,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.71328,
+      "grad_norm": 0.6402602102277322,
+      "learning_rate": 4.533474918583098e-06,
+      "loss": 0.395877480506897,
+      "memory(GiB)": 66.66,
+      "step": 2229,
+      "token_acc": 0.8788909233586188,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.7136,
+      "grad_norm": 0.6387423868558149,
+      "learning_rate": 4.5329617886243305e-06,
+      "loss": 0.37150782346725464,
+      "memory(GiB)": 66.66,
+      "step": 2230,
+      "token_acc": 0.8784869976359339,
+      "train_speed(iter/s)": 0.241931
+    },
+    {
+      "epoch": 0.71392,
+      "grad_norm": 0.6202058018636495,
+      "learning_rate": 4.532448405698735e-06,
+      "loss": 0.3293929696083069,
+      "memory(GiB)": 66.66,
+      "step": 2231,
+      "token_acc": 0.8771676300578035,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.71424,
+      "grad_norm": 0.6385627987307073,
+      "learning_rate": 4.531934769870193e-06,
+      "loss": 0.41140466928482056,
+      "memory(GiB)": 66.66,
+      "step": 2232,
+      "token_acc": 0.8897124221761044,
+      "train_speed(iter/s)": 0.241929
+    },
+    {
+      "epoch": 0.71456,
+      "grad_norm": 0.6689247827149711,
+      "learning_rate": 4.531420881202618e-06,
+      "loss": 0.48568442463874817,
+      "memory(GiB)": 66.66,
+      "step": 2233,
+      "token_acc": 0.8546286518831397,
+      "train_speed(iter/s)": 0.241929
+    },
+    {
+      "epoch": 0.71488,
+      "grad_norm": 0.6181804483635377,
+      "learning_rate": 4.530906739759955e-06,
+      "loss": 0.4053623676300049,
+      "memory(GiB)": 66.66,
+      "step": 2234,
+      "token_acc": 0.9186795491143317,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.7152,
+      "grad_norm": 0.5984801916981093,
+      "learning_rate": 4.530392345606179e-06,
+      "loss": 0.45379704236984253,
+      "memory(GiB)": 66.66,
+      "step": 2235,
+      "token_acc": 0.8447361777328958,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.71552,
+      "grad_norm": 0.6333151146680343,
+      "learning_rate": 4.529877698805296e-06,
+      "loss": 0.3287976384162903,
+      "memory(GiB)": 66.66,
+      "step": 2236,
+      "token_acc": 0.9236074270557029,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.71584,
+      "grad_norm": 0.6634088033470119,
+      "learning_rate": 4.529362799421348e-06,
+      "loss": 0.37503811717033386,
+      "memory(GiB)": 66.66,
+      "step": 2237,
+      "token_acc": 0.8864280195724955,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.71616,
+      "grad_norm": 0.6515888572893508,
+      "learning_rate": 4.528847647518403e-06,
+      "loss": 0.3736875653266907,
+      "memory(GiB)": 66.66,
+      "step": 2238,
+      "token_acc": 0.9500773993808049,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.71648,
+      "grad_norm": 0.616937538280776,
+      "learning_rate": 4.528332243160563e-06,
+      "loss": 0.36249929666519165,
+      "memory(GiB)": 66.66,
+      "step": 2239,
+      "token_acc": 0.9025600835945663,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.7168,
+      "grad_norm": 0.6189805175795066,
+      "learning_rate": 4.527816586411964e-06,
+      "loss": 0.3958510756492615,
+      "memory(GiB)": 66.66,
+      "step": 2240,
+      "token_acc": 0.8443446088794926,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.71712,
+      "grad_norm": 0.7283020217456979,
+      "learning_rate": 4.5273006773367655e-06,
+      "loss": 0.36741068959236145,
+      "memory(GiB)": 66.66,
+      "step": 2241,
+      "token_acc": 0.8968128747238877,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.71744,
+      "grad_norm": 0.6922688674508563,
+      "learning_rate": 4.526784515999167e-06,
+      "loss": 0.3689715266227722,
+      "memory(GiB)": 66.66,
+      "step": 2242,
+      "token_acc": 0.8877659574468085,
+      "train_speed(iter/s)": 0.241928
+    },
+    {
+      "epoch": 0.71776,
+      "grad_norm": 0.6265800077923732,
+      "learning_rate": 4.5262681024633955e-06,
+      "loss": 0.3386674225330353,
+      "memory(GiB)": 66.66,
+      "step": 2243,
+      "token_acc": 0.9066764132553606,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.71808,
+      "grad_norm": 0.5596100918584989,
+      "learning_rate": 4.525751436793709e-06,
+      "loss": 0.3000979721546173,
+      "memory(GiB)": 66.66,
+      "step": 2244,
+      "token_acc": 0.8645073766321859,
+      "train_speed(iter/s)": 0.241924
+    },
+    {
+      "epoch": 0.7184,
+      "grad_norm": 0.6759790211566864,
+      "learning_rate": 4.525234519054398e-06,
+      "loss": 0.4159969687461853,
+      "memory(GiB)": 66.66,
+      "step": 2245,
+      "token_acc": 0.8711360899237254,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.71872,
+      "grad_norm": 0.6159212440992663,
+      "learning_rate": 4.524717349309783e-06,
+      "loss": 0.33716559410095215,
+      "memory(GiB)": 66.66,
+      "step": 2246,
+      "token_acc": 0.9139344262295082,
+      "train_speed(iter/s)": 0.241928
+    },
+    {
+      "epoch": 0.71904,
+      "grad_norm": 0.7197464316835495,
+      "learning_rate": 4.524199927624218e-06,
+      "loss": 0.3619437515735626,
+      "memory(GiB)": 66.66,
+      "step": 2247,
+      "token_acc": 0.8894760017613386,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.71936,
+      "grad_norm": 0.5980153228131493,
+      "learning_rate": 4.5236822540620864e-06,
+      "loss": 0.40523654222488403,
+      "memory(GiB)": 66.66,
+      "step": 2248,
+      "token_acc": 0.8903241530587375,
+      "train_speed(iter/s)": 0.241931
+    },
+    {
+      "epoch": 0.71968,
+      "grad_norm": 3.003697878248175,
+      "learning_rate": 4.523164328687804e-06,
+      "loss": 0.36298537254333496,
+      "memory(GiB)": 66.66,
+      "step": 2249,
+      "token_acc": 0.8479402820016588,
+      "train_speed(iter/s)": 0.241929
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.6298273725345949,
+      "learning_rate": 4.522646151565817e-06,
+      "loss": 0.3588675260543823,
+      "memory(GiB)": 66.66,
+      "step": 2250,
+      "token_acc": 0.91173209137281,
+      "train_speed(iter/s)": 0.241916
+    },
+    {
+      "epoch": 0.72032,
+      "grad_norm": 0.6347484203079096,
+      "learning_rate": 4.522127722760605e-06,
+      "loss": 0.42654114961624146,
+      "memory(GiB)": 66.66,
+      "step": 2251,
+      "token_acc": 0.8299221677716921,
+      "train_speed(iter/s)": 0.241912
+    },
+    {
+      "epoch": 0.72064,
+      "grad_norm": 0.5916933458438125,
+      "learning_rate": 4.521609042336676e-06,
+      "loss": 0.40652114152908325,
+      "memory(GiB)": 66.66,
+      "step": 2252,
+      "token_acc": 0.9483264826776278,
+      "train_speed(iter/s)": 0.241908
+    },
+    {
+      "epoch": 0.72096,
+      "grad_norm": 0.5997495145064539,
+      "learning_rate": 4.521090110358572e-06,
+      "loss": 0.37064242362976074,
+      "memory(GiB)": 66.66,
+      "step": 2253,
+      "token_acc": 0.9265103697024346,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.72128,
+      "grad_norm": 0.67808562418646,
+      "learning_rate": 4.520570926890864e-06,
+      "loss": 0.3554508090019226,
+      "memory(GiB)": 66.66,
+      "step": 2254,
+      "token_acc": 0.9527786700931578,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.7216,
+      "grad_norm": 0.6206341612017234,
+      "learning_rate": 4.520051491998155e-06,
+      "loss": 0.362976998090744,
+      "memory(GiB)": 66.66,
+      "step": 2255,
+      "token_acc": 0.950753960679519,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.72192,
+      "grad_norm": 0.6340504310865848,
+      "learning_rate": 4.519531805745081e-06,
+      "loss": 0.39064350724220276,
+      "memory(GiB)": 66.66,
+      "step": 2256,
+      "token_acc": 0.9431372549019608,
+      "train_speed(iter/s)": 0.241908
+    },
+    {
+      "epoch": 0.72224,
+      "grad_norm": 0.6248383048893782,
+      "learning_rate": 4.519011868196308e-06,
+      "loss": 0.3981291651725769,
+      "memory(GiB)": 66.66,
+      "step": 2257,
+      "token_acc": 0.8682839173405211,
+      "train_speed(iter/s)": 0.2419
+    },
+    {
+      "epoch": 0.72256,
+      "grad_norm": 0.5927830354773495,
+      "learning_rate": 4.518491679416533e-06,
+      "loss": 0.3201013505458832,
+      "memory(GiB)": 66.66,
+      "step": 2258,
+      "token_acc": 0.9018909290216498,
+      "train_speed(iter/s)": 0.241904
+    },
+    {
+      "epoch": 0.72288,
+      "grad_norm": 0.6384343877585834,
+      "learning_rate": 4.517971239470482e-06,
+      "loss": 0.3111628293991089,
+      "memory(GiB)": 66.66,
+      "step": 2259,
+      "token_acc": 0.9176182707993474,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.7232,
+      "grad_norm": 0.6474563549857586,
+      "learning_rate": 4.517450548422919e-06,
+      "loss": 0.43023887276649475,
+      "memory(GiB)": 66.66,
+      "step": 2260,
+      "token_acc": 0.8861405575186494,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.72352,
+      "grad_norm": 0.6269178236460488,
+      "learning_rate": 4.516929606338631e-06,
+      "loss": 0.3472389578819275,
+      "memory(GiB)": 66.66,
+      "step": 2261,
+      "token_acc": 0.8893956670467503,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.72384,
+      "grad_norm": 0.6907031715620581,
+      "learning_rate": 4.5164084132824436e-06,
+      "loss": 0.38050320744514465,
+      "memory(GiB)": 66.66,
+      "step": 2262,
+      "token_acc": 0.8146446078431373,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.72416,
+      "grad_norm": 0.5788345852674578,
+      "learning_rate": 4.515886969319208e-06,
+      "loss": 0.30631324648857117,
+      "memory(GiB)": 66.66,
+      "step": 2263,
+      "token_acc": 0.9032485875706214,
+      "train_speed(iter/s)": 0.241917
+    },
+    {
+      "epoch": 0.72448,
+      "grad_norm": 0.6008996587578963,
+      "learning_rate": 4.515365274513809e-06,
+      "loss": 0.32442528009414673,
+      "memory(GiB)": 66.66,
+      "step": 2264,
+      "token_acc": 0.9400862068965518,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.7248,
+      "grad_norm": 0.5836944416182771,
+      "learning_rate": 4.514843328931164e-06,
+      "loss": 0.28834444284439087,
+      "memory(GiB)": 66.66,
+      "step": 2265,
+      "token_acc": 0.9423791821561338,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.72512,
+      "grad_norm": 0.6406982270151497,
+      "learning_rate": 4.514321132636218e-06,
+      "loss": 0.36105501651763916,
+      "memory(GiB)": 66.66,
+      "step": 2266,
+      "token_acc": 0.9266895761741123,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.72544,
+      "grad_norm": 0.6821828824024868,
+      "learning_rate": 4.5137986856939505e-06,
+      "loss": 0.3647525906562805,
+      "memory(GiB)": 66.66,
+      "step": 2267,
+      "token_acc": 0.9510144927536232,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.72576,
+      "grad_norm": 0.6197061014137485,
+      "learning_rate": 4.513275988169371e-06,
+      "loss": 0.3639979064464569,
+      "memory(GiB)": 66.66,
+      "step": 2268,
+      "token_acc": 0.8243675487060191,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.72608,
+      "grad_norm": 0.6218038721035293,
+      "learning_rate": 4.51275304012752e-06,
+      "loss": 0.3438589572906494,
+      "memory(GiB)": 66.66,
+      "step": 2269,
+      "token_acc": 0.9567676767676768,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.7264,
+      "grad_norm": 0.6414175264500473,
+      "learning_rate": 4.51222984163347e-06,
+      "loss": 0.38737952709198,
+      "memory(GiB)": 66.66,
+      "step": 2270,
+      "token_acc": 0.9050966608084359,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.72672,
+      "grad_norm": 0.6650100710602539,
+      "learning_rate": 4.511706392752321e-06,
+      "loss": 0.43656253814697266,
+      "memory(GiB)": 66.66,
+      "step": 2271,
+      "token_acc": 0.873645091359554,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.72704,
+      "grad_norm": 0.6366657726365555,
+      "learning_rate": 4.511182693549211e-06,
+      "loss": 0.4190371036529541,
+      "memory(GiB)": 66.66,
+      "step": 2272,
+      "token_acc": 0.8558480794130341,
+      "train_speed(iter/s)": 0.241928
+    },
+    {
+      "epoch": 0.72736,
+      "grad_norm": 0.6045026993524032,
+      "learning_rate": 4.510658744089303e-06,
+      "loss": 0.3093340992927551,
+      "memory(GiB)": 66.66,
+      "step": 2273,
+      "token_acc": 0.8927566807313643,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.72768,
+      "grad_norm": 0.7162904923323148,
+      "learning_rate": 4.510134544437794e-06,
+      "loss": 0.45689475536346436,
+      "memory(GiB)": 66.66,
+      "step": 2274,
+      "token_acc": 0.9211281070745698,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.728,
+      "grad_norm": 0.6501553988077944,
+      "learning_rate": 4.509610094659912e-06,
+      "loss": 0.4161341190338135,
+      "memory(GiB)": 66.66,
+      "step": 2275,
+      "token_acc": 0.8700086805555556,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.72832,
+      "grad_norm": 0.8230159524235051,
+      "learning_rate": 4.509085394820915e-06,
+      "loss": 0.41152966022491455,
+      "memory(GiB)": 66.66,
+      "step": 2276,
+      "token_acc": 0.8493698124807869,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.72864,
+      "grad_norm": 0.6405507707606832,
+      "learning_rate": 4.5085604449860925e-06,
+      "loss": 0.4416384994983673,
+      "memory(GiB)": 66.66,
+      "step": 2277,
+      "token_acc": 0.8876484560570072,
+      "train_speed(iter/s)": 0.241941
+    },
+    {
+      "epoch": 0.72896,
+      "grad_norm": 0.638070060358356,
+      "learning_rate": 4.508035245220766e-06,
+      "loss": 0.42204582691192627,
+      "memory(GiB)": 66.66,
+      "step": 2278,
+      "token_acc": 0.9558875844895055,
+      "train_speed(iter/s)": 0.241943
+    },
+    {
+      "epoch": 0.72928,
+      "grad_norm": 0.6409577785828099,
+      "learning_rate": 4.5075097955902885e-06,
+      "loss": 0.35541293025016785,
+      "memory(GiB)": 66.66,
+      "step": 2279,
+      "token_acc": 0.9278600269179004,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.7296,
+      "grad_norm": 0.6335930983150414,
+      "learning_rate": 4.506984096160041e-06,
+      "loss": 0.432003915309906,
+      "memory(GiB)": 66.66,
+      "step": 2280,
+      "token_acc": 0.8862439917601281,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.72992,
+      "grad_norm": 0.6632748773327183,
+      "learning_rate": 4.5064581469954394e-06,
+      "loss": 0.3595622181892395,
+      "memory(GiB)": 66.66,
+      "step": 2281,
+      "token_acc": 0.8917865707434053,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.73024,
+      "grad_norm": 0.6286834434226733,
+      "learning_rate": 4.505931948161928e-06,
+      "loss": 0.4275304079055786,
+      "memory(GiB)": 66.66,
+      "step": 2282,
+      "token_acc": 0.8749423165666821,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.73056,
+      "grad_norm": 0.6341210302674365,
+      "learning_rate": 4.505405499724984e-06,
+      "loss": 0.39816951751708984,
+      "memory(GiB)": 66.66,
+      "step": 2283,
+      "token_acc": 0.9348739495798319,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.73088,
+      "grad_norm": 0.6611843888411678,
+      "learning_rate": 4.504878801750112e-06,
+      "loss": 0.3634353280067444,
+      "memory(GiB)": 66.66,
+      "step": 2284,
+      "token_acc": 0.8456265423635865,
+      "train_speed(iter/s)": 0.241956
+    },
+    {
+      "epoch": 0.7312,
+      "grad_norm": 0.565096802314165,
+      "learning_rate": 4.5043518543028554e-06,
+      "loss": 0.3436451554298401,
+      "memory(GiB)": 66.66,
+      "step": 2285,
+      "token_acc": 0.880457933972311,
+      "train_speed(iter/s)": 0.241955
+    },
+    {
+      "epoch": 0.73152,
+      "grad_norm": 0.6082205826601953,
+      "learning_rate": 4.503824657448778e-06,
+      "loss": 0.34370943903923035,
+      "memory(GiB)": 66.66,
+      "step": 2286,
+      "token_acc": 0.9020660048296216,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.73184,
+      "grad_norm": 0.6399780087982376,
+      "learning_rate": 4.5032972112534855e-06,
+      "loss": 0.33162540197372437,
+      "memory(GiB)": 66.66,
+      "step": 2287,
+      "token_acc": 0.9113712374581939,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.73216,
+      "grad_norm": 0.6212951675046136,
+      "learning_rate": 4.502769515782606e-06,
+      "loss": 0.38207489252090454,
+      "memory(GiB)": 66.66,
+      "step": 2288,
+      "token_acc": 0.941190533110208,
+      "train_speed(iter/s)": 0.241943
+    },
+    {
+      "epoch": 0.73248,
+      "grad_norm": 0.5964469003927122,
+      "learning_rate": 4.502241571101803e-06,
+      "loss": 0.3911234140396118,
+      "memory(GiB)": 66.66,
+      "step": 2289,
+      "token_acc": 0.8839631062183874,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.7328,
+      "grad_norm": 0.573174284439981,
+      "learning_rate": 4.5017133772767716e-06,
+      "loss": 0.3411495089530945,
+      "memory(GiB)": 66.66,
+      "step": 2290,
+      "token_acc": 0.912448347107438,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.73312,
+      "grad_norm": 0.5866351041617478,
+      "learning_rate": 4.501184934373233e-06,
+      "loss": 0.34431758522987366,
+      "memory(GiB)": 66.66,
+      "step": 2291,
+      "token_acc": 0.9151225343693963,
+      "train_speed(iter/s)": 0.24194
+    },
+    {
+      "epoch": 0.73344,
+      "grad_norm": 0.5951608071502142,
+      "learning_rate": 4.500656242456946e-06,
+      "loss": 0.35972821712493896,
+      "memory(GiB)": 66.66,
+      "step": 2292,
+      "token_acc": 0.9378296910324039,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.73376,
+      "grad_norm": 0.5962524271380277,
+      "learning_rate": 4.500127301593695e-06,
+      "loss": 0.41590794920921326,
+      "memory(GiB)": 66.66,
+      "step": 2293,
+      "token_acc": 0.790268456375839,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.73408,
+      "grad_norm": 0.6931307222070935,
+      "learning_rate": 4.499598111849299e-06,
+      "loss": 0.40134477615356445,
+      "memory(GiB)": 66.66,
+      "step": 2294,
+      "token_acc": 0.8111968009140246,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.7344,
+      "grad_norm": 0.6684270601852399,
+      "learning_rate": 4.499068673289605e-06,
+      "loss": 0.38892999291419983,
+      "memory(GiB)": 66.66,
+      "step": 2295,
+      "token_acc": 0.9416890080428955,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.73472,
+      "grad_norm": 0.6165684747741812,
+      "learning_rate": 4.498538985980494e-06,
+      "loss": 0.38226738572120667,
+      "memory(GiB)": 66.66,
+      "step": 2296,
+      "token_acc": 0.9004291845493563,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.73504,
+      "grad_norm": 0.6221012763688007,
+      "learning_rate": 4.498009049987876e-06,
+      "loss": 0.32989540696144104,
+      "memory(GiB)": 66.66,
+      "step": 2297,
+      "token_acc": 0.95995670995671,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.73536,
+      "grad_norm": 0.6783945388525364,
+      "learning_rate": 4.497478865377692e-06,
+      "loss": 0.40120983123779297,
+      "memory(GiB)": 66.66,
+      "step": 2298,
+      "token_acc": 0.8981328291184117,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.73568,
+      "grad_norm": 0.6608024112903373,
+      "learning_rate": 4.4969484322159125e-06,
+      "loss": 0.36497020721435547,
+      "memory(GiB)": 66.66,
+      "step": 2299,
+      "token_acc": 0.8586145648312611,
+      "train_speed(iter/s)": 0.24193
+    },
+    {
+      "epoch": 0.736,
+      "grad_norm": 0.648828443250563,
+      "learning_rate": 4.496417750568544e-06,
+      "loss": 0.3205887973308563,
+      "memory(GiB)": 66.66,
+      "step": 2300,
+      "token_acc": 0.9007717750826902,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.73632,
+      "grad_norm": 0.6623851660676874,
+      "learning_rate": 4.4958868205016185e-06,
+      "loss": 0.45788776874542236,
+      "memory(GiB)": 66.66,
+      "step": 2301,
+      "token_acc": 0.8347670250896058,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.73664,
+      "grad_norm": 0.61501641715061,
+      "learning_rate": 4.4953556420812025e-06,
+      "loss": 0.33361154794692993,
+      "memory(GiB)": 66.66,
+      "step": 2302,
+      "token_acc": 0.9187145557655955,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.73696,
+      "grad_norm": 0.6123482709450195,
+      "learning_rate": 4.49482421537339e-06,
+      "loss": 0.41219770908355713,
+      "memory(GiB)": 66.66,
+      "step": 2303,
+      "token_acc": 0.9313423645320197,
+      "train_speed(iter/s)": 0.241941
+    },
+    {
+      "epoch": 0.73728,
+      "grad_norm": 0.653073487242392,
+      "learning_rate": 4.494292540444309e-06,
+      "loss": 0.3993935286998749,
+      "memory(GiB)": 66.66,
+      "step": 2304,
+      "token_acc": 0.9289227742252828,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.7376,
+      "grad_norm": 0.6422676034405285,
+      "learning_rate": 4.4937606173601184e-06,
+      "loss": 0.3768670856952667,
+      "memory(GiB)": 66.66,
+      "step": 2305,
+      "token_acc": 0.8609148382298252,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.73792,
+      "grad_norm": 0.6016718184629992,
+      "learning_rate": 4.493228446187004e-06,
+      "loss": 0.3484560251235962,
+      "memory(GiB)": 66.66,
+      "step": 2306,
+      "token_acc": 0.9106290672451193,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.73824,
+      "grad_norm": 0.6206450625955714,
+      "learning_rate": 4.492696026991189e-06,
+      "loss": 0.39425235986709595,
+      "memory(GiB)": 66.66,
+      "step": 2307,
+      "token_acc": 0.8409215578716401,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.73856,
+      "grad_norm": 0.5881186487321138,
+      "learning_rate": 4.492163359838919e-06,
+      "loss": 0.3352866768836975,
+      "memory(GiB)": 66.66,
+      "step": 2308,
+      "token_acc": 0.9554162312783002,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.73888,
+      "grad_norm": 0.6311295296557154,
+      "learning_rate": 4.491630444796479e-06,
+      "loss": 0.36606886982917786,
+      "memory(GiB)": 66.66,
+      "step": 2309,
+      "token_acc": 0.8374259102455546,
+      "train_speed(iter/s)": 0.241946
+    },
+    {
+      "epoch": 0.7392,
+      "grad_norm": 0.6540137538945113,
+      "learning_rate": 4.49109728193018e-06,
+      "loss": 0.42932531237602234,
+      "memory(GiB)": 66.66,
+      "step": 2310,
+      "token_acc": 0.8246044127479385,
+      "train_speed(iter/s)": 0.241943
+    },
+    {
+      "epoch": 0.73952,
+      "grad_norm": 0.6094189878686871,
+      "learning_rate": 4.490563871306364e-06,
+      "loss": 0.3632028102874756,
+      "memory(GiB)": 66.66,
+      "step": 2311,
+      "token_acc": 0.8536962573461182,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.73984,
+      "grad_norm": 0.6952521972382109,
+      "learning_rate": 4.490030212991406e-06,
+      "loss": 0.3287809193134308,
+      "memory(GiB)": 66.66,
+      "step": 2312,
+      "token_acc": 0.9243547908632453,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.74016,
+      "grad_norm": 0.6462672730167507,
+      "learning_rate": 4.48949630705171e-06,
+      "loss": 0.4144185781478882,
+      "memory(GiB)": 66.66,
+      "step": 2313,
+      "token_acc": 0.9074980675083741,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.74048,
+      "grad_norm": 0.7094705802618271,
+      "learning_rate": 4.48896215355371e-06,
+      "loss": 0.4711051881313324,
+      "memory(GiB)": 66.66,
+      "step": 2314,
+      "token_acc": 0.932396839332748,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.7408,
+      "grad_norm": 0.6354199644908963,
+      "learning_rate": 4.488427752563874e-06,
+      "loss": 0.29967373609542847,
+      "memory(GiB)": 66.66,
+      "step": 2315,
+      "token_acc": 0.8795027904616946,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.74112,
+      "grad_norm": 0.6371154071258502,
+      "learning_rate": 4.4878931041486986e-06,
+      "loss": 0.403756320476532,
+      "memory(GiB)": 66.66,
+      "step": 2316,
+      "token_acc": 0.9024209486166008,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.74144,
+      "grad_norm": 0.593103792010903,
+      "learning_rate": 4.48735820837471e-06,
+      "loss": 0.3554255962371826,
+      "memory(GiB)": 66.66,
+      "step": 2317,
+      "token_acc": 0.9510117145899893,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.74176,
+      "grad_norm": 0.6223201970688879,
+      "learning_rate": 4.486823065308469e-06,
+      "loss": 0.4249178469181061,
+      "memory(GiB)": 66.66,
+      "step": 2318,
+      "token_acc": 0.8324246311738294,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.74208,
+      "grad_norm": 0.6121361734555318,
+      "learning_rate": 4.486287675016564e-06,
+      "loss": 0.35477808117866516,
+      "memory(GiB)": 66.66,
+      "step": 2319,
+      "token_acc": 0.9508617528419508,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.7424,
+      "grad_norm": 0.6226286444129349,
+      "learning_rate": 4.485752037565614e-06,
+      "loss": 0.40045222640037537,
+      "memory(GiB)": 66.66,
+      "step": 2320,
+      "token_acc": 0.8709433962264151,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.74272,
+      "grad_norm": 0.712263905762989,
+      "learning_rate": 4.485216153022271e-06,
+      "loss": 0.4376879334449768,
+      "memory(GiB)": 66.66,
+      "step": 2321,
+      "token_acc": 0.9466800804828974,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.74304,
+      "grad_norm": 0.6457005060128559,
+      "learning_rate": 4.484680021453216e-06,
+      "loss": 0.37418413162231445,
+      "memory(GiB)": 66.66,
+      "step": 2322,
+      "token_acc": 0.8788697788697789,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.74336,
+      "grad_norm": 0.6281378868580517,
+      "learning_rate": 4.484143642925161e-06,
+      "loss": 0.3504526615142822,
+      "memory(GiB)": 66.66,
+      "step": 2323,
+      "token_acc": 0.905685618729097,
+      "train_speed(iter/s)": 0.241946
+    },
+    {
+      "epoch": 0.74368,
+      "grad_norm": 0.6792051230976313,
+      "learning_rate": 4.4836070175048495e-06,
+      "loss": 0.33095717430114746,
+      "memory(GiB)": 66.66,
+      "step": 2324,
+      "token_acc": 0.956140350877193,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.744,
+      "grad_norm": 0.6026855001584274,
+      "learning_rate": 4.483070145259056e-06,
+      "loss": 0.33868086338043213,
+      "memory(GiB)": 66.66,
+      "step": 2325,
+      "token_acc": 0.9240180296200902,
+      "train_speed(iter/s)": 0.241953
+    },
+    {
+      "epoch": 0.74432,
+      "grad_norm": 0.5746134755317546,
+      "learning_rate": 4.482533026254583e-06,
+      "loss": 0.38976407051086426,
+      "memory(GiB)": 66.66,
+      "step": 2326,
+      "token_acc": 0.891629711751663,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.74464,
+      "grad_norm": 0.7149689483250419,
+      "learning_rate": 4.481995660558267e-06,
+      "loss": 0.3659779727458954,
+      "memory(GiB)": 66.66,
+      "step": 2327,
+      "token_acc": 0.8328434254360181,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.74496,
+      "grad_norm": 0.6748384520166442,
+      "learning_rate": 4.481458048236974e-06,
+      "loss": 0.4559290111064911,
+      "memory(GiB)": 66.66,
+      "step": 2328,
+      "token_acc": 0.8321623731459797,
+      "train_speed(iter/s)": 0.241953
+    },
+    {
+      "epoch": 0.74528,
+      "grad_norm": 0.5483432394179815,
+      "learning_rate": 4.4809201893575995e-06,
+      "loss": 0.30518805980682373,
+      "memory(GiB)": 66.66,
+      "step": 2329,
+      "token_acc": 0.9006228765571914,
+      "train_speed(iter/s)": 0.241952
+    },
+    {
+      "epoch": 0.7456,
+      "grad_norm": 0.5930845581760376,
+      "learning_rate": 4.480382083987072e-06,
+      "loss": 0.3804892301559448,
+      "memory(GiB)": 66.66,
+      "step": 2330,
+      "token_acc": 0.8834080717488789,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.74592,
+      "grad_norm": 0.6399340726087777,
+      "learning_rate": 4.479843732192347e-06,
+      "loss": 0.3875330686569214,
+      "memory(GiB)": 66.66,
+      "step": 2331,
+      "token_acc": 0.8787577639751553,
+      "train_speed(iter/s)": 0.241953
+    },
+    {
+      "epoch": 0.74624,
+      "grad_norm": 0.6335713945665106,
+      "learning_rate": 4.479305134040416e-06,
+      "loss": 0.45809289813041687,
+      "memory(GiB)": 66.66,
+      "step": 2332,
+      "token_acc": 0.8377241531990259,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.74656,
+      "grad_norm": 0.6214659086099811,
+      "learning_rate": 4.478766289598296e-06,
+      "loss": 0.3606780469417572,
+      "memory(GiB)": 66.66,
+      "step": 2333,
+      "token_acc": 0.8967190388170055,
+      "train_speed(iter/s)": 0.241946
+    },
+    {
+      "epoch": 0.74688,
+      "grad_norm": 0.680773954395919,
+      "learning_rate": 4.478227198933039e-06,
+      "loss": 0.4865780472755432,
+      "memory(GiB)": 66.66,
+      "step": 2334,
+      "token_acc": 0.8887905604719764,
+      "train_speed(iter/s)": 0.241941
+    },
+    {
+      "epoch": 0.7472,
+      "grad_norm": 0.6560039695820196,
+      "learning_rate": 4.477687862111723e-06,
+      "loss": 0.3204301595687866,
+      "memory(GiB)": 66.66,
+      "step": 2335,
+      "token_acc": 0.8862016293279023,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.74752,
+      "grad_norm": 0.6405716017529522,
+      "learning_rate": 4.477148279201461e-06,
+      "loss": 0.3768501877784729,
+      "memory(GiB)": 66.66,
+      "step": 2336,
+      "token_acc": 0.8683274021352313,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.74784,
+      "grad_norm": 0.6285231514044943,
+      "learning_rate": 4.476608450269394e-06,
+      "loss": 0.3634309768676758,
+      "memory(GiB)": 66.66,
+      "step": 2337,
+      "token_acc": 0.9344351124356542,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.74816,
+      "grad_norm": 0.6414782490536218,
+      "learning_rate": 4.476068375382694e-06,
+      "loss": 0.3834984302520752,
+      "memory(GiB)": 66.66,
+      "step": 2338,
+      "token_acc": 0.8794722151738138,
+      "train_speed(iter/s)": 0.241952
+    },
+    {
+      "epoch": 0.74848,
+      "grad_norm": 0.6894263348224916,
+      "learning_rate": 4.475528054608565e-06,
+      "loss": 0.3303259611129761,
+      "memory(GiB)": 66.66,
+      "step": 2339,
+      "token_acc": 0.9247787610619469,
+      "train_speed(iter/s)": 0.241953
+    },
+    {
+      "epoch": 0.7488,
+      "grad_norm": 0.635191612875476,
+      "learning_rate": 4.474987488014239e-06,
+      "loss": 0.390461802482605,
+      "memory(GiB)": 66.66,
+      "step": 2340,
+      "token_acc": 0.922077922077922,
+      "train_speed(iter/s)": 0.241955
+    },
+    {
+      "epoch": 0.74912,
+      "grad_norm": 0.6064054548830631,
+      "learning_rate": 4.4744466756669824e-06,
+      "loss": 0.3724749684333801,
+      "memory(GiB)": 66.66,
+      "step": 2341,
+      "token_acc": 0.8688563893550707,
+      "train_speed(iter/s)": 0.241953
+    },
+    {
+      "epoch": 0.74944,
+      "grad_norm": 0.7009465565574101,
+      "learning_rate": 4.473905617634088e-06,
+      "loss": 0.3923909068107605,
+      "memory(GiB)": 66.66,
+      "step": 2342,
+      "token_acc": 0.9392405063291139,
+      "train_speed(iter/s)": 0.241951
+    },
+    {
+      "epoch": 0.74976,
+      "grad_norm": 0.6916753611984967,
+      "learning_rate": 4.473364313982881e-06,
+      "loss": 0.39365869760513306,
+      "memory(GiB)": 66.66,
+      "step": 2343,
+      "token_acc": 0.879462707670555,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.75008,
+      "grad_norm": 0.6030189086520813,
+      "learning_rate": 4.4728227647807185e-06,
+      "loss": 0.3376174867153168,
+      "memory(GiB)": 66.66,
+      "step": 2344,
+      "token_acc": 0.9644766997708174,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.7504,
+      "grad_norm": 0.6495039878365281,
+      "learning_rate": 4.472280970094985e-06,
+      "loss": 0.4301387667655945,
+      "memory(GiB)": 66.66,
+      "step": 2345,
+      "token_acc": 0.8786379511059371,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.75072,
+      "grad_norm": 0.6355959022975082,
+      "learning_rate": 4.4717389299931e-06,
+      "loss": 0.358798623085022,
+      "memory(GiB)": 66.66,
+      "step": 2346,
+      "token_acc": 0.8944790739091718,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.75104,
+      "grad_norm": 0.6755459197902476,
+      "learning_rate": 4.47119664454251e-06,
+      "loss": 0.4416292905807495,
+      "memory(GiB)": 66.66,
+      "step": 2347,
+      "token_acc": 0.9098730028676771,
+      "train_speed(iter/s)": 0.241941
+    },
+    {
+      "epoch": 0.75136,
+      "grad_norm": 0.6061523625573861,
+      "learning_rate": 4.470654113810692e-06,
+      "loss": 0.32143115997314453,
+      "memory(GiB)": 66.66,
+      "step": 2348,
+      "token_acc": 0.9414860681114551,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.75168,
+      "grad_norm": 0.634748386916178,
+      "learning_rate": 4.470111337865156e-06,
+      "loss": 0.38649874925613403,
+      "memory(GiB)": 66.66,
+      "step": 2349,
+      "token_acc": 0.7951541850220264,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.752,
+      "grad_norm": 0.5913737919526105,
+      "learning_rate": 4.4695683167734395e-06,
+      "loss": 0.33932751417160034,
+      "memory(GiB)": 66.66,
+      "step": 2350,
+      "token_acc": 0.9495356037151703,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.75232,
+      "grad_norm": 0.670226427901379,
+      "learning_rate": 4.469025050603113e-06,
+      "loss": 0.4333738684654236,
+      "memory(GiB)": 66.66,
+      "step": 2351,
+      "token_acc": 0.8521023228462217,
+      "train_speed(iter/s)": 0.241953
+    },
+    {
+      "epoch": 0.75264,
+      "grad_norm": 0.6265641518489752,
+      "learning_rate": 4.468481539421776e-06,
+      "loss": 0.4289180636405945,
+      "memory(GiB)": 66.66,
+      "step": 2352,
+      "token_acc": 0.9148174659985684,
+      "train_speed(iter/s)": 0.241951
+    },
+    {
+      "epoch": 0.75296,
+      "grad_norm": 0.7199508641683001,
+      "learning_rate": 4.467937783297061e-06,
+      "loss": 0.48492032289505005,
+      "memory(GiB)": 66.66,
+      "step": 2353,
+      "token_acc": 0.8427876823338736,
+      "train_speed(iter/s)": 0.241952
+    },
+    {
+      "epoch": 0.75328,
+      "grad_norm": 0.6218936083719754,
+      "learning_rate": 4.467393782296626e-06,
+      "loss": 0.3720551133155823,
+      "memory(GiB)": 66.66,
+      "step": 2354,
+      "token_acc": 0.8713108215900026,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.7536,
+      "grad_norm": 0.5332356916327654,
+      "learning_rate": 4.466849536488165e-06,
+      "loss": 0.32571443915367126,
+      "memory(GiB)": 66.66,
+      "step": 2355,
+      "token_acc": 0.9077840112201964,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.75392,
+      "grad_norm": 0.6468960914825984,
+      "learning_rate": 4.466305045939399e-06,
+      "loss": 0.38340628147125244,
+      "memory(GiB)": 66.66,
+      "step": 2356,
+      "token_acc": 0.8319484835895306,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.75424,
+      "grad_norm": 0.5584550126701309,
+      "learning_rate": 4.465760310718079e-06,
+      "loss": 0.3343712091445923,
+      "memory(GiB)": 66.66,
+      "step": 2357,
+      "token_acc": 0.8621544327931363,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.75456,
+      "grad_norm": 0.5916254069730643,
+      "learning_rate": 4.46521533089199e-06,
+      "loss": 0.3333103060722351,
+      "memory(GiB)": 66.66,
+      "step": 2358,
+      "token_acc": 0.9249920204277051,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.75488,
+      "grad_norm": 0.6326573137592801,
+      "learning_rate": 4.4646701065289445e-06,
+      "loss": 0.4118788540363312,
+      "memory(GiB)": 66.66,
+      "step": 2359,
+      "token_acc": 0.8828158230540196,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.7552,
+      "grad_norm": 0.6398994353056883,
+      "learning_rate": 4.464124637696786e-06,
+      "loss": 0.3634151220321655,
+      "memory(GiB)": 66.66,
+      "step": 2360,
+      "token_acc": 0.8935171604576122,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.75552,
+      "grad_norm": 0.6394936892342552,
+      "learning_rate": 4.463578924463389e-06,
+      "loss": 0.3712594509124756,
+      "memory(GiB)": 66.66,
+      "step": 2361,
+      "token_acc": 0.8448810754912099,
+      "train_speed(iter/s)": 0.24193
+    },
+    {
+      "epoch": 0.75584,
+      "grad_norm": 0.6148022706281038,
+      "learning_rate": 4.463032966896658e-06,
+      "loss": 0.449304461479187,
+      "memory(GiB)": 66.66,
+      "step": 2362,
+      "token_acc": 0.8116803278688525,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.75616,
+      "grad_norm": 0.6424550934997812,
+      "learning_rate": 4.462486765064527e-06,
+      "loss": 0.4176827073097229,
+      "memory(GiB)": 66.66,
+      "step": 2363,
+      "token_acc": 0.903405572755418,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.75648,
+      "grad_norm": 0.654239747341214,
+      "learning_rate": 4.461940319034963e-06,
+      "loss": 0.3585636615753174,
+      "memory(GiB)": 66.66,
+      "step": 2364,
+      "token_acc": 0.8986719134284309,
+      "train_speed(iter/s)": 0.241931
+    },
+    {
+      "epoch": 0.7568,
+      "grad_norm": 0.6672188383817046,
+      "learning_rate": 4.46139362887596e-06,
+      "loss": 0.39768439531326294,
+      "memory(GiB)": 66.66,
+      "step": 2365,
+      "token_acc": 0.8346084608460846,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.75712,
+      "grad_norm": 0.588642927109659,
+      "learning_rate": 4.460846694655546e-06,
+      "loss": 0.3226599395275116,
+      "memory(GiB)": 66.66,
+      "step": 2366,
+      "token_acc": 0.9186130508066458,
+      "train_speed(iter/s)": 0.241916
+    },
+    {
+      "epoch": 0.75744,
+      "grad_norm": 0.6400356135145746,
+      "learning_rate": 4.460299516441777e-06,
+      "loss": 0.33131885528564453,
+      "memory(GiB)": 66.66,
+      "step": 2367,
+      "token_acc": 0.8784103114930183,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.75776,
+      "grad_norm": 0.6329167250033393,
+      "learning_rate": 4.459752094302738e-06,
+      "loss": 0.41495102643966675,
+      "memory(GiB)": 66.66,
+      "step": 2368,
+      "token_acc": 0.8871119473189087,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.75808,
+      "grad_norm": 0.6965926854565442,
+      "learning_rate": 4.459204428306547e-06,
+      "loss": 0.31331944465637207,
+      "memory(GiB)": 66.66,
+      "step": 2369,
+      "token_acc": 0.9454478437154441,
+      "train_speed(iter/s)": 0.241917
+    },
+    {
+      "epoch": 0.7584,
+      "grad_norm": 0.6401446252270176,
+      "learning_rate": 4.458656518521354e-06,
+      "loss": 0.3585125803947449,
+      "memory(GiB)": 66.66,
+      "step": 2370,
+      "token_acc": 0.8936912751677852,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.75872,
+      "grad_norm": 0.569250016843301,
+      "learning_rate": 4.458108365015333e-06,
+      "loss": 0.3623235821723938,
+      "memory(GiB)": 66.66,
+      "step": 2371,
+      "token_acc": 0.889920680982782,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.75904,
+      "grad_norm": 1.0168437021129164,
+      "learning_rate": 4.457559967856695e-06,
+      "loss": 0.38215717673301697,
+      "memory(GiB)": 66.66,
+      "step": 2372,
+      "token_acc": 0.8880338591766064,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.75936,
+      "grad_norm": 0.6663294577465615,
+      "learning_rate": 4.457011327113677e-06,
+      "loss": 0.3759962320327759,
+      "memory(GiB)": 66.66,
+      "step": 2373,
+      "token_acc": 0.8277344799785004,
+      "train_speed(iter/s)": 0.241916
+    },
+    {
+      "epoch": 0.75968,
+      "grad_norm": 0.6668961025715663,
+      "learning_rate": 4.456462442854549e-06,
+      "loss": 0.4026271104812622,
+      "memory(GiB)": 66.66,
+      "step": 2374,
+      "token_acc": 0.8301096067053514,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.5816170036277196,
+      "learning_rate": 4.45591331514761e-06,
+      "loss": 0.34961944818496704,
+      "memory(GiB)": 66.66,
+      "step": 2375,
+      "token_acc": 0.8588337182448037,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.76032,
+      "grad_norm": 0.6684522701433409,
+      "learning_rate": 4.455363944061187e-06,
+      "loss": 0.2876832187175751,
+      "memory(GiB)": 66.66,
+      "step": 2376,
+      "token_acc": 0.9487892020643113,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.76064,
+      "grad_norm": 0.5942680956011711,
+      "learning_rate": 4.4548143296636434e-06,
+      "loss": 0.34215617179870605,
+      "memory(GiB)": 66.66,
+      "step": 2377,
+      "token_acc": 0.9219318557724115,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.76096,
+      "grad_norm": 0.655377408208955,
+      "learning_rate": 4.454264472023368e-06,
+      "loss": 0.36981484293937683,
+      "memory(GiB)": 66.66,
+      "step": 2378,
+      "token_acc": 0.8482245131729668,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.76128,
+      "grad_norm": 0.6279125313589858,
+      "learning_rate": 4.453714371208778e-06,
+      "loss": 0.35414987802505493,
+      "memory(GiB)": 66.66,
+      "step": 2379,
+      "token_acc": 0.9346201743462017,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.7616,
+      "grad_norm": 0.6641840186443339,
+      "learning_rate": 4.453164027288328e-06,
+      "loss": 0.3707915246486664,
+      "memory(GiB)": 66.66,
+      "step": 2380,
+      "token_acc": 0.9022835900159321,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.76192,
+      "grad_norm": 0.6106893192711781,
+      "learning_rate": 4.452613440330497e-06,
+      "loss": 0.2785664200782776,
+      "memory(GiB)": 66.66,
+      "step": 2381,
+      "token_acc": 0.9349247874427731,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.76224,
+      "grad_norm": 0.6605227207618364,
+      "learning_rate": 4.4520626104037965e-06,
+      "loss": 0.3450506329536438,
+      "memory(GiB)": 66.66,
+      "step": 2382,
+      "token_acc": 0.8849804578447794,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.76256,
+      "grad_norm": 0.6160414434706935,
+      "learning_rate": 4.451511537576767e-06,
+      "loss": 0.36785876750946045,
+      "memory(GiB)": 66.66,
+      "step": 2383,
+      "token_acc": 0.9352876106194691,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.76288,
+      "grad_norm": 0.7355721319947203,
+      "learning_rate": 4.45096022191798e-06,
+      "loss": 0.2821945548057556,
+      "memory(GiB)": 66.66,
+      "step": 2384,
+      "token_acc": 0.9374358974358974,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.7632,
+      "grad_norm": 0.6368267778275447,
+      "learning_rate": 4.450408663496037e-06,
+      "loss": 0.4065840244293213,
+      "memory(GiB)": 66.66,
+      "step": 2385,
+      "token_acc": 0.8313756199425737,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.76352,
+      "grad_norm": 0.6636007935697926,
+      "learning_rate": 4.449856862379572e-06,
+      "loss": 0.3584074079990387,
+      "memory(GiB)": 66.66,
+      "step": 2386,
+      "token_acc": 0.8932835820895523,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.76384,
+      "grad_norm": 0.6140475304208066,
+      "learning_rate": 4.449304818637244e-06,
+      "loss": 0.30375152826309204,
+      "memory(GiB)": 66.66,
+      "step": 2387,
+      "token_acc": 0.8273604410751206,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.76416,
+      "grad_norm": 0.6252604719343278,
+      "learning_rate": 4.4487525323377474e-06,
+      "loss": 0.38926592469215393,
+      "memory(GiB)": 66.66,
+      "step": 2388,
+      "token_acc": 0.9069206008583691,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.76448,
+      "grad_norm": 0.6561494723080781,
+      "learning_rate": 4.448200003549804e-06,
+      "loss": 0.346186101436615,
+      "memory(GiB)": 66.66,
+      "step": 2389,
+      "token_acc": 0.8901947615849564,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.7648,
+      "grad_norm": 0.6254038985390367,
+      "learning_rate": 4.447647232342166e-06,
+      "loss": 0.35254916548728943,
+      "memory(GiB)": 66.66,
+      "step": 2390,
+      "token_acc": 0.9183908045977012,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.76512,
+      "grad_norm": 0.6359204617813196,
+      "learning_rate": 4.4470942187836174e-06,
+      "loss": 0.3178269565105438,
+      "memory(GiB)": 66.66,
+      "step": 2391,
+      "token_acc": 0.9617368873602752,
+      "train_speed(iter/s)": 0.241931
+    },
+    {
+      "epoch": 0.76544,
+      "grad_norm": 0.5858680728079038,
+      "learning_rate": 4.446540962942969e-06,
+      "loss": 0.36808812618255615,
+      "memory(GiB)": 66.66,
+      "step": 2392,
+      "token_acc": 0.8820335636722606,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.76576,
+      "grad_norm": 0.5921375590803991,
+      "learning_rate": 4.445987464889067e-06,
+      "loss": 0.4470038414001465,
+      "memory(GiB)": 66.66,
+      "step": 2393,
+      "token_acc": 0.8929970617042116,
+      "train_speed(iter/s)": 0.241924
+    },
+    {
+      "epoch": 0.76608,
+      "grad_norm": 0.6877599256450047,
+      "learning_rate": 4.4454337246907805e-06,
+      "loss": 0.4446695148944855,
+      "memory(GiB)": 66.66,
+      "step": 2394,
+      "token_acc": 0.8609254498714652,
+      "train_speed(iter/s)": 0.241928
+    },
+    {
+      "epoch": 0.7664,
+      "grad_norm": 0.6785866184077451,
+      "learning_rate": 4.444879742417016e-06,
+      "loss": 0.3870832920074463,
+      "memory(GiB)": 66.66,
+      "step": 2395,
+      "token_acc": 0.8716861081654295,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.76672,
+      "grad_norm": 0.6460029874640297,
+      "learning_rate": 4.444325518136707e-06,
+      "loss": 0.40786170959472656,
+      "memory(GiB)": 66.66,
+      "step": 2396,
+      "token_acc": 0.9067321178120618,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.76704,
+      "grad_norm": 0.6358768321994196,
+      "learning_rate": 4.443771051918816e-06,
+      "loss": 0.38380032777786255,
+      "memory(GiB)": 66.66,
+      "step": 2397,
+      "token_acc": 0.9150406504065041,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.76736,
+      "grad_norm": 0.6410019956744821,
+      "learning_rate": 4.4432163438323375e-06,
+      "loss": 0.35993334650993347,
+      "memory(GiB)": 66.66,
+      "step": 2398,
+      "token_acc": 0.854296066252588,
+      "train_speed(iter/s)": 0.24193
+    },
+    {
+      "epoch": 0.76768,
+      "grad_norm": 0.604999576485535,
+      "learning_rate": 4.442661393946294e-06,
+      "loss": 0.35407179594039917,
+      "memory(GiB)": 66.66,
+      "step": 2399,
+      "token_acc": 0.8823333333333333,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 0.627441726256792,
+      "learning_rate": 4.44210620232974e-06,
+      "loss": 0.355832040309906,
+      "memory(GiB)": 66.66,
+      "step": 2400,
+      "token_acc": 0.901675702316412,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.76832,
+      "grad_norm": 0.5889488446277545,
+      "learning_rate": 4.441550769051759e-06,
+      "loss": 0.32824474573135376,
+      "memory(GiB)": 66.66,
+      "step": 2401,
+      "token_acc": 0.8780093424362199,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.76864,
+      "grad_norm": 0.6039704188875132,
+      "learning_rate": 4.440995094181467e-06,
+      "loss": 0.3529846966266632,
+      "memory(GiB)": 66.66,
+      "step": 2402,
+      "token_acc": 0.8984951313071703,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.76896,
+      "grad_norm": 0.5975561730286117,
+      "learning_rate": 4.440439177788007e-06,
+      "loss": 0.3385690450668335,
+      "memory(GiB)": 66.66,
+      "step": 2403,
+      "token_acc": 0.9403497813866334,
+      "train_speed(iter/s)": 0.241928
+    },
+    {
+      "epoch": 0.76928,
+      "grad_norm": 0.6889358280719341,
+      "learning_rate": 4.439883019940552e-06,
+      "loss": 0.38117602467536926,
+      "memory(GiB)": 66.66,
+      "step": 2404,
+      "token_acc": 0.9054126473740621,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.7696,
+      "grad_norm": 0.6585355327158497,
+      "learning_rate": 4.439326620708307e-06,
+      "loss": 0.3493140637874603,
+      "memory(GiB)": 66.66,
+      "step": 2405,
+      "token_acc": 0.9129239230064161,
+      "train_speed(iter/s)": 0.241932
+    },
+    {
+      "epoch": 0.76992,
+      "grad_norm": 0.7019386033132493,
+      "learning_rate": 4.4387699801605065e-06,
+      "loss": 0.408677875995636,
+      "memory(GiB)": 66.66,
+      "step": 2406,
+      "token_acc": 0.9127533366287691,
+      "train_speed(iter/s)": 0.241933
+    },
+    {
+      "epoch": 0.77024,
+      "grad_norm": 0.6321225453379364,
+      "learning_rate": 4.4382130983664154e-06,
+      "loss": 0.3209949731826782,
+      "memory(GiB)": 66.66,
+      "step": 2407,
+      "token_acc": 0.9129865881583251,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.77056,
+      "grad_norm": 0.5823335524190284,
+      "learning_rate": 4.437655975395326e-06,
+      "loss": 0.37358659505844116,
+      "memory(GiB)": 66.66,
+      "step": 2408,
+      "token_acc": 0.9409474367293965,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.77088,
+      "grad_norm": 0.6104147883903075,
+      "learning_rate": 4.4370986113165646e-06,
+      "loss": 0.3822305202484131,
+      "memory(GiB)": 66.66,
+      "step": 2409,
+      "token_acc": 0.8663721700717836,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.7712,
+      "grad_norm": 0.6087666798948553,
+      "learning_rate": 4.436541006199484e-06,
+      "loss": 0.3740164041519165,
+      "memory(GiB)": 66.66,
+      "step": 2410,
+      "token_acc": 0.882224048205971,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.77152,
+      "grad_norm": 0.6150956027202327,
+      "learning_rate": 4.43598316011347e-06,
+      "loss": 0.3540389835834503,
+      "memory(GiB)": 66.66,
+      "step": 2411,
+      "token_acc": 0.8731019522776573,
+      "train_speed(iter/s)": 0.24194
+    },
+    {
+      "epoch": 0.77184,
+      "grad_norm": 0.6408167827701482,
+      "learning_rate": 4.4354250731279356e-06,
+      "loss": 0.4032268524169922,
+      "memory(GiB)": 66.66,
+      "step": 2412,
+      "token_acc": 0.8300486900069557,
+      "train_speed(iter/s)": 0.241943
+    },
+    {
+      "epoch": 0.77216,
+      "grad_norm": 0.6640627279439061,
+      "learning_rate": 4.434866745312325e-06,
+      "loss": 0.30428797006607056,
+      "memory(GiB)": 66.66,
+      "step": 2413,
+      "token_acc": 0.945758435824661,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.77248,
+      "grad_norm": 0.6324455670771332,
+      "learning_rate": 4.434308176736113e-06,
+      "loss": 0.4316268861293793,
+      "memory(GiB)": 66.66,
+      "step": 2414,
+      "token_acc": 0.8832258064516129,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.7728,
+      "grad_norm": 0.6704946295503776,
+      "learning_rate": 4.433749367468804e-06,
+      "loss": 0.37814533710479736,
+      "memory(GiB)": 66.66,
+      "step": 2415,
+      "token_acc": 0.8746074472857783,
+      "train_speed(iter/s)": 0.241943
+    },
+    {
+      "epoch": 0.77312,
+      "grad_norm": 0.6225631178685314,
+      "learning_rate": 4.433190317579932e-06,
+      "loss": 0.3984758257865906,
+      "memory(GiB)": 66.66,
+      "step": 2416,
+      "token_acc": 0.9329182566780478,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.77344,
+      "grad_norm": 0.5681807281140846,
+      "learning_rate": 4.4326310271390605e-06,
+      "loss": 0.42029252648353577,
+      "memory(GiB)": 66.66,
+      "step": 2417,
+      "token_acc": 0.9049071955250445,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.77376,
+      "grad_norm": 0.7041543740422399,
+      "learning_rate": 4.432071496215784e-06,
+      "loss": 0.39477357268333435,
+      "memory(GiB)": 66.66,
+      "step": 2418,
+      "token_acc": 0.8971693940734189,
+      "train_speed(iter/s)": 0.24194
+    },
+    {
+      "epoch": 0.77408,
+      "grad_norm": 0.624489050535428,
+      "learning_rate": 4.4315117248797255e-06,
+      "loss": 0.3743709325790405,
+      "memory(GiB)": 66.66,
+      "step": 2419,
+      "token_acc": 0.8507638072855465,
+      "train_speed(iter/s)": 0.24194
+    },
+    {
+      "epoch": 0.7744,
+      "grad_norm": 0.7053794595145426,
+      "learning_rate": 4.430951713200539e-06,
+      "loss": 0.4187149703502655,
+      "memory(GiB)": 66.66,
+      "step": 2420,
+      "token_acc": 0.8289855072463768,
+      "train_speed(iter/s)": 0.24194
+    },
+    {
+      "epoch": 0.77472,
+      "grad_norm": 0.6237447041667222,
+      "learning_rate": 4.430391461247911e-06,
+      "loss": 0.41170695424079895,
+      "memory(GiB)": 66.66,
+      "step": 2421,
+      "token_acc": 0.8657492354740061,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.77504,
+      "grad_norm": 0.6913800748720564,
+      "learning_rate": 4.429830969091552e-06,
+      "loss": 0.44134050607681274,
+      "memory(GiB)": 66.66,
+      "step": 2422,
+      "token_acc": 0.9377016629436585,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.77536,
+      "grad_norm": 0.6200570928170335,
+      "learning_rate": 4.429270236801206e-06,
+      "loss": 0.38567712903022766,
+      "memory(GiB)": 66.66,
+      "step": 2423,
+      "token_acc": 0.8720826652414039,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.77568,
+      "grad_norm": 0.590072394099874,
+      "learning_rate": 4.428709264446647e-06,
+      "loss": 0.32350024580955505,
+      "memory(GiB)": 66.66,
+      "step": 2424,
+      "token_acc": 0.9531368102796675,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.776,
+      "grad_norm": 0.707305715621205,
+      "learning_rate": 4.428148052097678e-06,
+      "loss": 0.4459986686706543,
+      "memory(GiB)": 66.66,
+      "step": 2425,
+      "token_acc": 0.8842975206611571,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.77632,
+      "grad_norm": 0.6302753684763989,
+      "learning_rate": 4.427586599824133e-06,
+      "loss": 0.4107821583747864,
+      "memory(GiB)": 66.66,
+      "step": 2426,
+      "token_acc": 0.8773960216998191,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.77664,
+      "grad_norm": 0.608628244796495,
+      "learning_rate": 4.427024907695874e-06,
+      "loss": 0.35817912220954895,
+      "memory(GiB)": 66.66,
+      "step": 2427,
+      "token_acc": 0.8911278195488722,
+      "train_speed(iter/s)": 0.241943
+    },
+    {
+      "epoch": 0.77696,
+      "grad_norm": 0.8630618426587866,
+      "learning_rate": 4.426462975782794e-06,
+      "loss": 0.37963247299194336,
+      "memory(GiB)": 66.66,
+      "step": 2428,
+      "token_acc": 0.8480360592401803,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.77728,
+      "grad_norm": 0.6556206649603785,
+      "learning_rate": 4.425900804154816e-06,
+      "loss": 0.3806759715080261,
+      "memory(GiB)": 66.66,
+      "step": 2429,
+      "token_acc": 0.8997524752475248,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.7776,
+      "grad_norm": 0.579044496518352,
+      "learning_rate": 4.425338392881892e-06,
+      "loss": 0.27928709983825684,
+      "memory(GiB)": 66.66,
+      "step": 2430,
+      "token_acc": 0.9254772393538914,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.77792,
+      "grad_norm": 0.6648481269374116,
+      "learning_rate": 4.424775742034004e-06,
+      "loss": 0.4078843891620636,
+      "memory(GiB)": 66.66,
+      "step": 2431,
+      "token_acc": 0.918918918918919,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.77824,
+      "grad_norm": 0.6684451371430472,
+      "learning_rate": 4.424212851681165e-06,
+      "loss": 0.4300846457481384,
+      "memory(GiB)": 66.66,
+      "step": 2432,
+      "token_acc": 0.9432478632478632,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.77856,
+      "grad_norm": 0.633514600268109,
+      "learning_rate": 4.423649721893418e-06,
+      "loss": 0.36955833435058594,
+      "memory(GiB)": 66.66,
+      "step": 2433,
+      "token_acc": 0.9215344376634699,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.77888,
+      "grad_norm": 0.7232745254841567,
+      "learning_rate": 4.4230863527408325e-06,
+      "loss": 0.43967604637145996,
+      "memory(GiB)": 66.66,
+      "step": 2434,
+      "token_acc": 0.9215181730459955,
+      "train_speed(iter/s)": 0.241946
+    },
+    {
+      "epoch": 0.7792,
+      "grad_norm": 0.632238596723006,
+      "learning_rate": 4.422522744293511e-06,
+      "loss": 0.4224435091018677,
+      "memory(GiB)": 66.66,
+      "step": 2435,
+      "token_acc": 0.9238820171265462,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.77952,
+      "grad_norm": 0.6612895401772909,
+      "learning_rate": 4.421958896621585e-06,
+      "loss": 0.3553462326526642,
+      "memory(GiB)": 66.66,
+      "step": 2436,
+      "token_acc": 0.9375410913872453,
+      "train_speed(iter/s)": 0.241951
+    },
+    {
+      "epoch": 0.77984,
+      "grad_norm": 0.65420206171841,
+      "learning_rate": 4.4213948097952155e-06,
+      "loss": 0.3237501084804535,
+      "memory(GiB)": 66.66,
+      "step": 2437,
+      "token_acc": 0.8771156967308138,
+      "train_speed(iter/s)": 0.241951
+    },
+    {
+      "epoch": 0.78016,
+      "grad_norm": 0.6372225825618159,
+      "learning_rate": 4.420830483884592e-06,
+      "loss": 0.40747398138046265,
+      "memory(GiB)": 66.66,
+      "step": 2438,
+      "token_acc": 0.8806060606060606,
+      "train_speed(iter/s)": 0.241955
+    },
+    {
+      "epoch": 0.78048,
+      "grad_norm": 0.6143216654616832,
+      "learning_rate": 4.4202659189599374e-06,
+      "loss": 0.4205804765224457,
+      "memory(GiB)": 66.66,
+      "step": 2439,
+      "token_acc": 0.8983928084990466,
+      "train_speed(iter/s)": 0.241953
+    },
+    {
+      "epoch": 0.7808,
+      "grad_norm": 0.6538806470026362,
+      "learning_rate": 4.4197011150915e-06,
+      "loss": 0.3343961834907532,
+      "memory(GiB)": 66.66,
+      "step": 2440,
+      "token_acc": 0.8819291574944967,
+      "train_speed(iter/s)": 0.241958
+    },
+    {
+      "epoch": 0.78112,
+      "grad_norm": 0.6551529923606069,
+      "learning_rate": 4.419136072349561e-06,
+      "loss": 0.341858446598053,
+      "memory(GiB)": 66.66,
+      "step": 2441,
+      "token_acc": 0.8600292825768667,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.78144,
+      "grad_norm": 0.6309186849394915,
+      "learning_rate": 4.41857079080443e-06,
+      "loss": 0.4239308536052704,
+      "memory(GiB)": 66.66,
+      "step": 2442,
+      "token_acc": 0.8781790437436419,
+      "train_speed(iter/s)": 0.241966
+    },
+    {
+      "epoch": 0.78176,
+      "grad_norm": 0.6303957850396712,
+      "learning_rate": 4.418005270526447e-06,
+      "loss": 0.33065682649612427,
+      "memory(GiB)": 66.66,
+      "step": 2443,
+      "token_acc": 0.9249221183800623,
+      "train_speed(iter/s)": 0.241966
+    },
+    {
+      "epoch": 0.78208,
+      "grad_norm": 0.6455437624182903,
+      "learning_rate": 4.417439511585979e-06,
+      "loss": 0.2436257153749466,
+      "memory(GiB)": 66.66,
+      "step": 2444,
+      "token_acc": 0.9231702385766276,
+      "train_speed(iter/s)": 0.241968
+    },
+    {
+      "epoch": 0.7824,
+      "grad_norm": 0.63566082740106,
+      "learning_rate": 4.416873514053428e-06,
+      "loss": 0.4177039861679077,
+      "memory(GiB)": 66.66,
+      "step": 2445,
+      "token_acc": 0.8275065010112684,
+      "train_speed(iter/s)": 0.241972
+    },
+    {
+      "epoch": 0.78272,
+      "grad_norm": 0.6394907038358684,
+      "learning_rate": 4.41630727799922e-06,
+      "loss": 0.3092973828315735,
+      "memory(GiB)": 66.66,
+      "step": 2446,
+      "token_acc": 0.9447724904480722,
+      "train_speed(iter/s)": 0.241969
+    },
+    {
+      "epoch": 0.78304,
+      "grad_norm": 0.5721172464598521,
+      "learning_rate": 4.415740803493814e-06,
+      "loss": 0.30088767409324646,
+      "memory(GiB)": 66.66,
+      "step": 2447,
+      "token_acc": 0.9015047879616963,
+      "train_speed(iter/s)": 0.241961
+    },
+    {
+      "epoch": 0.78336,
+      "grad_norm": 0.6367205196540078,
+      "learning_rate": 4.415174090607698e-06,
+      "loss": 0.34827691316604614,
+      "memory(GiB)": 66.66,
+      "step": 2448,
+      "token_acc": 0.8841084307386222,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.78368,
+      "grad_norm": 0.6434604003029074,
+      "learning_rate": 4.414607139411391e-06,
+      "loss": 0.40259599685668945,
+      "memory(GiB)": 66.66,
+      "step": 2449,
+      "token_acc": 0.8793565683646113,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.784,
+      "grad_norm": 0.6599013383912969,
+      "learning_rate": 4.414039949975438e-06,
+      "loss": 0.3869887888431549,
+      "memory(GiB)": 66.66,
+      "step": 2450,
+      "token_acc": 0.8903861103912931,
+      "train_speed(iter/s)": 0.241961
+    },
+    {
+      "epoch": 0.78432,
+      "grad_norm": 0.6989789382712776,
+      "learning_rate": 4.413472522370417e-06,
+      "loss": 0.4334059953689575,
+      "memory(GiB)": 66.66,
+      "step": 2451,
+      "token_acc": 0.879840196681008,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.78464,
+      "grad_norm": 0.6039805943077836,
+      "learning_rate": 4.412904856666934e-06,
+      "loss": 0.3679129481315613,
+      "memory(GiB)": 66.66,
+      "step": 2452,
+      "token_acc": 0.9575230296827022,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.78496,
+      "grad_norm": 0.6088589018845971,
+      "learning_rate": 4.412336952935626e-06,
+      "loss": 0.34608060121536255,
+      "memory(GiB)": 66.66,
+      "step": 2453,
+      "token_acc": 0.9014450867052023,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.78528,
+      "grad_norm": 0.6893651144045911,
+      "learning_rate": 4.411768811247158e-06,
+      "loss": 0.4084704518318176,
+      "memory(GiB)": 66.66,
+      "step": 2454,
+      "token_acc": 0.9029358897543439,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.7856,
+      "grad_norm": 0.6601074453626112,
+      "learning_rate": 4.411200431672226e-06,
+      "loss": 0.3432855010032654,
+      "memory(GiB)": 66.66,
+      "step": 2455,
+      "token_acc": 0.9104915627292737,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.78592,
+      "grad_norm": 0.6870400265935088,
+      "learning_rate": 4.410631814281555e-06,
+      "loss": 0.4125280976295471,
+      "memory(GiB)": 66.66,
+      "step": 2456,
+      "token_acc": 0.8805284319356692,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.78624,
+      "grad_norm": 0.5658964216274966,
+      "learning_rate": 4.410062959145898e-06,
+      "loss": 0.3347938656806946,
+      "memory(GiB)": 66.66,
+      "step": 2457,
+      "token_acc": 0.8389203308663474,
+      "train_speed(iter/s)": 0.241936
+    },
+    {
+      "epoch": 0.78656,
+      "grad_norm": 0.6514992887670004,
+      "learning_rate": 4.409493866336041e-06,
+      "loss": 0.3289263844490051,
+      "memory(GiB)": 66.66,
+      "step": 2458,
+      "token_acc": 0.9380352644836272,
+      "train_speed(iter/s)": 0.241938
+    },
+    {
+      "epoch": 0.78688,
+      "grad_norm": 0.6606823404699758,
+      "learning_rate": 4.4089245359227975e-06,
+      "loss": 0.3863104581832886,
+      "memory(GiB)": 66.66,
+      "step": 2459,
+      "token_acc": 0.8893352812271731,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.7872,
+      "grad_norm": 0.59072063385709,
+      "learning_rate": 4.408354967977011e-06,
+      "loss": 0.34928691387176514,
+      "memory(GiB)": 66.66,
+      "step": 2460,
+      "token_acc": 0.8996458087367178,
+      "train_speed(iter/s)": 0.241937
+    },
+    {
+      "epoch": 0.78752,
+      "grad_norm": 0.6466478255658541,
+      "learning_rate": 4.407785162569552e-06,
+      "loss": 0.44787755608558655,
+      "memory(GiB)": 66.66,
+      "step": 2461,
+      "token_acc": 0.9218340611353711,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.78784,
+      "grad_norm": 0.5837318388426683,
+      "learning_rate": 4.407215119771326e-06,
+      "loss": 0.3502548038959503,
+      "memory(GiB)": 66.66,
+      "step": 2462,
+      "token_acc": 0.8651718983557548,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.78816,
+      "grad_norm": 0.5834937391226165,
+      "learning_rate": 4.406644839653263e-06,
+      "loss": 0.4166458249092102,
+      "memory(GiB)": 66.66,
+      "step": 2463,
+      "token_acc": 0.9103268730112815,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.78848,
+      "grad_norm": 0.6919007309928884,
+      "learning_rate": 4.406074322286325e-06,
+      "loss": 0.3360409140586853,
+      "memory(GiB)": 66.66,
+      "step": 2464,
+      "token_acc": 0.9141055949566588,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.7888,
+      "grad_norm": 0.630824217637133,
+      "learning_rate": 4.405503567741504e-06,
+      "loss": 0.3444675803184509,
+      "memory(GiB)": 66.66,
+      "step": 2465,
+      "token_acc": 0.9247881355932204,
+      "train_speed(iter/s)": 0.241927
+    },
+    {
+      "epoch": 0.78912,
+      "grad_norm": 0.6261727946604343,
+      "learning_rate": 4.404932576089818e-06,
+      "loss": 0.4217478632926941,
+      "memory(GiB)": 66.66,
+      "step": 2466,
+      "token_acc": 0.8816499614494988,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.78944,
+      "grad_norm": 0.6403164221284977,
+      "learning_rate": 4.40436134740232e-06,
+      "loss": 0.42213425040245056,
+      "memory(GiB)": 66.66,
+      "step": 2467,
+      "token_acc": 0.92,
+      "train_speed(iter/s)": 0.241924
+    },
+    {
+      "epoch": 0.78976,
+      "grad_norm": 0.6281285287880811,
+      "learning_rate": 4.403789881750087e-06,
+      "loss": 0.48537832498550415,
+      "memory(GiB)": 66.66,
+      "step": 2468,
+      "token_acc": 0.8790731354091238,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.79008,
+      "grad_norm": 0.5987569437946888,
+      "learning_rate": 4.4032181792042286e-06,
+      "loss": 0.4157838225364685,
+      "memory(GiB)": 66.66,
+      "step": 2469,
+      "token_acc": 0.8448693778615675,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.7904,
+      "grad_norm": 0.6640120927942572,
+      "learning_rate": 4.402646239835885e-06,
+      "loss": 0.424528032541275,
+      "memory(GiB)": 66.66,
+      "step": 2470,
+      "token_acc": 0.8353892821031345,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.79072,
+      "grad_norm": 0.6816381706912408,
+      "learning_rate": 4.402074063716222e-06,
+      "loss": 0.34996211528778076,
+      "memory(GiB)": 66.66,
+      "step": 2471,
+      "token_acc": 0.9559300064808814,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.79104,
+      "grad_norm": 0.5957211463434351,
+      "learning_rate": 4.401501650916438e-06,
+      "loss": 0.2928246259689331,
+      "memory(GiB)": 66.66,
+      "step": 2472,
+      "token_acc": 0.8985231062410671,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.79136,
+      "grad_norm": 0.6915490178770445,
+      "learning_rate": 4.40092900150776e-06,
+      "loss": 0.49202829599380493,
+      "memory(GiB)": 66.66,
+      "step": 2473,
+      "token_acc": 0.8703030303030304,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.79168,
+      "grad_norm": 0.6347086063012041,
+      "learning_rate": 4.4003561155614435e-06,
+      "loss": 0.348741739988327,
+      "memory(GiB)": 66.66,
+      "step": 2474,
+      "token_acc": 0.9325173668541185,
+      "train_speed(iter/s)": 0.241921
+    },
+    {
+      "epoch": 0.792,
+      "grad_norm": 0.7064404846758509,
+      "learning_rate": 4.399782993148775e-06,
+      "loss": 0.33668121695518494,
+      "memory(GiB)": 66.66,
+      "step": 2475,
+      "token_acc": 0.9230337078651686,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.79232,
+      "grad_norm": 0.6133423648170381,
+      "learning_rate": 4.39920963434107e-06,
+      "loss": 0.34115317463874817,
+      "memory(GiB)": 66.66,
+      "step": 2476,
+      "token_acc": 0.9238668555240793,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.79264,
+      "grad_norm": 0.619043183765327,
+      "learning_rate": 4.398636039209671e-06,
+      "loss": 0.3269515335559845,
+      "memory(GiB)": 66.66,
+      "step": 2477,
+      "token_acc": 0.8754380375915897,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.79296,
+      "grad_norm": 0.6176795829506896,
+      "learning_rate": 4.398062207825954e-06,
+      "loss": 0.39546045660972595,
+      "memory(GiB)": 66.66,
+      "step": 2478,
+      "token_acc": 0.9051873198847262,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.79328,
+      "grad_norm": 2.066791935765497,
+      "learning_rate": 4.397488140261321e-06,
+      "loss": 0.40682530403137207,
+      "memory(GiB)": 66.66,
+      "step": 2479,
+      "token_acc": 0.8875319511502414,
+      "train_speed(iter/s)": 0.241916
+    },
+    {
+      "epoch": 0.7936,
+      "grad_norm": 0.5921771249897206,
+      "learning_rate": 4.3969138365872064e-06,
+      "loss": 0.3332481384277344,
+      "memory(GiB)": 66.66,
+      "step": 2480,
+      "token_acc": 0.9205167506021459,
+      "train_speed(iter/s)": 0.241916
+    },
+    {
+      "epoch": 0.79392,
+      "grad_norm": 0.6631772222909441,
+      "learning_rate": 4.3963392968750706e-06,
+      "loss": 0.46063804626464844,
+      "memory(GiB)": 66.66,
+      "step": 2481,
+      "token_acc": 0.8565251572327044,
+      "train_speed(iter/s)": 0.241911
+    },
+    {
+      "epoch": 0.79424,
+      "grad_norm": 0.5343648183551837,
+      "learning_rate": 4.3957645211964065e-06,
+      "loss": 0.41508981585502625,
+      "memory(GiB)": 66.66,
+      "step": 2482,
+      "token_acc": 0.825923942153187,
+      "train_speed(iter/s)": 0.241906
+    },
+    {
+      "epoch": 0.79456,
+      "grad_norm": 0.5626864877337528,
+      "learning_rate": 4.395189509622734e-06,
+      "loss": 0.36599451303482056,
+      "memory(GiB)": 66.66,
+      "step": 2483,
+      "token_acc": 0.8753446238676644,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.79488,
+      "grad_norm": 0.6467014338432308,
+      "learning_rate": 4.3946142622256035e-06,
+      "loss": 0.4457034170627594,
+      "memory(GiB)": 66.66,
+      "step": 2484,
+      "token_acc": 0.8579363743477529,
+      "train_speed(iter/s)": 0.2419
+    },
+    {
+      "epoch": 0.7952,
+      "grad_norm": 0.6627665888923155,
+      "learning_rate": 4.394038779076596e-06,
+      "loss": 0.4236917495727539,
+      "memory(GiB)": 66.66,
+      "step": 2485,
+      "token_acc": 0.8429532577903682,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.79552,
+      "grad_norm": 0.539697974975763,
+      "learning_rate": 4.393463060247317e-06,
+      "loss": 0.33331823348999023,
+      "memory(GiB)": 66.66,
+      "step": 2486,
+      "token_acc": 0.8465430016863407,
+      "train_speed(iter/s)": 0.241902
+    },
+    {
+      "epoch": 0.79584,
+      "grad_norm": 0.6143508732054094,
+      "learning_rate": 4.392887105809409e-06,
+      "loss": 0.4863896071910858,
+      "memory(GiB)": 66.66,
+      "step": 2487,
+      "token_acc": 0.8457432612756872,
+      "train_speed(iter/s)": 0.241897
+    },
+    {
+      "epoch": 0.79616,
+      "grad_norm": 0.6289023288924466,
+      "learning_rate": 4.392310915834536e-06,
+      "loss": 0.37140628695487976,
+      "memory(GiB)": 66.66,
+      "step": 2488,
+      "token_acc": 0.8772144166157605,
+      "train_speed(iter/s)": 0.241896
+    },
+    {
+      "epoch": 0.79648,
+      "grad_norm": 0.6537335493406257,
+      "learning_rate": 4.3917344903943965e-06,
+      "loss": 0.4256563186645508,
+      "memory(GiB)": 66.66,
+      "step": 2489,
+      "token_acc": 0.9035288725939505,
+      "train_speed(iter/s)": 0.24189
+    },
+    {
+      "epoch": 0.7968,
+      "grad_norm": 0.5845869421867717,
+      "learning_rate": 4.391157829560716e-06,
+      "loss": 0.3602452874183655,
+      "memory(GiB)": 66.66,
+      "step": 2490,
+      "token_acc": 0.8660098522167488,
+      "train_speed(iter/s)": 0.241888
+    },
+    {
+      "epoch": 0.79712,
+      "grad_norm": 0.5671604368198514,
+      "learning_rate": 4.39058093340525e-06,
+      "loss": 0.40519750118255615,
+      "memory(GiB)": 66.66,
+      "step": 2491,
+      "token_acc": 0.9077683228108702,
+      "train_speed(iter/s)": 0.241887
+    },
+    {
+      "epoch": 0.79744,
+      "grad_norm": 0.567556643545243,
+      "learning_rate": 4.390003801999785e-06,
+      "loss": 0.31330394744873047,
+      "memory(GiB)": 66.66,
+      "step": 2492,
+      "token_acc": 0.8974039460020768,
+      "train_speed(iter/s)": 0.241888
+    },
+    {
+      "epoch": 0.79776,
+      "grad_norm": 0.6611174130574419,
+      "learning_rate": 4.389426435416133e-06,
+      "loss": 0.3812761902809143,
+      "memory(GiB)": 66.66,
+      "step": 2493,
+      "token_acc": 0.8846516007532956,
+      "train_speed(iter/s)": 0.241884
+    },
+    {
+      "epoch": 0.79808,
+      "grad_norm": 0.6150711886987122,
+      "learning_rate": 4.388848833726137e-06,
+      "loss": 0.37150296568870544,
+      "memory(GiB)": 66.66,
+      "step": 2494,
+      "token_acc": 0.8531862745098039,
+      "train_speed(iter/s)": 0.241886
+    },
+    {
+      "epoch": 0.7984,
+      "grad_norm": 0.6496840073092388,
+      "learning_rate": 4.388270997001671e-06,
+      "loss": 0.3411356806755066,
+      "memory(GiB)": 66.66,
+      "step": 2495,
+      "token_acc": 0.8735549132947977,
+      "train_speed(iter/s)": 0.241889
+    },
+    {
+      "epoch": 0.79872,
+      "grad_norm": 0.6797339265783741,
+      "learning_rate": 4.3876929253146355e-06,
+      "loss": 0.3624635636806488,
+      "memory(GiB)": 66.66,
+      "step": 2496,
+      "token_acc": 0.8726851851851852,
+      "train_speed(iter/s)": 0.241884
+    },
+    {
+      "epoch": 0.79904,
+      "grad_norm": 0.6172641110190881,
+      "learning_rate": 4.387114618736963e-06,
+      "loss": 0.3558436334133148,
+      "memory(GiB)": 66.66,
+      "step": 2497,
+      "token_acc": 0.8992121706058136,
+      "train_speed(iter/s)": 0.241884
+    },
+    {
+      "epoch": 0.79936,
+      "grad_norm": 0.6425368708835462,
+      "learning_rate": 4.386536077340612e-06,
+      "loss": 0.33670830726623535,
+      "memory(GiB)": 66.66,
+      "step": 2498,
+      "token_acc": 0.8977469670710572,
+      "train_speed(iter/s)": 0.24189
+    },
+    {
+      "epoch": 0.79968,
+      "grad_norm": 0.66495452614764,
+      "learning_rate": 4.385957301197572e-06,
+      "loss": 0.4176880717277527,
+      "memory(GiB)": 66.66,
+      "step": 2499,
+      "token_acc": 0.8687566418703507,
+      "train_speed(iter/s)": 0.241895
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.6926653588601963,
+      "learning_rate": 4.385378290379864e-06,
+      "loss": 0.3967697322368622,
+      "memory(GiB)": 66.66,
+      "step": 2500,
+      "token_acc": 0.8387360392263689,
+      "train_speed(iter/s)": 0.241895
+    },
+    {
+      "epoch": 0.80032,
+      "grad_norm": 0.6757210550584478,
+      "learning_rate": 4.384799044959533e-06,
+      "loss": 0.4154754877090454,
+      "memory(GiB)": 66.66,
+      "step": 2501,
+      "token_acc": 0.8764994547437296,
+      "train_speed(iter/s)": 0.241892
+    },
+    {
+      "epoch": 0.80064,
+      "grad_norm": 0.6251277325430908,
+      "learning_rate": 4.3842195650086575e-06,
+      "loss": 0.39245331287384033,
+      "memory(GiB)": 66.66,
+      "step": 2502,
+      "token_acc": 0.9079072721498889,
+      "train_speed(iter/s)": 0.241892
+    },
+    {
+      "epoch": 0.80096,
+      "grad_norm": 0.6350634464200532,
+      "learning_rate": 4.383639850599343e-06,
+      "loss": 0.39024317264556885,
+      "memory(GiB)": 66.66,
+      "step": 2503,
+      "token_acc": 0.9288702928870293,
+      "train_speed(iter/s)": 0.241891
+    },
+    {
+      "epoch": 0.80128,
+      "grad_norm": 0.6549799868103235,
+      "learning_rate": 4.3830599018037256e-06,
+      "loss": 0.39158058166503906,
+      "memory(GiB)": 66.66,
+      "step": 2504,
+      "token_acc": 0.8921933085501859,
+      "train_speed(iter/s)": 0.241892
+    },
+    {
+      "epoch": 0.8016,
+      "grad_norm": 0.608844799965166,
+      "learning_rate": 4.382479718693969e-06,
+      "loss": 0.3427756726741791,
+      "memory(GiB)": 66.66,
+      "step": 2505,
+      "token_acc": 0.9014016433059449,
+      "train_speed(iter/s)": 0.241886
+    },
+    {
+      "epoch": 0.80192,
+      "grad_norm": 0.7314722515613213,
+      "learning_rate": 4.381899301342269e-06,
+      "loss": 0.4120371341705322,
+      "memory(GiB)": 66.66,
+      "step": 2506,
+      "token_acc": 0.8837209302325582,
+      "train_speed(iter/s)": 0.24189
+    },
+    {
+      "epoch": 0.80224,
+      "grad_norm": 0.7003018260446199,
+      "learning_rate": 4.381318649820846e-06,
+      "loss": 0.34016841650009155,
+      "memory(GiB)": 66.66,
+      "step": 2507,
+      "token_acc": 0.8965209634255129,
+      "train_speed(iter/s)": 0.241895
+    },
+    {
+      "epoch": 0.80256,
+      "grad_norm": 0.6183617264610963,
+      "learning_rate": 4.3807377642019534e-06,
+      "loss": 0.37370967864990234,
+      "memory(GiB)": 66.66,
+      "step": 2508,
+      "token_acc": 0.927360774818402,
+      "train_speed(iter/s)": 0.241898
+    },
+    {
+      "epoch": 0.80288,
+      "grad_norm": 0.6679919581221901,
+      "learning_rate": 4.380156644557873e-06,
+      "loss": 0.39290910959243774,
+      "memory(GiB)": 66.66,
+      "step": 2509,
+      "token_acc": 0.8528356066044508,
+      "train_speed(iter/s)": 0.241898
+    },
+    {
+      "epoch": 0.8032,
+      "grad_norm": 0.6129431790640782,
+      "learning_rate": 4.379575290960913e-06,
+      "loss": 0.35219240188598633,
+      "memory(GiB)": 66.66,
+      "step": 2510,
+      "token_acc": 0.9342622365130404,
+      "train_speed(iter/s)": 0.241897
+    },
+    {
+      "epoch": 0.80352,
+      "grad_norm": 0.6409256552836365,
+      "learning_rate": 4.378993703483413e-06,
+      "loss": 0.3374325633049011,
+      "memory(GiB)": 66.66,
+      "step": 2511,
+      "token_acc": 0.8896857923497268,
+      "train_speed(iter/s)": 0.241896
+    },
+    {
+      "epoch": 0.80384,
+      "grad_norm": 0.6217298807702569,
+      "learning_rate": 4.378411882197743e-06,
+      "loss": 0.3572263717651367,
+      "memory(GiB)": 66.66,
+      "step": 2512,
+      "token_acc": 0.8285582255083179,
+      "train_speed(iter/s)": 0.241894
+    },
+    {
+      "epoch": 0.80416,
+      "grad_norm": 0.6547023956954515,
+      "learning_rate": 4.3778298271762995e-06,
+      "loss": 0.42528364062309265,
+      "memory(GiB)": 66.66,
+      "step": 2513,
+      "token_acc": 0.9267589388696655,
+      "train_speed(iter/s)": 0.241899
+    },
+    {
+      "epoch": 0.80448,
+      "grad_norm": 0.6649539497105795,
+      "learning_rate": 4.37724753849151e-06,
+      "loss": 0.40682435035705566,
+      "memory(GiB)": 66.66,
+      "step": 2514,
+      "token_acc": 0.8793182865039152,
+      "train_speed(iter/s)": 0.241884
+    },
+    {
+      "epoch": 0.8048,
+      "grad_norm": 0.6289090777423948,
+      "learning_rate": 4.37666501621583e-06,
+      "loss": 0.3258202373981476,
+      "memory(GiB)": 66.66,
+      "step": 2515,
+      "token_acc": 0.8874567745991826,
+      "train_speed(iter/s)": 0.241889
+    },
+    {
+      "epoch": 0.80512,
+      "grad_norm": 0.6697863487435537,
+      "learning_rate": 4.3760822604217436e-06,
+      "loss": 0.3811214566230774,
+      "memory(GiB)": 66.66,
+      "step": 2516,
+      "token_acc": 0.9391836734693878,
+      "train_speed(iter/s)": 0.241888
+    },
+    {
+      "epoch": 0.80544,
+      "grad_norm": 0.6706605974333413,
+      "learning_rate": 4.375499271181765e-06,
+      "loss": 0.39804691076278687,
+      "memory(GiB)": 66.66,
+      "step": 2517,
+      "token_acc": 0.7910783055198973,
+      "train_speed(iter/s)": 0.24189
+    },
+    {
+      "epoch": 0.80576,
+      "grad_norm": 0.6160716109360458,
+      "learning_rate": 4.374916048568437e-06,
+      "loss": 0.3580317497253418,
+      "memory(GiB)": 66.66,
+      "step": 2518,
+      "token_acc": 0.8746482476336659,
+      "train_speed(iter/s)": 0.241891
+    },
+    {
+      "epoch": 0.80608,
+      "grad_norm": 0.6680445544906036,
+      "learning_rate": 4.374332592654332e-06,
+      "loss": 0.3706471920013428,
+      "memory(GiB)": 66.66,
+      "step": 2519,
+      "token_acc": 0.9159062885326757,
+      "train_speed(iter/s)": 0.241885
+    },
+    {
+      "epoch": 0.8064,
+      "grad_norm": 0.6826965142912911,
+      "learning_rate": 4.37374890351205e-06,
+      "loss": 0.475322961807251,
+      "memory(GiB)": 66.66,
+      "step": 2520,
+      "token_acc": 0.8687711974954344,
+      "train_speed(iter/s)": 0.241883
+    },
+    {
+      "epoch": 0.80672,
+      "grad_norm": 0.622134646633935,
+      "learning_rate": 4.373164981214223e-06,
+      "loss": 0.3979111313819885,
+      "memory(GiB)": 66.66,
+      "step": 2521,
+      "token_acc": 0.9501761449421238,
+      "train_speed(iter/s)": 0.241885
+    },
+    {
+      "epoch": 0.80704,
+      "grad_norm": 0.6343101200874475,
+      "learning_rate": 4.372580825833508e-06,
+      "loss": 0.3456279933452606,
+      "memory(GiB)": 66.66,
+      "step": 2522,
+      "token_acc": 0.869921075708857,
+      "train_speed(iter/s)": 0.241887
+    },
+    {
+      "epoch": 0.80736,
+      "grad_norm": 0.6545777160548274,
+      "learning_rate": 4.371996437442594e-06,
+      "loss": 0.43766987323760986,
+      "memory(GiB)": 66.66,
+      "step": 2523,
+      "token_acc": 0.9485170677112479,
+      "train_speed(iter/s)": 0.241888
+    },
+    {
+      "epoch": 0.80768,
+      "grad_norm": 0.6209994175135195,
+      "learning_rate": 4.371411816114196e-06,
+      "loss": 0.340350866317749,
+      "memory(GiB)": 66.66,
+      "step": 2524,
+      "token_acc": 0.8900896757875374,
+      "train_speed(iter/s)": 0.241892
+    },
+    {
+      "epoch": 0.808,
+      "grad_norm": 0.6397116989891853,
+      "learning_rate": 4.370826961921063e-06,
+      "loss": 0.45023393630981445,
+      "memory(GiB)": 66.66,
+      "step": 2525,
+      "token_acc": 0.882951052258217,
+      "train_speed(iter/s)": 0.241894
+    },
+    {
+      "epoch": 0.80832,
+      "grad_norm": 0.646136511668519,
+      "learning_rate": 4.370241874935969e-06,
+      "loss": 0.4308702051639557,
+      "memory(GiB)": 66.66,
+      "step": 2526,
+      "token_acc": 0.8951165371809101,
+      "train_speed(iter/s)": 0.241896
+    },
+    {
+      "epoch": 0.80864,
+      "grad_norm": 0.6883628747159346,
+      "learning_rate": 4.369656555231716e-06,
+      "loss": 0.3477991223335266,
+      "memory(GiB)": 66.66,
+      "step": 2527,
+      "token_acc": 0.9126808928133432,
+      "train_speed(iter/s)": 0.241897
+    },
+    {
+      "epoch": 0.80896,
+      "grad_norm": 0.6578714671313085,
+      "learning_rate": 4.3690710028811394e-06,
+      "loss": 0.37179625034332275,
+      "memory(GiB)": 66.66,
+      "step": 2528,
+      "token_acc": 0.9020245842371656,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.80928,
+      "grad_norm": 0.5626803758573975,
+      "learning_rate": 4.3684852179571005e-06,
+      "loss": 0.35040438175201416,
+      "memory(GiB)": 66.66,
+      "step": 2529,
+      "token_acc": 0.9252364967958498,
+      "train_speed(iter/s)": 0.241904
+    },
+    {
+      "epoch": 0.8096,
+      "grad_norm": 0.6676960490152285,
+      "learning_rate": 4.367899200532488e-06,
+      "loss": 0.37589216232299805,
+      "memory(GiB)": 66.66,
+      "step": 2530,
+      "token_acc": 0.8277641945123607,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.80992,
+      "grad_norm": 0.6298244175221637,
+      "learning_rate": 4.3673129506802245e-06,
+      "loss": 0.40632206201553345,
+      "memory(GiB)": 66.66,
+      "step": 2531,
+      "token_acc": 0.8757763975155279,
+      "train_speed(iter/s)": 0.241906
+    },
+    {
+      "epoch": 0.81024,
+      "grad_norm": 0.6101877317016476,
+      "learning_rate": 4.366726468473257e-06,
+      "loss": 0.39226752519607544,
+      "memory(GiB)": 66.66,
+      "step": 2532,
+      "token_acc": 0.8644749290444654,
+      "train_speed(iter/s)": 0.241906
+    },
+    {
+      "epoch": 0.81056,
+      "grad_norm": 0.6144475001141755,
+      "learning_rate": 4.366139753984564e-06,
+      "loss": 0.35625773668289185,
+      "memory(GiB)": 66.66,
+      "step": 2533,
+      "token_acc": 0.9038624787775892,
+      "train_speed(iter/s)": 0.241905
+    },
+    {
+      "epoch": 0.81088,
+      "grad_norm": 0.5852444911238153,
+      "learning_rate": 4.36555280728715e-06,
+      "loss": 0.28513437509536743,
+      "memory(GiB)": 66.66,
+      "step": 2534,
+      "token_acc": 0.9204829308909243,
+      "train_speed(iter/s)": 0.241903
+    },
+    {
+      "epoch": 0.8112,
+      "grad_norm": 0.6120068317505531,
+      "learning_rate": 4.364965628454053e-06,
+      "loss": 0.36027631163597107,
+      "memory(GiB)": 66.66,
+      "step": 2535,
+      "token_acc": 0.8635962979286029,
+      "train_speed(iter/s)": 0.241908
+    },
+    {
+      "epoch": 0.81152,
+      "grad_norm": 1.2166022365693283,
+      "learning_rate": 4.364378217558335e-06,
+      "loss": 0.3889350891113281,
+      "memory(GiB)": 66.66,
+      "step": 2536,
+      "token_acc": 0.8545012165450122,
+      "train_speed(iter/s)": 0.241905
+    },
+    {
+      "epoch": 0.81184,
+      "grad_norm": 0.7182765794220086,
+      "learning_rate": 4.36379057467309e-06,
+      "loss": 0.47111618518829346,
+      "memory(GiB)": 66.66,
+      "step": 2537,
+      "token_acc": 0.8931018730013704,
+      "train_speed(iter/s)": 0.241908
+    },
+    {
+      "epoch": 0.81216,
+      "grad_norm": 0.6224379928992477,
+      "learning_rate": 4.36320269987144e-06,
+      "loss": 0.3979683816432953,
+      "memory(GiB)": 66.66,
+      "step": 2538,
+      "token_acc": 0.8992926911417986,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.81248,
+      "grad_norm": 0.5977016481681638,
+      "learning_rate": 4.362614593226536e-06,
+      "loss": 0.2977004051208496,
+      "memory(GiB)": 66.66,
+      "step": 2539,
+      "token_acc": 0.902330743618202,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.8128,
+      "grad_norm": 0.6544721086796439,
+      "learning_rate": 4.362026254811556e-06,
+      "loss": 0.42674577236175537,
+      "memory(GiB)": 66.66,
+      "step": 2540,
+      "token_acc": 0.8652931854199684,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.81312,
+      "grad_norm": 0.56437245646023,
+      "learning_rate": 4.361437684699712e-06,
+      "loss": 0.27474692463874817,
+      "memory(GiB)": 66.66,
+      "step": 2541,
+      "token_acc": 0.9136307818256242,
+      "train_speed(iter/s)": 0.241912
+    },
+    {
+      "epoch": 0.81344,
+      "grad_norm": 1.4055709648630794,
+      "learning_rate": 4.3608488829642385e-06,
+      "loss": 0.41406598687171936,
+      "memory(GiB)": 66.66,
+      "step": 2542,
+      "token_acc": 0.88,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.81376,
+      "grad_norm": 0.6791156983332794,
+      "learning_rate": 4.360259849678402e-06,
+      "loss": 0.45298171043395996,
+      "memory(GiB)": 66.66,
+      "step": 2543,
+      "token_acc": 0.9127215022480826,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.81408,
+      "grad_norm": 0.5890761939756836,
+      "learning_rate": 4.359670584915499e-06,
+      "loss": 0.3414680063724518,
+      "memory(GiB)": 66.66,
+      "step": 2544,
+      "token_acc": 0.877220896313975,
+      "train_speed(iter/s)": 0.241912
+    },
+    {
+      "epoch": 0.8144,
+      "grad_norm": 0.6081163747660937,
+      "learning_rate": 4.35908108874885e-06,
+      "loss": 0.3200152814388275,
+      "memory(GiB)": 66.66,
+      "step": 2545,
+      "token_acc": 0.9430680021085925,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.81472,
+      "grad_norm": 0.6316583724624821,
+      "learning_rate": 4.358491361251811e-06,
+      "loss": 0.3993412256240845,
+      "memory(GiB)": 66.66,
+      "step": 2546,
+      "token_acc": 0.9027689706193194,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.81504,
+      "grad_norm": 0.6267007941572876,
+      "learning_rate": 4.357901402497763e-06,
+      "loss": 0.40503907203674316,
+      "memory(GiB)": 66.66,
+      "step": 2547,
+      "token_acc": 0.9054737810487581,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.81536,
+      "grad_norm": 0.6675056744213816,
+      "learning_rate": 4.357311212560114e-06,
+      "loss": 0.3563908636569977,
+      "memory(GiB)": 66.66,
+      "step": 2548,
+      "token_acc": 0.946524064171123,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.81568,
+      "grad_norm": 0.6517399367763588,
+      "learning_rate": 4.356720791512304e-06,
+      "loss": 0.4044995903968811,
+      "memory(GiB)": 66.66,
+      "step": 2549,
+      "token_acc": 0.9318555008210181,
+      "train_speed(iter/s)": 0.241911
+    },
+    {
+      "epoch": 0.816,
+      "grad_norm": 0.7090909791281524,
+      "learning_rate": 4.356130139427802e-06,
+      "loss": 0.46175724267959595,
+      "memory(GiB)": 66.66,
+      "step": 2550,
+      "token_acc": 0.8845698032709173,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.81632,
+      "grad_norm": 0.5932263762210305,
+      "learning_rate": 4.355539256380103e-06,
+      "loss": 0.34192317724227905,
+      "memory(GiB)": 66.66,
+      "step": 2551,
+      "token_acc": 0.8860677083333334,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.81664,
+      "grad_norm": 0.6424072341018178,
+      "learning_rate": 4.354948142442731e-06,
+      "loss": 0.3116324543952942,
+      "memory(GiB)": 66.66,
+      "step": 2552,
+      "token_acc": 0.8812294837361981,
+      "train_speed(iter/s)": 0.241919
+    },
+    {
+      "epoch": 0.81696,
+      "grad_norm": 0.6393985502269458,
+      "learning_rate": 4.354356797689242e-06,
+      "loss": 0.34711694717407227,
+      "memory(GiB)": 66.66,
+      "step": 2553,
+      "token_acc": 0.9306107697867727,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.81728,
+      "grad_norm": 0.6632607978743558,
+      "learning_rate": 4.353765222193218e-06,
+      "loss": 0.3699304461479187,
+      "memory(GiB)": 66.66,
+      "step": 2554,
+      "token_acc": 0.8839986352780621,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.8176,
+      "grad_norm": 0.6084956336065481,
+      "learning_rate": 4.35317341602827e-06,
+      "loss": 0.3562045693397522,
+      "memory(GiB)": 66.66,
+      "step": 2555,
+      "token_acc": 0.9312070043777361,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.81792,
+      "grad_norm": 0.5604724792790741,
+      "learning_rate": 4.3525813792680384e-06,
+      "loss": 0.30543601512908936,
+      "memory(GiB)": 66.66,
+      "step": 2556,
+      "token_acc": 0.9097546728971962,
+      "train_speed(iter/s)": 0.241902
+    },
+    {
+      "epoch": 0.81824,
+      "grad_norm": 0.6030397682207082,
+      "learning_rate": 4.351989111986191e-06,
+      "loss": 0.35919293761253357,
+      "memory(GiB)": 66.66,
+      "step": 2557,
+      "token_acc": 0.8701527614571093,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.81856,
+      "grad_norm": 0.5569324245182307,
+      "learning_rate": 4.351396614256427e-06,
+      "loss": 0.29939529299736023,
+      "memory(GiB)": 66.66,
+      "step": 2558,
+      "token_acc": 0.9128375177640928,
+      "train_speed(iter/s)": 0.2419
+    },
+    {
+      "epoch": 0.81888,
+      "grad_norm": 0.6464843271435565,
+      "learning_rate": 4.35080388615247e-06,
+      "loss": 0.3664732873439789,
+      "memory(GiB)": 66.66,
+      "step": 2559,
+      "token_acc": 0.8273809523809523,
+      "train_speed(iter/s)": 0.2419
+    },
+    {
+      "epoch": 0.8192,
+      "grad_norm": 0.6182700264394201,
+      "learning_rate": 4.3502109277480764e-06,
+      "loss": 0.42619919776916504,
+      "memory(GiB)": 66.66,
+      "step": 2560,
+      "token_acc": 0.8931937172774869,
+      "train_speed(iter/s)": 0.2419
+    },
+    {
+      "epoch": 0.81952,
+      "grad_norm": 0.6384613190538713,
+      "learning_rate": 4.349617739117029e-06,
+      "loss": 0.36751455068588257,
+      "memory(GiB)": 66.66,
+      "step": 2561,
+      "token_acc": 0.9473524962178518,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.81984,
+      "grad_norm": 0.6527651450532802,
+      "learning_rate": 4.349024320333141e-06,
+      "loss": 0.3691257834434509,
+      "memory(GiB)": 66.66,
+      "step": 2562,
+      "token_acc": 0.9043241402791965,
+      "train_speed(iter/s)": 0.241905
+    },
+    {
+      "epoch": 0.82016,
+      "grad_norm": 0.6607404956029829,
+      "learning_rate": 4.348430671470251e-06,
+      "loss": 0.35538342595100403,
+      "memory(GiB)": 66.66,
+      "step": 2563,
+      "token_acc": 0.8945063694267515,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.82048,
+      "grad_norm": 0.5356661041979398,
+      "learning_rate": 4.34783679260223e-06,
+      "loss": 0.2415996938943863,
+      "memory(GiB)": 66.66,
+      "step": 2564,
+      "token_acc": 0.8925831202046036,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.8208,
+      "grad_norm": 0.7080289803615654,
+      "learning_rate": 4.347242683802975e-06,
+      "loss": 0.36969810724258423,
+      "memory(GiB)": 66.66,
+      "step": 2565,
+      "token_acc": 0.8629761578514662,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.82112,
+      "grad_norm": 0.6002297862129392,
+      "learning_rate": 4.346648345146413e-06,
+      "loss": 0.31757092475891113,
+      "memory(GiB)": 66.66,
+      "step": 2566,
+      "token_acc": 0.9281847708408517,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.82144,
+      "grad_norm": 0.6348684185457473,
+      "learning_rate": 4.346053776706499e-06,
+      "loss": 0.3935149610042572,
+      "memory(GiB)": 66.66,
+      "step": 2567,
+      "token_acc": 0.9115913555992141,
+      "train_speed(iter/s)": 0.241917
+    },
+    {
+      "epoch": 0.82176,
+      "grad_norm": 0.6647794522602055,
+      "learning_rate": 4.3454589785572174e-06,
+      "loss": 0.4472460448741913,
+      "memory(GiB)": 66.66,
+      "step": 2568,
+      "token_acc": 0.8355405730797014,
+      "train_speed(iter/s)": 0.241921
+    },
+    {
+      "epoch": 0.82208,
+      "grad_norm": 0.7015102189947829,
+      "learning_rate": 4.344863950772578e-06,
+      "loss": 0.3052337169647217,
+      "memory(GiB)": 66.66,
+      "step": 2569,
+      "token_acc": 0.8570536828963795,
+      "train_speed(iter/s)": 0.241919
+    },
+    {
+      "epoch": 0.8224,
+      "grad_norm": 0.6338352641207415,
+      "learning_rate": 4.344268693426626e-06,
+      "loss": 0.31592607498168945,
+      "memory(GiB)": 66.66,
+      "step": 2570,
+      "token_acc": 0.9229222520107239,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.82272,
+      "grad_norm": 0.6534676343664461,
+      "learning_rate": 4.343673206593427e-06,
+      "loss": 0.40562039613723755,
+      "memory(GiB)": 66.66,
+      "step": 2571,
+      "token_acc": 0.9057093425605537,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.82304,
+      "grad_norm": 0.6880672309539775,
+      "learning_rate": 4.3430774903470805e-06,
+      "loss": 0.35365045070648193,
+      "memory(GiB)": 66.66,
+      "step": 2572,
+      "token_acc": 0.892530897367007,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.82336,
+      "grad_norm": 0.6219358492302446,
+      "learning_rate": 4.342481544761713e-06,
+      "loss": 0.37076786160469055,
+      "memory(GiB)": 66.66,
+      "step": 2573,
+      "token_acc": 0.9229504345783416,
+      "train_speed(iter/s)": 0.241926
+    },
+    {
+      "epoch": 0.82368,
+      "grad_norm": 0.6478722371743788,
+      "learning_rate": 4.341885369911479e-06,
+      "loss": 0.3535159230232239,
+      "memory(GiB)": 66.66,
+      "step": 2574,
+      "token_acc": 0.9215262778977682,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.824,
+      "grad_norm": 0.601660922856023,
+      "learning_rate": 4.3412889658705635e-06,
+      "loss": 0.3967282772064209,
+      "memory(GiB)": 66.66,
+      "step": 2575,
+      "token_acc": 0.9508833922261484,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.82432,
+      "grad_norm": 0.5930225327641309,
+      "learning_rate": 4.3406923327131775e-06,
+      "loss": 0.3676755428314209,
+      "memory(GiB)": 66.66,
+      "step": 2576,
+      "token_acc": 0.8758434547908233,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.82464,
+      "grad_norm": 0.6342511810725815,
+      "learning_rate": 4.340095470513562e-06,
+      "loss": 0.32607418298721313,
+      "memory(GiB)": 66.66,
+      "step": 2577,
+      "token_acc": 0.905032021957914,
+      "train_speed(iter/s)": 0.241902
+    },
+    {
+      "epoch": 0.82496,
+      "grad_norm": 0.6188561861092942,
+      "learning_rate": 4.339498379345986e-06,
+      "loss": 0.40681758522987366,
+      "memory(GiB)": 66.66,
+      "step": 2578,
+      "token_acc": 0.927390950961799,
+      "train_speed(iter/s)": 0.241902
+    },
+    {
+      "epoch": 0.82528,
+      "grad_norm": 0.6557128018675412,
+      "learning_rate": 4.338901059284748e-06,
+      "loss": 0.45666706562042236,
+      "memory(GiB)": 66.66,
+      "step": 2579,
+      "token_acc": 0.8264074015994982,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.8256,
+      "grad_norm": 0.6988764485985517,
+      "learning_rate": 4.338303510404172e-06,
+      "loss": 0.4182717800140381,
+      "memory(GiB)": 66.66,
+      "step": 2580,
+      "token_acc": 0.8879184861717613,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.82592,
+      "grad_norm": 0.6017851703351587,
+      "learning_rate": 4.337705732778614e-06,
+      "loss": 0.3056812882423401,
+      "memory(GiB)": 66.66,
+      "step": 2581,
+      "token_acc": 0.9194107452339688,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.82624,
+      "grad_norm": 0.6823503195024789,
+      "learning_rate": 4.337107726482458e-06,
+      "loss": 0.4138156771659851,
+      "memory(GiB)": 66.66,
+      "step": 2582,
+      "token_acc": 0.8260493292946777,
+      "train_speed(iter/s)": 0.241912
+    },
+    {
+      "epoch": 0.82656,
+      "grad_norm": 0.5882131592668324,
+      "learning_rate": 4.336509491590114e-06,
+      "loss": 0.3436381220817566,
+      "memory(GiB)": 66.66,
+      "step": 2583,
+      "token_acc": 0.9328819546658816,
+      "train_speed(iter/s)": 0.241911
+    },
+    {
+      "epoch": 0.82688,
+      "grad_norm": 0.6219944313874092,
+      "learning_rate": 4.335911028176022e-06,
+      "loss": 0.42706388235092163,
+      "memory(GiB)": 66.66,
+      "step": 2584,
+      "token_acc": 0.9342021614748888,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.8272,
+      "grad_norm": 0.5973772841731725,
+      "learning_rate": 4.335312336314651e-06,
+      "loss": 0.349089115858078,
+      "memory(GiB)": 66.66,
+      "step": 2585,
+      "token_acc": 0.8587078651685394,
+      "train_speed(iter/s)": 0.241912
+    },
+    {
+      "epoch": 0.82752,
+      "grad_norm": 0.6067786960645464,
+      "learning_rate": 4.334713416080498e-06,
+      "loss": 0.30551910400390625,
+      "memory(GiB)": 66.66,
+      "step": 2586,
+      "token_acc": 0.9349162011173184,
+      "train_speed(iter/s)": 0.241897
+    },
+    {
+      "epoch": 0.82784,
+      "grad_norm": 0.5990198274353161,
+      "learning_rate": 4.334114267548088e-06,
+      "loss": 0.3483770489692688,
+      "memory(GiB)": 66.66,
+      "step": 2587,
+      "token_acc": 0.8659700136301681,
+      "train_speed(iter/s)": 0.241899
+    },
+    {
+      "epoch": 0.82816,
+      "grad_norm": 1.1991467527484387,
+      "learning_rate": 4.333514890791975e-06,
+      "loss": 0.39251604676246643,
+      "memory(GiB)": 66.66,
+      "step": 2588,
+      "token_acc": 0.8572751118654529,
+      "train_speed(iter/s)": 0.241899
+    },
+    {
+      "epoch": 0.82848,
+      "grad_norm": 0.6765031046014794,
+      "learning_rate": 4.332915285886739e-06,
+      "loss": 0.42317691445350647,
+      "memory(GiB)": 66.66,
+      "step": 2589,
+      "token_acc": 0.8671645772205921,
+      "train_speed(iter/s)": 0.241899
+    },
+    {
+      "epoch": 0.8288,
+      "grad_norm": 0.6584954055261868,
+      "learning_rate": 4.332315452906993e-06,
+      "loss": 0.4205325245857239,
+      "memory(GiB)": 66.66,
+      "step": 2590,
+      "token_acc": 0.8231124807395994,
+      "train_speed(iter/s)": 0.241902
+    },
+    {
+      "epoch": 0.82912,
+      "grad_norm": 0.6225250697757372,
+      "learning_rate": 4.331715391927375e-06,
+      "loss": 0.3045922517776489,
+      "memory(GiB)": 66.66,
+      "step": 2591,
+      "token_acc": 0.9136160714285714,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.82944,
+      "grad_norm": 0.6518504207098849,
+      "learning_rate": 4.331115103022552e-06,
+      "loss": 0.3939827084541321,
+      "memory(GiB)": 66.66,
+      "step": 2592,
+      "token_acc": 0.8472505091649695,
+      "train_speed(iter/s)": 0.241905
+    },
+    {
+      "epoch": 0.82976,
+      "grad_norm": 0.6297799025894838,
+      "learning_rate": 4.330514586267218e-06,
+      "loss": 0.3792271912097931,
+      "memory(GiB)": 66.66,
+      "step": 2593,
+      "token_acc": 0.9537815126050421,
+      "train_speed(iter/s)": 0.241904
+    },
+    {
+      "epoch": 0.83008,
+      "grad_norm": 0.6602122465937522,
+      "learning_rate": 4.3299138417361e-06,
+      "loss": 0.4199506938457489,
+      "memory(GiB)": 66.66,
+      "step": 2594,
+      "token_acc": 0.9185270425776755,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.8304,
+      "grad_norm": 0.6336091756200902,
+      "learning_rate": 4.329312869503948e-06,
+      "loss": 0.2834576368331909,
+      "memory(GiB)": 66.66,
+      "step": 2595,
+      "token_acc": 0.8836594394500265,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.83072,
+      "grad_norm": 0.6629364690279814,
+      "learning_rate": 4.328711669645545e-06,
+      "loss": 0.4663510322570801,
+      "memory(GiB)": 66.66,
+      "step": 2596,
+      "token_acc": 0.8255951375991896,
+      "train_speed(iter/s)": 0.241899
+    },
+    {
+      "epoch": 0.83104,
+      "grad_norm": 0.5988464102068844,
+      "learning_rate": 4.328110242235696e-06,
+      "loss": 0.36785605549812317,
+      "memory(GiB)": 66.66,
+      "step": 2597,
+      "token_acc": 0.8646159513722601,
+      "train_speed(iter/s)": 0.241896
+    },
+    {
+      "epoch": 0.83136,
+      "grad_norm": 0.6532640170676822,
+      "learning_rate": 4.3275085873492406e-06,
+      "loss": 0.3795081377029419,
+      "memory(GiB)": 66.66,
+      "step": 2598,
+      "token_acc": 0.8490092801605217,
+      "train_speed(iter/s)": 0.241899
+    },
+    {
+      "epoch": 0.83168,
+      "grad_norm": 0.7371224259030997,
+      "learning_rate": 4.326906705061045e-06,
+      "loss": 0.4198778569698334,
+      "memory(GiB)": 66.66,
+      "step": 2599,
+      "token_acc": 0.8131055583885772,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 0.5971890445521167,
+      "learning_rate": 4.326304595446001e-06,
+      "loss": 0.35708269476890564,
+      "memory(GiB)": 66.66,
+      "step": 2600,
+      "token_acc": 0.863455497382199,
+      "train_speed(iter/s)": 0.2419
+    },
+    {
+      "epoch": 0.83232,
+      "grad_norm": 0.6465385440290912,
+      "learning_rate": 4.325702258579032e-06,
+      "loss": 0.3196990489959717,
+      "memory(GiB)": 66.66,
+      "step": 2601,
+      "token_acc": 0.9285899766294469,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.83264,
+      "grad_norm": 0.670496975022721,
+      "learning_rate": 4.325099694535089e-06,
+      "loss": 0.4136509299278259,
+      "memory(GiB)": 66.66,
+      "step": 2602,
+      "token_acc": 0.8938736131210806,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.83296,
+      "grad_norm": 0.5996942842636827,
+      "learning_rate": 4.324496903389148e-06,
+      "loss": 0.2988620698451996,
+      "memory(GiB)": 66.66,
+      "step": 2603,
+      "token_acc": 0.93428501107556,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.83328,
+      "grad_norm": 0.619152937636698,
+      "learning_rate": 4.3238938852162195e-06,
+      "loss": 0.35555800795555115,
+      "memory(GiB)": 66.66,
+      "step": 2604,
+      "token_acc": 0.9029522613065326,
+      "train_speed(iter/s)": 0.241902
+    },
+    {
+      "epoch": 0.8336,
+      "grad_norm": 0.607645021457939,
+      "learning_rate": 4.323290640091335e-06,
+      "loss": 0.3514510691165924,
+      "memory(GiB)": 66.66,
+      "step": 2605,
+      "token_acc": 0.9460431654676259,
+      "train_speed(iter/s)": 0.241898
+    },
+    {
+      "epoch": 0.83392,
+      "grad_norm": 0.6280736989646046,
+      "learning_rate": 4.322687168089561e-06,
+      "loss": 0.291256844997406,
+      "memory(GiB)": 66.66,
+      "step": 2606,
+      "token_acc": 0.9175006102025872,
+      "train_speed(iter/s)": 0.2419
+    },
+    {
+      "epoch": 0.83424,
+      "grad_norm": 0.6917641594780229,
+      "learning_rate": 4.322083469285988e-06,
+      "loss": 0.3592594265937805,
+      "memory(GiB)": 66.66,
+      "step": 2607,
+      "token_acc": 0.8930279385854518,
+      "train_speed(iter/s)": 0.241905
+    },
+    {
+      "epoch": 0.83456,
+      "grad_norm": 0.6697996409790153,
+      "learning_rate": 4.3214795437557356e-06,
+      "loss": 0.3139106035232544,
+      "memory(GiB)": 66.66,
+      "step": 2608,
+      "token_acc": 0.9280347963621985,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.83488,
+      "grad_norm": 0.6418871429970715,
+      "learning_rate": 4.320875391573951e-06,
+      "loss": 0.3353157341480255,
+      "memory(GiB)": 66.66,
+      "step": 2609,
+      "token_acc": 0.9126016260162602,
+      "train_speed(iter/s)": 0.241912
+    },
+    {
+      "epoch": 0.8352,
+      "grad_norm": 0.6086693765426863,
+      "learning_rate": 4.320271012815812e-06,
+      "loss": 0.3180418014526367,
+      "memory(GiB)": 66.66,
+      "step": 2610,
+      "token_acc": 0.896774193548387,
+      "train_speed(iter/s)": 0.241917
+    },
+    {
+      "epoch": 0.83552,
+      "grad_norm": 0.6874016809989176,
+      "learning_rate": 4.319666407556523e-06,
+      "loss": 0.41051632165908813,
+      "memory(GiB)": 66.66,
+      "step": 2611,
+      "token_acc": 0.9214697406340058,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.83584,
+      "grad_norm": 0.6197173249441624,
+      "learning_rate": 4.319061575871315e-06,
+      "loss": 0.37518489360809326,
+      "memory(GiB)": 66.66,
+      "step": 2612,
+      "token_acc": 0.9038251366120219,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.83616,
+      "grad_norm": 0.6370486069374685,
+      "learning_rate": 4.3184565178354506e-06,
+      "loss": 0.49059054255485535,
+      "memory(GiB)": 66.66,
+      "step": 2613,
+      "token_acc": 0.8319194061505832,
+      "train_speed(iter/s)": 0.241903
+    },
+    {
+      "epoch": 0.83648,
+      "grad_norm": 0.643540289442154,
+      "learning_rate": 4.317851233524217e-06,
+      "loss": 0.4225635826587677,
+      "memory(GiB)": 66.66,
+      "step": 2614,
+      "token_acc": 0.9262981574539364,
+      "train_speed(iter/s)": 0.241902
+    },
+    {
+      "epoch": 0.8368,
+      "grad_norm": 0.6121761329506159,
+      "learning_rate": 4.317245723012934e-06,
+      "loss": 0.35521620512008667,
+      "memory(GiB)": 66.66,
+      "step": 2615,
+      "token_acc": 0.8694646397884996,
+      "train_speed(iter/s)": 0.241899
+    },
+    {
+      "epoch": 0.83712,
+      "grad_norm": 0.6088456092731096,
+      "learning_rate": 4.316639986376945e-06,
+      "loss": 0.30063217878341675,
+      "memory(GiB)": 66.66,
+      "step": 2616,
+      "token_acc": 0.9131164742917104,
+      "train_speed(iter/s)": 0.241901
+    },
+    {
+      "epoch": 0.83744,
+      "grad_norm": 0.6093793050754798,
+      "learning_rate": 4.316034023691623e-06,
+      "loss": 0.3018786311149597,
+      "memory(GiB)": 66.66,
+      "step": 2617,
+      "token_acc": 0.9040404040404041,
+      "train_speed(iter/s)": 0.241905
+    },
+    {
+      "epoch": 0.83776,
+      "grad_norm": 0.6141899065982225,
+      "learning_rate": 4.31542783503237e-06,
+      "loss": 0.33316293358802795,
+      "memory(GiB)": 66.66,
+      "step": 2618,
+      "token_acc": 0.9066232356134636,
+      "train_speed(iter/s)": 0.241906
+    },
+    {
+      "epoch": 0.83808,
+      "grad_norm": 0.6107732431090777,
+      "learning_rate": 4.314821420474616e-06,
+      "loss": 0.28905636072158813,
+      "memory(GiB)": 66.66,
+      "step": 2619,
+      "token_acc": 0.9510888968225634,
+      "train_speed(iter/s)": 0.241908
+    },
+    {
+      "epoch": 0.8384,
+      "grad_norm": 0.577441912579924,
+      "learning_rate": 4.314214780093819e-06,
+      "loss": 0.28335070610046387,
+      "memory(GiB)": 66.66,
+      "step": 2620,
+      "token_acc": 0.9167180752621839,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.83872,
+      "grad_norm": 0.6267660335139318,
+      "learning_rate": 4.313607913965465e-06,
+      "loss": 0.3296903371810913,
+      "memory(GiB)": 66.66,
+      "step": 2621,
+      "token_acc": 0.9155184916606236,
+      "train_speed(iter/s)": 0.241912
+    },
+    {
+      "epoch": 0.83904,
+      "grad_norm": 0.6738861047398864,
+      "learning_rate": 4.313000822165067e-06,
+      "loss": 0.4897744655609131,
+      "memory(GiB)": 66.66,
+      "step": 2622,
+      "token_acc": 0.8867155664221679,
+      "train_speed(iter/s)": 0.241911
+    },
+    {
+      "epoch": 0.83936,
+      "grad_norm": 0.6351337454546649,
+      "learning_rate": 4.312393504768167e-06,
+      "loss": 0.3748997449874878,
+      "memory(GiB)": 66.66,
+      "step": 2623,
+      "token_acc": 0.8464411703672962,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.83968,
+      "grad_norm": 0.5788235150345312,
+      "learning_rate": 4.3117859618503365e-06,
+      "loss": 0.42125892639160156,
+      "memory(GiB)": 66.66,
+      "step": 2624,
+      "token_acc": 0.7958758591960008,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.6321455224851676,
+      "learning_rate": 4.311178193487173e-06,
+      "loss": 0.36763590574264526,
+      "memory(GiB)": 66.66,
+      "step": 2625,
+      "token_acc": 0.8754171301446051,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.84032,
+      "grad_norm": 0.5995364951112382,
+      "learning_rate": 4.310570199754302e-06,
+      "loss": 0.3292451500892639,
+      "memory(GiB)": 66.66,
+      "step": 2626,
+      "token_acc": 0.90646492434663,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.84064,
+      "grad_norm": 0.5949206826647869,
+      "learning_rate": 4.3099619807273785e-06,
+      "loss": 0.36967018246650696,
+      "memory(GiB)": 66.66,
+      "step": 2627,
+      "token_acc": 0.8587524045067326,
+      "train_speed(iter/s)": 0.241912
+    },
+    {
+      "epoch": 0.84096,
+      "grad_norm": 0.6945944253926968,
+      "learning_rate": 4.309353536482085e-06,
+      "loss": 0.4345400333404541,
+      "memory(GiB)": 66.66,
+      "step": 2628,
+      "token_acc": 0.8133817009270455,
+      "train_speed(iter/s)": 0.241913
+    },
+    {
+      "epoch": 0.84128,
+      "grad_norm": 0.6519830603578652,
+      "learning_rate": 4.30874486709413e-06,
+      "loss": 0.4034682512283325,
+      "memory(GiB)": 66.66,
+      "step": 2629,
+      "token_acc": 0.8469719350073855,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.8416,
+      "grad_norm": 0.6308248476614589,
+      "learning_rate": 4.308135972639255e-06,
+      "loss": 0.36140817403793335,
+      "memory(GiB)": 66.66,
+      "step": 2630,
+      "token_acc": 0.8227880658436214,
+      "train_speed(iter/s)": 0.241912
+    },
+    {
+      "epoch": 0.84192,
+      "grad_norm": 0.6354580854624036,
+      "learning_rate": 4.307526853193224e-06,
+      "loss": 0.3653317987918854,
+      "memory(GiB)": 66.66,
+      "step": 2631,
+      "token_acc": 0.9107142857142857,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.84224,
+      "grad_norm": 0.6441828634337772,
+      "learning_rate": 4.306917508831832e-06,
+      "loss": 0.390286386013031,
+      "memory(GiB)": 66.66,
+      "step": 2632,
+      "token_acc": 0.9247176913425345,
+      "train_speed(iter/s)": 0.241904
+    },
+    {
+      "epoch": 0.84256,
+      "grad_norm": 0.6006882096585077,
+      "learning_rate": 4.306307939630901e-06,
+      "loss": 0.445855975151062,
+      "memory(GiB)": 66.66,
+      "step": 2633,
+      "token_acc": 0.8463667820069204,
+      "train_speed(iter/s)": 0.241904
+    },
+    {
+      "epoch": 0.84288,
+      "grad_norm": 0.6274681725646795,
+      "learning_rate": 4.3056981456662825e-06,
+      "loss": 0.3528636395931244,
+      "memory(GiB)": 66.66,
+      "step": 2634,
+      "token_acc": 0.855249916135525,
+      "train_speed(iter/s)": 0.241903
+    },
+    {
+      "epoch": 0.8432,
+      "grad_norm": 0.7043214608521889,
+      "learning_rate": 4.3050881270138535e-06,
+      "loss": 0.3944837749004364,
+      "memory(GiB)": 66.66,
+      "step": 2635,
+      "token_acc": 0.8380476982806434,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.84352,
+      "grad_norm": 0.6643895016798901,
+      "learning_rate": 4.304477883749521e-06,
+      "loss": 0.4135827422142029,
+      "memory(GiB)": 66.66,
+      "step": 2636,
+      "token_acc": 0.8745334481768591,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.84384,
+      "grad_norm": 0.5511167978405869,
+      "learning_rate": 4.303867415949219e-06,
+      "loss": 0.30548858642578125,
+      "memory(GiB)": 66.66,
+      "step": 2637,
+      "token_acc": 0.9441298603246508,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.84416,
+      "grad_norm": 0.629397914358916,
+      "learning_rate": 4.303256723688909e-06,
+      "loss": 0.4032500386238098,
+      "memory(GiB)": 66.66,
+      "step": 2638,
+      "token_acc": 0.8575676479333928,
+      "train_speed(iter/s)": 0.241905
+    },
+    {
+      "epoch": 0.84448,
+      "grad_norm": 0.6626357163572345,
+      "learning_rate": 4.302645807044582e-06,
+      "loss": 0.33329689502716064,
+      "memory(GiB)": 66.66,
+      "step": 2639,
+      "token_acc": 0.9223263075722092,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.8448,
+      "grad_norm": 0.557378160172938,
+      "learning_rate": 4.302034666092255e-06,
+      "loss": 0.22703176736831665,
+      "memory(GiB)": 66.66,
+      "step": 2640,
+      "token_acc": 0.9254623044096728,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.84512,
+      "grad_norm": 0.6557011808191883,
+      "learning_rate": 4.301423300907975e-06,
+      "loss": 0.42500537633895874,
+      "memory(GiB)": 66.66,
+      "step": 2641,
+      "token_acc": 0.8384976525821596,
+      "train_speed(iter/s)": 0.241917
+    },
+    {
+      "epoch": 0.84544,
+      "grad_norm": 0.5919103462296917,
+      "learning_rate": 4.300811711567815e-06,
+      "loss": 0.39680230617523193,
+      "memory(GiB)": 66.66,
+      "step": 2642,
+      "token_acc": 0.9241462677546086,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.84576,
+      "grad_norm": 0.6898554517365441,
+      "learning_rate": 4.300199898147877e-06,
+      "loss": 0.3859935402870178,
+      "memory(GiB)": 66.66,
+      "step": 2643,
+      "token_acc": 0.8812949640287769,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.84608,
+      "grad_norm": 0.5865797057421384,
+      "learning_rate": 4.29958786072429e-06,
+      "loss": 0.28775399923324585,
+      "memory(GiB)": 66.66,
+      "step": 2644,
+      "token_acc": 0.9513242662848962,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.8464,
+      "grad_norm": 0.6655986454171817,
+      "learning_rate": 4.298975599373212e-06,
+      "loss": 0.34131479263305664,
+      "memory(GiB)": 66.66,
+      "step": 2645,
+      "token_acc": 0.9035676439420699,
+      "train_speed(iter/s)": 0.241915
+    },
+    {
+      "epoch": 0.84672,
+      "grad_norm": 0.6798847544088599,
+      "learning_rate": 4.298363114170828e-06,
+      "loss": 0.48895055055618286,
+      "memory(GiB)": 66.66,
+      "step": 2646,
+      "token_acc": 0.8768208535650396,
+      "train_speed(iter/s)": 0.241917
+    },
+    {
+      "epoch": 0.84704,
+      "grad_norm": 0.5902911638521231,
+      "learning_rate": 4.297750405193352e-06,
+      "loss": 0.41538989543914795,
+      "memory(GiB)": 66.66,
+      "step": 2647,
+      "token_acc": 0.938884331419196,
+      "train_speed(iter/s)": 0.241916
+    },
+    {
+      "epoch": 0.84736,
+      "grad_norm": 0.631765578611971,
+      "learning_rate": 4.297137472517024e-06,
+      "loss": 0.4133908152580261,
+      "memory(GiB)": 66.66,
+      "step": 2648,
+      "token_acc": 0.8671611598111936,
+      "train_speed(iter/s)": 0.241907
+    },
+    {
+      "epoch": 0.84768,
+      "grad_norm": 0.623055428143679,
+      "learning_rate": 4.296524316218114e-06,
+      "loss": 0.41531556844711304,
+      "memory(GiB)": 66.66,
+      "step": 2649,
+      "token_acc": 0.8190310666956333,
+      "train_speed(iter/s)": 0.241908
+    },
+    {
+      "epoch": 0.848,
+      "grad_norm": 0.6263543860631572,
+      "learning_rate": 4.295910936372917e-06,
+      "loss": 0.4477734863758087,
+      "memory(GiB)": 66.66,
+      "step": 2650,
+      "token_acc": 0.9188826215417674,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.84832,
+      "grad_norm": 0.6461642760500399,
+      "learning_rate": 4.29529733305776e-06,
+      "loss": 0.35652798414230347,
+      "memory(GiB)": 66.66,
+      "step": 2651,
+      "token_acc": 0.9133185700727617,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.84864,
+      "grad_norm": 0.5686120168007497,
+      "learning_rate": 4.294683506348992e-06,
+      "loss": 0.3393004536628723,
+      "memory(GiB)": 66.66,
+      "step": 2652,
+      "token_acc": 0.8185177135405347,
+      "train_speed(iter/s)": 0.241909
+    },
+    {
+      "epoch": 0.84896,
+      "grad_norm": 0.6457352853220938,
+      "learning_rate": 4.294069456322994e-06,
+      "loss": 0.40521958470344543,
+      "memory(GiB)": 66.66,
+      "step": 2653,
+      "token_acc": 0.8384919711426577,
+      "train_speed(iter/s)": 0.24191
+    },
+    {
+      "epoch": 0.84928,
+      "grad_norm": 0.6692294491675554,
+      "learning_rate": 4.293455183056176e-06,
+      "loss": 0.3810324966907501,
+      "memory(GiB)": 66.66,
+      "step": 2654,
+      "token_acc": 0.9085014409221902,
+      "train_speed(iter/s)": 0.241911
+    },
+    {
+      "epoch": 0.8496,
+      "grad_norm": 0.6154358961072727,
+      "learning_rate": 4.2928406866249725e-06,
+      "loss": 0.33151835203170776,
+      "memory(GiB)": 66.66,
+      "step": 2655,
+      "token_acc": 0.9098049151254117,
+      "train_speed(iter/s)": 0.241914
+    },
+    {
+      "epoch": 0.84992,
+      "grad_norm": 0.6079726762457529,
+      "learning_rate": 4.292225967105846e-06,
+      "loss": 0.318006694316864,
+      "memory(GiB)": 66.66,
+      "step": 2656,
+      "token_acc": 0.8694021101992966,
+      "train_speed(iter/s)": 0.241917
+    },
+    {
+      "epoch": 0.85024,
+      "grad_norm": 0.5923331822190598,
+      "learning_rate": 4.2916110245752886e-06,
+      "loss": 0.3549345135688782,
+      "memory(GiB)": 66.66,
+      "step": 2657,
+      "token_acc": 0.9334840167904424,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.85056,
+      "grad_norm": 0.6999052416830922,
+      "learning_rate": 4.290995859109819e-06,
+      "loss": 0.46636080741882324,
+      "memory(GiB)": 66.66,
+      "step": 2658,
+      "token_acc": 0.8566151004386977,
+      "train_speed(iter/s)": 0.241918
+    },
+    {
+      "epoch": 0.85088,
+      "grad_norm": 0.5751057893321181,
+      "learning_rate": 4.290380470785984e-06,
+      "loss": 0.32378697395324707,
+      "memory(GiB)": 66.66,
+      "step": 2659,
+      "token_acc": 0.9380300065231572,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.8512,
+      "grad_norm": 0.6604097622439502,
+      "learning_rate": 4.289764859680358e-06,
+      "loss": 0.4226677715778351,
+      "memory(GiB)": 66.66,
+      "step": 2660,
+      "token_acc": 0.8358855822016759,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.85152,
+      "grad_norm": 0.6629670000723643,
+      "learning_rate": 4.2891490258695424e-06,
+      "loss": 0.5170182585716248,
+      "memory(GiB)": 66.66,
+      "step": 2661,
+      "token_acc": 0.8069366965801601,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.85184,
+      "grad_norm": 0.7074547904311246,
+      "learning_rate": 4.2885329694301675e-06,
+      "loss": 0.451351523399353,
+      "memory(GiB)": 66.66,
+      "step": 2662,
+      "token_acc": 0.9390862944162437,
+      "train_speed(iter/s)": 0.241923
+    },
+    {
+      "epoch": 0.85216,
+      "grad_norm": 0.6208592552059723,
+      "learning_rate": 4.287916690438891e-06,
+      "loss": 0.4204781949520111,
+      "memory(GiB)": 66.66,
+      "step": 2663,
+      "token_acc": 0.8754208754208754,
+      "train_speed(iter/s)": 0.24192
+    },
+    {
+      "epoch": 0.85248,
+      "grad_norm": 0.6635202253909964,
+      "learning_rate": 4.287300188972399e-06,
+      "loss": 0.405011922121048,
+      "memory(GiB)": 66.66,
+      "step": 2664,
+      "token_acc": 0.8242117787031529,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.8528,
+      "grad_norm": 0.5771617371457657,
+      "learning_rate": 4.286683465107403e-06,
+      "loss": 0.3581511974334717,
+      "memory(GiB)": 66.66,
+      "step": 2665,
+      "token_acc": 0.8900445765230312,
+      "train_speed(iter/s)": 0.241922
+    },
+    {
+      "epoch": 0.85312,
+      "grad_norm": 0.6021182911124487,
+      "learning_rate": 4.286066518920644e-06,
+      "loss": 0.1994592547416687,
+      "memory(GiB)": 66.66,
+      "step": 2666,
+      "token_acc": 0.9515852613538989,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.85344,
+      "grad_norm": 0.6111713443679595,
+      "learning_rate": 4.285449350488891e-06,
+      "loss": 0.4362776279449463,
+      "memory(GiB)": 66.66,
+      "step": 2667,
+      "token_acc": 0.9003446295232624,
+      "train_speed(iter/s)": 0.241925
+    },
+    {
+      "epoch": 0.85376,
+      "grad_norm": 0.6239504113865674,
+      "learning_rate": 4.284831959888938e-06,
+      "loss": 0.3832011818885803,
+      "memory(GiB)": 66.66,
+      "step": 2668,
+      "token_acc": 0.8366740905716407,
+      "train_speed(iter/s)": 0.24193
+    },
+    {
+      "epoch": 0.85408,
+      "grad_norm": 0.6592534567449533,
+      "learning_rate": 4.28421434719761e-06,
+      "loss": 0.40083926916122437,
+      "memory(GiB)": 66.66,
+      "step": 2669,
+      "token_acc": 0.8731859790131726,
+      "train_speed(iter/s)": 0.241934
+    },
+    {
+      "epoch": 0.8544,
+      "grad_norm": 0.6656730568513511,
+      "learning_rate": 4.2835965124917585e-06,
+      "loss": 0.3303273022174835,
+      "memory(GiB)": 66.66,
+      "step": 2670,
+      "token_acc": 0.9305699481865285,
+      "train_speed(iter/s)": 0.241935
+    },
+    {
+      "epoch": 0.85472,
+      "grad_norm": 0.6302564253161044,
+      "learning_rate": 4.282978455848262e-06,
+      "loss": 0.3613819479942322,
+      "memory(GiB)": 66.66,
+      "step": 2671,
+      "token_acc": 0.8490932642487047,
+      "train_speed(iter/s)": 0.241939
+    },
+    {
+      "epoch": 0.85504,
+      "grad_norm": 0.6869848524567415,
+      "learning_rate": 4.282360177344026e-06,
+      "loss": 0.37360453605651855,
+      "memory(GiB)": 66.66,
+      "step": 2672,
+      "token_acc": 0.9153976311336718,
+      "train_speed(iter/s)": 0.241942
+    },
+    {
+      "epoch": 0.85536,
+      "grad_norm": 0.602158044819893,
+      "learning_rate": 4.281741677055986e-06,
+      "loss": 0.4023306369781494,
+      "memory(GiB)": 66.66,
+      "step": 2673,
+      "token_acc": 0.911796420099202,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.85568,
+      "grad_norm": 0.6227041722052477,
+      "learning_rate": 4.281122955061102e-06,
+      "loss": 0.36169782280921936,
+      "memory(GiB)": 66.66,
+      "step": 2674,
+      "token_acc": 0.9036711641041733,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.856,
+      "grad_norm": 0.7000916543946196,
+      "learning_rate": 4.280504011436365e-06,
+      "loss": 0.3920516073703766,
+      "memory(GiB)": 66.66,
+      "step": 2675,
+      "token_acc": 0.8940623665100385,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.85632,
+      "grad_norm": 0.6305893509261379,
+      "learning_rate": 4.279884846258791e-06,
+      "loss": 0.37687334418296814,
+      "memory(GiB)": 66.66,
+      "step": 2676,
+      "token_acc": 0.8811239193083573,
+      "train_speed(iter/s)": 0.241955
+    },
+    {
+      "epoch": 0.85664,
+      "grad_norm": 0.627782821070806,
+      "learning_rate": 4.279265459605424e-06,
+      "loss": 0.34372395277023315,
+      "memory(GiB)": 66.66,
+      "step": 2677,
+      "token_acc": 0.8830520560969812,
+      "train_speed(iter/s)": 0.241958
+    },
+    {
+      "epoch": 0.85696,
+      "grad_norm": 0.5812140077071948,
+      "learning_rate": 4.278645851553336e-06,
+      "loss": 0.341675728559494,
+      "memory(GiB)": 66.66,
+      "step": 2678,
+      "token_acc": 0.8114161849710982,
+      "train_speed(iter/s)": 0.24196
+    },
+    {
+      "epoch": 0.85728,
+      "grad_norm": 0.5834619537044832,
+      "learning_rate": 4.278026022179627e-06,
+      "loss": 0.389030784368515,
+      "memory(GiB)": 66.66,
+      "step": 2679,
+      "token_acc": 0.9291170180262756,
+      "train_speed(iter/s)": 0.241961
+    },
+    {
+      "epoch": 0.8576,
+      "grad_norm": 0.6550241252801293,
+      "learning_rate": 4.277405971561423e-06,
+      "loss": 0.35168561339378357,
+      "memory(GiB)": 66.66,
+      "step": 2680,
+      "token_acc": 0.872557003257329,
+      "train_speed(iter/s)": 0.241966
+    },
+    {
+      "epoch": 0.85792,
+      "grad_norm": 0.6158129508272479,
+      "learning_rate": 4.27678569977588e-06,
+      "loss": 0.44698935747146606,
+      "memory(GiB)": 66.66,
+      "step": 2681,
+      "token_acc": 0.8473282442748091,
+      "train_speed(iter/s)": 0.241965
+    },
+    {
+      "epoch": 0.85824,
+      "grad_norm": 0.6327133197404478,
+      "learning_rate": 4.276165206900178e-06,
+      "loss": 0.42184072732925415,
+      "memory(GiB)": 66.66,
+      "step": 2682,
+      "token_acc": 0.8920454545454546,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.85856,
+      "grad_norm": 0.6333309623763489,
+      "learning_rate": 4.27554449301153e-06,
+      "loss": 0.5103187561035156,
+      "memory(GiB)": 66.66,
+      "step": 2683,
+      "token_acc": 0.821689259645464,
+      "train_speed(iter/s)": 0.241958
+    },
+    {
+      "epoch": 0.85888,
+      "grad_norm": 0.5750146431303439,
+      "learning_rate": 4.274923558187169e-06,
+      "loss": 0.3415602445602417,
+      "memory(GiB)": 66.66,
+      "step": 2684,
+      "token_acc": 0.8685104318292092,
+      "train_speed(iter/s)": 0.241956
+    },
+    {
+      "epoch": 0.8592,
+      "grad_norm": 0.6004059483383978,
+      "learning_rate": 4.274302402504362e-06,
+      "loss": 0.3801884055137634,
+      "memory(GiB)": 66.66,
+      "step": 2685,
+      "token_acc": 0.898375103277334,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.85952,
+      "grad_norm": 0.6484613290610767,
+      "learning_rate": 4.273681026040401e-06,
+      "loss": 0.33811724185943604,
+      "memory(GiB)": 66.66,
+      "step": 2686,
+      "token_acc": 0.9590924716397388,
+      "train_speed(iter/s)": 0.241955
+    },
+    {
+      "epoch": 0.85984,
+      "grad_norm": 0.6322400133266121,
+      "learning_rate": 4.273059428872605e-06,
+      "loss": 0.4019932150840759,
+      "memory(GiB)": 66.66,
+      "step": 2687,
+      "token_acc": 0.860876558102131,
+      "train_speed(iter/s)": 0.241958
+    },
+    {
+      "epoch": 0.86016,
+      "grad_norm": 0.6552391885234631,
+      "learning_rate": 4.27243761107832e-06,
+      "loss": 0.3164243698120117,
+      "memory(GiB)": 66.66,
+      "step": 2688,
+      "token_acc": 0.8862629246676514,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.86048,
+      "grad_norm": 0.6412067170996973,
+      "learning_rate": 4.271815572734923e-06,
+      "loss": 0.34415045380592346,
+      "memory(GiB)": 66.66,
+      "step": 2689,
+      "token_acc": 0.865979381443299,
+      "train_speed(iter/s)": 0.241965
+    },
+    {
+      "epoch": 0.8608,
+      "grad_norm": 0.6574235995355644,
+      "learning_rate": 4.271193313919814e-06,
+      "loss": 0.4226762652397156,
+      "memory(GiB)": 66.66,
+      "step": 2690,
+      "token_acc": 0.8686818632309217,
+      "train_speed(iter/s)": 0.24197
+    },
+    {
+      "epoch": 0.86112,
+      "grad_norm": 0.5852152252013813,
+      "learning_rate": 4.270570834710423e-06,
+      "loss": 0.28654566407203674,
+      "memory(GiB)": 66.66,
+      "step": 2691,
+      "token_acc": 0.8674932196822936,
+      "train_speed(iter/s)": 0.241969
+    },
+    {
+      "epoch": 0.86144,
+      "grad_norm": 0.6016068124467884,
+      "learning_rate": 4.269948135184205e-06,
+      "loss": 0.41184496879577637,
+      "memory(GiB)": 66.66,
+      "step": 2692,
+      "token_acc": 0.9278698588090853,
+      "train_speed(iter/s)": 0.241966
+    },
+    {
+      "epoch": 0.86176,
+      "grad_norm": 0.6181459590395347,
+      "learning_rate": 4.269325215418647e-06,
+      "loss": 0.4093039035797119,
+      "memory(GiB)": 66.66,
+      "step": 2693,
+      "token_acc": 0.9147496617050067,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.86208,
+      "grad_norm": 0.5894536960297289,
+      "learning_rate": 4.268702075491259e-06,
+      "loss": 0.37303587794303894,
+      "memory(GiB)": 66.66,
+      "step": 2694,
+      "token_acc": 0.8985324947589098,
+      "train_speed(iter/s)": 0.241957
+    },
+    {
+      "epoch": 0.8624,
+      "grad_norm": 0.6055188992345372,
+      "learning_rate": 4.26807871547958e-06,
+      "loss": 0.3592067062854767,
+      "memory(GiB)": 66.66,
+      "step": 2695,
+      "token_acc": 0.8338084378563284,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.86272,
+      "grad_norm": 0.5929986484285298,
+      "learning_rate": 4.267455135461176e-06,
+      "loss": 0.31712836027145386,
+      "memory(GiB)": 66.66,
+      "step": 2696,
+      "token_acc": 0.896402398401066,
+      "train_speed(iter/s)": 0.241952
+    },
+    {
+      "epoch": 0.86304,
+      "grad_norm": 0.6407763734495161,
+      "learning_rate": 4.266831335513641e-06,
+      "loss": 0.3340831398963928,
+      "memory(GiB)": 66.66,
+      "step": 2697,
+      "token_acc": 0.8666980687706076,
+      "train_speed(iter/s)": 0.241952
+    },
+    {
+      "epoch": 0.86336,
+      "grad_norm": 0.596326371729916,
+      "learning_rate": 4.266207315714596e-06,
+      "loss": 0.3483515977859497,
+      "memory(GiB)": 66.66,
+      "step": 2698,
+      "token_acc": 0.8703782405439864,
+      "train_speed(iter/s)": 0.241953
+    },
+    {
+      "epoch": 0.86368,
+      "grad_norm": 0.6360036503438792,
+      "learning_rate": 4.26558307614169e-06,
+      "loss": 0.4267374575138092,
+      "memory(GiB)": 66.66,
+      "step": 2699,
+      "token_acc": 0.9281984334203656,
+      "train_speed(iter/s)": 0.241956
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 0.8117041799971234,
+      "learning_rate": 4.264958616872599e-06,
+      "loss": 0.4933997094631195,
+      "memory(GiB)": 66.66,
+      "step": 2700,
+      "token_acc": 0.7550923732828043,
+      "train_speed(iter/s)": 0.241958
+    },
+    {
+      "epoch": 0.86432,
+      "grad_norm": 0.6024249563542547,
+      "learning_rate": 4.264333937985026e-06,
+      "loss": 0.3833807110786438,
+      "memory(GiB)": 66.66,
+      "step": 2701,
+      "token_acc": 0.8349781960064264,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.86464,
+      "grad_norm": 0.603581395946252,
+      "learning_rate": 4.2637090395567e-06,
+      "loss": 0.3722117245197296,
+      "memory(GiB)": 66.66,
+      "step": 2702,
+      "token_acc": 0.9124564459930313,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.86496,
+      "grad_norm": 0.6775497505439603,
+      "learning_rate": 4.263083921665381e-06,
+      "loss": 0.4034203290939331,
+      "memory(GiB)": 66.66,
+      "step": 2703,
+      "token_acc": 0.8785046728971962,
+      "train_speed(iter/s)": 0.241959
+    },
+    {
+      "epoch": 0.86528,
+      "grad_norm": 0.680015321781127,
+      "learning_rate": 4.262458584388852e-06,
+      "loss": 0.3293622136116028,
+      "memory(GiB)": 66.66,
+      "step": 2704,
+      "token_acc": 0.9016018306636155,
+      "train_speed(iter/s)": 0.241959
+    },
+    {
+      "epoch": 0.8656,
+      "grad_norm": 0.7470332644464485,
+      "learning_rate": 4.261833027804926e-06,
+      "loss": 0.3542885184288025,
+      "memory(GiB)": 66.66,
+      "step": 2705,
+      "token_acc": 0.9253503960999391,
+      "train_speed(iter/s)": 0.241958
+    },
+    {
+      "epoch": 0.86592,
+      "grad_norm": 0.6553443991849813,
+      "learning_rate": 4.261207251991443e-06,
+      "loss": 0.4047054350376129,
+      "memory(GiB)": 66.66,
+      "step": 2706,
+      "token_acc": 0.9188732394366197,
+      "train_speed(iter/s)": 0.241959
+    },
+    {
+      "epoch": 0.86624,
+      "grad_norm": 0.6113425595286135,
+      "learning_rate": 4.26058125702627e-06,
+      "loss": 0.3857710361480713,
+      "memory(GiB)": 66.66,
+      "step": 2707,
+      "token_acc": 0.8890719384953323,
+      "train_speed(iter/s)": 0.241955
+    },
+    {
+      "epoch": 0.86656,
+      "grad_norm": 0.6430852826668572,
+      "learning_rate": 4.259955042987302e-06,
+      "loss": 0.38054466247558594,
+      "memory(GiB)": 66.66,
+      "step": 2708,
+      "token_acc": 0.856988082340195,
+      "train_speed(iter/s)": 0.24196
+    },
+    {
+      "epoch": 0.86688,
+      "grad_norm": 0.6130803970270883,
+      "learning_rate": 4.259328609952458e-06,
+      "loss": 0.36988842487335205,
+      "memory(GiB)": 66.66,
+      "step": 2709,
+      "token_acc": 0.9436828454983327,
+      "train_speed(iter/s)": 0.24196
+    },
+    {
+      "epoch": 0.8672,
+      "grad_norm": 0.6588127369444515,
+      "learning_rate": 4.258701957999689e-06,
+      "loss": 0.48945164680480957,
+      "memory(GiB)": 66.66,
+      "step": 2710,
+      "token_acc": 0.8214397008413836,
+      "train_speed(iter/s)": 0.24196
+    },
+    {
+      "epoch": 0.86752,
+      "grad_norm": 0.6421426061331666,
+      "learning_rate": 4.258075087206971e-06,
+      "loss": 0.30105406045913696,
+      "memory(GiB)": 66.66,
+      "step": 2711,
+      "token_acc": 0.928821099459803,
+      "train_speed(iter/s)": 0.241961
+    },
+    {
+      "epoch": 0.86784,
+      "grad_norm": 0.6633776063167705,
+      "learning_rate": 4.257447997652306e-06,
+      "loss": 0.3678281903266907,
+      "memory(GiB)": 66.66,
+      "step": 2712,
+      "token_acc": 0.8667110963012329,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.86816,
+      "grad_norm": 0.618141037649668,
+      "learning_rate": 4.2568206894137235e-06,
+      "loss": 0.330152690410614,
+      "memory(GiB)": 66.66,
+      "step": 2713,
+      "token_acc": 0.8758647194465795,
+      "train_speed(iter/s)": 0.241971
+    },
+    {
+      "epoch": 0.86848,
+      "grad_norm": 0.6459200780612091,
+      "learning_rate": 4.256193162569284e-06,
+      "loss": 0.35358691215515137,
+      "memory(GiB)": 66.66,
+      "step": 2714,
+      "token_acc": 0.9284994964753273,
+      "train_speed(iter/s)": 0.241973
+    },
+    {
+      "epoch": 0.8688,
+      "grad_norm": 0.6416472143202769,
+      "learning_rate": 4.2555654171970705e-06,
+      "loss": 0.38863033056259155,
+      "memory(GiB)": 66.66,
+      "step": 2715,
+      "token_acc": 0.8578720062819003,
+      "train_speed(iter/s)": 0.241976
+    },
+    {
+      "epoch": 0.86912,
+      "grad_norm": 0.6875590911573871,
+      "learning_rate": 4.254937453375195e-06,
+      "loss": 0.49018800258636475,
+      "memory(GiB)": 66.66,
+      "step": 2716,
+      "token_acc": 0.8961713173264114,
+      "train_speed(iter/s)": 0.241979
+    },
+    {
+      "epoch": 0.86944,
+      "grad_norm": 0.6574153451645752,
+      "learning_rate": 4.2543092711817965e-06,
+      "loss": 0.41659149527549744,
+      "memory(GiB)": 66.66,
+      "step": 2717,
+      "token_acc": 0.8883288096161303,
+      "train_speed(iter/s)": 0.24198
+    },
+    {
+      "epoch": 0.86976,
+      "grad_norm": 0.626790184674263,
+      "learning_rate": 4.253680870695043e-06,
+      "loss": 0.42807430028915405,
+      "memory(GiB)": 66.66,
+      "step": 2718,
+      "token_acc": 0.8637969804047543,
+      "train_speed(iter/s)": 0.24197
+    },
+    {
+      "epoch": 0.87008,
+      "grad_norm": 0.5843387137282307,
+      "learning_rate": 4.253052251993126e-06,
+      "loss": 0.2970905005931854,
+      "memory(GiB)": 66.66,
+      "step": 2719,
+      "token_acc": 0.8962912087912088,
+      "train_speed(iter/s)": 0.241971
+    },
+    {
+      "epoch": 0.8704,
+      "grad_norm": 0.6634761625244867,
+      "learning_rate": 4.2524234151542685e-06,
+      "loss": 0.44301682710647583,
+      "memory(GiB)": 66.66,
+      "step": 2720,
+      "token_acc": 0.8886442277445737,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.87072,
+      "grad_norm": 0.6023722090673516,
+      "learning_rate": 4.251794360256717e-06,
+      "loss": 0.3395492732524872,
+      "memory(GiB)": 66.66,
+      "step": 2721,
+      "token_acc": 0.9312596006144394,
+      "train_speed(iter/s)": 0.24197
+    },
+    {
+      "epoch": 0.87104,
+      "grad_norm": 0.6215763986987292,
+      "learning_rate": 4.251165087378745e-06,
+      "loss": 0.2806827425956726,
+      "memory(GiB)": 66.66,
+      "step": 2722,
+      "token_acc": 0.8686548223350253,
+      "train_speed(iter/s)": 0.241969
+    },
+    {
+      "epoch": 0.87136,
+      "grad_norm": 0.5925866094256642,
+      "learning_rate": 4.250535596598658e-06,
+      "loss": 0.30444610118865967,
+      "memory(GiB)": 66.66,
+      "step": 2723,
+      "token_acc": 0.9216886883660973,
+      "train_speed(iter/s)": 0.241974
+    },
+    {
+      "epoch": 0.87168,
+      "grad_norm": 0.6604563642385592,
+      "learning_rate": 4.2499058879947805e-06,
+      "loss": 0.4126582145690918,
+      "memory(GiB)": 66.66,
+      "step": 2724,
+      "token_acc": 0.7605633802816901,
+      "train_speed(iter/s)": 0.241978
+    },
+    {
+      "epoch": 0.872,
+      "grad_norm": 0.5947233946626903,
+      "learning_rate": 4.2492759616454735e-06,
+      "loss": 0.37414366006851196,
+      "memory(GiB)": 66.66,
+      "step": 2725,
+      "token_acc": 0.867650346523586,
+      "train_speed(iter/s)": 0.241978
+    },
+    {
+      "epoch": 0.87232,
+      "grad_norm": 0.6385019838291407,
+      "learning_rate": 4.2486458176291176e-06,
+      "loss": 0.44996678829193115,
+      "memory(GiB)": 66.66,
+      "step": 2726,
+      "token_acc": 0.8347146578261899,
+      "train_speed(iter/s)": 0.241976
+    },
+    {
+      "epoch": 0.87264,
+      "grad_norm": 0.7117124164235423,
+      "learning_rate": 4.248015456024125e-06,
+      "loss": 0.3658551871776581,
+      "memory(GiB)": 66.66,
+      "step": 2727,
+      "token_acc": 0.875,
+      "train_speed(iter/s)": 0.241981
+    },
+    {
+      "epoch": 0.87296,
+      "grad_norm": 0.6209083909645375,
+      "learning_rate": 4.247384876908932e-06,
+      "loss": 0.392792671918869,
+      "memory(GiB)": 66.66,
+      "step": 2728,
+      "token_acc": 0.8758965442295154,
+      "train_speed(iter/s)": 0.241979
+    },
+    {
+      "epoch": 0.87328,
+      "grad_norm": 0.6308198815509362,
+      "learning_rate": 4.246754080362004e-06,
+      "loss": 0.3949275016784668,
+      "memory(GiB)": 66.66,
+      "step": 2729,
+      "token_acc": 0.8745901639344262,
+      "train_speed(iter/s)": 0.241982
+    },
+    {
+      "epoch": 0.8736,
+      "grad_norm": 0.6255779679407834,
+      "learning_rate": 4.246123066461832e-06,
+      "loss": 0.2951090633869171,
+      "memory(GiB)": 66.66,
+      "step": 2730,
+      "token_acc": 0.9092331768388107,
+      "train_speed(iter/s)": 0.241978
+    },
+    {
+      "epoch": 0.87392,
+      "grad_norm": 0.637191982012142,
+      "learning_rate": 4.245491835286935e-06,
+      "loss": 0.36921730637550354,
+      "memory(GiB)": 66.66,
+      "step": 2731,
+      "token_acc": 0.873507747015494,
+      "train_speed(iter/s)": 0.241982
+    },
+    {
+      "epoch": 0.87424,
+      "grad_norm": 0.6414761564230752,
+      "learning_rate": 4.2448603869158585e-06,
+      "loss": 0.38242679834365845,
+      "memory(GiB)": 66.66,
+      "step": 2732,
+      "token_acc": 0.9058581706063721,
+      "train_speed(iter/s)": 0.241982
+    },
+    {
+      "epoch": 0.87456,
+      "grad_norm": 0.6324406127676048,
+      "learning_rate": 4.244228721427177e-06,
+      "loss": 0.47354042530059814,
+      "memory(GiB)": 66.66,
+      "step": 2733,
+      "token_acc": 0.9461252653927813,
+      "train_speed(iter/s)": 0.24198
+    },
+    {
+      "epoch": 0.87488,
+      "grad_norm": 0.6564154012037594,
+      "learning_rate": 4.243596838899488e-06,
+      "loss": 0.41902047395706177,
+      "memory(GiB)": 66.66,
+      "step": 2734,
+      "token_acc": 0.8962432915921288,
+      "train_speed(iter/s)": 0.241984
+    },
+    {
+      "epoch": 0.8752,
+      "grad_norm": 0.6089160928489797,
+      "learning_rate": 4.242964739411419e-06,
+      "loss": 0.40372684597969055,
+      "memory(GiB)": 66.66,
+      "step": 2735,
+      "token_acc": 0.8494323469197841,
+      "train_speed(iter/s)": 0.241986
+    },
+    {
+      "epoch": 0.87552,
+      "grad_norm": 0.6950245828458408,
+      "learning_rate": 4.242332423041625e-06,
+      "loss": 0.4424767792224884,
+      "memory(GiB)": 66.66,
+      "step": 2736,
+      "token_acc": 0.8406862745098039,
+      "train_speed(iter/s)": 0.241988
+    },
+    {
+      "epoch": 0.87584,
+      "grad_norm": 0.658718777635752,
+      "learning_rate": 4.241699889868786e-06,
+      "loss": 0.4773024022579193,
+      "memory(GiB)": 66.66,
+      "step": 2737,
+      "token_acc": 0.9075879610004239,
+      "train_speed(iter/s)": 0.24199
+    },
+    {
+      "epoch": 0.87616,
+      "grad_norm": 0.5578358083354564,
+      "learning_rate": 4.241067139971609e-06,
+      "loss": 0.44102734327316284,
+      "memory(GiB)": 66.66,
+      "step": 2738,
+      "token_acc": 0.8104743507190384,
+      "train_speed(iter/s)": 0.24199
+    },
+    {
+      "epoch": 0.87648,
+      "grad_norm": 0.5880308610845321,
+      "learning_rate": 4.240434173428829e-06,
+      "loss": 0.3997608721256256,
+      "memory(GiB)": 66.66,
+      "step": 2739,
+      "token_acc": 0.9479338842975207,
+      "train_speed(iter/s)": 0.241991
+    },
+    {
+      "epoch": 0.8768,
+      "grad_norm": 0.6468822957856663,
+      "learning_rate": 4.239800990319209e-06,
+      "loss": 0.47861623764038086,
+      "memory(GiB)": 66.66,
+      "step": 2740,
+      "token_acc": 0.8650577124868836,
+      "train_speed(iter/s)": 0.241993
+    },
+    {
+      "epoch": 0.87712,
+      "grad_norm": 0.6476090493535672,
+      "learning_rate": 4.239167590721536e-06,
+      "loss": 0.3533022999763489,
+      "memory(GiB)": 66.66,
+      "step": 2741,
+      "token_acc": 0.8925964546402503,
+      "train_speed(iter/s)": 0.241993
+    },
+    {
+      "epoch": 0.87744,
+      "grad_norm": 0.6119357291694715,
+      "learning_rate": 4.238533974714627e-06,
+      "loss": 0.4397846460342407,
+      "memory(GiB)": 66.66,
+      "step": 2742,
+      "token_acc": 0.9192666452235445,
+      "train_speed(iter/s)": 0.241993
+    },
+    {
+      "epoch": 0.87776,
+      "grad_norm": 0.5937888164814307,
+      "learning_rate": 4.237900142377324e-06,
+      "loss": 0.3211444914340973,
+      "memory(GiB)": 66.66,
+      "step": 2743,
+      "token_acc": 0.878727634194831,
+      "train_speed(iter/s)": 0.241991
+    },
+    {
+      "epoch": 0.87808,
+      "grad_norm": 0.6504459963529499,
+      "learning_rate": 4.237266093788496e-06,
+      "loss": 0.43034958839416504,
+      "memory(GiB)": 66.66,
+      "step": 2744,
+      "token_acc": 0.845123482628715,
+      "train_speed(iter/s)": 0.24199
+    },
+    {
+      "epoch": 0.8784,
+      "grad_norm": 0.6345366094555415,
+      "learning_rate": 4.23663182902704e-06,
+      "loss": 0.4151901602745056,
+      "memory(GiB)": 66.66,
+      "step": 2745,
+      "token_acc": 0.8778416187859106,
+      "train_speed(iter/s)": 0.24199
+    },
+    {
+      "epoch": 0.87872,
+      "grad_norm": 0.5802572642316275,
+      "learning_rate": 4.235997348171879e-06,
+      "loss": 0.33383482694625854,
+      "memory(GiB)": 66.66,
+      "step": 2746,
+      "token_acc": 0.8852889667250438,
+      "train_speed(iter/s)": 0.241988
+    },
+    {
+      "epoch": 0.87904,
+      "grad_norm": 0.5602054356842581,
+      "learning_rate": 4.2353626513019625e-06,
+      "loss": 0.33759188652038574,
+      "memory(GiB)": 66.66,
+      "step": 2747,
+      "token_acc": 0.9138283378746594,
+      "train_speed(iter/s)": 0.241988
+    },
+    {
+      "epoch": 0.87936,
+      "grad_norm": 0.6260921073894296,
+      "learning_rate": 4.234727738496268e-06,
+      "loss": 0.36013439297676086,
+      "memory(GiB)": 66.66,
+      "step": 2748,
+      "token_acc": 0.8730201342281879,
+      "train_speed(iter/s)": 0.241985
+    },
+    {
+      "epoch": 0.87968,
+      "grad_norm": 0.6163364980489192,
+      "learning_rate": 4.2340926098338e-06,
+      "loss": 0.45746955275535583,
+      "memory(GiB)": 66.66,
+      "step": 2749,
+      "token_acc": 0.8661591355599214,
+      "train_speed(iter/s)": 0.24198
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.6088669792241002,
+      "learning_rate": 4.233457265393589e-06,
+      "loss": 0.3596654534339905,
+      "memory(GiB)": 66.66,
+      "step": 2750,
+      "token_acc": 0.8906945681211041,
+      "train_speed(iter/s)": 0.241978
+    },
+    {
+      "epoch": 0.88032,
+      "grad_norm": 0.5781982258972846,
+      "learning_rate": 4.232821705254692e-06,
+      "loss": 0.310103178024292,
+      "memory(GiB)": 66.66,
+      "step": 2751,
+      "token_acc": 0.9540816326530612,
+      "train_speed(iter/s)": 0.241979
+    },
+    {
+      "epoch": 0.88064,
+      "grad_norm": 0.6762469008874803,
+      "learning_rate": 4.232185929496193e-06,
+      "loss": 0.455264687538147,
+      "memory(GiB)": 66.66,
+      "step": 2752,
+      "token_acc": 0.8571151984511133,
+      "train_speed(iter/s)": 0.241981
+    },
+    {
+      "epoch": 0.88096,
+      "grad_norm": 0.5632647949958026,
+      "learning_rate": 4.231549938197205e-06,
+      "loss": 0.36701396107673645,
+      "memory(GiB)": 66.66,
+      "step": 2753,
+      "token_acc": 0.8954988154777573,
+      "train_speed(iter/s)": 0.241981
+    },
+    {
+      "epoch": 0.88128,
+      "grad_norm": 0.6258250924223145,
+      "learning_rate": 4.230913731436864e-06,
+      "loss": 0.4167162775993347,
+      "memory(GiB)": 66.66,
+      "step": 2754,
+      "token_acc": 0.8640462427745664,
+      "train_speed(iter/s)": 0.241979
+    },
+    {
+      "epoch": 0.8816,
+      "grad_norm": 0.5938967240287926,
+      "learning_rate": 4.230277309294337e-06,
+      "loss": 0.2884720265865326,
+      "memory(GiB)": 66.66,
+      "step": 2755,
+      "token_acc": 0.8911159263271939,
+      "train_speed(iter/s)": 0.24197
+    },
+    {
+      "epoch": 0.88192,
+      "grad_norm": 0.6305736019878028,
+      "learning_rate": 4.229640671848815e-06,
+      "loss": 0.40411436557769775,
+      "memory(GiB)": 66.66,
+      "step": 2756,
+      "token_acc": 0.9103491664045297,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.88224,
+      "grad_norm": 0.5927611535178307,
+      "learning_rate": 4.229003819179516e-06,
+      "loss": 0.4101211428642273,
+      "memory(GiB)": 66.66,
+      "step": 2757,
+      "token_acc": 0.958148893360161,
+      "train_speed(iter/s)": 0.241964
+    },
+    {
+      "epoch": 0.88256,
+      "grad_norm": 0.6759615514068517,
+      "learning_rate": 4.228366751365685e-06,
+      "loss": 0.4016323685646057,
+      "memory(GiB)": 66.66,
+      "step": 2758,
+      "token_acc": 0.8462897526501767,
+      "train_speed(iter/s)": 0.241966
+    },
+    {
+      "epoch": 0.88288,
+      "grad_norm": 0.6661660831580801,
+      "learning_rate": 4.227729468486594e-06,
+      "loss": 0.5390846133232117,
+      "memory(GiB)": 66.66,
+      "step": 2759,
+      "token_acc": 0.8109414266383144,
+      "train_speed(iter/s)": 0.241966
+    },
+    {
+      "epoch": 0.8832,
+      "grad_norm": 0.650550666861897,
+      "learning_rate": 4.227091970621543e-06,
+      "loss": 0.39194604754447937,
+      "memory(GiB)": 66.66,
+      "step": 2760,
+      "token_acc": 0.9495705181490718,
+      "train_speed(iter/s)": 0.241969
+    },
+    {
+      "epoch": 0.88352,
+      "grad_norm": 0.586991804620682,
+      "learning_rate": 4.226454257849857e-06,
+      "loss": 0.34203973412513733,
+      "memory(GiB)": 66.66,
+      "step": 2761,
+      "token_acc": 0.943010752688172,
+      "train_speed(iter/s)": 0.241966
+    },
+    {
+      "epoch": 0.88384,
+      "grad_norm": 0.6168841926890587,
+      "learning_rate": 4.225816330250887e-06,
+      "loss": 0.40939778089523315,
+      "memory(GiB)": 66.66,
+      "step": 2762,
+      "token_acc": 0.8806896551724138,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.88416,
+      "grad_norm": 0.6051252328275581,
+      "learning_rate": 4.225178187904014e-06,
+      "loss": 0.3494575023651123,
+      "memory(GiB)": 66.66,
+      "step": 2763,
+      "token_acc": 0.9078862314156432,
+      "train_speed(iter/s)": 0.241971
+    },
+    {
+      "epoch": 0.88448,
+      "grad_norm": 0.6746539531492346,
+      "learning_rate": 4.224539830888643e-06,
+      "loss": 0.3644985556602478,
+      "memory(GiB)": 66.66,
+      "step": 2764,
+      "token_acc": 0.7675832127351664,
+      "train_speed(iter/s)": 0.241973
+    },
+    {
+      "epoch": 0.8848,
+      "grad_norm": 0.6308150802974518,
+      "learning_rate": 4.223901259284206e-06,
+      "loss": 0.3826584219932556,
+      "memory(GiB)": 66.66,
+      "step": 2765,
+      "token_acc": 0.9064131245339299,
+      "train_speed(iter/s)": 0.241966
+    },
+    {
+      "epoch": 0.88512,
+      "grad_norm": 0.626115988399976,
+      "learning_rate": 4.223262473170162e-06,
+      "loss": 0.37937480211257935,
+      "memory(GiB)": 66.66,
+      "step": 2766,
+      "token_acc": 0.9095406360424029,
+      "train_speed(iter/s)": 0.241968
+    },
+    {
+      "epoch": 0.88544,
+      "grad_norm": 0.5866325118033842,
+      "learning_rate": 4.2226234726259985e-06,
+      "loss": 0.33188965916633606,
+      "memory(GiB)": 66.66,
+      "step": 2767,
+      "token_acc": 0.8841492971400873,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.88576,
+      "grad_norm": 0.6177459554221354,
+      "learning_rate": 4.221984257731226e-06,
+      "loss": 0.4752567410469055,
+      "memory(GiB)": 66.66,
+      "step": 2768,
+      "token_acc": 0.8330510525042342,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.88608,
+      "grad_norm": 0.6209895907344971,
+      "learning_rate": 4.2213448285653845e-06,
+      "loss": 0.408283531665802,
+      "memory(GiB)": 66.66,
+      "step": 2769,
+      "token_acc": 0.9082115219260533,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.8864,
+      "grad_norm": 0.6647297529293297,
+      "learning_rate": 4.22070518520804e-06,
+      "loss": 0.36840173602104187,
+      "memory(GiB)": 66.66,
+      "step": 2770,
+      "token_acc": 0.9086803813346713,
+      "train_speed(iter/s)": 0.241965
+    },
+    {
+      "epoch": 0.88672,
+      "grad_norm": 0.6366485524407124,
+      "learning_rate": 4.220065327738786e-06,
+      "loss": 0.43449944257736206,
+      "memory(GiB)": 66.66,
+      "step": 2771,
+      "token_acc": 0.8505315822388994,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.88704,
+      "grad_norm": 0.6334660374308607,
+      "learning_rate": 4.21942525623724e-06,
+      "loss": 0.3764113783836365,
+      "memory(GiB)": 66.66,
+      "step": 2772,
+      "token_acc": 0.837253829321663,
+      "train_speed(iter/s)": 0.241971
+    },
+    {
+      "epoch": 0.88736,
+      "grad_norm": 0.6873112317488659,
+      "learning_rate": 4.2187849707830486e-06,
+      "loss": 0.3912735879421234,
+      "memory(GiB)": 66.66,
+      "step": 2773,
+      "token_acc": 0.8651452282157677,
+      "train_speed(iter/s)": 0.241976
+    },
+    {
+      "epoch": 0.88768,
+      "grad_norm": 0.6550833749721948,
+      "learning_rate": 4.218144471455884e-06,
+      "loss": 0.3915499448776245,
+      "memory(GiB)": 66.66,
+      "step": 2774,
+      "token_acc": 0.9157560803665844,
+      "train_speed(iter/s)": 0.241981
+    },
+    {
+      "epoch": 0.888,
+      "grad_norm": 0.621888515801699,
+      "learning_rate": 4.217503758335445e-06,
+      "loss": 0.2976590692996979,
+      "memory(GiB)": 66.66,
+      "step": 2775,
+      "token_acc": 0.9615055603079555,
+      "train_speed(iter/s)": 0.241979
+    },
+    {
+      "epoch": 0.88832,
+      "grad_norm": 0.6690453479492067,
+      "learning_rate": 4.216862831501457e-06,
+      "loss": 0.4207008183002472,
+      "memory(GiB)": 66.66,
+      "step": 2776,
+      "token_acc": 0.9107891727030119,
+      "train_speed(iter/s)": 0.241984
+    },
+    {
+      "epoch": 0.88864,
+      "grad_norm": 0.5552572060555523,
+      "learning_rate": 4.216221691033674e-06,
+      "loss": 0.3537760078907013,
+      "memory(GiB)": 66.66,
+      "step": 2777,
+      "token_acc": 0.9498159919705588,
+      "train_speed(iter/s)": 0.241981
+    },
+    {
+      "epoch": 0.88896,
+      "grad_norm": 0.6266773289812866,
+      "learning_rate": 4.215580337011873e-06,
+      "loss": 0.3407539427280426,
+      "memory(GiB)": 66.66,
+      "step": 2778,
+      "token_acc": 0.9192504258943782,
+      "train_speed(iter/s)": 0.241986
+    },
+    {
+      "epoch": 0.88928,
+      "grad_norm": 0.6675625730593217,
+      "learning_rate": 4.21493876951586e-06,
+      "loss": 0.3567861318588257,
+      "memory(GiB)": 66.66,
+      "step": 2779,
+      "token_acc": 0.8652368758002561,
+      "train_speed(iter/s)": 0.241985
+    },
+    {
+      "epoch": 0.8896,
+      "grad_norm": 0.5907564511826744,
+      "learning_rate": 4.214296988625466e-06,
+      "loss": 0.31456419825553894,
+      "memory(GiB)": 66.66,
+      "step": 2780,
+      "token_acc": 0.900592325521504,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.88992,
+      "grad_norm": 0.5739220355305062,
+      "learning_rate": 4.213654994420551e-06,
+      "loss": 0.3639344871044159,
+      "memory(GiB)": 66.66,
+      "step": 2781,
+      "token_acc": 0.8853267570900123,
+      "train_speed(iter/s)": 0.241983
+    },
+    {
+      "epoch": 0.89024,
+      "grad_norm": 0.5699583663778225,
+      "learning_rate": 4.213012786981e-06,
+      "loss": 0.398431658744812,
+      "memory(GiB)": 66.66,
+      "step": 2782,
+      "token_acc": 0.8831289483463397,
+      "train_speed(iter/s)": 0.241987
+    },
+    {
+      "epoch": 0.89056,
+      "grad_norm": 0.608786312682516,
+      "learning_rate": 4.212370366386723e-06,
+      "loss": 0.3947691321372986,
+      "memory(GiB)": 66.66,
+      "step": 2783,
+      "token_acc": 0.8702724684831232,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.89088,
+      "grad_norm": 0.6070311802799768,
+      "learning_rate": 4.21172773271766e-06,
+      "loss": 0.3561690151691437,
+      "memory(GiB)": 66.66,
+      "step": 2784,
+      "token_acc": 0.9479289940828403,
+      "train_speed(iter/s)": 0.241991
+    },
+    {
+      "epoch": 0.8912,
+      "grad_norm": 0.634859133621835,
+      "learning_rate": 4.211084886053774e-06,
+      "loss": 0.41397830843925476,
+      "memory(GiB)": 66.66,
+      "step": 2785,
+      "token_acc": 0.9292328042328042,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.89152,
+      "grad_norm": 0.6177564599577703,
+      "learning_rate": 4.210441826475057e-06,
+      "loss": 0.40559321641921997,
+      "memory(GiB)": 66.66,
+      "step": 2786,
+      "token_acc": 0.9328635014836796,
+      "train_speed(iter/s)": 0.241992
+    },
+    {
+      "epoch": 0.89184,
+      "grad_norm": 0.6021253979318901,
+      "learning_rate": 4.209798554061527e-06,
+      "loss": 0.3435715436935425,
+      "memory(GiB)": 66.66,
+      "step": 2787,
+      "token_acc": 0.9246913580246914,
+      "train_speed(iter/s)": 0.241993
+    },
+    {
+      "epoch": 0.89216,
+      "grad_norm": 0.6212310701293403,
+      "learning_rate": 4.209155068893227e-06,
+      "loss": 0.3130069077014923,
+      "memory(GiB)": 66.66,
+      "step": 2788,
+      "token_acc": 0.8810693925692943,
+      "train_speed(iter/s)": 0.241993
+    },
+    {
+      "epoch": 0.89248,
+      "grad_norm": 0.6445455348530277,
+      "learning_rate": 4.208511371050228e-06,
+      "loss": 0.42668014764785767,
+      "memory(GiB)": 66.66,
+      "step": 2789,
+      "token_acc": 0.9387509042681457,
+      "train_speed(iter/s)": 0.241994
+    },
+    {
+      "epoch": 0.8928,
+      "grad_norm": 0.5659727313875089,
+      "learning_rate": 4.207867460612627e-06,
+      "loss": 0.39238250255584717,
+      "memory(GiB)": 66.66,
+      "step": 2790,
+      "token_acc": 0.8728179551122195,
+      "train_speed(iter/s)": 0.241994
+    },
+    {
+      "epoch": 0.89312,
+      "grad_norm": 0.6210605769865368,
+      "learning_rate": 4.207223337660548e-06,
+      "loss": 0.3839040994644165,
+      "memory(GiB)": 66.66,
+      "step": 2791,
+      "token_acc": 0.9176,
+      "train_speed(iter/s)": 0.241997
+    },
+    {
+      "epoch": 0.89344,
+      "grad_norm": 0.6274523406799791,
+      "learning_rate": 4.20657900227414e-06,
+      "loss": 0.325257807970047,
+      "memory(GiB)": 66.66,
+      "step": 2792,
+      "token_acc": 0.9426685198054204,
+      "train_speed(iter/s)": 0.241999
+    },
+    {
+      "epoch": 0.89376,
+      "grad_norm": 0.5915141994458549,
+      "learning_rate": 4.205934454533581e-06,
+      "loss": 0.3207491338253021,
+      "memory(GiB)": 66.66,
+      "step": 2793,
+      "token_acc": 0.916003293988471,
+      "train_speed(iter/s)": 0.24199
+    },
+    {
+      "epoch": 0.89408,
+      "grad_norm": 0.6206996783476884,
+      "learning_rate": 4.205289694519072e-06,
+      "loss": 0.27051830291748047,
+      "memory(GiB)": 66.66,
+      "step": 2794,
+      "token_acc": 0.9316338354577057,
+      "train_speed(iter/s)": 0.241992
+    },
+    {
+      "epoch": 0.8944,
+      "grad_norm": 0.628729070711734,
+      "learning_rate": 4.204644722310842e-06,
+      "loss": 0.3622612953186035,
+      "memory(GiB)": 66.66,
+      "step": 2795,
+      "token_acc": 0.8639369277721262,
+      "train_speed(iter/s)": 0.241992
+    },
+    {
+      "epoch": 0.89472,
+      "grad_norm": 0.5749264724054969,
+      "learning_rate": 4.203999537989148e-06,
+      "loss": 0.3448949456214905,
+      "memory(GiB)": 66.66,
+      "step": 2796,
+      "token_acc": 0.9394109396914446,
+      "train_speed(iter/s)": 0.241979
+    },
+    {
+      "epoch": 0.89504,
+      "grad_norm": 0.5550862853431716,
+      "learning_rate": 4.2033541416342725e-06,
+      "loss": 0.35123974084854126,
+      "memory(GiB)": 66.66,
+      "step": 2797,
+      "token_acc": 0.938973897389739,
+      "train_speed(iter/s)": 0.241969
+    },
+    {
+      "epoch": 0.89536,
+      "grad_norm": 0.6195688391234724,
+      "learning_rate": 4.202708533326522e-06,
+      "loss": 0.3467400074005127,
+      "memory(GiB)": 66.66,
+      "step": 2798,
+      "token_acc": 0.9214890016920474,
+      "train_speed(iter/s)": 0.24197
+    },
+    {
+      "epoch": 0.89568,
+      "grad_norm": 0.719467380122505,
+      "learning_rate": 4.202062713146232e-06,
+      "loss": 0.443705677986145,
+      "memory(GiB)": 66.66,
+      "step": 2799,
+      "token_acc": 0.8548644338118022,
+      "train_speed(iter/s)": 0.241964
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 0.57203683181338,
+      "learning_rate": 4.2014166811737645e-06,
+      "loss": 0.36948347091674805,
+      "memory(GiB)": 66.66,
+      "step": 2800,
+      "token_acc": 0.8303145853193518,
+      "train_speed(iter/s)": 0.241965
+    },
+    {
+      "epoch": 0.89632,
+      "grad_norm": 0.6593274213141876,
+      "learning_rate": 4.200770437489505e-06,
+      "loss": 0.4335978925228119,
+      "memory(GiB)": 66.66,
+      "step": 2801,
+      "token_acc": 0.8903446311592139,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.89664,
+      "grad_norm": 0.742317330493897,
+      "learning_rate": 4.200123982173869e-06,
+      "loss": 0.4212910234928131,
+      "memory(GiB)": 66.66,
+      "step": 2802,
+      "token_acc": 0.9221508828250401,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.89696,
+      "grad_norm": 0.6573666954479488,
+      "learning_rate": 4.199477315307297e-06,
+      "loss": 0.3536713719367981,
+      "memory(GiB)": 66.66,
+      "step": 2803,
+      "token_acc": 0.9361963190184049,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.89728,
+      "grad_norm": 0.6427957677833065,
+      "learning_rate": 4.198830436970254e-06,
+      "loss": 0.4118232727050781,
+      "memory(GiB)": 66.66,
+      "step": 2804,
+      "token_acc": 0.9226554946825652,
+      "train_speed(iter/s)": 0.241969
+    },
+    {
+      "epoch": 0.8976,
+      "grad_norm": 0.6313966186033412,
+      "learning_rate": 4.198183347243233e-06,
+      "loss": 0.32043570280075073,
+      "memory(GiB)": 66.66,
+      "step": 2805,
+      "token_acc": 0.8631379164909321,
+      "train_speed(iter/s)": 0.241969
+    },
+    {
+      "epoch": 0.89792,
+      "grad_norm": 0.6299601243454398,
+      "learning_rate": 4.197536046206754e-06,
+      "loss": 0.3696286678314209,
+      "memory(GiB)": 66.66,
+      "step": 2806,
+      "token_acc": 0.9405805038335159,
+      "train_speed(iter/s)": 0.24197
+    },
+    {
+      "epoch": 0.89824,
+      "grad_norm": 0.5812948080282655,
+      "learning_rate": 4.196888533941362e-06,
+      "loss": 0.36351796984672546,
+      "memory(GiB)": 66.66,
+      "step": 2807,
+      "token_acc": 0.9520590043023971,
+      "train_speed(iter/s)": 0.241969
+    },
+    {
+      "epoch": 0.89856,
+      "grad_norm": 0.5819250572912579,
+      "learning_rate": 4.196240810527629e-06,
+      "loss": 0.3521096408367157,
+      "memory(GiB)": 66.66,
+      "step": 2808,
+      "token_acc": 0.9000290613193839,
+      "train_speed(iter/s)": 0.241964
+    },
+    {
+      "epoch": 0.89888,
+      "grad_norm": 0.6511820831760246,
+      "learning_rate": 4.1955928760461515e-06,
+      "loss": 0.41333672404289246,
+      "memory(GiB)": 66.66,
+      "step": 2809,
+      "token_acc": 0.8375617792421747,
+      "train_speed(iter/s)": 0.241969
+    },
+    {
+      "epoch": 0.8992,
+      "grad_norm": 0.6060524378381547,
+      "learning_rate": 4.194944730577555e-06,
+      "loss": 0.36598044633865356,
+      "memory(GiB)": 66.66,
+      "step": 2810,
+      "token_acc": 0.9207419898819561,
+      "train_speed(iter/s)": 0.241968
+    },
+    {
+      "epoch": 0.89952,
+      "grad_norm": 0.592866662655607,
+      "learning_rate": 4.1942963742024896e-06,
+      "loss": 0.4256974458694458,
+      "memory(GiB)": 66.66,
+      "step": 2811,
+      "token_acc": 0.900377191036166,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.89984,
+      "grad_norm": 0.666863227832339,
+      "learning_rate": 4.193647807001632e-06,
+      "loss": 0.3943021297454834,
+      "memory(GiB)": 66.66,
+      "step": 2812,
+      "token_acc": 0.8751363140676118,
+      "train_speed(iter/s)": 0.241972
+    },
+    {
+      "epoch": 0.90016,
+      "grad_norm": 0.6933707763336775,
+      "learning_rate": 4.192999029055686e-06,
+      "loss": 0.39822375774383545,
+      "memory(GiB)": 66.66,
+      "step": 2813,
+      "token_acc": 0.8742166517457476,
+      "train_speed(iter/s)": 0.241971
+    },
+    {
+      "epoch": 0.90048,
+      "grad_norm": 0.5793432702988545,
+      "learning_rate": 4.192350040445379e-06,
+      "loss": 0.2939651310443878,
+      "memory(GiB)": 66.66,
+      "step": 2814,
+      "token_acc": 0.925776397515528,
+      "train_speed(iter/s)": 0.241975
+    },
+    {
+      "epoch": 0.9008,
+      "grad_norm": 0.6521732902539502,
+      "learning_rate": 4.191700841251468e-06,
+      "loss": 0.3281785845756531,
+      "memory(GiB)": 66.66,
+      "step": 2815,
+      "token_acc": 0.8804247460757156,
+      "train_speed(iter/s)": 0.241977
+    },
+    {
+      "epoch": 0.90112,
+      "grad_norm": 0.6835822232175337,
+      "learning_rate": 4.191051431554734e-06,
+      "loss": 0.3268094062805176,
+      "memory(GiB)": 66.66,
+      "step": 2816,
+      "token_acc": 0.8825831702544031,
+      "train_speed(iter/s)": 0.24198
+    },
+    {
+      "epoch": 0.90144,
+      "grad_norm": 0.6473607480700502,
+      "learning_rate": 4.1904018114359836e-06,
+      "loss": 0.38597571849823,
+      "memory(GiB)": 66.66,
+      "step": 2817,
+      "token_acc": 0.8668402777777777,
+      "train_speed(iter/s)": 0.241981
+    },
+    {
+      "epoch": 0.90176,
+      "grad_norm": 0.6726956733237922,
+      "learning_rate": 4.189751980976053e-06,
+      "loss": 0.4159366488456726,
+      "memory(GiB)": 66.66,
+      "step": 2818,
+      "token_acc": 0.8438842738470352,
+      "train_speed(iter/s)": 0.241983
+    },
+    {
+      "epoch": 0.90208,
+      "grad_norm": 0.641955698789572,
+      "learning_rate": 4.189101940255801e-06,
+      "loss": 0.4194986820220947,
+      "memory(GiB)": 66.66,
+      "step": 2819,
+      "token_acc": 0.8631735783461634,
+      "train_speed(iter/s)": 0.241987
+    },
+    {
+      "epoch": 0.9024,
+      "grad_norm": 0.6561151729680409,
+      "learning_rate": 4.188451689356113e-06,
+      "loss": 0.40885573625564575,
+      "memory(GiB)": 66.66,
+      "step": 2820,
+      "token_acc": 0.8744033412887828,
+      "train_speed(iter/s)": 0.241988
+    },
+    {
+      "epoch": 0.90272,
+      "grad_norm": 0.6199446848790633,
+      "learning_rate": 4.187801228357904e-06,
+      "loss": 0.3528479039669037,
+      "memory(GiB)": 66.66,
+      "step": 2821,
+      "token_acc": 0.8934719064631373,
+      "train_speed(iter/s)": 0.241991
+    },
+    {
+      "epoch": 0.90304,
+      "grad_norm": 0.5908081127203654,
+      "learning_rate": 4.18715055734211e-06,
+      "loss": 0.3761516809463501,
+      "memory(GiB)": 66.66,
+      "step": 2822,
+      "token_acc": 0.8381062355658199,
+      "train_speed(iter/s)": 0.241993
+    },
+    {
+      "epoch": 0.90336,
+      "grad_norm": 0.6295530406380434,
+      "learning_rate": 4.186499676389698e-06,
+      "loss": 0.36932289600372314,
+      "memory(GiB)": 66.66,
+      "step": 2823,
+      "token_acc": 0.8856263319914752,
+      "train_speed(iter/s)": 0.241994
+    },
+    {
+      "epoch": 0.90368,
+      "grad_norm": 0.6131438251962031,
+      "learning_rate": 4.185848585581657e-06,
+      "loss": 0.36505433917045593,
+      "memory(GiB)": 66.66,
+      "step": 2824,
+      "token_acc": 0.8647316538882804,
+      "train_speed(iter/s)": 0.241995
+    },
+    {
+      "epoch": 0.904,
+      "grad_norm": 0.5865605984375885,
+      "learning_rate": 4.185197284999004e-06,
+      "loss": 0.38936227560043335,
+      "memory(GiB)": 66.66,
+      "step": 2825,
+      "token_acc": 0.8439059158945118,
+      "train_speed(iter/s)": 0.241988
+    },
+    {
+      "epoch": 0.90432,
+      "grad_norm": 0.6590853270732768,
+      "learning_rate": 4.184545774722784e-06,
+      "loss": 0.425952672958374,
+      "memory(GiB)": 66.66,
+      "step": 2826,
+      "token_acc": 0.8966292134831461,
+      "train_speed(iter/s)": 0.241988
+    },
+    {
+      "epoch": 0.90464,
+      "grad_norm": 0.6291129906189357,
+      "learning_rate": 4.183894054834064e-06,
+      "loss": 0.4082595407962799,
+      "memory(GiB)": 66.66,
+      "step": 2827,
+      "token_acc": 0.8945560253699789,
+      "train_speed(iter/s)": 0.241988
+    },
+    {
+      "epoch": 0.90496,
+      "grad_norm": 0.6204833540876868,
+      "learning_rate": 4.18324212541394e-06,
+      "loss": 0.3324819803237915,
+      "memory(GiB)": 66.66,
+      "step": 2828,
+      "token_acc": 0.9080980287693128,
+      "train_speed(iter/s)": 0.241986
+    },
+    {
+      "epoch": 0.90528,
+      "grad_norm": 0.6350989140105531,
+      "learning_rate": 4.182589986543534e-06,
+      "loss": 0.3367905616760254,
+      "memory(GiB)": 66.66,
+      "step": 2829,
+      "token_acc": 0.9102091020910209,
+      "train_speed(iter/s)": 0.241988
+    },
+    {
+      "epoch": 0.9056,
+      "grad_norm": 0.6102083859385622,
+      "learning_rate": 4.181937638303993e-06,
+      "loss": 0.3785122036933899,
+      "memory(GiB)": 66.66,
+      "step": 2830,
+      "token_acc": 0.825097678694553,
+      "train_speed(iter/s)": 0.241985
+    },
+    {
+      "epoch": 0.90592,
+      "grad_norm": 0.628925635249673,
+      "learning_rate": 4.18128508077649e-06,
+      "loss": 0.3501740097999573,
+      "memory(GiB)": 66.66,
+      "step": 2831,
+      "token_acc": 0.916875,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.90624,
+      "grad_norm": 0.6576523716548736,
+      "learning_rate": 4.180632314042223e-06,
+      "loss": 0.31177395582199097,
+      "memory(GiB)": 66.66,
+      "step": 2832,
+      "token_acc": 0.8497854077253219,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.90656,
+      "grad_norm": 0.6488841769625252,
+      "learning_rate": 4.17997933818242e-06,
+      "loss": 0.43167632818222046,
+      "memory(GiB)": 66.66,
+      "step": 2833,
+      "token_acc": 0.9255893212155638,
+      "train_speed(iter/s)": 0.241991
+    },
+    {
+      "epoch": 0.90688,
+      "grad_norm": 0.5982405093567339,
+      "learning_rate": 4.179326153278333e-06,
+      "loss": 0.37242236733436584,
+      "memory(GiB)": 66.66,
+      "step": 2834,
+      "token_acc": 0.9121522693997072,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.9072,
+      "grad_norm": 0.5988061582258023,
+      "learning_rate": 4.1786727594112365e-06,
+      "loss": 0.36429208517074585,
+      "memory(GiB)": 66.66,
+      "step": 2835,
+      "token_acc": 0.8415330252786083,
+      "train_speed(iter/s)": 0.241988
+    },
+    {
+      "epoch": 0.90752,
+      "grad_norm": 0.6780958960532386,
+      "learning_rate": 4.178019156662436e-06,
+      "loss": 0.43688228726387024,
+      "memory(GiB)": 66.66,
+      "step": 2836,
+      "token_acc": 0.8199731303179579,
+      "train_speed(iter/s)": 0.241988
+    },
+    {
+      "epoch": 0.90784,
+      "grad_norm": 0.5994660648553743,
+      "learning_rate": 4.177365345113261e-06,
+      "loss": 0.30778980255126953,
+      "memory(GiB)": 66.66,
+      "step": 2837,
+      "token_acc": 0.9465346534653465,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.90816,
+      "grad_norm": 0.6778090777574226,
+      "learning_rate": 4.176711324845067e-06,
+      "loss": 0.41336095333099365,
+      "memory(GiB)": 66.66,
+      "step": 2838,
+      "token_acc": 0.8898584905660377,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.90848,
+      "grad_norm": 0.6122072827530655,
+      "learning_rate": 4.1760570959392355e-06,
+      "loss": 0.34675318002700806,
+      "memory(GiB)": 66.66,
+      "step": 2839,
+      "token_acc": 0.836150552174893,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.9088,
+      "grad_norm": 0.6404102970501611,
+      "learning_rate": 4.175402658477173e-06,
+      "loss": 0.424371600151062,
+      "memory(GiB)": 66.66,
+      "step": 2840,
+      "token_acc": 0.9286898839137645,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.90912,
+      "grad_norm": 0.6124826427507508,
+      "learning_rate": 4.174748012540314e-06,
+      "loss": 0.35368433594703674,
+      "memory(GiB)": 66.66,
+      "step": 2841,
+      "token_acc": 0.9333891914537076,
+      "train_speed(iter/s)": 0.241985
+    },
+    {
+      "epoch": 0.90944,
+      "grad_norm": 0.6301361383260203,
+      "learning_rate": 4.174093158210117e-06,
+      "loss": 0.4114921987056732,
+      "memory(GiB)": 66.66,
+      "step": 2842,
+      "token_acc": 0.8932542624166049,
+      "train_speed(iter/s)": 0.241983
+    },
+    {
+      "epoch": 0.90976,
+      "grad_norm": 0.6575808780661407,
+      "learning_rate": 4.173438095568067e-06,
+      "loss": 0.4560542702674866,
+      "memory(GiB)": 66.66,
+      "step": 2843,
+      "token_acc": 0.8347371478361894,
+      "train_speed(iter/s)": 0.241986
+    },
+    {
+      "epoch": 0.91008,
+      "grad_norm": 0.6955678970359704,
+      "learning_rate": 4.172782824695677e-06,
+      "loss": 0.47312480211257935,
+      "memory(GiB)": 66.66,
+      "step": 2844,
+      "token_acc": 0.8935617860851506,
+      "train_speed(iter/s)": 0.24199
+    },
+    {
+      "epoch": 0.9104,
+      "grad_norm": 0.6018277157943983,
+      "learning_rate": 4.172127345674483e-06,
+      "loss": 0.3461216390132904,
+      "memory(GiB)": 66.66,
+      "step": 2845,
+      "token_acc": 0.9037227214377407,
+      "train_speed(iter/s)": 0.241993
+    },
+    {
+      "epoch": 0.91072,
+      "grad_norm": 0.6632902706792271,
+      "learning_rate": 4.171471658586047e-06,
+      "loss": 0.42720332741737366,
+      "memory(GiB)": 66.66,
+      "step": 2846,
+      "token_acc": 0.9285932255111382,
+      "train_speed(iter/s)": 0.241991
+    },
+    {
+      "epoch": 0.91104,
+      "grad_norm": 0.6171200362401577,
+      "learning_rate": 4.17081576351196e-06,
+      "loss": 0.40089181065559387,
+      "memory(GiB)": 66.66,
+      "step": 2847,
+      "token_acc": 0.8148719531008948,
+      "train_speed(iter/s)": 0.241993
+    },
+    {
+      "epoch": 0.91136,
+      "grad_norm": 0.7483927819481633,
+      "learning_rate": 4.170159660533834e-06,
+      "loss": 0.48795169591903687,
+      "memory(GiB)": 66.66,
+      "step": 2848,
+      "token_acc": 0.9475457170356112,
+      "train_speed(iter/s)": 0.241997
+    },
+    {
+      "epoch": 0.91168,
+      "grad_norm": 0.6076240108508284,
+      "learning_rate": 4.169503349733312e-06,
+      "loss": 0.40277254581451416,
+      "memory(GiB)": 66.66,
+      "step": 2849,
+      "token_acc": 0.8763138138138138,
+      "train_speed(iter/s)": 0.241994
+    },
+    {
+      "epoch": 0.912,
+      "grad_norm": 0.618302317419277,
+      "learning_rate": 4.16884683119206e-06,
+      "loss": 0.31804656982421875,
+      "memory(GiB)": 66.66,
+      "step": 2850,
+      "token_acc": 0.8483088486504954,
+      "train_speed(iter/s)": 0.241991
+    },
+    {
+      "epoch": 0.91232,
+      "grad_norm": 0.6302689113705127,
+      "learning_rate": 4.1681901049917696e-06,
+      "loss": 0.3822234272956848,
+      "memory(GiB)": 66.66,
+      "step": 2851,
+      "token_acc": 0.8885793871866295,
+      "train_speed(iter/s)": 0.241993
+    },
+    {
+      "epoch": 0.91264,
+      "grad_norm": 0.6182257897173703,
+      "learning_rate": 4.167533171214158e-06,
+      "loss": 0.38994699716567993,
+      "memory(GiB)": 66.66,
+      "step": 2852,
+      "token_acc": 0.883854818523154,
+      "train_speed(iter/s)": 0.241996
+    },
+    {
+      "epoch": 0.91296,
+      "grad_norm": 0.6271663051800229,
+      "learning_rate": 4.166876029940972e-06,
+      "loss": 0.3747294545173645,
+      "memory(GiB)": 66.66,
+      "step": 2853,
+      "token_acc": 0.9480830670926518,
+      "train_speed(iter/s)": 0.241999
+    },
+    {
+      "epoch": 0.91328,
+      "grad_norm": 0.654009357880039,
+      "learning_rate": 4.1662186812539815e-06,
+      "loss": 0.3901631236076355,
+      "memory(GiB)": 66.66,
+      "step": 2854,
+      "token_acc": 0.9262472885032538,
+      "train_speed(iter/s)": 0.241999
+    },
+    {
+      "epoch": 0.9136,
+      "grad_norm": 0.5561578579629396,
+      "learning_rate": 4.1655611252349795e-06,
+      "loss": 0.312466025352478,
+      "memory(GiB)": 66.66,
+      "step": 2855,
+      "token_acc": 0.9206021860177356,
+      "train_speed(iter/s)": 0.242
+    },
+    {
+      "epoch": 0.91392,
+      "grad_norm": 0.5874391577057015,
+      "learning_rate": 4.164903361965787e-06,
+      "loss": 0.3104172646999359,
+      "memory(GiB)": 66.66,
+      "step": 2856,
+      "token_acc": 0.9516320474777448,
+      "train_speed(iter/s)": 0.241999
+    },
+    {
+      "epoch": 0.91424,
+      "grad_norm": 0.615571004210912,
+      "learning_rate": 4.1642453915282545e-06,
+      "loss": 0.3653981685638428,
+      "memory(GiB)": 66.66,
+      "step": 2857,
+      "token_acc": 0.9463848039215687,
+      "train_speed(iter/s)": 0.241999
+    },
+    {
+      "epoch": 0.91456,
+      "grad_norm": 0.6395493303988445,
+      "learning_rate": 4.1635872140042545e-06,
+      "loss": 0.3566439151763916,
+      "memory(GiB)": 66.66,
+      "step": 2858,
+      "token_acc": 0.8089103596349974,
+      "train_speed(iter/s)": 0.241997
+    },
+    {
+      "epoch": 0.91488,
+      "grad_norm": 0.649718902995997,
+      "learning_rate": 4.162928829475683e-06,
+      "loss": 0.3596912622451782,
+      "memory(GiB)": 66.66,
+      "step": 2859,
+      "token_acc": 0.8324682814302191,
+      "train_speed(iter/s)": 0.242
+    },
+    {
+      "epoch": 0.9152,
+      "grad_norm": 0.6120254312847329,
+      "learning_rate": 4.162270238024466e-06,
+      "loss": 0.38426291942596436,
+      "memory(GiB)": 66.66,
+      "step": 2860,
+      "token_acc": 0.9062730627306274,
+      "train_speed(iter/s)": 0.241998
+    },
+    {
+      "epoch": 0.91552,
+      "grad_norm": 0.6257545463866689,
+      "learning_rate": 4.1616114397325545e-06,
+      "loss": 0.3397254943847656,
+      "memory(GiB)": 66.66,
+      "step": 2861,
+      "token_acc": 0.8146283683742968,
+      "train_speed(iter/s)": 0.242
+    },
+    {
+      "epoch": 0.91584,
+      "grad_norm": 0.6578997542917135,
+      "learning_rate": 4.160952434681924e-06,
+      "loss": 0.39425593614578247,
+      "memory(GiB)": 66.66,
+      "step": 2862,
+      "token_acc": 0.9344854268764509,
+      "train_speed(iter/s)": 0.241997
+    },
+    {
+      "epoch": 0.91616,
+      "grad_norm": 0.6319739500967119,
+      "learning_rate": 4.160293222954576e-06,
+      "loss": 0.2772360146045685,
+      "memory(GiB)": 66.66,
+      "step": 2863,
+      "token_acc": 0.9295268516669994,
+      "train_speed(iter/s)": 0.241998
+    },
+    {
+      "epoch": 0.91648,
+      "grad_norm": 0.6087122481668373,
+      "learning_rate": 4.159633804632538e-06,
+      "loss": 0.3980293571949005,
+      "memory(GiB)": 66.66,
+      "step": 2864,
+      "token_acc": 0.9116455696202531,
+      "train_speed(iter/s)": 0.241998
+    },
+    {
+      "epoch": 0.9168,
+      "grad_norm": 0.6165025825805747,
+      "learning_rate": 4.158974179797864e-06,
+      "loss": 0.3978361189365387,
+      "memory(GiB)": 66.66,
+      "step": 2865,
+      "token_acc": 0.8578692493946731,
+      "train_speed(iter/s)": 0.24199
+    },
+    {
+      "epoch": 0.91712,
+      "grad_norm": 0.6299127806096525,
+      "learning_rate": 4.1583143485326325e-06,
+      "loss": 0.35704049468040466,
+      "memory(GiB)": 66.66,
+      "step": 2866,
+      "token_acc": 0.8955959347089621,
+      "train_speed(iter/s)": 0.241992
+    },
+    {
+      "epoch": 0.91744,
+      "grad_norm": 0.6153131233144756,
+      "learning_rate": 4.157654310918947e-06,
+      "loss": 0.39874839782714844,
+      "memory(GiB)": 66.66,
+      "step": 2867,
+      "token_acc": 0.8833664678595096,
+      "train_speed(iter/s)": 0.241983
+    },
+    {
+      "epoch": 0.91776,
+      "grad_norm": 0.6198940810089844,
+      "learning_rate": 4.156994067038939e-06,
+      "loss": 0.39577794075012207,
+      "memory(GiB)": 66.66,
+      "step": 2868,
+      "token_acc": 0.8676383691156194,
+      "train_speed(iter/s)": 0.241976
+    },
+    {
+      "epoch": 0.91808,
+      "grad_norm": 0.6092049692995067,
+      "learning_rate": 4.1563336169747624e-06,
+      "loss": 0.3929671049118042,
+      "memory(GiB)": 66.66,
+      "step": 2869,
+      "token_acc": 0.8844221105527639,
+      "train_speed(iter/s)": 0.241974
+    },
+    {
+      "epoch": 0.9184,
+      "grad_norm": 0.6400330572375402,
+      "learning_rate": 4.155672960808602e-06,
+      "loss": 0.4481660723686218,
+      "memory(GiB)": 66.66,
+      "step": 2870,
+      "token_acc": 0.8375307125307125,
+      "train_speed(iter/s)": 0.241971
+    },
+    {
+      "epoch": 0.91872,
+      "grad_norm": 0.6287185107266791,
+      "learning_rate": 4.155012098622663e-06,
+      "loss": 0.4335385859012604,
+      "memory(GiB)": 66.66,
+      "step": 2871,
+      "token_acc": 0.829104315766645,
+      "train_speed(iter/s)": 0.241972
+    },
+    {
+      "epoch": 0.91904,
+      "grad_norm": 0.6067587667657115,
+      "learning_rate": 4.154351030499178e-06,
+      "loss": 0.3867063820362091,
+      "memory(GiB)": 66.66,
+      "step": 2872,
+      "token_acc": 0.8857074109720885,
+      "train_speed(iter/s)": 0.24196
+    },
+    {
+      "epoch": 0.91936,
+      "grad_norm": 0.6419100089060076,
+      "learning_rate": 4.153689756520406e-06,
+      "loss": 0.3854118585586548,
+      "memory(GiB)": 66.66,
+      "step": 2873,
+      "token_acc": 0.8793342579750347,
+      "train_speed(iter/s)": 0.241959
+    },
+    {
+      "epoch": 0.91968,
+      "grad_norm": 0.5943225062360735,
+      "learning_rate": 4.153028276768631e-06,
+      "loss": 0.3353898525238037,
+      "memory(GiB)": 66.66,
+      "step": 2874,
+      "token_acc": 0.8718854592785422,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.6233163775073138,
+      "learning_rate": 4.1523665913261635e-06,
+      "loss": 0.35426223278045654,
+      "memory(GiB)": 66.66,
+      "step": 2875,
+      "token_acc": 0.9021810971579644,
+      "train_speed(iter/s)": 0.241965
+    },
+    {
+      "epoch": 0.92032,
+      "grad_norm": 0.5742697716043673,
+      "learning_rate": 4.1517047002753375e-06,
+      "loss": 0.3041720390319824,
+      "memory(GiB)": 66.66,
+      "step": 2876,
+      "token_acc": 0.8981513777467737,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.92064,
+      "grad_norm": 0.5887225218453093,
+      "learning_rate": 4.1510426036985136e-06,
+      "loss": 0.3404286801815033,
+      "memory(GiB)": 66.66,
+      "step": 2877,
+      "token_acc": 0.9293836026331538,
+      "train_speed(iter/s)": 0.241959
+    },
+    {
+      "epoch": 0.92096,
+      "grad_norm": 0.6532473805481854,
+      "learning_rate": 4.15038030167808e-06,
+      "loss": 0.372935950756073,
+      "memory(GiB)": 66.66,
+      "step": 2878,
+      "token_acc": 0.8863205759757484,
+      "train_speed(iter/s)": 0.241958
+    },
+    {
+      "epoch": 0.92128,
+      "grad_norm": 0.6044628955620216,
+      "learning_rate": 4.149717794296447e-06,
+      "loss": 0.3440532684326172,
+      "memory(GiB)": 66.66,
+      "step": 2879,
+      "token_acc": 0.8708163265306123,
+      "train_speed(iter/s)": 0.241957
+    },
+    {
+      "epoch": 0.9216,
+      "grad_norm": 0.6924865180937194,
+      "learning_rate": 4.149055081636053e-06,
+      "loss": 0.44844743609428406,
+      "memory(GiB)": 66.66,
+      "step": 2880,
+      "token_acc": 0.9225329476052716,
+      "train_speed(iter/s)": 0.241958
+    },
+    {
+      "epoch": 0.92192,
+      "grad_norm": 0.6683392616489452,
+      "learning_rate": 4.148392163779361e-06,
+      "loss": 0.42156192660331726,
+      "memory(GiB)": 66.66,
+      "step": 2881,
+      "token_acc": 0.8404582285554624,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.92224,
+      "grad_norm": 0.6589383005808556,
+      "learning_rate": 4.14772904080886e-06,
+      "loss": 0.31023067235946655,
+      "memory(GiB)": 66.66,
+      "step": 2882,
+      "token_acc": 0.9329381252315673,
+      "train_speed(iter/s)": 0.241966
+    },
+    {
+      "epoch": 0.92256,
+      "grad_norm": 0.6014764702873173,
+      "learning_rate": 4.147065712807063e-06,
+      "loss": 0.4576483368873596,
+      "memory(GiB)": 66.66,
+      "step": 2883,
+      "token_acc": 0.8922974324774925,
+      "train_speed(iter/s)": 0.241965
+    },
+    {
+      "epoch": 0.92288,
+      "grad_norm": 0.6362605494944622,
+      "learning_rate": 4.146402179856511e-06,
+      "loss": 0.4352269768714905,
+      "memory(GiB)": 66.66,
+      "step": 2884,
+      "token_acc": 0.949166004765687,
+      "train_speed(iter/s)": 0.241964
+    },
+    {
+      "epoch": 0.9232,
+      "grad_norm": 0.6407773749815381,
+      "learning_rate": 4.145738442039768e-06,
+      "loss": 0.32348719239234924,
+      "memory(GiB)": 66.66,
+      "step": 2885,
+      "token_acc": 0.9293419633225458,
+      "train_speed(iter/s)": 0.241964
+    },
+    {
+      "epoch": 0.92352,
+      "grad_norm": 0.6538057298550295,
+      "learning_rate": 4.145074499439426e-06,
+      "loss": 0.36404547095298767,
+      "memory(GiB)": 66.66,
+      "step": 2886,
+      "token_acc": 0.9376601195559351,
+      "train_speed(iter/s)": 0.241968
+    },
+    {
+      "epoch": 0.92384,
+      "grad_norm": 0.7292653115450158,
+      "learning_rate": 4.144410352138099e-06,
+      "loss": 0.3887181282043457,
+      "memory(GiB)": 66.66,
+      "step": 2887,
+      "token_acc": 0.9183266932270916,
+      "train_speed(iter/s)": 0.241964
+    },
+    {
+      "epoch": 0.92416,
+      "grad_norm": 0.5910306789257189,
+      "learning_rate": 4.14374600021843e-06,
+      "loss": 0.3959887623786926,
+      "memory(GiB)": 66.66,
+      "step": 2888,
+      "token_acc": 0.832178903621611,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.92448,
+      "grad_norm": 0.6621034938673431,
+      "learning_rate": 4.143081443763088e-06,
+      "loss": 0.3498196005821228,
+      "memory(GiB)": 66.66,
+      "step": 2889,
+      "token_acc": 0.9344380403458213,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.9248,
+      "grad_norm": 0.6633739257882585,
+      "learning_rate": 4.142416682854761e-06,
+      "loss": 0.35044679045677185,
+      "memory(GiB)": 66.66,
+      "step": 2890,
+      "token_acc": 0.9235869908430692,
+      "train_speed(iter/s)": 0.241956
+    },
+    {
+      "epoch": 0.92512,
+      "grad_norm": 0.600816253602654,
+      "learning_rate": 4.141751717576171e-06,
+      "loss": 0.3262496590614319,
+      "memory(GiB)": 66.66,
+      "step": 2891,
+      "token_acc": 0.8575518969219756,
+      "train_speed(iter/s)": 0.241957
+    },
+    {
+      "epoch": 0.92544,
+      "grad_norm": 0.6394312597365971,
+      "learning_rate": 4.141086548010059e-06,
+      "loss": 0.2785445749759674,
+      "memory(GiB)": 66.66,
+      "step": 2892,
+      "token_acc": 0.9415154134255258,
+      "train_speed(iter/s)": 0.241961
+    },
+    {
+      "epoch": 0.92576,
+      "grad_norm": 0.7150120359200851,
+      "learning_rate": 4.1404211742391955e-06,
+      "loss": 0.46983349323272705,
+      "memory(GiB)": 66.66,
+      "step": 2893,
+      "token_acc": 0.8857431749241659,
+      "train_speed(iter/s)": 0.241961
+    },
+    {
+      "epoch": 0.92608,
+      "grad_norm": 0.6205512149930323,
+      "learning_rate": 4.139755596346375e-06,
+      "loss": 0.2915668189525604,
+      "memory(GiB)": 66.66,
+      "step": 2894,
+      "token_acc": 0.944573418456181,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.9264,
+      "grad_norm": 0.6443605364007352,
+      "learning_rate": 4.139089814414413e-06,
+      "loss": 0.3622692823410034,
+      "memory(GiB)": 66.66,
+      "step": 2895,
+      "token_acc": 0.9538738738738739,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.92672,
+      "grad_norm": 0.5674918528562272,
+      "learning_rate": 4.13842382852616e-06,
+      "loss": 0.33774465322494507,
+      "memory(GiB)": 66.66,
+      "step": 2896,
+      "token_acc": 0.9018680539134547,
+      "train_speed(iter/s)": 0.241961
+    },
+    {
+      "epoch": 0.92704,
+      "grad_norm": 0.6510906775604471,
+      "learning_rate": 4.137757638764482e-06,
+      "loss": 0.40617066621780396,
+      "memory(GiB)": 66.66,
+      "step": 2897,
+      "token_acc": 0.9623015873015873,
+      "train_speed(iter/s)": 0.241964
+    },
+    {
+      "epoch": 0.92736,
+      "grad_norm": 0.6735411526851484,
+      "learning_rate": 4.137091245212278e-06,
+      "loss": 0.4234699606895447,
+      "memory(GiB)": 66.66,
+      "step": 2898,
+      "token_acc": 0.8520569620253164,
+      "train_speed(iter/s)": 0.241959
+    },
+    {
+      "epoch": 0.92768,
+      "grad_norm": 0.5817295952028607,
+      "learning_rate": 4.136424647952468e-06,
+      "loss": 0.3494800925254822,
+      "memory(GiB)": 66.66,
+      "step": 2899,
+      "token_acc": 0.8462579771804293,
+      "train_speed(iter/s)": 0.241958
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": 0.5821587824858144,
+      "learning_rate": 4.1357578470679985e-06,
+      "loss": 0.359661728143692,
+      "memory(GiB)": 66.66,
+      "step": 2900,
+      "token_acc": 0.93354943273906,
+      "train_speed(iter/s)": 0.241956
+    },
+    {
+      "epoch": 0.92832,
+      "grad_norm": 0.6688235155901585,
+      "learning_rate": 4.13509084264184e-06,
+      "loss": 0.3960998058319092,
+      "memory(GiB)": 66.66,
+      "step": 2901,
+      "token_acc": 0.9388145315487572,
+      "train_speed(iter/s)": 0.241958
+    },
+    {
+      "epoch": 0.92864,
+      "grad_norm": 0.5739508318780632,
+      "learning_rate": 4.134423634756992e-06,
+      "loss": 0.3053055703639984,
+      "memory(GiB)": 66.66,
+      "step": 2902,
+      "token_acc": 0.9105648535564853,
+      "train_speed(iter/s)": 0.241958
+    },
+    {
+      "epoch": 0.92896,
+      "grad_norm": 0.6002866172648322,
+      "learning_rate": 4.133756223496474e-06,
+      "loss": 0.35672658681869507,
+      "memory(GiB)": 66.66,
+      "step": 2903,
+      "token_acc": 0.8963815789473685,
+      "train_speed(iter/s)": 0.241958
+    },
+    {
+      "epoch": 0.92928,
+      "grad_norm": 0.6547317965600552,
+      "learning_rate": 4.133088608943337e-06,
+      "loss": 0.4138880968093872,
+      "memory(GiB)": 66.66,
+      "step": 2904,
+      "token_acc": 0.9499192245557351,
+      "train_speed(iter/s)": 0.241959
+    },
+    {
+      "epoch": 0.9296,
+      "grad_norm": 0.6107366709980583,
+      "learning_rate": 4.132420791180652e-06,
+      "loss": 0.3044928312301636,
+      "memory(GiB)": 66.66,
+      "step": 2905,
+      "token_acc": 0.907177033492823,
+      "train_speed(iter/s)": 0.241959
+    },
+    {
+      "epoch": 0.92992,
+      "grad_norm": 0.622492564092005,
+      "learning_rate": 4.131752770291517e-06,
+      "loss": 0.302993506193161,
+      "memory(GiB)": 66.66,
+      "step": 2906,
+      "token_acc": 0.8862275449101796,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.93024,
+      "grad_norm": 0.638621834598751,
+      "learning_rate": 4.131084546359058e-06,
+      "loss": 0.4519605040550232,
+      "memory(GiB)": 66.66,
+      "step": 2907,
+      "token_acc": 0.8805570433851098,
+      "train_speed(iter/s)": 0.241957
+    },
+    {
+      "epoch": 0.93056,
+      "grad_norm": 0.6177632748422991,
+      "learning_rate": 4.130416119466421e-06,
+      "loss": 0.2813361883163452,
+      "memory(GiB)": 66.66,
+      "step": 2908,
+      "token_acc": 0.9390316796174537,
+      "train_speed(iter/s)": 0.24196
+    },
+    {
+      "epoch": 0.93088,
+      "grad_norm": 0.6385786195384608,
+      "learning_rate": 4.129747489696781e-06,
+      "loss": 0.4961473345756531,
+      "memory(GiB)": 66.66,
+      "step": 2909,
+      "token_acc": 0.7822836429542365,
+      "train_speed(iter/s)": 0.241959
+    },
+    {
+      "epoch": 0.9312,
+      "grad_norm": 0.6398677411378381,
+      "learning_rate": 4.12907865713334e-06,
+      "loss": 0.44176948070526123,
+      "memory(GiB)": 66.66,
+      "step": 2910,
+      "token_acc": 0.9267902813299232,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.93152,
+      "grad_norm": 0.6512667257921944,
+      "learning_rate": 4.1284096218593185e-06,
+      "loss": 0.3655795454978943,
+      "memory(GiB)": 66.66,
+      "step": 2911,
+      "token_acc": 0.8618947368421053,
+      "train_speed(iter/s)": 0.241965
+    },
+    {
+      "epoch": 0.93184,
+      "grad_norm": 0.6588380895615531,
+      "learning_rate": 4.127740383957969e-06,
+      "loss": 0.35860782861709595,
+      "memory(GiB)": 66.66,
+      "step": 2912,
+      "token_acc": 0.9226713532513181,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.93216,
+      "grad_norm": 0.5899696039537213,
+      "learning_rate": 4.127070943512565e-06,
+      "loss": 0.32395651936531067,
+      "memory(GiB)": 66.66,
+      "step": 2913,
+      "token_acc": 0.9124603755181663,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.93248,
+      "grad_norm": 0.642701305977869,
+      "learning_rate": 4.126401300606408e-06,
+      "loss": 0.44578787684440613,
+      "memory(GiB)": 66.66,
+      "step": 2914,
+      "token_acc": 0.8042639593908629,
+      "train_speed(iter/s)": 0.241962
+    },
+    {
+      "epoch": 0.9328,
+      "grad_norm": 0.6057457405504517,
+      "learning_rate": 4.125731455322823e-06,
+      "loss": 0.4649224579334259,
+      "memory(GiB)": 66.66,
+      "step": 2915,
+      "token_acc": 0.8558974358974359,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.93312,
+      "grad_norm": 0.571703124713236,
+      "learning_rate": 4.125061407745161e-06,
+      "loss": 0.371432900428772,
+      "memory(GiB)": 66.66,
+      "step": 2916,
+      "token_acc": 0.8968430413517119,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.93344,
+      "grad_norm": 0.6234635347332752,
+      "learning_rate": 4.124391157956797e-06,
+      "loss": 0.4323589503765106,
+      "memory(GiB)": 66.66,
+      "step": 2917,
+      "token_acc": 0.8888449367088608,
+      "train_speed(iter/s)": 0.241957
+    },
+    {
+      "epoch": 0.93376,
+      "grad_norm": 0.5976193318184442,
+      "learning_rate": 4.123720706041132e-06,
+      "loss": 0.4138857424259186,
+      "memory(GiB)": 66.66,
+      "step": 2918,
+      "token_acc": 0.8962205053247024,
+      "train_speed(iter/s)": 0.241956
+    },
+    {
+      "epoch": 0.93408,
+      "grad_norm": 0.6192519541198338,
+      "learning_rate": 4.123050052081593e-06,
+      "loss": 0.3502770662307739,
+      "memory(GiB)": 66.66,
+      "step": 2919,
+      "token_acc": 0.8882531134298216,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.9344,
+      "grad_norm": 0.6071701300247223,
+      "learning_rate": 4.122379196161631e-06,
+      "loss": 0.33955395221710205,
+      "memory(GiB)": 66.66,
+      "step": 2920,
+      "token_acc": 0.908842523596622,
+      "train_speed(iter/s)": 0.241952
+    },
+    {
+      "epoch": 0.93472,
+      "grad_norm": 0.6244027740180339,
+      "learning_rate": 4.121708138364722e-06,
+      "loss": 0.41131335496902466,
+      "memory(GiB)": 66.66,
+      "step": 2921,
+      "token_acc": 0.8880057803468208,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.93504,
+      "grad_norm": 0.5810412674982729,
+      "learning_rate": 4.121036878774367e-06,
+      "loss": 0.38819658756256104,
+      "memory(GiB)": 66.66,
+      "step": 2922,
+      "token_acc": 0.8701964133219471,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.93536,
+      "grad_norm": 0.6529107136058476,
+      "learning_rate": 4.1203654174740934e-06,
+      "loss": 0.4315199553966522,
+      "memory(GiB)": 66.66,
+      "step": 2923,
+      "token_acc": 0.924992314786351,
+      "train_speed(iter/s)": 0.241949
+    },
+    {
+      "epoch": 0.93568,
+      "grad_norm": 0.5869871734513932,
+      "learning_rate": 4.119693754547453e-06,
+      "loss": 0.3431830406188965,
+      "memory(GiB)": 66.66,
+      "step": 2924,
+      "token_acc": 0.861845051500224,
+      "train_speed(iter/s)": 0.24195
+    },
+    {
+      "epoch": 0.936,
+      "grad_norm": 0.5856229946793259,
+      "learning_rate": 4.119021890078022e-06,
+      "loss": 0.34740936756134033,
+      "memory(GiB)": 66.66,
+      "step": 2925,
+      "token_acc": 0.8650571243802544,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.93632,
+      "grad_norm": 0.6014528241536774,
+      "learning_rate": 4.118349824149403e-06,
+      "loss": 0.32921451330184937,
+      "memory(GiB)": 66.66,
+      "step": 2926,
+      "token_acc": 0.8974993129980764,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.93664,
+      "grad_norm": 0.5943196152130494,
+      "learning_rate": 4.1176775568452236e-06,
+      "loss": 0.36843007802963257,
+      "memory(GiB)": 66.66,
+      "step": 2927,
+      "token_acc": 0.9050355774493706,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.93696,
+      "grad_norm": 0.6433776502831484,
+      "learning_rate": 4.117005088249133e-06,
+      "loss": 0.34510159492492676,
+      "memory(GiB)": 66.66,
+      "step": 2928,
+      "token_acc": 0.9081783289046353,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.93728,
+      "grad_norm": 0.6350265779957687,
+      "learning_rate": 4.11633241844481e-06,
+      "loss": 0.3672202229499817,
+      "memory(GiB)": 66.66,
+      "step": 2929,
+      "token_acc": 0.8624416605256694,
+      "train_speed(iter/s)": 0.241944
+    },
+    {
+      "epoch": 0.9376,
+      "grad_norm": 0.6522014728379575,
+      "learning_rate": 4.1156595475159576e-06,
+      "loss": 0.3533129394054413,
+      "memory(GiB)": 66.66,
+      "step": 2930,
+      "token_acc": 0.8316082802547771,
+      "train_speed(iter/s)": 0.241946
+    },
+    {
+      "epoch": 0.93792,
+      "grad_norm": 0.6151902243391963,
+      "learning_rate": 4.114986475546302e-06,
+      "loss": 0.31591346859931946,
+      "memory(GiB)": 66.66,
+      "step": 2931,
+      "token_acc": 0.8450257629805786,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.93824,
+      "grad_norm": 0.612205768350081,
+      "learning_rate": 4.114313202619595e-06,
+      "loss": 0.4112699627876282,
+      "memory(GiB)": 66.66,
+      "step": 2932,
+      "token_acc": 0.9312297734627831,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.93856,
+      "grad_norm": 0.5982338398408271,
+      "learning_rate": 4.113639728819614e-06,
+      "loss": 0.38273996114730835,
+      "memory(GiB)": 66.66,
+      "step": 2933,
+      "token_acc": 0.9098474341192788,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.93888,
+      "grad_norm": 0.5875464875521255,
+      "learning_rate": 4.112966054230161e-06,
+      "loss": 0.3821977972984314,
+      "memory(GiB)": 66.66,
+      "step": 2934,
+      "token_acc": 0.8183209026582521,
+      "train_speed(iter/s)": 0.241945
+    },
+    {
+      "epoch": 0.9392,
+      "grad_norm": 0.5968318901403439,
+      "learning_rate": 4.112292178935065e-06,
+      "loss": 0.38466328382492065,
+      "memory(GiB)": 66.66,
+      "step": 2935,
+      "token_acc": 0.9095449500554939,
+      "train_speed(iter/s)": 0.241946
+    },
+    {
+      "epoch": 0.93952,
+      "grad_norm": 0.6330803062942606,
+      "learning_rate": 4.111618103018175e-06,
+      "loss": 0.4156482517719269,
+      "memory(GiB)": 66.66,
+      "step": 2936,
+      "token_acc": 0.8959440559440559,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.93984,
+      "grad_norm": 0.6100801329319423,
+      "learning_rate": 4.1109438265633695e-06,
+      "loss": 0.3016294240951538,
+      "memory(GiB)": 66.66,
+      "step": 2937,
+      "token_acc": 0.8141923436041083,
+      "train_speed(iter/s)": 0.241947
+    },
+    {
+      "epoch": 0.94016,
+      "grad_norm": 0.6318446969147109,
+      "learning_rate": 4.11026934965455e-06,
+      "loss": 0.4491426944732666,
+      "memory(GiB)": 66.66,
+      "step": 2938,
+      "token_acc": 0.8576525821596244,
+      "train_speed(iter/s)": 0.241948
+    },
+    {
+      "epoch": 0.94048,
+      "grad_norm": 0.7028418629146035,
+      "learning_rate": 4.1095946723756444e-06,
+      "loss": 0.4204963743686676,
+      "memory(GiB)": 66.66,
+      "step": 2939,
+      "token_acc": 0.8414198161389173,
+      "train_speed(iter/s)": 0.241951
+    },
+    {
+      "epoch": 0.9408,
+      "grad_norm": 0.5912495864284278,
+      "learning_rate": 4.108919794810604e-06,
+      "loss": 0.33847230672836304,
+      "memory(GiB)": 66.66,
+      "step": 2940,
+      "token_acc": 0.8582717746091737,
+      "train_speed(iter/s)": 0.241953
+    },
+    {
+      "epoch": 0.94112,
+      "grad_norm": 0.6090067544602069,
+      "learning_rate": 4.1082447170434064e-06,
+      "loss": 0.2856263816356659,
+      "memory(GiB)": 66.66,
+      "step": 2941,
+      "token_acc": 0.9563212154096582,
+      "train_speed(iter/s)": 0.241951
+    },
+    {
+      "epoch": 0.94144,
+      "grad_norm": 0.6731152044018797,
+      "learning_rate": 4.107569439158052e-06,
+      "loss": 0.49434053897857666,
+      "memory(GiB)": 66.66,
+      "step": 2942,
+      "token_acc": 0.8163156491602239,
+      "train_speed(iter/s)": 0.241953
+    },
+    {
+      "epoch": 0.94176,
+      "grad_norm": 0.6714764303584655,
+      "learning_rate": 4.1068939612385685e-06,
+      "loss": 0.41708290576934814,
+      "memory(GiB)": 66.66,
+      "step": 2943,
+      "token_acc": 0.8676176176176176,
+      "train_speed(iter/s)": 0.241957
+    },
+    {
+      "epoch": 0.94208,
+      "grad_norm": 0.6116673295729926,
+      "learning_rate": 4.106218283369007e-06,
+      "loss": 0.33226558566093445,
+      "memory(GiB)": 66.66,
+      "step": 2944,
+      "token_acc": 0.9056468906361687,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.9424,
+      "grad_norm": 0.6834885544254642,
+      "learning_rate": 4.105542405633443e-06,
+      "loss": 0.4159301221370697,
+      "memory(GiB)": 66.66,
+      "step": 2945,
+      "token_acc": 0.9168474331164136,
+      "train_speed(iter/s)": 0.241954
+    },
+    {
+      "epoch": 0.94272,
+      "grad_norm": 0.6140868941763095,
+      "learning_rate": 4.104866328115979e-06,
+      "loss": 0.4040244221687317,
+      "memory(GiB)": 66.66,
+      "step": 2946,
+      "token_acc": 0.8057909604519774,
+      "train_speed(iter/s)": 0.241957
+    },
+    {
+      "epoch": 0.94304,
+      "grad_norm": 0.6122029989583873,
+      "learning_rate": 4.104190050900741e-06,
+      "loss": 0.38114869594573975,
+      "memory(GiB)": 66.66,
+      "step": 2947,
+      "token_acc": 0.8622912393788456,
+      "train_speed(iter/s)": 0.24196
+    },
+    {
+      "epoch": 0.94336,
+      "grad_norm": 0.7084521410614195,
+      "learning_rate": 4.10351357407188e-06,
+      "loss": 0.37367966771125793,
+      "memory(GiB)": 66.66,
+      "step": 2948,
+      "token_acc": 0.9103448275862069,
+      "train_speed(iter/s)": 0.241964
+    },
+    {
+      "epoch": 0.94368,
+      "grad_norm": 0.6762606145293129,
+      "learning_rate": 4.102836897713571e-06,
+      "loss": 0.3899470567703247,
+      "memory(GiB)": 66.66,
+      "step": 2949,
+      "token_acc": 0.9567791592658378,
+      "train_speed(iter/s)": 0.241965
+    },
+    {
+      "epoch": 0.944,
+      "grad_norm": 0.6619061785879006,
+      "learning_rate": 4.102160021910016e-06,
+      "loss": 0.38056236505508423,
+      "memory(GiB)": 66.66,
+      "step": 2950,
+      "token_acc": 0.8500611995104039,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.94432,
+      "grad_norm": 0.5910012478496788,
+      "learning_rate": 4.101482946745438e-06,
+      "loss": 0.39300402998924255,
+      "memory(GiB)": 66.66,
+      "step": 2951,
+      "token_acc": 0.8503620273531778,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.94464,
+      "grad_norm": 0.6274786330413604,
+      "learning_rate": 4.10080567230409e-06,
+      "loss": 0.3887956738471985,
+      "memory(GiB)": 66.66,
+      "step": 2952,
+      "token_acc": 0.8898840885142255,
+      "train_speed(iter/s)": 0.241961
+    },
+    {
+      "epoch": 0.94496,
+      "grad_norm": 0.5908871305217908,
+      "learning_rate": 4.100128198670246e-06,
+      "loss": 0.3808152675628662,
+      "memory(GiB)": 66.66,
+      "step": 2953,
+      "token_acc": 0.8850987432675045,
+      "train_speed(iter/s)": 0.241961
+    },
+    {
+      "epoch": 0.94528,
+      "grad_norm": 0.6672717756104202,
+      "learning_rate": 4.099450525928204e-06,
+      "loss": 0.368002712726593,
+      "memory(GiB)": 66.66,
+      "step": 2954,
+      "token_acc": 0.9303030303030303,
+      "train_speed(iter/s)": 0.241965
+    },
+    {
+      "epoch": 0.9456,
+      "grad_norm": 0.5715030830468448,
+      "learning_rate": 4.098772654162293e-06,
+      "loss": 0.42624080181121826,
+      "memory(GiB)": 66.66,
+      "step": 2955,
+      "token_acc": 0.8327705418877633,
+      "train_speed(iter/s)": 0.241963
+    },
+    {
+      "epoch": 0.94592,
+      "grad_norm": 0.6185689227030715,
+      "learning_rate": 4.098094583456858e-06,
+      "loss": 0.31410109996795654,
+      "memory(GiB)": 66.66,
+      "step": 2956,
+      "token_acc": 0.9094296359988535,
+      "train_speed(iter/s)": 0.241966
+    },
+    {
+      "epoch": 0.94624,
+      "grad_norm": 0.616551327237591,
+      "learning_rate": 4.097416313896275e-06,
+      "loss": 0.3542863130569458,
+      "memory(GiB)": 66.66,
+      "step": 2957,
+      "token_acc": 0.9197926197011284,
+      "train_speed(iter/s)": 0.241964
+    },
+    {
+      "epoch": 0.94656,
+      "grad_norm": 0.7217351035176977,
+      "learning_rate": 4.096737845564944e-06,
+      "loss": 0.3976970911026001,
+      "memory(GiB)": 66.66,
+      "step": 2958,
+      "token_acc": 0.8387997208653175,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.94688,
+      "grad_norm": 0.6316196797746252,
+      "learning_rate": 4.096059178547287e-06,
+      "loss": 0.3226151466369629,
+      "memory(GiB)": 66.66,
+      "step": 2959,
+      "token_acc": 0.9224102352455633,
+      "train_speed(iter/s)": 0.241968
+    },
+    {
+      "epoch": 0.9472,
+      "grad_norm": 0.6185276034160787,
+      "learning_rate": 4.095380312927752e-06,
+      "loss": 0.34229812026023865,
+      "memory(GiB)": 66.66,
+      "step": 2960,
+      "token_acc": 0.894698085419735,
+      "train_speed(iter/s)": 0.241971
+    },
+    {
+      "epoch": 0.94752,
+      "grad_norm": 0.7193843367381781,
+      "learning_rate": 4.094701248790813e-06,
+      "loss": 0.40861397981643677,
+      "memory(GiB)": 66.66,
+      "step": 2961,
+      "token_acc": 0.8497138591689475,
+      "train_speed(iter/s)": 0.241972
+    },
+    {
+      "epoch": 0.94784,
+      "grad_norm": 0.6016694015757362,
+      "learning_rate": 4.094021986220967e-06,
+      "loss": 0.3742164373397827,
+      "memory(GiB)": 66.66,
+      "step": 2962,
+      "token_acc": 0.9395424836601307,
+      "train_speed(iter/s)": 0.241975
+    },
+    {
+      "epoch": 0.94816,
+      "grad_norm": 0.6342376626994407,
+      "learning_rate": 4.093342525302738e-06,
+      "loss": 0.35628917813301086,
+      "memory(GiB)": 66.66,
+      "step": 2963,
+      "token_acc": 0.8737078651685394,
+      "train_speed(iter/s)": 0.241977
+    },
+    {
+      "epoch": 0.94848,
+      "grad_norm": 0.6296730556887804,
+      "learning_rate": 4.092662866120671e-06,
+      "loss": 0.33454737067222595,
+      "memory(GiB)": 66.66,
+      "step": 2964,
+      "token_acc": 0.8515185601799775,
+      "train_speed(iter/s)": 0.241981
+    },
+    {
+      "epoch": 0.9488,
+      "grad_norm": 0.6417179547890193,
+      "learning_rate": 4.091983008759341e-06,
+      "loss": 0.3254338204860687,
+      "memory(GiB)": 66.66,
+      "step": 2965,
+      "token_acc": 0.9098451327433629,
+      "train_speed(iter/s)": 0.241984
+    },
+    {
+      "epoch": 0.94912,
+      "grad_norm": 0.658290508605123,
+      "learning_rate": 4.0913029533033396e-06,
+      "loss": 0.3956305682659149,
+      "memory(GiB)": 66.66,
+      "step": 2966,
+      "token_acc": 0.9237894736842105,
+      "train_speed(iter/s)": 0.241982
+    },
+    {
+      "epoch": 0.94944,
+      "grad_norm": 0.6058754853577845,
+      "learning_rate": 4.090622699837293e-06,
+      "loss": 0.4270566999912262,
+      "memory(GiB)": 66.66,
+      "step": 2967,
+      "token_acc": 0.8706192990878541,
+      "train_speed(iter/s)": 0.241976
+    },
+    {
+      "epoch": 0.94976,
+      "grad_norm": 0.5822890144738433,
+      "learning_rate": 4.089942248445843e-06,
+      "loss": 0.2548324763774872,
+      "memory(GiB)": 66.66,
+      "step": 2968,
+      "token_acc": 0.9579288025889967,
+      "train_speed(iter/s)": 0.241979
+    },
+    {
+      "epoch": 0.95008,
+      "grad_norm": 0.6179659813511624,
+      "learning_rate": 4.089261599213662e-06,
+      "loss": 0.45496895909309387,
+      "memory(GiB)": 66.66,
+      "step": 2969,
+      "token_acc": 0.8260309278350515,
+      "train_speed(iter/s)": 0.241979
+    },
+    {
+      "epoch": 0.9504,
+      "grad_norm": 0.5991793350387122,
+      "learning_rate": 4.0885807522254435e-06,
+      "loss": 0.39090144634246826,
+      "memory(GiB)": 66.66,
+      "step": 2970,
+      "token_acc": 0.936648717136522,
+      "train_speed(iter/s)": 0.241975
+    },
+    {
+      "epoch": 0.95072,
+      "grad_norm": 0.5822639025591528,
+      "learning_rate": 4.08789970756591e-06,
+      "loss": 0.3107174038887024,
+      "memory(GiB)": 66.66,
+      "step": 2971,
+      "token_acc": 0.910126582278481,
+      "train_speed(iter/s)": 0.241977
+    },
+    {
+      "epoch": 0.95104,
+      "grad_norm": 0.6065274390245422,
+      "learning_rate": 4.087218465319802e-06,
+      "loss": 0.39779365062713623,
+      "memory(GiB)": 66.66,
+      "step": 2972,
+      "token_acc": 0.8569556671762394,
+      "train_speed(iter/s)": 0.241974
+    },
+    {
+      "epoch": 0.95136,
+      "grad_norm": 0.6381535002301381,
+      "learning_rate": 4.086537025571893e-06,
+      "loss": 0.33821016550064087,
+      "memory(GiB)": 66.66,
+      "step": 2973,
+      "token_acc": 0.8676822633297062,
+      "train_speed(iter/s)": 0.241971
+    },
+    {
+      "epoch": 0.95168,
+      "grad_norm": 0.5887102029119905,
+      "learning_rate": 4.085855388406971e-06,
+      "loss": 0.3720998764038086,
+      "memory(GiB)": 66.66,
+      "step": 2974,
+      "token_acc": 0.8368659204572517,
+      "train_speed(iter/s)": 0.241972
+    },
+    {
+      "epoch": 0.952,
+      "grad_norm": 0.6437600487936562,
+      "learning_rate": 4.085173553909857e-06,
+      "loss": 0.3438633382320404,
+      "memory(GiB)": 66.66,
+      "step": 2975,
+      "token_acc": 0.8991743807855892,
+      "train_speed(iter/s)": 0.241976
+    },
+    {
+      "epoch": 0.95232,
+      "grad_norm": 0.6072093227722747,
+      "learning_rate": 4.0844915221653925e-06,
+      "loss": 0.39963439106941223,
+      "memory(GiB)": 66.66,
+      "step": 2976,
+      "token_acc": 0.8821027043451838,
+      "train_speed(iter/s)": 0.241977
+    },
+    {
+      "epoch": 0.95264,
+      "grad_norm": 0.7221441655301971,
+      "learning_rate": 4.083809293258445e-06,
+      "loss": 0.3541724681854248,
+      "memory(GiB)": 66.66,
+      "step": 2977,
+      "token_acc": 0.8941914371420779,
+      "train_speed(iter/s)": 0.241976
+    },
+    {
+      "epoch": 0.95296,
+      "grad_norm": 0.7528018155202961,
+      "learning_rate": 4.083126867273907e-06,
+      "loss": 0.45705369114875793,
+      "memory(GiB)": 66.66,
+      "step": 2978,
+      "token_acc": 0.8940364711680631,
+      "train_speed(iter/s)": 0.241979
+    },
+    {
+      "epoch": 0.95328,
+      "grad_norm": 0.6067131992814113,
+      "learning_rate": 4.082444244296692e-06,
+      "loss": 0.3199448585510254,
+      "memory(GiB)": 66.66,
+      "step": 2979,
+      "token_acc": 0.9192047377326565,
+      "train_speed(iter/s)": 0.241982
+    },
+    {
+      "epoch": 0.9536,
+      "grad_norm": 0.749447828226131,
+      "learning_rate": 4.081761424411743e-06,
+      "loss": 0.37176263332366943,
+      "memory(GiB)": 66.66,
+      "step": 2980,
+      "token_acc": 0.9027375201288245,
+      "train_speed(iter/s)": 0.241983
+    },
+    {
+      "epoch": 0.95392,
+      "grad_norm": 0.6496557733638445,
+      "learning_rate": 4.081078407704024e-06,
+      "loss": 0.3466184139251709,
+      "memory(GiB)": 66.66,
+      "step": 2981,
+      "token_acc": 0.8631656804733728,
+      "train_speed(iter/s)": 0.241987
+    },
+    {
+      "epoch": 0.95424,
+      "grad_norm": 0.6258478464582238,
+      "learning_rate": 4.080395194258525e-06,
+      "loss": 0.37454187870025635,
+      "memory(GiB)": 66.66,
+      "step": 2982,
+      "token_acc": 0.9440231130371975,
+      "train_speed(iter/s)": 0.241987
+    },
+    {
+      "epoch": 0.95456,
+      "grad_norm": 0.6003382652497385,
+      "learning_rate": 4.07971178416026e-06,
+      "loss": 0.3810883164405823,
+      "memory(GiB)": 66.66,
+      "step": 2983,
+      "token_acc": 0.9255663430420712,
+      "train_speed(iter/s)": 0.241985
+    },
+    {
+      "epoch": 0.95488,
+      "grad_norm": 0.6250185623024115,
+      "learning_rate": 4.079028177494266e-06,
+      "loss": 0.4427996575832367,
+      "memory(GiB)": 66.66,
+      "step": 2984,
+      "token_acc": 0.8139147802929427,
+      "train_speed(iter/s)": 0.241984
+    },
+    {
+      "epoch": 0.9552,
+      "grad_norm": 0.6135423036147017,
+      "learning_rate": 4.078344374345609e-06,
+      "loss": 0.33052393794059753,
+      "memory(GiB)": 66.66,
+      "step": 2985,
+      "token_acc": 0.9467418546365914,
+      "train_speed(iter/s)": 0.241987
+    },
+    {
+      "epoch": 0.95552,
+      "grad_norm": 0.6546441545660255,
+      "learning_rate": 4.077660374799373e-06,
+      "loss": 0.35952991247177124,
+      "memory(GiB)": 66.66,
+      "step": 2986,
+      "token_acc": 0.8387665198237886,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.95584,
+      "grad_norm": 0.660392477909989,
+      "learning_rate": 4.076976178940674e-06,
+      "loss": 0.3669391870498657,
+      "memory(GiB)": 66.66,
+      "step": 2987,
+      "token_acc": 0.936,
+      "train_speed(iter/s)": 0.241991
+    },
+    {
+      "epoch": 0.95616,
+      "grad_norm": 0.6273378811480925,
+      "learning_rate": 4.076291786854645e-06,
+      "loss": 0.37068483233451843,
+      "memory(GiB)": 66.66,
+      "step": 2988,
+      "token_acc": 0.913337250293772,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.95648,
+      "grad_norm": 0.6794380367555433,
+      "learning_rate": 4.0756071986264466e-06,
+      "loss": 0.39124903082847595,
+      "memory(GiB)": 66.66,
+      "step": 2989,
+      "token_acc": 0.8602002748870999,
+      "train_speed(iter/s)": 0.241985
+    },
+    {
+      "epoch": 0.9568,
+      "grad_norm": 0.6615056594296518,
+      "learning_rate": 4.074922414341266e-06,
+      "loss": 0.4679560363292694,
+      "memory(GiB)": 66.66,
+      "step": 2990,
+      "token_acc": 0.9139633286318759,
+      "train_speed(iter/s)": 0.241979
+    },
+    {
+      "epoch": 0.95712,
+      "grad_norm": 0.6507779827555994,
+      "learning_rate": 4.074237434084312e-06,
+      "loss": 0.39188140630722046,
+      "memory(GiB)": 66.66,
+      "step": 2991,
+      "token_acc": 0.8710816777041943,
+      "train_speed(iter/s)": 0.241977
+    },
+    {
+      "epoch": 0.95744,
+      "grad_norm": 0.6414540904377284,
+      "learning_rate": 4.0735522579408175e-06,
+      "loss": 0.42853617668151855,
+      "memory(GiB)": 66.66,
+      "step": 2992,
+      "token_acc": 0.7780212899185974,
+      "train_speed(iter/s)": 0.241976
+    },
+    {
+      "epoch": 0.95776,
+      "grad_norm": 0.610022496744564,
+      "learning_rate": 4.072866885996042e-06,
+      "loss": 0.3788983225822449,
+      "memory(GiB)": 66.66,
+      "step": 2993,
+      "token_acc": 0.8505906879777624,
+      "train_speed(iter/s)": 0.241977
+    },
+    {
+      "epoch": 0.95808,
+      "grad_norm": 0.5392509630539425,
+      "learning_rate": 4.072181318335268e-06,
+      "loss": 0.2577515244483948,
+      "memory(GiB)": 66.66,
+      "step": 2994,
+      "token_acc": 0.9489414694894147,
+      "train_speed(iter/s)": 0.24198
+    },
+    {
+      "epoch": 0.9584,
+      "grad_norm": 0.5947118426695396,
+      "learning_rate": 4.071495555043802e-06,
+      "loss": 0.3890516757965088,
+      "memory(GiB)": 66.66,
+      "step": 2995,
+      "token_acc": 0.8427968851395198,
+      "train_speed(iter/s)": 0.241975
+    },
+    {
+      "epoch": 0.95872,
+      "grad_norm": 0.583465048973209,
+      "learning_rate": 4.070809596206976e-06,
+      "loss": 0.3674396872520447,
+      "memory(GiB)": 66.66,
+      "step": 2996,
+      "token_acc": 0.8515733227785474,
+      "train_speed(iter/s)": 0.241971
+    },
+    {
+      "epoch": 0.95904,
+      "grad_norm": 0.594771638851312,
+      "learning_rate": 4.0701234419101445e-06,
+      "loss": 0.33433184027671814,
+      "memory(GiB)": 66.66,
+      "step": 2997,
+      "token_acc": 0.9198092761161681,
+      "train_speed(iter/s)": 0.241967
+    },
+    {
+      "epoch": 0.95936,
+      "grad_norm": 0.6361016313798437,
+      "learning_rate": 4.069437092238689e-06,
+      "loss": 0.3571557402610779,
+      "memory(GiB)": 66.66,
+      "step": 2998,
+      "token_acc": 0.8709959231217239,
+      "train_speed(iter/s)": 0.24197
+    },
+    {
+      "epoch": 0.95968,
+      "grad_norm": 0.6548228557823401,
+      "learning_rate": 4.068750547278011e-06,
+      "loss": 0.409174382686615,
+      "memory(GiB)": 66.66,
+      "step": 2999,
+      "token_acc": 0.8993672793009942,
+      "train_speed(iter/s)": 0.241973
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.6535223083405278,
+      "learning_rate": 4.068063807113543e-06,
+      "loss": 0.3579319715499878,
+      "memory(GiB)": 66.66,
+      "step": 3000,
+      "token_acc": 0.7806144526179143,
+      "train_speed(iter/s)": 0.241974
+    },
+    {
+      "epoch": 0.96032,
+      "grad_norm": 0.7078368438447441,
+      "learning_rate": 4.067376871830736e-06,
+      "loss": 0.3747713565826416,
+      "memory(GiB)": 66.66,
+      "step": 3001,
+      "token_acc": 0.9166243009659379,
+      "train_speed(iter/s)": 0.241977
+    },
+    {
+      "epoch": 0.96064,
+      "grad_norm": 0.6456715886886405,
+      "learning_rate": 4.066689741515067e-06,
+      "loss": 0.328687846660614,
+      "memory(GiB)": 66.66,
+      "step": 3002,
+      "token_acc": 0.877457581470509,
+      "train_speed(iter/s)": 0.241981
+    },
+    {
+      "epoch": 0.96096,
+      "grad_norm": 0.6609699174036103,
+      "learning_rate": 4.066002416252037e-06,
+      "loss": 0.3238036334514618,
+      "memory(GiB)": 66.66,
+      "step": 3003,
+      "token_acc": 0.8964850048371493,
+      "train_speed(iter/s)": 0.241985
+    },
+    {
+      "epoch": 0.96128,
+      "grad_norm": 0.5855820448140924,
+      "learning_rate": 4.065314896127172e-06,
+      "loss": 0.36559781432151794,
+      "memory(GiB)": 66.66,
+      "step": 3004,
+      "token_acc": 0.8336743044189853,
+      "train_speed(iter/s)": 0.241982
+    },
+    {
+      "epoch": 0.9616,
+      "grad_norm": 0.6681246800696711,
+      "learning_rate": 4.064627181226024e-06,
+      "loss": 0.43714722990989685,
+      "memory(GiB)": 66.66,
+      "step": 3005,
+      "token_acc": 0.8302542925450989,
+      "train_speed(iter/s)": 0.241974
+    },
+    {
+      "epoch": 0.96192,
+      "grad_norm": 0.5946887311925589,
+      "learning_rate": 4.063939271634165e-06,
+      "loss": 0.40838074684143066,
+      "memory(GiB)": 66.66,
+      "step": 3006,
+      "token_acc": 0.8466494845360825,
+      "train_speed(iter/s)": 0.241971
+    },
+    {
+      "epoch": 0.96224,
+      "grad_norm": 0.6520419172405106,
+      "learning_rate": 4.063251167437194e-06,
+      "loss": 0.3868313133716583,
+      "memory(GiB)": 66.66,
+      "step": 3007,
+      "token_acc": 0.9199457259158752,
+      "train_speed(iter/s)": 0.241974
+    },
+    {
+      "epoch": 0.96256,
+      "grad_norm": 0.711206408629767,
+      "learning_rate": 4.062562868720733e-06,
+      "loss": 0.40721631050109863,
+      "memory(GiB)": 66.66,
+      "step": 3008,
+      "token_acc": 0.888021534320323,
+      "train_speed(iter/s)": 0.241973
+    },
+    {
+      "epoch": 0.96288,
+      "grad_norm": 0.6236447191350873,
+      "learning_rate": 4.061874375570429e-06,
+      "loss": 0.40300124883651733,
+      "memory(GiB)": 66.66,
+      "step": 3009,
+      "token_acc": 0.8934329532048761,
+      "train_speed(iter/s)": 0.241975
+    },
+    {
+      "epoch": 0.9632,
+      "grad_norm": 0.6360245984150391,
+      "learning_rate": 4.0611856880719545e-06,
+      "loss": 0.4260992705821991,
+      "memory(GiB)": 66.66,
+      "step": 3010,
+      "token_acc": 0.8623459096002989,
+      "train_speed(iter/s)": 0.241979
+    },
+    {
+      "epoch": 0.96352,
+      "grad_norm": 0.6212492912295527,
+      "learning_rate": 4.0604968063110025e-06,
+      "loss": 0.3947071433067322,
+      "memory(GiB)": 66.66,
+      "step": 3011,
+      "token_acc": 0.8578117299162149,
+      "train_speed(iter/s)": 0.241981
+    },
+    {
+      "epoch": 0.96384,
+      "grad_norm": 0.6347943959276141,
+      "learning_rate": 4.059807730373295e-06,
+      "loss": 0.28062084317207336,
+      "memory(GiB)": 66.66,
+      "step": 3012,
+      "token_acc": 0.9196113074204947,
+      "train_speed(iter/s)": 0.241983
+    },
+    {
+      "epoch": 0.96416,
+      "grad_norm": 0.6547350471980983,
+      "learning_rate": 4.059118460344573e-06,
+      "loss": 0.42081892490386963,
+      "memory(GiB)": 66.66,
+      "step": 3013,
+      "token_acc": 0.8570176975643946,
+      "train_speed(iter/s)": 0.241983
+    },
+    {
+      "epoch": 0.96448,
+      "grad_norm": 0.6059409795702251,
+      "learning_rate": 4.058428996310606e-06,
+      "loss": 0.4065864682197571,
+      "memory(GiB)": 66.66,
+      "step": 3014,
+      "token_acc": 0.8469165659008464,
+      "train_speed(iter/s)": 0.241983
+    },
+    {
+      "epoch": 0.9648,
+      "grad_norm": 0.6178606642858232,
+      "learning_rate": 4.057739338357185e-06,
+      "loss": 0.4114588797092438,
+      "memory(GiB)": 66.66,
+      "step": 3015,
+      "token_acc": 0.9301407059985188,
+      "train_speed(iter/s)": 0.241976
+    },
+    {
+      "epoch": 0.96512,
+      "grad_norm": 0.7333862762957146,
+      "learning_rate": 4.057049486570126e-06,
+      "loss": 0.424064576625824,
+      "memory(GiB)": 66.66,
+      "step": 3016,
+      "token_acc": 0.8674188998589563,
+      "train_speed(iter/s)": 0.241976
+    },
+    {
+      "epoch": 0.96544,
+      "grad_norm": 0.5976711442064185,
+      "learning_rate": 4.056359441035268e-06,
+      "loss": 0.3474409580230713,
+      "memory(GiB)": 66.66,
+      "step": 3017,
+      "token_acc": 0.9341959334565619,
+      "train_speed(iter/s)": 0.241976
+    },
+    {
+      "epoch": 0.96576,
+      "grad_norm": 0.7912110655993918,
+      "learning_rate": 4.055669201838478e-06,
+      "loss": 0.33244842290878296,
+      "memory(GiB)": 66.66,
+      "step": 3018,
+      "token_acc": 0.8931829092654825,
+      "train_speed(iter/s)": 0.241974
+    },
+    {
+      "epoch": 0.96608,
+      "grad_norm": 0.5873231619590626,
+      "learning_rate": 4.054978769065641e-06,
+      "loss": 0.4252549707889557,
+      "memory(GiB)": 66.66,
+      "step": 3019,
+      "token_acc": 0.830471584038694,
+      "train_speed(iter/s)": 0.241974
+    },
+    {
+      "epoch": 0.9664,
+      "grad_norm": 0.6538011855817928,
+      "learning_rate": 4.054288142802673e-06,
+      "loss": 0.40989792346954346,
+      "memory(GiB)": 66.66,
+      "step": 3020,
+      "token_acc": 0.9036144578313253,
+      "train_speed(iter/s)": 0.241972
+    },
+    {
+      "epoch": 0.96672,
+      "grad_norm": 0.6421693405707248,
+      "learning_rate": 4.053597323135508e-06,
+      "loss": 0.3694264888763428,
+      "memory(GiB)": 66.66,
+      "step": 3021,
+      "token_acc": 0.8996763754045307,
+      "train_speed(iter/s)": 0.241974
+    },
+    {
+      "epoch": 0.96704,
+      "grad_norm": 0.6492726041084904,
+      "learning_rate": 4.052906310150105e-06,
+      "loss": 0.29673632979393005,
+      "memory(GiB)": 66.66,
+      "step": 3022,
+      "token_acc": 0.9205869659041864,
+      "train_speed(iter/s)": 0.241978
+    },
+    {
+      "epoch": 0.96736,
+      "grad_norm": 0.638977194344911,
+      "learning_rate": 4.052215103932453e-06,
+      "loss": 0.38601431250572205,
+      "memory(GiB)": 66.66,
+      "step": 3023,
+      "token_acc": 0.9122926607589185,
+      "train_speed(iter/s)": 0.241978
+    },
+    {
+      "epoch": 0.96768,
+      "grad_norm": 0.6488796481461078,
+      "learning_rate": 4.051523704568557e-06,
+      "loss": 0.43887829780578613,
+      "memory(GiB)": 66.66,
+      "step": 3024,
+      "token_acc": 0.8970113085621971,
+      "train_speed(iter/s)": 0.241982
+    },
+    {
+      "epoch": 0.968,
+      "grad_norm": 0.6149078994195457,
+      "learning_rate": 4.050832112144452e-06,
+      "loss": 0.3890456259250641,
+      "memory(GiB)": 66.66,
+      "step": 3025,
+      "token_acc": 0.9226856561546287,
+      "train_speed(iter/s)": 0.241985
+    },
+    {
+      "epoch": 0.96832,
+      "grad_norm": 0.5959930769205526,
+      "learning_rate": 4.050140326746192e-06,
+      "loss": 0.3309323489665985,
+      "memory(GiB)": 66.66,
+      "step": 3026,
+      "token_acc": 0.9132087424770352,
+      "train_speed(iter/s)": 0.241986
+    },
+    {
+      "epoch": 0.96864,
+      "grad_norm": 0.6329782974598205,
+      "learning_rate": 4.04944834845986e-06,
+      "loss": 0.3551032841205597,
+      "memory(GiB)": 66.66,
+      "step": 3027,
+      "token_acc": 0.9223300970873787,
+      "train_speed(iter/s)": 0.241985
+    },
+    {
+      "epoch": 0.96896,
+      "grad_norm": 0.6669643143294147,
+      "learning_rate": 4.04875617737156e-06,
+      "loss": 0.31331178545951843,
+      "memory(GiB)": 66.66,
+      "step": 3028,
+      "token_acc": 0.8830542151575362,
+      "train_speed(iter/s)": 0.241988
+    },
+    {
+      "epoch": 0.96928,
+      "grad_norm": 0.6930815751283106,
+      "learning_rate": 4.048063813567421e-06,
+      "loss": 0.4143233299255371,
+      "memory(GiB)": 66.66,
+      "step": 3029,
+      "token_acc": 0.8482734565748169,
+      "train_speed(iter/s)": 0.241992
+    },
+    {
+      "epoch": 0.9696,
+      "grad_norm": 0.5961288250526351,
+      "learning_rate": 4.0473712571335955e-06,
+      "loss": 0.3835461437702179,
+      "memory(GiB)": 66.66,
+      "step": 3030,
+      "token_acc": 0.9125151883353585,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.96992,
+      "grad_norm": 0.6240211585758586,
+      "learning_rate": 4.046678508156259e-06,
+      "loss": 0.39511752128601074,
+      "memory(GiB)": 66.66,
+      "step": 3031,
+      "token_acc": 0.9034285714285715,
+      "train_speed(iter/s)": 0.241983
+    },
+    {
+      "epoch": 0.97024,
+      "grad_norm": 0.6192760491311721,
+      "learning_rate": 4.045985566721613e-06,
+      "loss": 0.3823796808719635,
+      "memory(GiB)": 66.66,
+      "step": 3032,
+      "token_acc": 0.8722285714285715,
+      "train_speed(iter/s)": 0.24198
+    },
+    {
+      "epoch": 0.97056,
+      "grad_norm": 0.6554877546092317,
+      "learning_rate": 4.045292432915883e-06,
+      "loss": 0.42295968532562256,
+      "memory(GiB)": 66.66,
+      "step": 3033,
+      "token_acc": 0.9489207095533233,
+      "train_speed(iter/s)": 0.241979
+    },
+    {
+      "epoch": 0.97088,
+      "grad_norm": 0.6123194440168944,
+      "learning_rate": 4.044599106825315e-06,
+      "loss": 0.35482463240623474,
+      "memory(GiB)": 66.66,
+      "step": 3034,
+      "token_acc": 0.8937415578568213,
+      "train_speed(iter/s)": 0.241978
+    },
+    {
+      "epoch": 0.9712,
+      "grad_norm": 0.6177202350856451,
+      "learning_rate": 4.0439055885361844e-06,
+      "loss": 0.31271353363990784,
+      "memory(GiB)": 66.66,
+      "step": 3035,
+      "token_acc": 0.9207317073170732,
+      "train_speed(iter/s)": 0.24198
+    },
+    {
+      "epoch": 0.97152,
+      "grad_norm": 0.6342172139394221,
+      "learning_rate": 4.043211878134786e-06,
+      "loss": 0.4732389450073242,
+      "memory(GiB)": 66.66,
+      "step": 3036,
+      "token_acc": 0.847056401811445,
+      "train_speed(iter/s)": 0.241982
+    },
+    {
+      "epoch": 0.97184,
+      "grad_norm": 0.6263504559655914,
+      "learning_rate": 4.04251797570744e-06,
+      "loss": 0.42907002568244934,
+      "memory(GiB)": 66.66,
+      "step": 3037,
+      "token_acc": 0.8604263824117255,
+      "train_speed(iter/s)": 0.241983
+    },
+    {
+      "epoch": 0.97216,
+      "grad_norm": 0.6699522346085816,
+      "learning_rate": 4.04182388134049e-06,
+      "loss": 0.30108776688575745,
+      "memory(GiB)": 66.66,
+      "step": 3038,
+      "token_acc": 0.9192371085472097,
+      "train_speed(iter/s)": 0.241985
+    },
+    {
+      "epoch": 0.97248,
+      "grad_norm": 0.6785237224029843,
+      "learning_rate": 4.041129595120304e-06,
+      "loss": 0.40432223677635193,
+      "memory(GiB)": 66.66,
+      "step": 3039,
+      "token_acc": 0.8921513269339356,
+      "train_speed(iter/s)": 0.241989
+    },
+    {
+      "epoch": 0.9728,
+      "grad_norm": 0.6558325608189489,
+      "learning_rate": 4.040435117133276e-06,
+      "loss": 0.41510009765625,
+      "memory(GiB)": 66.66,
+      "step": 3040,
+      "token_acc": 0.9177710843373494,
+      "train_speed(iter/s)": 0.241991
+    },
+    {
+      "epoch": 0.97312,
+      "grad_norm": 0.5789790016313526,
+      "learning_rate": 4.039740447465819e-06,
+      "loss": 0.32819241285324097,
+      "memory(GiB)": 66.66,
+      "step": 3041,
+      "token_acc": 0.9107098689092258,
+      "train_speed(iter/s)": 0.24199
+    },
+    {
+      "epoch": 0.97344,
+      "grad_norm": 0.5719887499657216,
+      "learning_rate": 4.039045586204375e-06,
+      "loss": 0.3085390329360962,
+      "memory(GiB)": 66.66,
+      "step": 3042,
+      "token_acc": 0.9004898169631348,
+      "train_speed(iter/s)": 0.241995
+    },
+    {
+      "epoch": 0.97376,
+      "grad_norm": 0.6097209023561188,
+      "learning_rate": 4.038350533435406e-06,
+      "loss": 0.4046974182128906,
+      "memory(GiB)": 66.66,
+      "step": 3043,
+      "token_acc": 0.8865103635745838,
+      "train_speed(iter/s)": 0.241997
+    },
+    {
+      "epoch": 0.97408,
+      "grad_norm": 0.5964135191805874,
+      "learning_rate": 4.037655289245399e-06,
+      "loss": 0.3420829474925995,
+      "memory(GiB)": 66.66,
+      "step": 3044,
+      "token_acc": 0.8837209302325582,
+      "train_speed(iter/s)": 0.241997
+    },
+    {
+      "epoch": 0.9744,
+      "grad_norm": 0.643216989534053,
+      "learning_rate": 4.036959853720866e-06,
+      "loss": 0.42706575989723206,
+      "memory(GiB)": 66.66,
+      "step": 3045,
+      "token_acc": 0.8903225806451613,
+      "train_speed(iter/s)": 0.242001
+    },
+    {
+      "epoch": 0.97472,
+      "grad_norm": 0.6355862007661173,
+      "learning_rate": 4.036264226948342e-06,
+      "loss": 0.3125585913658142,
+      "memory(GiB)": 66.66,
+      "step": 3046,
+      "token_acc": 0.885859687386405,
+      "train_speed(iter/s)": 0.242005
+    },
+    {
+      "epoch": 0.97504,
+      "grad_norm": 0.62487232607928,
+      "learning_rate": 4.0355684090143835e-06,
+      "loss": 0.38233259320259094,
+      "memory(GiB)": 66.66,
+      "step": 3047,
+      "token_acc": 0.8932504942106749,
+      "train_speed(iter/s)": 0.242003
+    },
+    {
+      "epoch": 0.97536,
+      "grad_norm": 0.5956650957750433,
+      "learning_rate": 4.034872400005576e-06,
+      "loss": 0.29165118932724,
+      "memory(GiB)": 66.66,
+      "step": 3048,
+      "token_acc": 0.9084791386271871,
+      "train_speed(iter/s)": 0.242006
+    },
+    {
+      "epoch": 0.97568,
+      "grad_norm": 0.6732009298353611,
+      "learning_rate": 4.034176200008524e-06,
+      "loss": 0.437656044960022,
+      "memory(GiB)": 66.66,
+      "step": 3049,
+      "token_acc": 0.8262086988986374,
+      "train_speed(iter/s)": 0.242006
+    },
+    {
+      "epoch": 0.976,
+      "grad_norm": 0.6157048922237716,
+      "learning_rate": 4.033479809109857e-06,
+      "loss": 0.33805835247039795,
+      "memory(GiB)": 66.66,
+      "step": 3050,
+      "token_acc": 0.9194863432531594,
+      "train_speed(iter/s)": 0.242008
+    },
+    {
+      "epoch": 0.97632,
+      "grad_norm": 0.5957551252412256,
+      "learning_rate": 4.032783227396231e-06,
+      "loss": 0.3574420213699341,
+      "memory(GiB)": 66.66,
+      "step": 3051,
+      "token_acc": 0.8747199022204115,
+      "train_speed(iter/s)": 0.242006
+    },
+    {
+      "epoch": 0.97664,
+      "grad_norm": 0.6151630216800531,
+      "learning_rate": 4.032086454954322e-06,
+      "loss": 0.3582664728164673,
+      "memory(GiB)": 66.66,
+      "step": 3052,
+      "token_acc": 0.8758486905916586,
+      "train_speed(iter/s)": 0.242008
+    },
+    {
+      "epoch": 0.97696,
+      "grad_norm": 0.6457811049569099,
+      "learning_rate": 4.0313894918708305e-06,
+      "loss": 0.3863130211830139,
+      "memory(GiB)": 66.66,
+      "step": 3053,
+      "token_acc": 0.8688423645320197,
+      "train_speed(iter/s)": 0.242008
+    },
+    {
+      "epoch": 0.97728,
+      "grad_norm": 0.5805900608662979,
+      "learning_rate": 4.030692338232483e-06,
+      "loss": 0.3959566652774811,
+      "memory(GiB)": 66.66,
+      "step": 3054,
+      "token_acc": 0.8498609823911029,
+      "train_speed(iter/s)": 0.242007
+    },
+    {
+      "epoch": 0.9776,
+      "grad_norm": 0.585777588540006,
+      "learning_rate": 4.029994994126027e-06,
+      "loss": 0.26518505811691284,
+      "memory(GiB)": 66.66,
+      "step": 3055,
+      "token_acc": 0.9594312003345881,
+      "train_speed(iter/s)": 0.24201
+    },
+    {
+      "epoch": 0.97792,
+      "grad_norm": 0.6824273725247003,
+      "learning_rate": 4.029297459638236e-06,
+      "loss": 0.36761602759361267,
+      "memory(GiB)": 66.66,
+      "step": 3056,
+      "token_acc": 0.8891566265060241,
+      "train_speed(iter/s)": 0.242011
+    },
+    {
+      "epoch": 0.97824,
+      "grad_norm": 0.6399825732239752,
+      "learning_rate": 4.0285997348559056e-06,
+      "loss": 0.4300648272037506,
+      "memory(GiB)": 66.66,
+      "step": 3057,
+      "token_acc": 0.8690176322418136,
+      "train_speed(iter/s)": 0.242012
+    },
+    {
+      "epoch": 0.97856,
+      "grad_norm": 0.7028747302274885,
+      "learning_rate": 4.027901819865855e-06,
+      "loss": 0.5156171321868896,
+      "memory(GiB)": 66.66,
+      "step": 3058,
+      "token_acc": 0.8499902210052807,
+      "train_speed(iter/s)": 0.242014
+    },
+    {
+      "epoch": 0.97888,
+      "grad_norm": 0.5841563531278968,
+      "learning_rate": 4.027203714754929e-06,
+      "loss": 0.29757222533226013,
+      "memory(GiB)": 66.66,
+      "step": 3059,
+      "token_acc": 0.9158508158508158,
+      "train_speed(iter/s)": 0.242013
+    },
+    {
+      "epoch": 0.9792,
+      "grad_norm": 0.6859532689883132,
+      "learning_rate": 4.026505419609993e-06,
+      "loss": 0.42499250173568726,
+      "memory(GiB)": 66.66,
+      "step": 3060,
+      "token_acc": 0.8440951571792693,
+      "train_speed(iter/s)": 0.242015
+    },
+    {
+      "epoch": 0.97952,
+      "grad_norm": 0.6545486530634237,
+      "learning_rate": 4.025806934517938e-06,
+      "loss": 0.38066357374191284,
+      "memory(GiB)": 66.66,
+      "step": 3061,
+      "token_acc": 0.8532753202803964,
+      "train_speed(iter/s)": 0.242017
+    },
+    {
+      "epoch": 0.97984,
+      "grad_norm": 0.5848648904677717,
+      "learning_rate": 4.025108259565679e-06,
+      "loss": 0.3859281539916992,
+      "memory(GiB)": 66.66,
+      "step": 3062,
+      "token_acc": 0.8835216915785636,
+      "train_speed(iter/s)": 0.242017
+    },
+    {
+      "epoch": 0.98016,
+      "grad_norm": 0.6550237788335322,
+      "learning_rate": 4.024409394840154e-06,
+      "loss": 0.37879571318626404,
+      "memory(GiB)": 66.66,
+      "step": 3063,
+      "token_acc": 0.8685412160538332,
+      "train_speed(iter/s)": 0.242018
+    },
+    {
+      "epoch": 0.98048,
+      "grad_norm": 0.6346114842801273,
+      "learning_rate": 4.023710340428324e-06,
+      "loss": 0.33777114748954773,
+      "memory(GiB)": 66.66,
+      "step": 3064,
+      "token_acc": 0.9242123190462674,
+      "train_speed(iter/s)": 0.242018
+    },
+    {
+      "epoch": 0.9808,
+      "grad_norm": 0.5576756953387635,
+      "learning_rate": 4.0230110964171755e-06,
+      "loss": 0.27697834372520447,
+      "memory(GiB)": 66.66,
+      "step": 3065,
+      "token_acc": 0.9598287783997366,
+      "train_speed(iter/s)": 0.242016
+    },
+    {
+      "epoch": 0.98112,
+      "grad_norm": 0.6430088781168787,
+      "learning_rate": 4.022311662893716e-06,
+      "loss": 0.4060218036174774,
+      "memory(GiB)": 66.66,
+      "step": 3066,
+      "token_acc": 0.808172826652785,
+      "train_speed(iter/s)": 0.242019
+    },
+    {
+      "epoch": 0.98144,
+      "grad_norm": 0.5933877697551321,
+      "learning_rate": 4.021612039944978e-06,
+      "loss": 0.3358010947704315,
+      "memory(GiB)": 66.66,
+      "step": 3067,
+      "token_acc": 0.847968864023352,
+      "train_speed(iter/s)": 0.242019
+    },
+    {
+      "epoch": 0.98176,
+      "grad_norm": 0.6284930021197036,
+      "learning_rate": 4.020912227658018e-06,
+      "loss": 0.3550563454627991,
+      "memory(GiB)": 66.66,
+      "step": 3068,
+      "token_acc": 0.9057017543859649,
+      "train_speed(iter/s)": 0.242022
+    },
+    {
+      "epoch": 0.98208,
+      "grad_norm": 0.5768157968813774,
+      "learning_rate": 4.020212226119914e-06,
+      "loss": 0.4372912049293518,
+      "memory(GiB)": 66.66,
+      "step": 3069,
+      "token_acc": 0.8149286101572384,
+      "train_speed(iter/s)": 0.24202
+    },
+    {
+      "epoch": 0.9824,
+      "grad_norm": 0.6632308482860538,
+      "learning_rate": 4.019512035417771e-06,
+      "loss": 0.4395124912261963,
+      "memory(GiB)": 66.66,
+      "step": 3070,
+      "token_acc": 0.821021021021021,
+      "train_speed(iter/s)": 0.242023
+    },
+    {
+      "epoch": 0.98272,
+      "grad_norm": 0.588070520243379,
+      "learning_rate": 4.0188116556387145e-06,
+      "loss": 0.3384595215320587,
+      "memory(GiB)": 66.66,
+      "step": 3071,
+      "token_acc": 0.8620534711300831,
+      "train_speed(iter/s)": 0.242023
+    },
+    {
+      "epoch": 0.98304,
+      "grad_norm": 0.6640342725295721,
+      "learning_rate": 4.0181110868698955e-06,
+      "loss": 0.37875986099243164,
+      "memory(GiB)": 66.66,
+      "step": 3072,
+      "token_acc": 0.8907960935187925,
+      "train_speed(iter/s)": 0.242021
+    },
+    {
+      "epoch": 0.98336,
+      "grad_norm": 0.6480266666979494,
+      "learning_rate": 4.017410329198487e-06,
+      "loss": 0.2924925982952118,
+      "memory(GiB)": 66.66,
+      "step": 3073,
+      "token_acc": 0.9177502267916541,
+      "train_speed(iter/s)": 0.242024
+    },
+    {
+      "epoch": 0.98368,
+      "grad_norm": 0.6334646880443127,
+      "learning_rate": 4.016709382711686e-06,
+      "loss": 0.34500551223754883,
+      "memory(GiB)": 66.66,
+      "step": 3074,
+      "token_acc": 0.9367378048780488,
+      "train_speed(iter/s)": 0.242022
+    },
+    {
+      "epoch": 0.984,
+      "grad_norm": 0.6736538385485612,
+      "learning_rate": 4.016008247496713e-06,
+      "loss": 0.35507336258888245,
+      "memory(GiB)": 66.66,
+      "step": 3075,
+      "token_acc": 0.83872,
+      "train_speed(iter/s)": 0.242026
+    },
+    {
+      "epoch": 0.98432,
+      "grad_norm": 0.6261666129494896,
+      "learning_rate": 4.015306923640813e-06,
+      "loss": 0.3508971035480499,
+      "memory(GiB)": 66.66,
+      "step": 3076,
+      "token_acc": 0.9273120940303125,
+      "train_speed(iter/s)": 0.242025
+    },
+    {
+      "epoch": 0.98464,
+      "grad_norm": 0.6281003883521509,
+      "learning_rate": 4.014605411231252e-06,
+      "loss": 0.3870149850845337,
+      "memory(GiB)": 66.66,
+      "step": 3077,
+      "token_acc": 0.9018691588785047,
+      "train_speed(iter/s)": 0.242024
+    },
+    {
+      "epoch": 0.98496,
+      "grad_norm": 0.6101524524002656,
+      "learning_rate": 4.013903710355323e-06,
+      "loss": 0.372799813747406,
+      "memory(GiB)": 66.66,
+      "step": 3078,
+      "token_acc": 0.8485523385300668,
+      "train_speed(iter/s)": 0.242022
+    },
+    {
+      "epoch": 0.98528,
+      "grad_norm": 0.6731558936329355,
+      "learning_rate": 4.013201821100338e-06,
+      "loss": 0.4002857208251953,
+      "memory(GiB)": 66.66,
+      "step": 3079,
+      "token_acc": 0.8614746249601022,
+      "train_speed(iter/s)": 0.242021
+    },
+    {
+      "epoch": 0.9856,
+      "grad_norm": 0.6164304063231683,
+      "learning_rate": 4.012499743553639e-06,
+      "loss": 0.4224347472190857,
+      "memory(GiB)": 66.66,
+      "step": 3080,
+      "token_acc": 0.9188637207575195,
+      "train_speed(iter/s)": 0.242012
+    },
+    {
+      "epoch": 0.98592,
+      "grad_norm": 0.6097258875317317,
+      "learning_rate": 4.0117974778025835e-06,
+      "loss": 0.3656595051288605,
+      "memory(GiB)": 66.66,
+      "step": 3081,
+      "token_acc": 0.8874271440466278,
+      "train_speed(iter/s)": 0.242013
+    },
+    {
+      "epoch": 0.98624,
+      "grad_norm": 0.6066694907435044,
+      "learning_rate": 4.0110950239345576e-06,
+      "loss": 0.36167988181114197,
+      "memory(GiB)": 66.66,
+      "step": 3082,
+      "token_acc": 0.9019132309350579,
+      "train_speed(iter/s)": 0.242015
+    },
+    {
+      "epoch": 0.98656,
+      "grad_norm": 0.6938196828135058,
+      "learning_rate": 4.010392382036969e-06,
+      "loss": 0.3722038269042969,
+      "memory(GiB)": 66.66,
+      "step": 3083,
+      "token_acc": 0.9199739752765127,
+      "train_speed(iter/s)": 0.242017
+    },
+    {
+      "epoch": 0.98688,
+      "grad_norm": 0.6635417708267721,
+      "learning_rate": 4.00968955219725e-06,
+      "loss": 0.4014733135700226,
+      "memory(GiB)": 66.66,
+      "step": 3084,
+      "token_acc": 0.8659295093296475,
+      "train_speed(iter/s)": 0.242016
+    },
+    {
+      "epoch": 0.9872,
+      "grad_norm": 0.6009543277214905,
+      "learning_rate": 4.008986534502857e-06,
+      "loss": 0.36181601881980896,
+      "memory(GiB)": 66.66,
+      "step": 3085,
+      "token_acc": 0.9239543726235742,
+      "train_speed(iter/s)": 0.242017
+    },
+    {
+      "epoch": 0.98752,
+      "grad_norm": 0.7636861386398599,
+      "learning_rate": 4.008283329041265e-06,
+      "loss": 0.28985148668289185,
+      "memory(GiB)": 66.66,
+      "step": 3086,
+      "token_acc": 0.9227053140096618,
+      "train_speed(iter/s)": 0.242022
+    },
+    {
+      "epoch": 0.98784,
+      "grad_norm": 0.6530344666120057,
+      "learning_rate": 4.0075799358999786e-06,
+      "loss": 0.36181965470314026,
+      "memory(GiB)": 66.66,
+      "step": 3087,
+      "token_acc": 0.8832946635730858,
+      "train_speed(iter/s)": 0.242024
+    },
+    {
+      "epoch": 0.98816,
+      "grad_norm": 0.5997951517435104,
+      "learning_rate": 4.006876355166521e-06,
+      "loss": 0.37263351678848267,
+      "memory(GiB)": 66.66,
+      "step": 3088,
+      "token_acc": 0.9103889709502708,
+      "train_speed(iter/s)": 0.242026
+    },
+    {
+      "epoch": 0.98848,
+      "grad_norm": 0.5952937790357733,
+      "learning_rate": 4.006172586928442e-06,
+      "loss": 0.33403676748275757,
+      "memory(GiB)": 66.66,
+      "step": 3089,
+      "token_acc": 0.8666839916839917,
+      "train_speed(iter/s)": 0.24203
+    },
+    {
+      "epoch": 0.9888,
+      "grad_norm": 0.597724420692452,
+      "learning_rate": 4.005468631273312e-06,
+      "loss": 0.3427974581718445,
+      "memory(GiB)": 66.66,
+      "step": 3090,
+      "token_acc": 0.8937386334112757,
+      "train_speed(iter/s)": 0.242033
+    },
+    {
+      "epoch": 0.98912,
+      "grad_norm": 0.6567586101385148,
+      "learning_rate": 4.004764488288728e-06,
+      "loss": 0.34106123447418213,
+      "memory(GiB)": 66.66,
+      "step": 3091,
+      "token_acc": 0.8790560471976401,
+      "train_speed(iter/s)": 0.242037
+    },
+    {
+      "epoch": 0.98944,
+      "grad_norm": 0.5660414986485244,
+      "learning_rate": 4.004060158062306e-06,
+      "loss": 0.35858964920043945,
+      "memory(GiB)": 66.66,
+      "step": 3092,
+      "token_acc": 0.8699256718124643,
+      "train_speed(iter/s)": 0.242039
+    },
+    {
+      "epoch": 0.98976,
+      "grad_norm": 0.5640703917292885,
+      "learning_rate": 4.00335564068169e-06,
+      "loss": 0.335178017616272,
+      "memory(GiB)": 66.66,
+      "step": 3093,
+      "token_acc": 0.8048289738430584,
+      "train_speed(iter/s)": 0.24204
+    },
+    {
+      "epoch": 0.99008,
+      "grad_norm": 0.763409342059242,
+      "learning_rate": 4.002650936234543e-06,
+      "loss": 0.3779940605163574,
+      "memory(GiB)": 66.66,
+      "step": 3094,
+      "token_acc": 0.8968858131487889,
+      "train_speed(iter/s)": 0.242041
+    },
+    {
+      "epoch": 0.9904,
+      "grad_norm": 0.6529328635406166,
+      "learning_rate": 4.001946044808555e-06,
+      "loss": 0.4183294177055359,
+      "memory(GiB)": 66.66,
+      "step": 3095,
+      "token_acc": 0.8680333119795003,
+      "train_speed(iter/s)": 0.242043
+    },
+    {
+      "epoch": 0.99072,
+      "grad_norm": 0.6478054550920296,
+      "learning_rate": 4.0012409664914355e-06,
+      "loss": 0.37891075015068054,
+      "memory(GiB)": 66.66,
+      "step": 3096,
+      "token_acc": 0.9141494435612083,
+      "train_speed(iter/s)": 0.242045
+    },
+    {
+      "epoch": 0.99104,
+      "grad_norm": 0.6016764966808266,
+      "learning_rate": 4.0005357013709215e-06,
+      "loss": 0.2899223864078522,
+      "memory(GiB)": 66.66,
+      "step": 3097,
+      "token_acc": 0.927613104524181,
+      "train_speed(iter/s)": 0.242045
+    },
+    {
+      "epoch": 0.99136,
+      "grad_norm": 0.6400553454330346,
+      "learning_rate": 3.9998302495347685e-06,
+      "loss": 0.40308839082717896,
+      "memory(GiB)": 66.66,
+      "step": 3098,
+      "token_acc": 0.8404392764857881,
+      "train_speed(iter/s)": 0.242046
+    },
+    {
+      "epoch": 0.99168,
+      "grad_norm": 0.6758659659345682,
+      "learning_rate": 3.99912461107076e-06,
+      "loss": 0.34148359298706055,
+      "memory(GiB)": 66.66,
+      "step": 3099,
+      "token_acc": 0.854655056932351,
+      "train_speed(iter/s)": 0.242049
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": 0.5769562833397032,
+      "learning_rate": 3.998418786066699e-06,
+      "loss": 0.389863520860672,
+      "memory(GiB)": 66.66,
+      "step": 3100,
+      "token_acc": 0.8770161290322581,
+      "train_speed(iter/s)": 0.242047
+    },
+    {
+      "epoch": 0.99232,
+      "grad_norm": 0.6088011164316033,
+      "learning_rate": 3.997712774610414e-06,
+      "loss": 0.3965756297111511,
+      "memory(GiB)": 66.66,
+      "step": 3101,
+      "token_acc": 0.8821740782972254,
+      "train_speed(iter/s)": 0.242043
+    },
+    {
+      "epoch": 0.99264,
+      "grad_norm": 0.6322101334219713,
+      "learning_rate": 3.997006576789756e-06,
+      "loss": 0.4359557628631592,
+      "memory(GiB)": 66.66,
+      "step": 3102,
+      "token_acc": 0.8356659142212189,
+      "train_speed(iter/s)": 0.242039
+    },
+    {
+      "epoch": 0.99296,
+      "grad_norm": 0.5950308903677025,
+      "learning_rate": 3.9963001926925985e-06,
+      "loss": 0.30856961011886597,
+      "memory(GiB)": 66.66,
+      "step": 3103,
+      "token_acc": 0.9288267793305167,
+      "train_speed(iter/s)": 0.242039
+    },
+    {
+      "epoch": 0.99328,
+      "grad_norm": 0.5739059662365252,
+      "learning_rate": 3.9955936224068395e-06,
+      "loss": 0.32066798210144043,
+      "memory(GiB)": 66.66,
+      "step": 3104,
+      "token_acc": 0.9717420212765957,
+      "train_speed(iter/s)": 0.242037
+    },
+    {
+      "epoch": 0.9936,
+      "grad_norm": 0.5513030090576488,
+      "learning_rate": 3.9948868660203975e-06,
+      "loss": 0.281091570854187,
+      "memory(GiB)": 66.66,
+      "step": 3105,
+      "token_acc": 0.936340206185567,
+      "train_speed(iter/s)": 0.24204
+    },
+    {
+      "epoch": 0.99392,
+      "grad_norm": 0.6006391901257054,
+      "learning_rate": 3.994179923621219e-06,
+      "loss": 0.4155902862548828,
+      "memory(GiB)": 66.66,
+      "step": 3106,
+      "token_acc": 0.8892475287472261,
+      "train_speed(iter/s)": 0.242041
+    },
+    {
+      "epoch": 0.99424,
+      "grad_norm": 0.6421510653438899,
+      "learning_rate": 3.9934727952972675e-06,
+      "loss": 0.3789929151535034,
+      "memory(GiB)": 66.66,
+      "step": 3107,
+      "token_acc": 0.9046099290780142,
+      "train_speed(iter/s)": 0.242043
+    },
+    {
+      "epoch": 0.99456,
+      "grad_norm": 0.6357451938545702,
+      "learning_rate": 3.9927654811365355e-06,
+      "loss": 0.44484463334083557,
+      "memory(GiB)": 66.66,
+      "step": 3108,
+      "token_acc": 0.922690240942971,
+      "train_speed(iter/s)": 0.242043
+    },
+    {
+      "epoch": 0.99488,
+      "grad_norm": 0.5797222699810971,
+      "learning_rate": 3.992057981227035e-06,
+      "loss": 0.35074299573898315,
+      "memory(GiB)": 66.66,
+      "step": 3109,
+      "token_acc": 0.8651128192412596,
+      "train_speed(iter/s)": 0.24203
+    },
+    {
+      "epoch": 0.9952,
+      "grad_norm": 0.6200849364134592,
+      "learning_rate": 3.9913502956568014e-06,
+      "loss": 0.35084646940231323,
+      "memory(GiB)": 66.66,
+      "step": 3110,
+      "token_acc": 0.9066469719350074,
+      "train_speed(iter/s)": 0.242027
+    },
+    {
+      "epoch": 0.99552,
+      "grad_norm": 0.6818032519815111,
+      "learning_rate": 3.990642424513895e-06,
+      "loss": 0.4333032965660095,
+      "memory(GiB)": 66.66,
+      "step": 3111,
+      "token_acc": 0.8694567627494457,
+      "train_speed(iter/s)": 0.242027
+    },
+    {
+      "epoch": 0.99584,
+      "grad_norm": 0.6567062927723352,
+      "learning_rate": 3.9899343678863975e-06,
+      "loss": 0.35835060477256775,
+      "memory(GiB)": 66.66,
+      "step": 3112,
+      "token_acc": 0.8950377315344157,
+      "train_speed(iter/s)": 0.242028
+    },
+    {
+      "epoch": 0.99616,
+      "grad_norm": 0.6244706390946302,
+      "learning_rate": 3.9892261258624156e-06,
+      "loss": 0.39497095346450806,
+      "memory(GiB)": 66.66,
+      "step": 3113,
+      "token_acc": 0.9319912948857454,
+      "train_speed(iter/s)": 0.242032
+    },
+    {
+      "epoch": 0.99648,
+      "grad_norm": 0.5599091619333585,
+      "learning_rate": 3.988517698530075e-06,
+      "loss": 0.3835628032684326,
+      "memory(GiB)": 66.66,
+      "step": 3114,
+      "token_acc": 0.8729046785088816,
+      "train_speed(iter/s)": 0.242027
+    },
+    {
+      "epoch": 0.9968,
+      "grad_norm": 0.6275907755772118,
+      "learning_rate": 3.987809085977529e-06,
+      "loss": 0.3961995840072632,
+      "memory(GiB)": 66.66,
+      "step": 3115,
+      "token_acc": 0.8807670928293496,
+      "train_speed(iter/s)": 0.242025
+    },
+    {
+      "epoch": 0.99712,
+      "grad_norm": 0.6224864489423445,
+      "learning_rate": 3.987100288292953e-06,
+      "loss": 0.40550118684768677,
+      "memory(GiB)": 66.66,
+      "step": 3116,
+      "token_acc": 0.8588377723970945,
+      "train_speed(iter/s)": 0.242021
+    },
+    {
+      "epoch": 0.99744,
+      "grad_norm": 0.6717362261827764,
+      "learning_rate": 3.986391305564542e-06,
+      "loss": 0.3589247465133667,
+      "memory(GiB)": 66.66,
+      "step": 3117,
+      "token_acc": 0.8956135480288728,
+      "train_speed(iter/s)": 0.242022
+    },
+    {
+      "epoch": 0.99776,
+      "grad_norm": 0.6222380988458677,
+      "learning_rate": 3.985682137880519e-06,
+      "loss": 0.4265488386154175,
+      "memory(GiB)": 66.66,
+      "step": 3118,
+      "token_acc": 0.9115314215985357,
+      "train_speed(iter/s)": 0.242021
+    },
+    {
+      "epoch": 0.99808,
+      "grad_norm": 0.5945929735057967,
+      "learning_rate": 3.984972785329126e-06,
+      "loss": 0.3854430317878723,
+      "memory(GiB)": 66.66,
+      "step": 3119,
+      "token_acc": 0.9112375533428165,
+      "train_speed(iter/s)": 0.242019
+    },
+    {
+      "epoch": 0.9984,
+      "grad_norm": 0.6222289357200256,
+      "learning_rate": 3.984263247998631e-06,
+      "loss": 0.28845036029815674,
+      "memory(GiB)": 66.66,
+      "step": 3120,
+      "token_acc": 0.9475138121546961,
+      "train_speed(iter/s)": 0.242021
+    },
+    {
+      "epoch": 0.99872,
+      "grad_norm": 0.5543950464985425,
+      "learning_rate": 3.983553525977323e-06,
+      "loss": 0.2624782621860504,
+      "memory(GiB)": 66.66,
+      "step": 3121,
+      "token_acc": 0.8928057553956834,
+      "train_speed(iter/s)": 0.242021
+    },
+    {
+      "epoch": 0.99904,
+      "grad_norm": 0.6419713684320644,
+      "learning_rate": 3.982843619353514e-06,
+      "loss": 0.43620073795318604,
+      "memory(GiB)": 66.66,
+      "step": 3122,
+      "token_acc": 0.8563268892794376,
+      "train_speed(iter/s)": 0.242025
+    },
+    {
+      "epoch": 0.99936,
+      "grad_norm": 0.5701939093074034,
+      "learning_rate": 3.98213352821554e-06,
+      "loss": 0.3354141414165497,
+      "memory(GiB)": 66.66,
+      "step": 3123,
+      "token_acc": 0.89981718464351,
+      "train_speed(iter/s)": 0.242028
+    },
+    {
+      "epoch": 0.99968,
+      "grad_norm": 0.7074398165764338,
+      "learning_rate": 3.9814232526517594e-06,
+      "loss": 0.4287683367729187,
+      "memory(GiB)": 66.66,
+      "step": 3124,
+      "token_acc": 0.8511083228774571,
+      "train_speed(iter/s)": 0.242025
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.6398078426978572,
+      "learning_rate": 3.980712792750555e-06,
+      "loss": 0.38725709915161133,
+      "memory(GiB)": 66.66,
+      "step": 3125,
+      "token_acc": 0.9159907300115875,
+      "train_speed(iter/s)": 0.242024
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 9375,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 211032191442944.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}