{ "best_global_step": 12000, "best_metric": 10.850140413581823, "best_model_checkpoint": "./adamw_15k_steps/checkpoint-12000", "epoch": 4.015733333333333, "eval_steps": 1000, "global_step": 12000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0003333333333333333, "grad_norm": 7.8681135177612305, "learning_rate": 3.2e-08, "loss": 0.639, "step": 5 }, { "epoch": 0.0006666666666666666, "grad_norm": 6.706113338470459, "learning_rate": 7.2e-08, "loss": 0.5652, "step": 10 }, { "epoch": 0.001, "grad_norm": 7.400564193725586, "learning_rate": 1.12e-07, "loss": 0.601, "step": 15 }, { "epoch": 0.0013333333333333333, "grad_norm": 7.946199417114258, "learning_rate": 1.5199999999999998e-07, "loss": 0.5519, "step": 20 }, { "epoch": 0.0016666666666666668, "grad_norm": 8.106812477111816, "learning_rate": 1.92e-07, "loss": 0.5649, "step": 25 }, { "epoch": 0.002, "grad_norm": 8.46447467803955, "learning_rate": 2.32e-07, "loss": 0.5187, "step": 30 }, { "epoch": 0.0023333333333333335, "grad_norm": 9.849543571472168, "learning_rate": 2.72e-07, "loss": 0.5673, "step": 35 }, { "epoch": 0.0026666666666666666, "grad_norm": 7.367623329162598, "learning_rate": 3.12e-07, "loss": 0.5324, "step": 40 }, { "epoch": 0.003, "grad_norm": 8.326878547668457, "learning_rate": 3.52e-07, "loss": 0.4839, "step": 45 }, { "epoch": 0.0033333333333333335, "grad_norm": 9.736270904541016, "learning_rate": 3.92e-07, "loss": 0.4942, "step": 50 }, { "epoch": 0.0036666666666666666, "grad_norm": 8.761847496032715, "learning_rate": 4.3199999999999995e-07, "loss": 0.4491, "step": 55 }, { "epoch": 0.004, "grad_norm": 6.445558547973633, "learning_rate": 4.7199999999999994e-07, "loss": 0.3525, "step": 60 }, { "epoch": 0.004333333333333333, "grad_norm": 6.869565486907959, "learning_rate": 5.12e-07, "loss": 0.3532, "step": 65 }, { "epoch": 0.004666666666666667, "grad_norm": 6.356194972991943, "learning_rate": 5.520000000000001e-07, "loss": 0.3789, "step": 70 }, { "epoch": 0.005, "grad_norm": 8.927465438842773, "learning_rate": 5.919999999999999e-07, "loss": 0.4214, "step": 75 }, { "epoch": 0.005333333333333333, "grad_norm": 4.772860527038574, "learning_rate": 6.319999999999999e-07, "loss": 0.3988, "step": 80 }, { "epoch": 0.005666666666666667, "grad_norm": 6.015639781951904, "learning_rate": 6.72e-07, "loss": 0.3499, "step": 85 }, { "epoch": 0.006, "grad_norm": 5.377685070037842, "learning_rate": 7.119999999999999e-07, "loss": 0.3558, "step": 90 }, { "epoch": 0.006333333333333333, "grad_norm": 5.61927604675293, "learning_rate": 7.52e-07, "loss": 0.3782, "step": 95 }, { "epoch": 0.006666666666666667, "grad_norm": 5.671990871429443, "learning_rate": 7.92e-07, "loss": 0.3256, "step": 100 }, { "epoch": 0.007, "grad_norm": 6.509945869445801, "learning_rate": 8.319999999999999e-07, "loss": 0.3377, "step": 105 }, { "epoch": 0.007333333333333333, "grad_norm": 5.520636558532715, "learning_rate": 8.72e-07, "loss": 0.2935, "step": 110 }, { "epoch": 0.007666666666666666, "grad_norm": 6.7343854904174805, "learning_rate": 9.12e-07, "loss": 0.3279, "step": 115 }, { "epoch": 0.008, "grad_norm": 5.827164173126221, "learning_rate": 9.52e-07, "loss": 0.2642, "step": 120 }, { "epoch": 0.008333333333333333, "grad_norm": 9.217341423034668, "learning_rate": 9.92e-07, "loss": 0.3682, "step": 125 }, { "epoch": 0.008666666666666666, "grad_norm": 5.258895397186279, "learning_rate": 1.032e-06, "loss": 0.3186, "step": 130 }, { "epoch": 0.009, "grad_norm": 5.387553691864014, "learning_rate": 1.072e-06, "loss": 0.2694, "step": 135 }, { "epoch": 0.009333333333333334, "grad_norm": 6.299449920654297, "learning_rate": 1.1120000000000001e-06, "loss": 0.3321, "step": 140 }, { "epoch": 0.009666666666666667, "grad_norm": 5.274661064147949, "learning_rate": 1.152e-06, "loss": 0.3319, "step": 145 }, { "epoch": 0.01, "grad_norm": 5.529350280761719, "learning_rate": 1.192e-06, "loss": 0.2997, "step": 150 }, { "epoch": 0.010333333333333333, "grad_norm": 6.594914436340332, "learning_rate": 1.232e-06, "loss": 0.3021, "step": 155 }, { "epoch": 0.010666666666666666, "grad_norm": 6.538723468780518, "learning_rate": 1.272e-06, "loss": 0.3648, "step": 160 }, { "epoch": 0.011, "grad_norm": 5.191473007202148, "learning_rate": 1.312e-06, "loss": 0.261, "step": 165 }, { "epoch": 0.011333333333333334, "grad_norm": 4.366311073303223, "learning_rate": 1.352e-06, "loss": 0.3138, "step": 170 }, { "epoch": 0.011666666666666667, "grad_norm": 5.694831371307373, "learning_rate": 1.3919999999999998e-06, "loss": 0.3573, "step": 175 }, { "epoch": 0.012, "grad_norm": 6.382267475128174, "learning_rate": 1.4319999999999998e-06, "loss": 0.3696, "step": 180 }, { "epoch": 0.012333333333333333, "grad_norm": 5.446365833282471, "learning_rate": 1.4719999999999998e-06, "loss": 0.3153, "step": 185 }, { "epoch": 0.012666666666666666, "grad_norm": 5.738370895385742, "learning_rate": 1.5119999999999999e-06, "loss": 0.2276, "step": 190 }, { "epoch": 0.013, "grad_norm": 6.272266864776611, "learning_rate": 1.552e-06, "loss": 0.3016, "step": 195 }, { "epoch": 0.013333333333333334, "grad_norm": 5.668388843536377, "learning_rate": 1.592e-06, "loss": 0.3069, "step": 200 }, { "epoch": 0.013666666666666667, "grad_norm": 4.9069719314575195, "learning_rate": 1.6319999999999998e-06, "loss": 0.256, "step": 205 }, { "epoch": 0.014, "grad_norm": 5.196625709533691, "learning_rate": 1.6719999999999998e-06, "loss": 0.3474, "step": 210 }, { "epoch": 0.014333333333333333, "grad_norm": 5.849911689758301, "learning_rate": 1.7119999999999999e-06, "loss": 0.3752, "step": 215 }, { "epoch": 0.014666666666666666, "grad_norm": 5.384067535400391, "learning_rate": 1.752e-06, "loss": 0.309, "step": 220 }, { "epoch": 0.015, "grad_norm": 5.837971210479736, "learning_rate": 1.792e-06, "loss": 0.3327, "step": 225 }, { "epoch": 0.015333333333333332, "grad_norm": 5.132436275482178, "learning_rate": 1.832e-06, "loss": 0.3123, "step": 230 }, { "epoch": 0.015666666666666666, "grad_norm": 5.337721824645996, "learning_rate": 1.872e-06, "loss": 0.3283, "step": 235 }, { "epoch": 0.016, "grad_norm": 6.517800331115723, "learning_rate": 1.9119999999999997e-06, "loss": 0.3038, "step": 240 }, { "epoch": 0.01633333333333333, "grad_norm": 5.586582183837891, "learning_rate": 1.9519999999999997e-06, "loss": 0.2755, "step": 245 }, { "epoch": 0.016666666666666666, "grad_norm": 5.217918872833252, "learning_rate": 1.9919999999999997e-06, "loss": 0.2844, "step": 250 }, { "epoch": 0.017, "grad_norm": 6.155360221862793, "learning_rate": 2.0319999999999998e-06, "loss": 0.2717, "step": 255 }, { "epoch": 0.017333333333333333, "grad_norm": 4.993013858795166, "learning_rate": 2.072e-06, "loss": 0.2607, "step": 260 }, { "epoch": 0.017666666666666667, "grad_norm": 5.713470458984375, "learning_rate": 2.112e-06, "loss": 0.3016, "step": 265 }, { "epoch": 0.018, "grad_norm": 6.255653381347656, "learning_rate": 2.152e-06, "loss": 0.2981, "step": 270 }, { "epoch": 0.018333333333333333, "grad_norm": 4.8478803634643555, "learning_rate": 2.192e-06, "loss": 0.2597, "step": 275 }, { "epoch": 0.018666666666666668, "grad_norm": 5.257438659667969, "learning_rate": 2.232e-06, "loss": 0.2801, "step": 280 }, { "epoch": 0.019, "grad_norm": 5.840615272521973, "learning_rate": 2.2719999999999996e-06, "loss": 0.2367, "step": 285 }, { "epoch": 0.019333333333333334, "grad_norm": 4.748403549194336, "learning_rate": 2.3119999999999996e-06, "loss": 0.281, "step": 290 }, { "epoch": 0.019666666666666666, "grad_norm": 6.234288215637207, "learning_rate": 2.3519999999999997e-06, "loss": 0.2956, "step": 295 }, { "epoch": 0.02, "grad_norm": 5.9594550132751465, "learning_rate": 2.3919999999999997e-06, "loss": 0.2442, "step": 300 }, { "epoch": 0.02033333333333333, "grad_norm": 6.6537628173828125, "learning_rate": 2.4319999999999998e-06, "loss": 0.3109, "step": 305 }, { "epoch": 0.020666666666666667, "grad_norm": 5.695614814758301, "learning_rate": 2.472e-06, "loss": 0.2785, "step": 310 }, { "epoch": 0.021, "grad_norm": 5.461732864379883, "learning_rate": 2.512e-06, "loss": 0.2641, "step": 315 }, { "epoch": 0.021333333333333333, "grad_norm": 5.420622825622559, "learning_rate": 2.552e-06, "loss": 0.2852, "step": 320 }, { "epoch": 0.021666666666666667, "grad_norm": 5.171116828918457, "learning_rate": 2.592e-06, "loss": 0.2668, "step": 325 }, { "epoch": 0.022, "grad_norm": 4.647777080535889, "learning_rate": 2.632e-06, "loss": 0.2441, "step": 330 }, { "epoch": 0.022333333333333334, "grad_norm": 5.5714802742004395, "learning_rate": 2.672e-06, "loss": 0.2588, "step": 335 }, { "epoch": 0.02266666666666667, "grad_norm": 6.230645656585693, "learning_rate": 2.712e-06, "loss": 0.2875, "step": 340 }, { "epoch": 0.023, "grad_norm": 4.334135055541992, "learning_rate": 2.7519999999999997e-06, "loss": 0.3584, "step": 345 }, { "epoch": 0.023333333333333334, "grad_norm": 5.431742191314697, "learning_rate": 2.7919999999999997e-06, "loss": 0.2909, "step": 350 }, { "epoch": 0.023666666666666666, "grad_norm": 5.0013322830200195, "learning_rate": 2.8319999999999997e-06, "loss": 0.2719, "step": 355 }, { "epoch": 0.024, "grad_norm": 4.761520862579346, "learning_rate": 2.8719999999999998e-06, "loss": 0.3427, "step": 360 }, { "epoch": 0.024333333333333332, "grad_norm": 4.424616813659668, "learning_rate": 2.912e-06, "loss": 0.2715, "step": 365 }, { "epoch": 0.024666666666666667, "grad_norm": 6.290023326873779, "learning_rate": 2.952e-06, "loss": 0.3269, "step": 370 }, { "epoch": 0.025, "grad_norm": 4.335691452026367, "learning_rate": 2.992e-06, "loss": 0.3132, "step": 375 }, { "epoch": 0.025333333333333333, "grad_norm": 4.69550895690918, "learning_rate": 3.032e-06, "loss": 0.2616, "step": 380 }, { "epoch": 0.025666666666666667, "grad_norm": 5.710431098937988, "learning_rate": 3.072e-06, "loss": 0.2529, "step": 385 }, { "epoch": 0.026, "grad_norm": 7.724772930145264, "learning_rate": 3.112e-06, "loss": 0.3924, "step": 390 }, { "epoch": 0.026333333333333334, "grad_norm": 5.0790581703186035, "learning_rate": 3.152e-06, "loss": 0.3372, "step": 395 }, { "epoch": 0.02666666666666667, "grad_norm": 5.25242805480957, "learning_rate": 3.192e-06, "loss": 0.2778, "step": 400 }, { "epoch": 0.027, "grad_norm": 4.29576301574707, "learning_rate": 3.232e-06, "loss": 0.2769, "step": 405 }, { "epoch": 0.027333333333333334, "grad_norm": 5.750261306762695, "learning_rate": 3.2719999999999998e-06, "loss": 0.2802, "step": 410 }, { "epoch": 0.027666666666666666, "grad_norm": 7.249492645263672, "learning_rate": 3.312e-06, "loss": 0.3346, "step": 415 }, { "epoch": 0.028, "grad_norm": 6.898212909698486, "learning_rate": 3.352e-06, "loss": 0.3048, "step": 420 }, { "epoch": 0.028333333333333332, "grad_norm": 6.2024102210998535, "learning_rate": 3.392e-06, "loss": 0.271, "step": 425 }, { "epoch": 0.028666666666666667, "grad_norm": 5.421449184417725, "learning_rate": 3.432e-06, "loss": 0.309, "step": 430 }, { "epoch": 0.029, "grad_norm": 6.628218650817871, "learning_rate": 3.472e-06, "loss": 0.325, "step": 435 }, { "epoch": 0.029333333333333333, "grad_norm": 6.001244068145752, "learning_rate": 3.512e-06, "loss": 0.2704, "step": 440 }, { "epoch": 0.029666666666666668, "grad_norm": 4.657049179077148, "learning_rate": 3.552e-06, "loss": 0.291, "step": 445 }, { "epoch": 0.03, "grad_norm": 5.157937526702881, "learning_rate": 3.592e-06, "loss": 0.2969, "step": 450 }, { "epoch": 0.030333333333333334, "grad_norm": 5.487798690795898, "learning_rate": 3.632e-06, "loss": 0.276, "step": 455 }, { "epoch": 0.030666666666666665, "grad_norm": 5.191402435302734, "learning_rate": 3.672e-06, "loss": 0.2643, "step": 460 }, { "epoch": 0.031, "grad_norm": 4.667324542999268, "learning_rate": 3.712e-06, "loss": 0.2973, "step": 465 }, { "epoch": 0.03133333333333333, "grad_norm": 5.773773670196533, "learning_rate": 3.7519999999999994e-06, "loss": 0.3295, "step": 470 }, { "epoch": 0.03166666666666667, "grad_norm": 5.1708574295043945, "learning_rate": 3.7919999999999994e-06, "loss": 0.2873, "step": 475 }, { "epoch": 0.032, "grad_norm": 6.870123863220215, "learning_rate": 3.832e-06, "loss": 0.3149, "step": 480 }, { "epoch": 0.03233333333333333, "grad_norm": 6.7079315185546875, "learning_rate": 3.8719999999999995e-06, "loss": 0.3704, "step": 485 }, { "epoch": 0.03266666666666666, "grad_norm": 5.312646865844727, "learning_rate": 3.912e-06, "loss": 0.2829, "step": 490 }, { "epoch": 0.033, "grad_norm": 5.318368911743164, "learning_rate": 3.952e-06, "loss": 0.2417, "step": 495 }, { "epoch": 0.03333333333333333, "grad_norm": 6.014054775238037, "learning_rate": 3.992e-06, "loss": 0.2943, "step": 500 }, { "epoch": 0.033666666666666664, "grad_norm": 6.240344524383545, "learning_rate": 3.998896551724138e-06, "loss": 0.352, "step": 505 }, { "epoch": 0.034, "grad_norm": 5.4214982986450195, "learning_rate": 3.99751724137931e-06, "loss": 0.2561, "step": 510 }, { "epoch": 0.034333333333333334, "grad_norm": 5.578619480133057, "learning_rate": 3.996137931034483e-06, "loss": 0.2904, "step": 515 }, { "epoch": 0.034666666666666665, "grad_norm": 4.170753002166748, "learning_rate": 3.994758620689655e-06, "loss": 0.2783, "step": 520 }, { "epoch": 0.035, "grad_norm": 5.15231990814209, "learning_rate": 3.993379310344827e-06, "loss": 0.281, "step": 525 }, { "epoch": 0.035333333333333335, "grad_norm": 5.5472331047058105, "learning_rate": 3.992e-06, "loss": 0.2876, "step": 530 }, { "epoch": 0.035666666666666666, "grad_norm": 7.079174041748047, "learning_rate": 3.990620689655172e-06, "loss": 0.259, "step": 535 }, { "epoch": 0.036, "grad_norm": 6.044969081878662, "learning_rate": 3.9892413793103445e-06, "loss": 0.3019, "step": 540 }, { "epoch": 0.036333333333333336, "grad_norm": 5.32633638381958, "learning_rate": 3.987862068965517e-06, "loss": 0.272, "step": 545 }, { "epoch": 0.03666666666666667, "grad_norm": 5.296838760375977, "learning_rate": 3.986482758620689e-06, "loss": 0.2502, "step": 550 }, { "epoch": 0.037, "grad_norm": 4.822333812713623, "learning_rate": 3.985103448275862e-06, "loss": 0.2736, "step": 555 }, { "epoch": 0.037333333333333336, "grad_norm": 5.437860012054443, "learning_rate": 3.983724137931034e-06, "loss": 0.2762, "step": 560 }, { "epoch": 0.03766666666666667, "grad_norm": 5.294252872467041, "learning_rate": 3.982344827586207e-06, "loss": 0.3186, "step": 565 }, { "epoch": 0.038, "grad_norm": 5.104955673217773, "learning_rate": 3.980965517241379e-06, "loss": 0.2888, "step": 570 }, { "epoch": 0.03833333333333333, "grad_norm": 4.825579643249512, "learning_rate": 3.9795862068965515e-06, "loss": 0.3047, "step": 575 }, { "epoch": 0.03866666666666667, "grad_norm": 5.44915246963501, "learning_rate": 3.978206896551724e-06, "loss": 0.26, "step": 580 }, { "epoch": 0.039, "grad_norm": 5.301170825958252, "learning_rate": 3.976827586206896e-06, "loss": 0.2992, "step": 585 }, { "epoch": 0.03933333333333333, "grad_norm": 5.062160015106201, "learning_rate": 3.975448275862069e-06, "loss": 0.297, "step": 590 }, { "epoch": 0.03966666666666667, "grad_norm": 4.502527713775635, "learning_rate": 3.974068965517241e-06, "loss": 0.2565, "step": 595 }, { "epoch": 0.04, "grad_norm": 5.063446521759033, "learning_rate": 3.972689655172414e-06, "loss": 0.2771, "step": 600 }, { "epoch": 0.04033333333333333, "grad_norm": 4.817838191986084, "learning_rate": 3.971310344827587e-06, "loss": 0.2757, "step": 605 }, { "epoch": 0.04066666666666666, "grad_norm": 4.215132236480713, "learning_rate": 3.969931034482758e-06, "loss": 0.2727, "step": 610 }, { "epoch": 0.041, "grad_norm": 5.817486763000488, "learning_rate": 3.968551724137931e-06, "loss": 0.2668, "step": 615 }, { "epoch": 0.04133333333333333, "grad_norm": 6.173072814941406, "learning_rate": 3.967172413793104e-06, "loss": 0.3288, "step": 620 }, { "epoch": 0.041666666666666664, "grad_norm": 4.746486186981201, "learning_rate": 3.9657931034482755e-06, "loss": 0.3251, "step": 625 }, { "epoch": 0.042, "grad_norm": 5.031108856201172, "learning_rate": 3.964413793103448e-06, "loss": 0.2623, "step": 630 }, { "epoch": 0.042333333333333334, "grad_norm": 5.381565570831299, "learning_rate": 3.96303448275862e-06, "loss": 0.2702, "step": 635 }, { "epoch": 0.042666666666666665, "grad_norm": 5.521668434143066, "learning_rate": 3.961655172413793e-06, "loss": 0.2871, "step": 640 }, { "epoch": 0.043, "grad_norm": 5.110403060913086, "learning_rate": 3.960275862068965e-06, "loss": 0.2616, "step": 645 }, { "epoch": 0.043333333333333335, "grad_norm": 4.950959205627441, "learning_rate": 3.958896551724138e-06, "loss": 0.3074, "step": 650 }, { "epoch": 0.043666666666666666, "grad_norm": 4.852400302886963, "learning_rate": 3.957517241379311e-06, "loss": 0.2758, "step": 655 }, { "epoch": 0.044, "grad_norm": 6.835658550262451, "learning_rate": 3.9561379310344825e-06, "loss": 0.2716, "step": 660 }, { "epoch": 0.044333333333333336, "grad_norm": 5.471399784088135, "learning_rate": 3.954758620689655e-06, "loss": 0.3054, "step": 665 }, { "epoch": 0.04466666666666667, "grad_norm": 5.511785507202148, "learning_rate": 3.953379310344828e-06, "loss": 0.2631, "step": 670 }, { "epoch": 0.045, "grad_norm": 4.6403350830078125, "learning_rate": 3.952e-06, "loss": 0.2521, "step": 675 }, { "epoch": 0.04533333333333334, "grad_norm": 5.979584693908691, "learning_rate": 3.950620689655172e-06, "loss": 0.3324, "step": 680 }, { "epoch": 0.04566666666666667, "grad_norm": 6.192240238189697, "learning_rate": 3.949241379310345e-06, "loss": 0.3047, "step": 685 }, { "epoch": 0.046, "grad_norm": 4.901388645172119, "learning_rate": 3.947862068965517e-06, "loss": 0.2527, "step": 690 }, { "epoch": 0.04633333333333333, "grad_norm": 4.955352783203125, "learning_rate": 3.946482758620689e-06, "loss": 0.2754, "step": 695 }, { "epoch": 0.04666666666666667, "grad_norm": 5.042239189147949, "learning_rate": 3.945103448275862e-06, "loss": 0.3105, "step": 700 }, { "epoch": 0.047, "grad_norm": 5.504079341888428, "learning_rate": 3.943724137931035e-06, "loss": 0.3149, "step": 705 }, { "epoch": 0.04733333333333333, "grad_norm": 5.746407985687256, "learning_rate": 3.9423448275862065e-06, "loss": 0.2838, "step": 710 }, { "epoch": 0.04766666666666667, "grad_norm": 4.522651672363281, "learning_rate": 3.940965517241379e-06, "loss": 0.3182, "step": 715 }, { "epoch": 0.048, "grad_norm": 5.204158782958984, "learning_rate": 3.939586206896552e-06, "loss": 0.3231, "step": 720 }, { "epoch": 0.04833333333333333, "grad_norm": 4.524038791656494, "learning_rate": 3.938206896551724e-06, "loss": 0.2711, "step": 725 }, { "epoch": 0.048666666666666664, "grad_norm": 4.675572395324707, "learning_rate": 3.936827586206896e-06, "loss": 0.2778, "step": 730 }, { "epoch": 0.049, "grad_norm": 6.818597793579102, "learning_rate": 3.935448275862069e-06, "loss": 0.3141, "step": 735 }, { "epoch": 0.04933333333333333, "grad_norm": 4.870628833770752, "learning_rate": 3.934068965517241e-06, "loss": 0.2741, "step": 740 }, { "epoch": 0.049666666666666665, "grad_norm": 4.924275875091553, "learning_rate": 3.9326896551724135e-06, "loss": 0.2505, "step": 745 }, { "epoch": 0.05, "grad_norm": 4.999272346496582, "learning_rate": 3.931310344827586e-06, "loss": 0.2927, "step": 750 }, { "epoch": 0.050333333333333334, "grad_norm": 5.06833028793335, "learning_rate": 3.929931034482759e-06, "loss": 0.2852, "step": 755 }, { "epoch": 0.050666666666666665, "grad_norm": 4.892880916595459, "learning_rate": 3.928551724137931e-06, "loss": 0.2851, "step": 760 }, { "epoch": 0.051, "grad_norm": 7.122994422912598, "learning_rate": 3.927172413793103e-06, "loss": 0.3028, "step": 765 }, { "epoch": 0.051333333333333335, "grad_norm": 4.35882043838501, "learning_rate": 3.925793103448276e-06, "loss": 0.2841, "step": 770 }, { "epoch": 0.051666666666666666, "grad_norm": 5.122171401977539, "learning_rate": 3.924413793103448e-06, "loss": 0.2419, "step": 775 }, { "epoch": 0.052, "grad_norm": 4.626972198486328, "learning_rate": 3.92303448275862e-06, "loss": 0.2852, "step": 780 }, { "epoch": 0.052333333333333336, "grad_norm": 5.0259504318237305, "learning_rate": 3.921655172413793e-06, "loss": 0.2915, "step": 785 }, { "epoch": 0.05266666666666667, "grad_norm": 5.1319260597229, "learning_rate": 3.920275862068966e-06, "loss": 0.2395, "step": 790 }, { "epoch": 0.053, "grad_norm": 6.219261169433594, "learning_rate": 3.9188965517241375e-06, "loss": 0.2563, "step": 795 }, { "epoch": 0.05333333333333334, "grad_norm": 9.795665740966797, "learning_rate": 3.91751724137931e-06, "loss": 0.3215, "step": 800 }, { "epoch": 0.05366666666666667, "grad_norm": 5.90310525894165, "learning_rate": 3.916137931034483e-06, "loss": 0.2673, "step": 805 }, { "epoch": 0.054, "grad_norm": 5.309284687042236, "learning_rate": 3.914758620689655e-06, "loss": 0.2557, "step": 810 }, { "epoch": 0.05433333333333333, "grad_norm": 4.818344593048096, "learning_rate": 3.913379310344827e-06, "loss": 0.329, "step": 815 }, { "epoch": 0.05466666666666667, "grad_norm": 5.163924217224121, "learning_rate": 3.912e-06, "loss": 0.2812, "step": 820 }, { "epoch": 0.055, "grad_norm": 5.454361438751221, "learning_rate": 3.910620689655172e-06, "loss": 0.2778, "step": 825 }, { "epoch": 0.05533333333333333, "grad_norm": 4.6273722648620605, "learning_rate": 3.9092413793103445e-06, "loss": 0.2945, "step": 830 }, { "epoch": 0.05566666666666667, "grad_norm": 6.013551235198975, "learning_rate": 3.907862068965517e-06, "loss": 0.2624, "step": 835 }, { "epoch": 0.056, "grad_norm": 5.0454020500183105, "learning_rate": 3.90648275862069e-06, "loss": 0.2891, "step": 840 }, { "epoch": 0.05633333333333333, "grad_norm": 5.594552993774414, "learning_rate": 3.9051034482758624e-06, "loss": 0.2771, "step": 845 }, { "epoch": 0.056666666666666664, "grad_norm": 5.8433098793029785, "learning_rate": 3.903724137931034e-06, "loss": 0.2708, "step": 850 }, { "epoch": 0.057, "grad_norm": 5.145798206329346, "learning_rate": 3.902344827586207e-06, "loss": 0.28, "step": 855 }, { "epoch": 0.05733333333333333, "grad_norm": 5.682314395904541, "learning_rate": 3.900965517241379e-06, "loss": 0.2851, "step": 860 }, { "epoch": 0.057666666666666665, "grad_norm": 4.193619728088379, "learning_rate": 3.899586206896551e-06, "loss": 0.2584, "step": 865 }, { "epoch": 0.058, "grad_norm": 5.782890796661377, "learning_rate": 3.898206896551724e-06, "loss": 0.2312, "step": 870 }, { "epoch": 0.058333333333333334, "grad_norm": 5.957684516906738, "learning_rate": 3.896827586206896e-06, "loss": 0.3455, "step": 875 }, { "epoch": 0.058666666666666666, "grad_norm": 5.391818046569824, "learning_rate": 3.8954482758620685e-06, "loss": 0.3104, "step": 880 }, { "epoch": 0.059, "grad_norm": 5.226023197174072, "learning_rate": 3.894068965517241e-06, "loss": 0.2548, "step": 885 }, { "epoch": 0.059333333333333335, "grad_norm": 4.266899108886719, "learning_rate": 3.892689655172414e-06, "loss": 0.2694, "step": 890 }, { "epoch": 0.059666666666666666, "grad_norm": 5.6492133140563965, "learning_rate": 3.8913103448275865e-06, "loss": 0.2958, "step": 895 }, { "epoch": 0.06, "grad_norm": 5.625582695007324, "learning_rate": 3.889931034482758e-06, "loss": 0.2865, "step": 900 }, { "epoch": 0.060333333333333336, "grad_norm": 4.771749973297119, "learning_rate": 3.888551724137931e-06, "loss": 0.2501, "step": 905 }, { "epoch": 0.06066666666666667, "grad_norm": 5.669247150421143, "learning_rate": 3.887172413793104e-06, "loss": 0.2576, "step": 910 }, { "epoch": 0.061, "grad_norm": 4.88996696472168, "learning_rate": 3.8857931034482755e-06, "loss": 0.2331, "step": 915 }, { "epoch": 0.06133333333333333, "grad_norm": 4.976366996765137, "learning_rate": 3.884413793103448e-06, "loss": 0.2708, "step": 920 }, { "epoch": 0.06166666666666667, "grad_norm": 5.664881229400635, "learning_rate": 3.88303448275862e-06, "loss": 0.2602, "step": 925 }, { "epoch": 0.062, "grad_norm": 5.961103439331055, "learning_rate": 3.8816551724137934e-06, "loss": 0.2735, "step": 930 }, { "epoch": 0.06233333333333333, "grad_norm": 5.700056552886963, "learning_rate": 3.880275862068965e-06, "loss": 0.3038, "step": 935 }, { "epoch": 0.06266666666666666, "grad_norm": 5.433390140533447, "learning_rate": 3.878896551724138e-06, "loss": 0.2416, "step": 940 }, { "epoch": 0.063, "grad_norm": 4.917166709899902, "learning_rate": 3.8775172413793106e-06, "loss": 0.298, "step": 945 }, { "epoch": 0.06333333333333334, "grad_norm": 5.239724159240723, "learning_rate": 3.876137931034482e-06, "loss": 0.2779, "step": 950 }, { "epoch": 0.06366666666666666, "grad_norm": 6.1338276863098145, "learning_rate": 3.874758620689655e-06, "loss": 0.2999, "step": 955 }, { "epoch": 0.064, "grad_norm": 4.84409236907959, "learning_rate": 3.873379310344828e-06, "loss": 0.3013, "step": 960 }, { "epoch": 0.06433333333333334, "grad_norm": 5.039527416229248, "learning_rate": 3.8719999999999995e-06, "loss": 0.2673, "step": 965 }, { "epoch": 0.06466666666666666, "grad_norm": 3.8581650257110596, "learning_rate": 3.870620689655172e-06, "loss": 0.2622, "step": 970 }, { "epoch": 0.065, "grad_norm": 5.322226047515869, "learning_rate": 3.869241379310345e-06, "loss": 0.3039, "step": 975 }, { "epoch": 0.06533333333333333, "grad_norm": 5.590739727020264, "learning_rate": 3.8678620689655175e-06, "loss": 0.3001, "step": 980 }, { "epoch": 0.06566666666666666, "grad_norm": 4.952889919281006, "learning_rate": 3.866482758620689e-06, "loss": 0.26, "step": 985 }, { "epoch": 0.066, "grad_norm": 4.7487874031066895, "learning_rate": 3.865103448275862e-06, "loss": 0.3203, "step": 990 }, { "epoch": 0.06633333333333333, "grad_norm": 4.813299655914307, "learning_rate": 3.863724137931035e-06, "loss": 0.2324, "step": 995 }, { "epoch": 0.06666666666666667, "grad_norm": 5.511954307556152, "learning_rate": 3.8623448275862065e-06, "loss": 0.3325, "step": 1000 }, { "epoch": 0.06666666666666667, "eval_loss": 0.25945043563842773, "eval_runtime": 139.0804, "eval_samples_per_second": 4.314, "eval_steps_per_second": 1.079, "eval_wer": 13.224406433495023, "step": 1000 }, { "epoch": 0.067, "grad_norm": 7.003694534301758, "learning_rate": 3.860965517241379e-06, "loss": 0.2561, "step": 1005 }, { "epoch": 0.06733333333333333, "grad_norm": 4.3975348472595215, "learning_rate": 3.859586206896552e-06, "loss": 0.2514, "step": 1010 }, { "epoch": 0.06766666666666667, "grad_norm": 6.0388336181640625, "learning_rate": 3.858206896551724e-06, "loss": 0.314, "step": 1015 }, { "epoch": 0.068, "grad_norm": 5.268043041229248, "learning_rate": 3.856827586206896e-06, "loss": 0.2906, "step": 1020 }, { "epoch": 0.06833333333333333, "grad_norm": 4.4202375411987305, "learning_rate": 3.855448275862069e-06, "loss": 0.2776, "step": 1025 }, { "epoch": 0.06866666666666667, "grad_norm": 4.538000583648682, "learning_rate": 3.8540689655172416e-06, "loss": 0.2682, "step": 1030 }, { "epoch": 0.069, "grad_norm": 4.032087802886963, "learning_rate": 3.852689655172413e-06, "loss": 0.2626, "step": 1035 }, { "epoch": 0.06933333333333333, "grad_norm": 5.682154655456543, "learning_rate": 3.851310344827586e-06, "loss": 0.2946, "step": 1040 }, { "epoch": 0.06966666666666667, "grad_norm": 4.8471503257751465, "learning_rate": 3.849931034482759e-06, "loss": 0.2579, "step": 1045 }, { "epoch": 0.07, "grad_norm": 5.817379951477051, "learning_rate": 3.8485517241379305e-06, "loss": 0.2991, "step": 1050 }, { "epoch": 0.07033333333333333, "grad_norm": 4.270869731903076, "learning_rate": 3.847172413793103e-06, "loss": 0.2907, "step": 1055 }, { "epoch": 0.07066666666666667, "grad_norm": 4.319159030914307, "learning_rate": 3.845793103448276e-06, "loss": 0.2121, "step": 1060 }, { "epoch": 0.071, "grad_norm": 4.93163537979126, "learning_rate": 3.844413793103448e-06, "loss": 0.3029, "step": 1065 }, { "epoch": 0.07133333333333333, "grad_norm": 6.254386901855469, "learning_rate": 3.84303448275862e-06, "loss": 0.2434, "step": 1070 }, { "epoch": 0.07166666666666667, "grad_norm": 6.222066402435303, "learning_rate": 3.841655172413793e-06, "loss": 0.2908, "step": 1075 }, { "epoch": 0.072, "grad_norm": 5.005525588989258, "learning_rate": 3.840275862068966e-06, "loss": 0.2616, "step": 1080 }, { "epoch": 0.07233333333333333, "grad_norm": 4.870983600616455, "learning_rate": 3.8388965517241374e-06, "loss": 0.3037, "step": 1085 }, { "epoch": 0.07266666666666667, "grad_norm": 6.23946475982666, "learning_rate": 3.83751724137931e-06, "loss": 0.2738, "step": 1090 }, { "epoch": 0.073, "grad_norm": 5.525810241699219, "learning_rate": 3.836137931034483e-06, "loss": 0.2528, "step": 1095 }, { "epoch": 0.07333333333333333, "grad_norm": 6.459913730621338, "learning_rate": 3.834758620689655e-06, "loss": 0.3016, "step": 1100 }, { "epoch": 0.07366666666666667, "grad_norm": 4.946430206298828, "learning_rate": 3.833379310344827e-06, "loss": 0.2482, "step": 1105 }, { "epoch": 0.074, "grad_norm": 3.902616024017334, "learning_rate": 3.832e-06, "loss": 0.2747, "step": 1110 }, { "epoch": 0.07433333333333333, "grad_norm": 5.0336809158325195, "learning_rate": 3.830620689655172e-06, "loss": 0.2884, "step": 1115 }, { "epoch": 0.07466666666666667, "grad_norm": 5.140960693359375, "learning_rate": 3.829241379310345e-06, "loss": 0.2646, "step": 1120 }, { "epoch": 0.075, "grad_norm": 4.812443256378174, "learning_rate": 3.827862068965517e-06, "loss": 0.2302, "step": 1125 }, { "epoch": 0.07533333333333334, "grad_norm": 4.4208879470825195, "learning_rate": 3.82648275862069e-06, "loss": 0.3537, "step": 1130 }, { "epoch": 0.07566666666666666, "grad_norm": 4.314350128173828, "learning_rate": 3.825103448275862e-06, "loss": 0.2998, "step": 1135 }, { "epoch": 0.076, "grad_norm": 4.672874927520752, "learning_rate": 3.823724137931034e-06, "loss": 0.2848, "step": 1140 }, { "epoch": 0.07633333333333334, "grad_norm": 4.471819877624512, "learning_rate": 3.822344827586207e-06, "loss": 0.2543, "step": 1145 }, { "epoch": 0.07666666666666666, "grad_norm": 4.000628471374512, "learning_rate": 3.820965517241379e-06, "loss": 0.3088, "step": 1150 }, { "epoch": 0.077, "grad_norm": 4.908796787261963, "learning_rate": 3.819586206896551e-06, "loss": 0.2784, "step": 1155 }, { "epoch": 0.07733333333333334, "grad_norm": 4.480701923370361, "learning_rate": 3.818206896551724e-06, "loss": 0.2934, "step": 1160 }, { "epoch": 0.07766666666666666, "grad_norm": 5.785653114318848, "learning_rate": 3.816827586206897e-06, "loss": 0.2518, "step": 1165 }, { "epoch": 0.078, "grad_norm": 5.864141464233398, "learning_rate": 3.815448275862069e-06, "loss": 0.3377, "step": 1170 }, { "epoch": 0.07833333333333334, "grad_norm": 5.776226997375488, "learning_rate": 3.8140689655172415e-06, "loss": 0.3108, "step": 1175 }, { "epoch": 0.07866666666666666, "grad_norm": 5.228902816772461, "learning_rate": 3.8126896551724138e-06, "loss": 0.3004, "step": 1180 }, { "epoch": 0.079, "grad_norm": 5.371283531188965, "learning_rate": 3.811310344827586e-06, "loss": 0.3444, "step": 1185 }, { "epoch": 0.07933333333333334, "grad_norm": 4.180716514587402, "learning_rate": 3.8099310344827582e-06, "loss": 0.2921, "step": 1190 }, { "epoch": 0.07966666666666666, "grad_norm": 4.9367899894714355, "learning_rate": 3.808551724137931e-06, "loss": 0.2494, "step": 1195 }, { "epoch": 0.08, "grad_norm": 6.15248966217041, "learning_rate": 3.807172413793103e-06, "loss": 0.2862, "step": 1200 }, { "epoch": 0.08033333333333334, "grad_norm": 3.990583896636963, "learning_rate": 3.8057931034482754e-06, "loss": 0.2312, "step": 1205 }, { "epoch": 0.08066666666666666, "grad_norm": 5.060131549835205, "learning_rate": 3.804413793103448e-06, "loss": 0.2277, "step": 1210 }, { "epoch": 0.081, "grad_norm": 4.86639928817749, "learning_rate": 3.8030344827586207e-06, "loss": 0.2859, "step": 1215 }, { "epoch": 0.08133333333333333, "grad_norm": 6.692898750305176, "learning_rate": 3.801655172413793e-06, "loss": 0.3708, "step": 1220 }, { "epoch": 0.08166666666666667, "grad_norm": 4.608207702636719, "learning_rate": 3.8002758620689656e-06, "loss": 0.2656, "step": 1225 }, { "epoch": 0.082, "grad_norm": 6.591036319732666, "learning_rate": 3.798896551724138e-06, "loss": 0.2934, "step": 1230 }, { "epoch": 0.08233333333333333, "grad_norm": 5.0066819190979, "learning_rate": 3.79751724137931e-06, "loss": 0.281, "step": 1235 }, { "epoch": 0.08266666666666667, "grad_norm": 6.584254741668701, "learning_rate": 3.7961379310344827e-06, "loss": 0.3168, "step": 1240 }, { "epoch": 0.083, "grad_norm": 4.0762248039245605, "learning_rate": 3.794758620689655e-06, "loss": 0.2344, "step": 1245 }, { "epoch": 0.08333333333333333, "grad_norm": 4.990663051605225, "learning_rate": 3.793379310344827e-06, "loss": 0.2368, "step": 1250 }, { "epoch": 0.08366666666666667, "grad_norm": 4.102662086486816, "learning_rate": 3.7919999999999994e-06, "loss": 0.2505, "step": 1255 }, { "epoch": 0.084, "grad_norm": 4.488475322723389, "learning_rate": 3.7906206896551725e-06, "loss": 0.2309, "step": 1260 }, { "epoch": 0.08433333333333333, "grad_norm": 4.8415021896362305, "learning_rate": 3.7892413793103448e-06, "loss": 0.258, "step": 1265 }, { "epoch": 0.08466666666666667, "grad_norm": 5.566763877868652, "learning_rate": 3.787862068965517e-06, "loss": 0.2825, "step": 1270 }, { "epoch": 0.085, "grad_norm": 4.509488582611084, "learning_rate": 3.7864827586206897e-06, "loss": 0.2838, "step": 1275 }, { "epoch": 0.08533333333333333, "grad_norm": 6.387430667877197, "learning_rate": 3.785103448275862e-06, "loss": 0.2634, "step": 1280 }, { "epoch": 0.08566666666666667, "grad_norm": 5.3504838943481445, "learning_rate": 3.783724137931034e-06, "loss": 0.2674, "step": 1285 }, { "epoch": 0.086, "grad_norm": 4.691121578216553, "learning_rate": 3.782344827586207e-06, "loss": 0.2884, "step": 1290 }, { "epoch": 0.08633333333333333, "grad_norm": 6.012605667114258, "learning_rate": 3.780965517241379e-06, "loss": 0.2448, "step": 1295 }, { "epoch": 0.08666666666666667, "grad_norm": 5.194992542266846, "learning_rate": 3.7795862068965513e-06, "loss": 0.2451, "step": 1300 }, { "epoch": 0.087, "grad_norm": 4.778232574462891, "learning_rate": 3.778206896551724e-06, "loss": 0.2286, "step": 1305 }, { "epoch": 0.08733333333333333, "grad_norm": 5.313968658447266, "learning_rate": 3.7768275862068966e-06, "loss": 0.2541, "step": 1310 }, { "epoch": 0.08766666666666667, "grad_norm": 5.243144512176514, "learning_rate": 3.775448275862069e-06, "loss": 0.3151, "step": 1315 }, { "epoch": 0.088, "grad_norm": 4.918150424957275, "learning_rate": 3.7740689655172415e-06, "loss": 0.2596, "step": 1320 }, { "epoch": 0.08833333333333333, "grad_norm": 6.457653522491455, "learning_rate": 3.7726896551724137e-06, "loss": 0.3397, "step": 1325 }, { "epoch": 0.08866666666666667, "grad_norm": 4.918553352355957, "learning_rate": 3.771310344827586e-06, "loss": 0.237, "step": 1330 }, { "epoch": 0.089, "grad_norm": 5.038596153259277, "learning_rate": 3.769931034482758e-06, "loss": 0.2729, "step": 1335 }, { "epoch": 0.08933333333333333, "grad_norm": 5.273203372955322, "learning_rate": 3.768551724137931e-06, "loss": 0.2552, "step": 1340 }, { "epoch": 0.08966666666666667, "grad_norm": 4.90943717956543, "learning_rate": 3.767172413793103e-06, "loss": 0.274, "step": 1345 }, { "epoch": 0.09, "grad_norm": 5.091463088989258, "learning_rate": 3.7657931034482753e-06, "loss": 0.2795, "step": 1350 }, { "epoch": 0.09033333333333333, "grad_norm": 4.01015043258667, "learning_rate": 3.7644137931034484e-06, "loss": 0.2526, "step": 1355 }, { "epoch": 0.09066666666666667, "grad_norm": 4.550036430358887, "learning_rate": 3.7630344827586207e-06, "loss": 0.2465, "step": 1360 }, { "epoch": 0.091, "grad_norm": 5.008514404296875, "learning_rate": 3.761655172413793e-06, "loss": 0.2468, "step": 1365 }, { "epoch": 0.09133333333333334, "grad_norm": 4.9785614013671875, "learning_rate": 3.7602758620689656e-06, "loss": 0.2339, "step": 1370 }, { "epoch": 0.09166666666666666, "grad_norm": 4.061981678009033, "learning_rate": 3.758896551724138e-06, "loss": 0.2275, "step": 1375 }, { "epoch": 0.092, "grad_norm": 6.866710662841797, "learning_rate": 3.75751724137931e-06, "loss": 0.3138, "step": 1380 }, { "epoch": 0.09233333333333334, "grad_norm": 5.299499034881592, "learning_rate": 3.7561379310344827e-06, "loss": 0.2687, "step": 1385 }, { "epoch": 0.09266666666666666, "grad_norm": 5.11612606048584, "learning_rate": 3.754758620689655e-06, "loss": 0.3068, "step": 1390 }, { "epoch": 0.093, "grad_norm": 4.906528949737549, "learning_rate": 3.753379310344827e-06, "loss": 0.2683, "step": 1395 }, { "epoch": 0.09333333333333334, "grad_norm": 4.881203651428223, "learning_rate": 3.7519999999999994e-06, "loss": 0.2192, "step": 1400 }, { "epoch": 0.09366666666666666, "grad_norm": 5.611764430999756, "learning_rate": 3.7506206896551725e-06, "loss": 0.2534, "step": 1405 }, { "epoch": 0.094, "grad_norm": 4.44486665725708, "learning_rate": 3.7492413793103447e-06, "loss": 0.2349, "step": 1410 }, { "epoch": 0.09433333333333334, "grad_norm": 4.563302993774414, "learning_rate": 3.747862068965517e-06, "loss": 0.261, "step": 1415 }, { "epoch": 0.09466666666666666, "grad_norm": 4.244008541107178, "learning_rate": 3.7464827586206896e-06, "loss": 0.2793, "step": 1420 }, { "epoch": 0.095, "grad_norm": 5.097350120544434, "learning_rate": 3.745103448275862e-06, "loss": 0.291, "step": 1425 }, { "epoch": 0.09533333333333334, "grad_norm": 5.585333824157715, "learning_rate": 3.743724137931034e-06, "loss": 0.2653, "step": 1430 }, { "epoch": 0.09566666666666666, "grad_norm": 3.88558030128479, "learning_rate": 3.7423448275862068e-06, "loss": 0.3022, "step": 1435 }, { "epoch": 0.096, "grad_norm": 4.54000186920166, "learning_rate": 3.740965517241379e-06, "loss": 0.2747, "step": 1440 }, { "epoch": 0.09633333333333334, "grad_norm": 3.8508284091949463, "learning_rate": 3.7395862068965512e-06, "loss": 0.2619, "step": 1445 }, { "epoch": 0.09666666666666666, "grad_norm": 4.385409355163574, "learning_rate": 3.7382068965517243e-06, "loss": 0.2479, "step": 1450 }, { "epoch": 0.097, "grad_norm": 5.179412841796875, "learning_rate": 3.7368275862068965e-06, "loss": 0.2886, "step": 1455 }, { "epoch": 0.09733333333333333, "grad_norm": 5.31596040725708, "learning_rate": 3.7354482758620688e-06, "loss": 0.2543, "step": 1460 }, { "epoch": 0.09766666666666667, "grad_norm": 4.653109073638916, "learning_rate": 3.7340689655172414e-06, "loss": 0.2662, "step": 1465 }, { "epoch": 0.098, "grad_norm": 5.061960220336914, "learning_rate": 3.7326896551724137e-06, "loss": 0.3106, "step": 1470 }, { "epoch": 0.09833333333333333, "grad_norm": 4.722198009490967, "learning_rate": 3.731310344827586e-06, "loss": 0.2542, "step": 1475 }, { "epoch": 0.09866666666666667, "grad_norm": 5.234065055847168, "learning_rate": 3.729931034482758e-06, "loss": 0.2314, "step": 1480 }, { "epoch": 0.099, "grad_norm": 5.877997875213623, "learning_rate": 3.728551724137931e-06, "loss": 0.2618, "step": 1485 }, { "epoch": 0.09933333333333333, "grad_norm": 5.040881633758545, "learning_rate": 3.727172413793103e-06, "loss": 0.2594, "step": 1490 }, { "epoch": 0.09966666666666667, "grad_norm": 4.136047840118408, "learning_rate": 3.7257931034482757e-06, "loss": 0.2977, "step": 1495 }, { "epoch": 0.1, "grad_norm": 4.5455522537231445, "learning_rate": 3.7244137931034484e-06, "loss": 0.2542, "step": 1500 }, { "epoch": 0.10033333333333333, "grad_norm": 4.754386901855469, "learning_rate": 3.7230344827586206e-06, "loss": 0.2584, "step": 1505 }, { "epoch": 0.10066666666666667, "grad_norm": 5.083920478820801, "learning_rate": 3.721655172413793e-06, "loss": 0.2453, "step": 1510 }, { "epoch": 0.101, "grad_norm": 5.068266868591309, "learning_rate": 3.7202758620689655e-06, "loss": 0.3788, "step": 1515 }, { "epoch": 0.10133333333333333, "grad_norm": 4.6681718826293945, "learning_rate": 3.7188965517241377e-06, "loss": 0.3632, "step": 1520 }, { "epoch": 0.10166666666666667, "grad_norm": 4.75352144241333, "learning_rate": 3.71751724137931e-06, "loss": 0.2456, "step": 1525 }, { "epoch": 0.102, "grad_norm": 4.979728698730469, "learning_rate": 3.7161379310344826e-06, "loss": 0.2734, "step": 1530 }, { "epoch": 0.10233333333333333, "grad_norm": 4.664429664611816, "learning_rate": 3.714758620689655e-06, "loss": 0.2404, "step": 1535 }, { "epoch": 0.10266666666666667, "grad_norm": 4.773996353149414, "learning_rate": 3.713379310344827e-06, "loss": 0.2234, "step": 1540 }, { "epoch": 0.103, "grad_norm": 5.295383453369141, "learning_rate": 3.712e-06, "loss": 0.2996, "step": 1545 }, { "epoch": 0.10333333333333333, "grad_norm": 5.3843674659729, "learning_rate": 3.7106206896551724e-06, "loss": 0.2469, "step": 1550 }, { "epoch": 0.10366666666666667, "grad_norm": 4.073385715484619, "learning_rate": 3.7092413793103447e-06, "loss": 0.2974, "step": 1555 }, { "epoch": 0.104, "grad_norm": 5.766740322113037, "learning_rate": 3.707862068965517e-06, "loss": 0.3043, "step": 1560 }, { "epoch": 0.10433333333333333, "grad_norm": 4.732587814331055, "learning_rate": 3.7064827586206896e-06, "loss": 0.2583, "step": 1565 }, { "epoch": 0.10466666666666667, "grad_norm": 4.8575263023376465, "learning_rate": 3.705103448275862e-06, "loss": 0.3531, "step": 1570 }, { "epoch": 0.105, "grad_norm": 5.241917133331299, "learning_rate": 3.703724137931034e-06, "loss": 0.2694, "step": 1575 }, { "epoch": 0.10533333333333333, "grad_norm": 5.0814433097839355, "learning_rate": 3.7023448275862067e-06, "loss": 0.2592, "step": 1580 }, { "epoch": 0.10566666666666667, "grad_norm": 5.138918876647949, "learning_rate": 3.700965517241379e-06, "loss": 0.2356, "step": 1585 }, { "epoch": 0.106, "grad_norm": 4.869070529937744, "learning_rate": 3.6995862068965516e-06, "loss": 0.2821, "step": 1590 }, { "epoch": 0.10633333333333334, "grad_norm": 3.5198214054107666, "learning_rate": 3.6982068965517243e-06, "loss": 0.2631, "step": 1595 }, { "epoch": 0.10666666666666667, "grad_norm": 5.768096923828125, "learning_rate": 3.6968275862068965e-06, "loss": 0.2592, "step": 1600 }, { "epoch": 0.107, "grad_norm": 5.376443862915039, "learning_rate": 3.6954482758620687e-06, "loss": 0.2922, "step": 1605 }, { "epoch": 0.10733333333333334, "grad_norm": 4.455847263336182, "learning_rate": 3.6940689655172414e-06, "loss": 0.3444, "step": 1610 }, { "epoch": 0.10766666666666666, "grad_norm": 5.24611234664917, "learning_rate": 3.6926896551724136e-06, "loss": 0.2527, "step": 1615 }, { "epoch": 0.108, "grad_norm": 4.859856128692627, "learning_rate": 3.691310344827586e-06, "loss": 0.3186, "step": 1620 }, { "epoch": 0.10833333333333334, "grad_norm": 4.707637310028076, "learning_rate": 3.6899310344827585e-06, "loss": 0.2355, "step": 1625 }, { "epoch": 0.10866666666666666, "grad_norm": 4.985675811767578, "learning_rate": 3.6885517241379308e-06, "loss": 0.2337, "step": 1630 }, { "epoch": 0.109, "grad_norm": 4.2930827140808105, "learning_rate": 3.687172413793103e-06, "loss": 0.2256, "step": 1635 }, { "epoch": 0.10933333333333334, "grad_norm": 5.156063079833984, "learning_rate": 3.6857931034482757e-06, "loss": 0.2643, "step": 1640 }, { "epoch": 0.10966666666666666, "grad_norm": 5.340132236480713, "learning_rate": 3.6844137931034483e-06, "loss": 0.2794, "step": 1645 }, { "epoch": 0.11, "grad_norm": 4.3220319747924805, "learning_rate": 3.6830344827586206e-06, "loss": 0.2199, "step": 1650 }, { "epoch": 0.11033333333333334, "grad_norm": 5.682506561279297, "learning_rate": 3.681655172413793e-06, "loss": 0.2873, "step": 1655 }, { "epoch": 0.11066666666666666, "grad_norm": 5.9761176109313965, "learning_rate": 3.6802758620689655e-06, "loss": 0.2611, "step": 1660 }, { "epoch": 0.111, "grad_norm": 4.950174331665039, "learning_rate": 3.6788965517241377e-06, "loss": 0.2557, "step": 1665 }, { "epoch": 0.11133333333333334, "grad_norm": 5.053467273712158, "learning_rate": 3.67751724137931e-06, "loss": 0.2746, "step": 1670 }, { "epoch": 0.11166666666666666, "grad_norm": 4.110051155090332, "learning_rate": 3.6761379310344826e-06, "loss": 0.2382, "step": 1675 }, { "epoch": 0.112, "grad_norm": 4.34512186050415, "learning_rate": 3.674758620689655e-06, "loss": 0.2822, "step": 1680 }, { "epoch": 0.11233333333333333, "grad_norm": 4.521066188812256, "learning_rate": 3.6733793103448275e-06, "loss": 0.2488, "step": 1685 }, { "epoch": 0.11266666666666666, "grad_norm": 7.6328959465026855, "learning_rate": 3.672e-06, "loss": 0.2313, "step": 1690 }, { "epoch": 0.113, "grad_norm": 4.275876998901367, "learning_rate": 3.6706206896551724e-06, "loss": 0.2901, "step": 1695 }, { "epoch": 0.11333333333333333, "grad_norm": 4.789595603942871, "learning_rate": 3.6692413793103446e-06, "loss": 0.2413, "step": 1700 }, { "epoch": 0.11366666666666667, "grad_norm": 4.3701581954956055, "learning_rate": 3.667862068965517e-06, "loss": 0.2769, "step": 1705 }, { "epoch": 0.114, "grad_norm": 5.730388164520264, "learning_rate": 3.6664827586206895e-06, "loss": 0.2637, "step": 1710 }, { "epoch": 0.11433333333333333, "grad_norm": 4.73004150390625, "learning_rate": 3.6651034482758618e-06, "loss": 0.2917, "step": 1715 }, { "epoch": 0.11466666666666667, "grad_norm": 4.420704364776611, "learning_rate": 3.663724137931034e-06, "loss": 0.2515, "step": 1720 }, { "epoch": 0.115, "grad_norm": 5.096787929534912, "learning_rate": 3.6623448275862067e-06, "loss": 0.2771, "step": 1725 }, { "epoch": 0.11533333333333333, "grad_norm": 4.935615539550781, "learning_rate": 3.6609655172413793e-06, "loss": 0.2652, "step": 1730 }, { "epoch": 0.11566666666666667, "grad_norm": 5.216274738311768, "learning_rate": 3.6595862068965516e-06, "loss": 0.2334, "step": 1735 }, { "epoch": 0.116, "grad_norm": 4.653584957122803, "learning_rate": 3.6582068965517242e-06, "loss": 0.2181, "step": 1740 }, { "epoch": 0.11633333333333333, "grad_norm": 5.3647308349609375, "learning_rate": 3.6568275862068965e-06, "loss": 0.2554, "step": 1745 }, { "epoch": 0.11666666666666667, "grad_norm": 4.96422004699707, "learning_rate": 3.6554482758620687e-06, "loss": 0.2996, "step": 1750 }, { "epoch": 0.117, "grad_norm": 4.40029764175415, "learning_rate": 3.6540689655172414e-06, "loss": 0.2818, "step": 1755 }, { "epoch": 0.11733333333333333, "grad_norm": 5.796911716461182, "learning_rate": 3.6526896551724136e-06, "loss": 0.2599, "step": 1760 }, { "epoch": 0.11766666666666667, "grad_norm": 5.33125114440918, "learning_rate": 3.651310344827586e-06, "loss": 0.2605, "step": 1765 }, { "epoch": 0.118, "grad_norm": 4.7566375732421875, "learning_rate": 3.6499310344827585e-06, "loss": 0.2126, "step": 1770 }, { "epoch": 0.11833333333333333, "grad_norm": 5.305136203765869, "learning_rate": 3.6485517241379307e-06, "loss": 0.289, "step": 1775 }, { "epoch": 0.11866666666666667, "grad_norm": 3.6046323776245117, "learning_rate": 3.6471724137931034e-06, "loss": 0.2685, "step": 1780 }, { "epoch": 0.119, "grad_norm": 4.755594730377197, "learning_rate": 3.6457931034482756e-06, "loss": 0.2511, "step": 1785 }, { "epoch": 0.11933333333333333, "grad_norm": 3.969334125518799, "learning_rate": 3.6444137931034483e-06, "loss": 0.2285, "step": 1790 }, { "epoch": 0.11966666666666667, "grad_norm": 5.696120738983154, "learning_rate": 3.6430344827586205e-06, "loss": 0.3646, "step": 1795 }, { "epoch": 0.12, "grad_norm": 4.790066719055176, "learning_rate": 3.6416551724137928e-06, "loss": 0.2953, "step": 1800 }, { "epoch": 0.12033333333333333, "grad_norm": 4.5103254318237305, "learning_rate": 3.6402758620689654e-06, "loss": 0.2181, "step": 1805 }, { "epoch": 0.12066666666666667, "grad_norm": 5.52761697769165, "learning_rate": 3.6388965517241377e-06, "loss": 0.264, "step": 1810 }, { "epoch": 0.121, "grad_norm": 4.574708938598633, "learning_rate": 3.63751724137931e-06, "loss": 0.246, "step": 1815 }, { "epoch": 0.12133333333333333, "grad_norm": 4.654568195343018, "learning_rate": 3.6361379310344826e-06, "loss": 0.2545, "step": 1820 }, { "epoch": 0.12166666666666667, "grad_norm": 4.912635803222656, "learning_rate": 3.6347586206896552e-06, "loss": 0.2144, "step": 1825 }, { "epoch": 0.122, "grad_norm": 4.409463405609131, "learning_rate": 3.6333793103448275e-06, "loss": 0.2722, "step": 1830 }, { "epoch": 0.12233333333333334, "grad_norm": 4.783137798309326, "learning_rate": 3.632e-06, "loss": 0.2539, "step": 1835 }, { "epoch": 0.12266666666666666, "grad_norm": 3.953408718109131, "learning_rate": 3.6306206896551724e-06, "loss": 0.2511, "step": 1840 }, { "epoch": 0.123, "grad_norm": 5.506841659545898, "learning_rate": 3.6292413793103446e-06, "loss": 0.3607, "step": 1845 }, { "epoch": 0.12333333333333334, "grad_norm": 5.287622451782227, "learning_rate": 3.6278620689655173e-06, "loss": 0.2571, "step": 1850 }, { "epoch": 0.12366666666666666, "grad_norm": 4.334446430206299, "learning_rate": 3.6264827586206895e-06, "loss": 0.2215, "step": 1855 }, { "epoch": 0.124, "grad_norm": 3.9684669971466064, "learning_rate": 3.6251034482758617e-06, "loss": 0.2143, "step": 1860 }, { "epoch": 0.12433333333333334, "grad_norm": 5.23777437210083, "learning_rate": 3.623724137931034e-06, "loss": 0.2634, "step": 1865 }, { "epoch": 0.12466666666666666, "grad_norm": 4.917655944824219, "learning_rate": 3.6223448275862066e-06, "loss": 0.2587, "step": 1870 }, { "epoch": 0.125, "grad_norm": 3.844343900680542, "learning_rate": 3.6209655172413793e-06, "loss": 0.279, "step": 1875 }, { "epoch": 0.12533333333333332, "grad_norm": 4.376672267913818, "learning_rate": 3.6195862068965515e-06, "loss": 0.2553, "step": 1880 }, { "epoch": 0.12566666666666668, "grad_norm": 5.425791263580322, "learning_rate": 3.618206896551724e-06, "loss": 0.2259, "step": 1885 }, { "epoch": 0.126, "grad_norm": 4.359671592712402, "learning_rate": 3.6168275862068964e-06, "loss": 0.2285, "step": 1890 }, { "epoch": 0.12633333333333333, "grad_norm": 5.705598831176758, "learning_rate": 3.6154482758620687e-06, "loss": 0.2865, "step": 1895 }, { "epoch": 0.12666666666666668, "grad_norm": 4.676022529602051, "learning_rate": 3.6140689655172413e-06, "loss": 0.249, "step": 1900 }, { "epoch": 0.127, "grad_norm": 5.047347545623779, "learning_rate": 3.6126896551724136e-06, "loss": 0.2186, "step": 1905 }, { "epoch": 0.12733333333333333, "grad_norm": 7.939009666442871, "learning_rate": 3.611310344827586e-06, "loss": 0.3171, "step": 1910 }, { "epoch": 0.12766666666666668, "grad_norm": 4.111150741577148, "learning_rate": 3.6099310344827585e-06, "loss": 0.3106, "step": 1915 }, { "epoch": 0.128, "grad_norm": 4.176487445831299, "learning_rate": 3.608551724137931e-06, "loss": 0.2749, "step": 1920 }, { "epoch": 0.12833333333333333, "grad_norm": 3.7570016384124756, "learning_rate": 3.6071724137931034e-06, "loss": 0.2301, "step": 1925 }, { "epoch": 0.12866666666666668, "grad_norm": 4.7978997230529785, "learning_rate": 3.605793103448276e-06, "loss": 0.2145, "step": 1930 }, { "epoch": 0.129, "grad_norm": 5.743479251861572, "learning_rate": 3.6044137931034483e-06, "loss": 0.2948, "step": 1935 }, { "epoch": 0.12933333333333333, "grad_norm": 5.575948238372803, "learning_rate": 3.6030344827586205e-06, "loss": 0.3013, "step": 1940 }, { "epoch": 0.12966666666666668, "grad_norm": 4.671169281005859, "learning_rate": 3.6016551724137927e-06, "loss": 0.2661, "step": 1945 }, { "epoch": 0.13, "grad_norm": 4.274127006530762, "learning_rate": 3.6002758620689654e-06, "loss": 0.2818, "step": 1950 }, { "epoch": 0.13033333333333333, "grad_norm": 5.743216514587402, "learning_rate": 3.5988965517241376e-06, "loss": 0.2928, "step": 1955 }, { "epoch": 0.13066666666666665, "grad_norm": 4.869400501251221, "learning_rate": 3.59751724137931e-06, "loss": 0.3071, "step": 1960 }, { "epoch": 0.131, "grad_norm": 3.830754041671753, "learning_rate": 3.5961379310344825e-06, "loss": 0.2607, "step": 1965 }, { "epoch": 0.13133333333333333, "grad_norm": 4.715906143188477, "learning_rate": 3.594758620689655e-06, "loss": 0.2491, "step": 1970 }, { "epoch": 0.13166666666666665, "grad_norm": 3.761927604675293, "learning_rate": 3.5933793103448274e-06, "loss": 0.2198, "step": 1975 }, { "epoch": 0.132, "grad_norm": 6.094804286956787, "learning_rate": 3.592e-06, "loss": 0.2619, "step": 1980 }, { "epoch": 0.13233333333333333, "grad_norm": 3.8962111473083496, "learning_rate": 3.5906206896551723e-06, "loss": 0.2507, "step": 1985 }, { "epoch": 0.13266666666666665, "grad_norm": 3.830124855041504, "learning_rate": 3.5892413793103446e-06, "loss": 0.1978, "step": 1990 }, { "epoch": 0.133, "grad_norm": 6.0126519203186035, "learning_rate": 3.5878620689655172e-06, "loss": 0.2732, "step": 1995 }, { "epoch": 0.13333333333333333, "grad_norm": 5.614018440246582, "learning_rate": 3.5864827586206895e-06, "loss": 0.2506, "step": 2000 }, { "epoch": 0.13333333333333333, "eval_loss": 0.2459840327501297, "eval_runtime": 139.0467, "eval_samples_per_second": 4.315, "eval_steps_per_second": 1.079, "eval_wer": 12.841460301250956, "step": 2000 }, { "epoch": 0.13366666666666666, "grad_norm": 4.154967308044434, "learning_rate": 3.5851034482758617e-06, "loss": 0.2197, "step": 2005 }, { "epoch": 0.134, "grad_norm": 4.249428749084473, "learning_rate": 3.583724137931034e-06, "loss": 0.2279, "step": 2010 }, { "epoch": 0.13433333333333333, "grad_norm": 4.329864501953125, "learning_rate": 3.582344827586207e-06, "loss": 0.2307, "step": 2015 }, { "epoch": 0.13466666666666666, "grad_norm": 4.257216453552246, "learning_rate": 3.5809655172413793e-06, "loss": 0.235, "step": 2020 }, { "epoch": 0.135, "grad_norm": 5.581985950469971, "learning_rate": 3.5795862068965515e-06, "loss": 0.2293, "step": 2025 }, { "epoch": 0.13533333333333333, "grad_norm": 4.35102653503418, "learning_rate": 3.578206896551724e-06, "loss": 0.2495, "step": 2030 }, { "epoch": 0.13566666666666666, "grad_norm": 5.571939945220947, "learning_rate": 3.5768275862068964e-06, "loss": 0.2917, "step": 2035 }, { "epoch": 0.136, "grad_norm": 4.097556114196777, "learning_rate": 3.5754482758620686e-06, "loss": 0.2618, "step": 2040 }, { "epoch": 0.13633333333333333, "grad_norm": 5.674405097961426, "learning_rate": 3.5740689655172413e-06, "loss": 0.2504, "step": 2045 }, { "epoch": 0.13666666666666666, "grad_norm": 4.936873912811279, "learning_rate": 3.5726896551724135e-06, "loss": 0.2538, "step": 2050 }, { "epoch": 0.137, "grad_norm": 5.362658977508545, "learning_rate": 3.5713103448275858e-06, "loss": 0.2302, "step": 2055 }, { "epoch": 0.13733333333333334, "grad_norm": 4.990427017211914, "learning_rate": 3.569931034482759e-06, "loss": 0.2876, "step": 2060 }, { "epoch": 0.13766666666666666, "grad_norm": 5.1737775802612305, "learning_rate": 3.568551724137931e-06, "loss": 0.2783, "step": 2065 }, { "epoch": 0.138, "grad_norm": 4.937466621398926, "learning_rate": 3.5671724137931033e-06, "loss": 0.2213, "step": 2070 }, { "epoch": 0.13833333333333334, "grad_norm": 4.43440580368042, "learning_rate": 3.565793103448276e-06, "loss": 0.2015, "step": 2075 }, { "epoch": 0.13866666666666666, "grad_norm": 4.639272689819336, "learning_rate": 3.5644137931034482e-06, "loss": 0.2258, "step": 2080 }, { "epoch": 0.139, "grad_norm": 5.828295707702637, "learning_rate": 3.5630344827586205e-06, "loss": 0.2736, "step": 2085 }, { "epoch": 0.13933333333333334, "grad_norm": 4.2289204597473145, "learning_rate": 3.5616551724137927e-06, "loss": 0.2581, "step": 2090 }, { "epoch": 0.13966666666666666, "grad_norm": 5.363533020019531, "learning_rate": 3.5602758620689653e-06, "loss": 0.2715, "step": 2095 }, { "epoch": 0.14, "grad_norm": 3.8318686485290527, "learning_rate": 3.5588965517241376e-06, "loss": 0.2433, "step": 2100 }, { "epoch": 0.14033333333333334, "grad_norm": 5.367889881134033, "learning_rate": 3.55751724137931e-06, "loss": 0.2187, "step": 2105 }, { "epoch": 0.14066666666666666, "grad_norm": 3.9531843662261963, "learning_rate": 3.556137931034483e-06, "loss": 0.2192, "step": 2110 }, { "epoch": 0.141, "grad_norm": 4.264510631561279, "learning_rate": 3.554758620689655e-06, "loss": 0.2598, "step": 2115 }, { "epoch": 0.14133333333333334, "grad_norm": 6.129741668701172, "learning_rate": 3.5533793103448274e-06, "loss": 0.3208, "step": 2120 }, { "epoch": 0.14166666666666666, "grad_norm": 4.258221626281738, "learning_rate": 3.552e-06, "loss": 0.2139, "step": 2125 }, { "epoch": 0.142, "grad_norm": 4.926301956176758, "learning_rate": 3.5506206896551723e-06, "loss": 0.2869, "step": 2130 }, { "epoch": 0.14233333333333334, "grad_norm": 4.224712371826172, "learning_rate": 3.5492413793103445e-06, "loss": 0.2594, "step": 2135 }, { "epoch": 0.14266666666666666, "grad_norm": 5.91023063659668, "learning_rate": 3.547862068965517e-06, "loss": 0.2365, "step": 2140 }, { "epoch": 0.143, "grad_norm": 5.212203025817871, "learning_rate": 3.5464827586206894e-06, "loss": 0.2513, "step": 2145 }, { "epoch": 0.14333333333333334, "grad_norm": 4.251794815063477, "learning_rate": 3.5451034482758617e-06, "loss": 0.2229, "step": 2150 }, { "epoch": 0.14366666666666666, "grad_norm": 5.3950018882751465, "learning_rate": 3.5437241379310347e-06, "loss": 0.2609, "step": 2155 }, { "epoch": 0.144, "grad_norm": 5.376851558685303, "learning_rate": 3.542344827586207e-06, "loss": 0.2746, "step": 2160 }, { "epoch": 0.14433333333333334, "grad_norm": 5.448855876922607, "learning_rate": 3.540965517241379e-06, "loss": 0.246, "step": 2165 }, { "epoch": 0.14466666666666667, "grad_norm": 4.98777961730957, "learning_rate": 3.5395862068965514e-06, "loss": 0.288, "step": 2170 }, { "epoch": 0.145, "grad_norm": 5.549157619476318, "learning_rate": 3.538206896551724e-06, "loss": 0.3256, "step": 2175 }, { "epoch": 0.14533333333333334, "grad_norm": 4.930784702301025, "learning_rate": 3.5368275862068963e-06, "loss": 0.2619, "step": 2180 }, { "epoch": 0.14566666666666667, "grad_norm": 4.573493957519531, "learning_rate": 3.5354482758620686e-06, "loss": 0.2702, "step": 2185 }, { "epoch": 0.146, "grad_norm": 5.128422260284424, "learning_rate": 3.5340689655172412e-06, "loss": 0.239, "step": 2190 }, { "epoch": 0.14633333333333334, "grad_norm": 4.46385383605957, "learning_rate": 3.5326896551724135e-06, "loss": 0.2256, "step": 2195 }, { "epoch": 0.14666666666666667, "grad_norm": 4.944850444793701, "learning_rate": 3.5313103448275857e-06, "loss": 0.2419, "step": 2200 }, { "epoch": 0.147, "grad_norm": 4.948612689971924, "learning_rate": 3.529931034482759e-06, "loss": 0.23, "step": 2205 }, { "epoch": 0.14733333333333334, "grad_norm": 5.370577812194824, "learning_rate": 3.528551724137931e-06, "loss": 0.2468, "step": 2210 }, { "epoch": 0.14766666666666667, "grad_norm": 5.873105525970459, "learning_rate": 3.5271724137931033e-06, "loss": 0.2693, "step": 2215 }, { "epoch": 0.148, "grad_norm": 4.9380669593811035, "learning_rate": 3.525793103448276e-06, "loss": 0.2683, "step": 2220 }, { "epoch": 0.14833333333333334, "grad_norm": 4.294095039367676, "learning_rate": 3.524413793103448e-06, "loss": 0.2156, "step": 2225 }, { "epoch": 0.14866666666666667, "grad_norm": 5.501603126525879, "learning_rate": 3.5230344827586204e-06, "loss": 0.2744, "step": 2230 }, { "epoch": 0.149, "grad_norm": 4.894035816192627, "learning_rate": 3.5216551724137926e-06, "loss": 0.3078, "step": 2235 }, { "epoch": 0.14933333333333335, "grad_norm": 6.057002067565918, "learning_rate": 3.5202758620689653e-06, "loss": 0.2876, "step": 2240 }, { "epoch": 0.14966666666666667, "grad_norm": 4.819766044616699, "learning_rate": 3.5188965517241375e-06, "loss": 0.2505, "step": 2245 }, { "epoch": 0.15, "grad_norm": 4.762735366821289, "learning_rate": 3.51751724137931e-06, "loss": 0.2172, "step": 2250 }, { "epoch": 0.15033333333333335, "grad_norm": 4.795835018157959, "learning_rate": 3.516137931034483e-06, "loss": 0.262, "step": 2255 }, { "epoch": 0.15066666666666667, "grad_norm": 5.1595988273620605, "learning_rate": 3.514758620689655e-06, "loss": 0.2576, "step": 2260 }, { "epoch": 0.151, "grad_norm": 4.844261646270752, "learning_rate": 3.5133793103448273e-06, "loss": 0.2359, "step": 2265 }, { "epoch": 0.15133333333333332, "grad_norm": 5.151372909545898, "learning_rate": 3.512e-06, "loss": 0.2517, "step": 2270 }, { "epoch": 0.15166666666666667, "grad_norm": 4.588495254516602, "learning_rate": 3.5106206896551722e-06, "loss": 0.2623, "step": 2275 }, { "epoch": 0.152, "grad_norm": 5.8936238288879395, "learning_rate": 3.5092413793103445e-06, "loss": 0.2997, "step": 2280 }, { "epoch": 0.15233333333333332, "grad_norm": 4.8859429359436035, "learning_rate": 3.507862068965517e-06, "loss": 0.2375, "step": 2285 }, { "epoch": 0.15266666666666667, "grad_norm": 4.650790691375732, "learning_rate": 3.5064827586206894e-06, "loss": 0.2244, "step": 2290 }, { "epoch": 0.153, "grad_norm": 4.137133598327637, "learning_rate": 3.505103448275862e-06, "loss": 0.2971, "step": 2295 }, { "epoch": 0.15333333333333332, "grad_norm": 4.2419867515563965, "learning_rate": 3.5037241379310347e-06, "loss": 0.2279, "step": 2300 }, { "epoch": 0.15366666666666667, "grad_norm": 5.029589653015137, "learning_rate": 3.502344827586207e-06, "loss": 0.2596, "step": 2305 }, { "epoch": 0.154, "grad_norm": 4.471005439758301, "learning_rate": 3.500965517241379e-06, "loss": 0.3024, "step": 2310 }, { "epoch": 0.15433333333333332, "grad_norm": 5.1212873458862305, "learning_rate": 3.4995862068965514e-06, "loss": 0.2624, "step": 2315 }, { "epoch": 0.15466666666666667, "grad_norm": 5.068171977996826, "learning_rate": 3.498206896551724e-06, "loss": 0.2339, "step": 2320 }, { "epoch": 0.155, "grad_norm": 5.837029457092285, "learning_rate": 3.4968275862068963e-06, "loss": 0.2202, "step": 2325 }, { "epoch": 0.15533333333333332, "grad_norm": 5.233797073364258, "learning_rate": 3.4954482758620685e-06, "loss": 0.2307, "step": 2330 }, { "epoch": 0.15566666666666668, "grad_norm": 5.003569602966309, "learning_rate": 3.494068965517241e-06, "loss": 0.2488, "step": 2335 }, { "epoch": 0.156, "grad_norm": 5.215402126312256, "learning_rate": 3.4926896551724134e-06, "loss": 0.2539, "step": 2340 }, { "epoch": 0.15633333333333332, "grad_norm": 4.594287872314453, "learning_rate": 3.491310344827586e-06, "loss": 0.2237, "step": 2345 }, { "epoch": 0.15666666666666668, "grad_norm": 4.945546627044678, "learning_rate": 3.4899310344827588e-06, "loss": 0.2709, "step": 2350 }, { "epoch": 0.157, "grad_norm": 4.1710405349731445, "learning_rate": 3.488551724137931e-06, "loss": 0.256, "step": 2355 }, { "epoch": 0.15733333333333333, "grad_norm": 4.216401100158691, "learning_rate": 3.4871724137931032e-06, "loss": 0.2312, "step": 2360 }, { "epoch": 0.15766666666666668, "grad_norm": 7.646403789520264, "learning_rate": 3.485793103448276e-06, "loss": 0.2226, "step": 2365 }, { "epoch": 0.158, "grad_norm": 5.661412239074707, "learning_rate": 3.484413793103448e-06, "loss": 0.2836, "step": 2370 }, { "epoch": 0.15833333333333333, "grad_norm": 4.148995399475098, "learning_rate": 3.4830344827586204e-06, "loss": 0.2199, "step": 2375 }, { "epoch": 0.15866666666666668, "grad_norm": 5.131689071655273, "learning_rate": 3.4816551724137926e-06, "loss": 0.224, "step": 2380 }, { "epoch": 0.159, "grad_norm": 5.204654693603516, "learning_rate": 3.4802758620689653e-06, "loss": 0.2941, "step": 2385 }, { "epoch": 0.15933333333333333, "grad_norm": 3.511678457260132, "learning_rate": 3.478896551724138e-06, "loss": 0.2614, "step": 2390 }, { "epoch": 0.15966666666666668, "grad_norm": 4.553131103515625, "learning_rate": 3.47751724137931e-06, "loss": 0.2632, "step": 2395 }, { "epoch": 0.16, "grad_norm": 5.157543659210205, "learning_rate": 3.476137931034483e-06, "loss": 0.2876, "step": 2400 }, { "epoch": 0.16033333333333333, "grad_norm": 3.918602466583252, "learning_rate": 3.474758620689655e-06, "loss": 0.2588, "step": 2405 }, { "epoch": 0.16066666666666668, "grad_norm": 4.780972957611084, "learning_rate": 3.4733793103448273e-06, "loss": 0.2275, "step": 2410 }, { "epoch": 0.161, "grad_norm": 4.756047248840332, "learning_rate": 3.472e-06, "loss": 0.2483, "step": 2415 }, { "epoch": 0.16133333333333333, "grad_norm": 4.1159796714782715, "learning_rate": 3.470620689655172e-06, "loss": 0.2468, "step": 2420 }, { "epoch": 0.16166666666666665, "grad_norm": 4.943764686584473, "learning_rate": 3.4692413793103444e-06, "loss": 0.2405, "step": 2425 }, { "epoch": 0.162, "grad_norm": 4.706329345703125, "learning_rate": 3.467862068965517e-06, "loss": 0.2334, "step": 2430 }, { "epoch": 0.16233333333333333, "grad_norm": 4.787866115570068, "learning_rate": 3.4664827586206893e-06, "loss": 0.2039, "step": 2435 }, { "epoch": 0.16266666666666665, "grad_norm": 5.41939115524292, "learning_rate": 3.465103448275862e-06, "loss": 0.2358, "step": 2440 }, { "epoch": 0.163, "grad_norm": 4.854283809661865, "learning_rate": 3.4637241379310347e-06, "loss": 0.3065, "step": 2445 }, { "epoch": 0.16333333333333333, "grad_norm": 4.342837810516357, "learning_rate": 3.462344827586207e-06, "loss": 0.2439, "step": 2450 }, { "epoch": 0.16366666666666665, "grad_norm": 4.5327467918396, "learning_rate": 3.460965517241379e-06, "loss": 0.2369, "step": 2455 }, { "epoch": 0.164, "grad_norm": 4.487262725830078, "learning_rate": 3.4595862068965514e-06, "loss": 0.2357, "step": 2460 }, { "epoch": 0.16433333333333333, "grad_norm": 5.004885196685791, "learning_rate": 3.458206896551724e-06, "loss": 0.2793, "step": 2465 }, { "epoch": 0.16466666666666666, "grad_norm": 4.2630720138549805, "learning_rate": 3.4568275862068963e-06, "loss": 0.2387, "step": 2470 }, { "epoch": 0.165, "grad_norm": 4.213596343994141, "learning_rate": 3.4554482758620685e-06, "loss": 0.2692, "step": 2475 }, { "epoch": 0.16533333333333333, "grad_norm": 4.435369968414307, "learning_rate": 3.454068965517241e-06, "loss": 0.2383, "step": 2480 }, { "epoch": 0.16566666666666666, "grad_norm": 4.381566524505615, "learning_rate": 3.452689655172414e-06, "loss": 0.2346, "step": 2485 }, { "epoch": 0.166, "grad_norm": 4.610717296600342, "learning_rate": 3.451310344827586e-06, "loss": 0.2693, "step": 2490 }, { "epoch": 0.16633333333333333, "grad_norm": 4.803826808929443, "learning_rate": 3.4499310344827587e-06, "loss": 0.2621, "step": 2495 }, { "epoch": 0.16666666666666666, "grad_norm": 5.030712604522705, "learning_rate": 3.448551724137931e-06, "loss": 0.221, "step": 2500 }, { "epoch": 0.167, "grad_norm": 5.310883522033691, "learning_rate": 3.447172413793103e-06, "loss": 0.3361, "step": 2505 }, { "epoch": 0.16733333333333333, "grad_norm": 4.664628028869629, "learning_rate": 3.445793103448276e-06, "loss": 0.2712, "step": 2510 }, { "epoch": 0.16766666666666666, "grad_norm": 5.701126575469971, "learning_rate": 3.444413793103448e-06, "loss": 0.2519, "step": 2515 }, { "epoch": 0.168, "grad_norm": 4.844892501831055, "learning_rate": 3.4430344827586203e-06, "loss": 0.259, "step": 2520 }, { "epoch": 0.16833333333333333, "grad_norm": 4.996426105499268, "learning_rate": 3.4416551724137926e-06, "loss": 0.2989, "step": 2525 }, { "epoch": 0.16866666666666666, "grad_norm": 5.930837631225586, "learning_rate": 3.4402758620689652e-06, "loss": 0.2757, "step": 2530 }, { "epoch": 0.169, "grad_norm": 5.188756942749023, "learning_rate": 3.438896551724138e-06, "loss": 0.2358, "step": 2535 }, { "epoch": 0.16933333333333334, "grad_norm": 4.6273980140686035, "learning_rate": 3.43751724137931e-06, "loss": 0.2401, "step": 2540 }, { "epoch": 0.16966666666666666, "grad_norm": 4.5921244621276855, "learning_rate": 3.4361379310344828e-06, "loss": 0.2348, "step": 2545 }, { "epoch": 0.17, "grad_norm": 5.124880313873291, "learning_rate": 3.434758620689655e-06, "loss": 0.2643, "step": 2550 }, { "epoch": 0.17033333333333334, "grad_norm": 6.715496063232422, "learning_rate": 3.4333793103448273e-06, "loss": 0.2708, "step": 2555 }, { "epoch": 0.17066666666666666, "grad_norm": 6.6964569091796875, "learning_rate": 3.432e-06, "loss": 0.2458, "step": 2560 }, { "epoch": 0.171, "grad_norm": 4.795800685882568, "learning_rate": 3.430620689655172e-06, "loss": 0.2324, "step": 2565 }, { "epoch": 0.17133333333333334, "grad_norm": 3.8317222595214844, "learning_rate": 3.4292413793103444e-06, "loss": 0.2517, "step": 2570 }, { "epoch": 0.17166666666666666, "grad_norm": 4.472997188568115, "learning_rate": 3.427862068965517e-06, "loss": 0.2665, "step": 2575 }, { "epoch": 0.172, "grad_norm": 4.820406436920166, "learning_rate": 3.4264827586206897e-06, "loss": 0.2264, "step": 2580 }, { "epoch": 0.17233333333333334, "grad_norm": 5.391660213470459, "learning_rate": 3.425103448275862e-06, "loss": 0.2135, "step": 2585 }, { "epoch": 0.17266666666666666, "grad_norm": 4.6451826095581055, "learning_rate": 3.4237241379310346e-06, "loss": 0.2836, "step": 2590 }, { "epoch": 0.173, "grad_norm": 4.49055814743042, "learning_rate": 3.422344827586207e-06, "loss": 0.2308, "step": 2595 }, { "epoch": 0.17333333333333334, "grad_norm": 5.0107879638671875, "learning_rate": 3.420965517241379e-06, "loss": 0.2968, "step": 2600 }, { "epoch": 0.17366666666666666, "grad_norm": 3.8328466415405273, "learning_rate": 3.4195862068965513e-06, "loss": 0.2349, "step": 2605 }, { "epoch": 0.174, "grad_norm": 3.9946630001068115, "learning_rate": 3.418206896551724e-06, "loss": 0.2257, "step": 2610 }, { "epoch": 0.17433333333333334, "grad_norm": 4.578595161437988, "learning_rate": 3.4168275862068962e-06, "loss": 0.3094, "step": 2615 }, { "epoch": 0.17466666666666666, "grad_norm": 5.1284403800964355, "learning_rate": 3.4154482758620685e-06, "loss": 0.2356, "step": 2620 }, { "epoch": 0.175, "grad_norm": 4.232314586639404, "learning_rate": 3.4140689655172415e-06, "loss": 0.3326, "step": 2625 }, { "epoch": 0.17533333333333334, "grad_norm": 3.733417272567749, "learning_rate": 3.4126896551724138e-06, "loss": 0.2147, "step": 2630 }, { "epoch": 0.17566666666666667, "grad_norm": 4.887419700622559, "learning_rate": 3.411310344827586e-06, "loss": 0.276, "step": 2635 }, { "epoch": 0.176, "grad_norm": 4.4829487800598145, "learning_rate": 3.4099310344827587e-06, "loss": 0.2378, "step": 2640 }, { "epoch": 0.17633333333333334, "grad_norm": 4.235691070556641, "learning_rate": 3.408551724137931e-06, "loss": 0.2616, "step": 2645 }, { "epoch": 0.17666666666666667, "grad_norm": 3.984076499938965, "learning_rate": 3.407172413793103e-06, "loss": 0.2524, "step": 2650 }, { "epoch": 0.177, "grad_norm": 5.258695125579834, "learning_rate": 3.405793103448276e-06, "loss": 0.3402, "step": 2655 }, { "epoch": 0.17733333333333334, "grad_norm": 5.336690902709961, "learning_rate": 3.404413793103448e-06, "loss": 0.2594, "step": 2660 }, { "epoch": 0.17766666666666667, "grad_norm": 4.353331565856934, "learning_rate": 3.4030344827586203e-06, "loss": 0.2925, "step": 2665 }, { "epoch": 0.178, "grad_norm": 4.605171203613281, "learning_rate": 3.401655172413793e-06, "loss": 0.2036, "step": 2670 }, { "epoch": 0.17833333333333334, "grad_norm": 3.893324136734009, "learning_rate": 3.4002758620689656e-06, "loss": 0.2366, "step": 2675 }, { "epoch": 0.17866666666666667, "grad_norm": 5.866611957550049, "learning_rate": 3.398896551724138e-06, "loss": 0.2779, "step": 2680 }, { "epoch": 0.179, "grad_norm": 5.001673221588135, "learning_rate": 3.39751724137931e-06, "loss": 0.2699, "step": 2685 }, { "epoch": 0.17933333333333334, "grad_norm": 5.7341179847717285, "learning_rate": 3.3961379310344827e-06, "loss": 0.2814, "step": 2690 }, { "epoch": 0.17966666666666667, "grad_norm": 4.609294414520264, "learning_rate": 3.394758620689655e-06, "loss": 0.2453, "step": 2695 }, { "epoch": 0.18, "grad_norm": 4.3003950119018555, "learning_rate": 3.3933793103448272e-06, "loss": 0.2285, "step": 2700 }, { "epoch": 0.18033333333333335, "grad_norm": 4.246911525726318, "learning_rate": 3.392e-06, "loss": 0.2352, "step": 2705 }, { "epoch": 0.18066666666666667, "grad_norm": 4.514093399047852, "learning_rate": 3.390620689655172e-06, "loss": 0.2549, "step": 2710 }, { "epoch": 0.181, "grad_norm": 4.857088565826416, "learning_rate": 3.3892413793103444e-06, "loss": 0.2817, "step": 2715 }, { "epoch": 0.18133333333333335, "grad_norm": 5.2309250831604, "learning_rate": 3.3878620689655174e-06, "loss": 0.2711, "step": 2720 }, { "epoch": 0.18166666666666667, "grad_norm": 4.656536102294922, "learning_rate": 3.3864827586206897e-06, "loss": 0.2508, "step": 2725 }, { "epoch": 0.182, "grad_norm": 4.105226516723633, "learning_rate": 3.385103448275862e-06, "loss": 0.226, "step": 2730 }, { "epoch": 0.18233333333333332, "grad_norm": 5.7455596923828125, "learning_rate": 3.3837241379310346e-06, "loss": 0.2654, "step": 2735 }, { "epoch": 0.18266666666666667, "grad_norm": 4.733729362487793, "learning_rate": 3.382344827586207e-06, "loss": 0.2499, "step": 2740 }, { "epoch": 0.183, "grad_norm": 3.436405897140503, "learning_rate": 3.380965517241379e-06, "loss": 0.2114, "step": 2745 }, { "epoch": 0.18333333333333332, "grad_norm": 5.654386043548584, "learning_rate": 3.3795862068965513e-06, "loss": 0.2277, "step": 2750 }, { "epoch": 0.18366666666666667, "grad_norm": 6.039766311645508, "learning_rate": 3.378206896551724e-06, "loss": 0.2834, "step": 2755 }, { "epoch": 0.184, "grad_norm": 4.6503424644470215, "learning_rate": 3.376827586206896e-06, "loss": 0.2078, "step": 2760 }, { "epoch": 0.18433333333333332, "grad_norm": 5.1060028076171875, "learning_rate": 3.3754482758620684e-06, "loss": 0.2848, "step": 2765 }, { "epoch": 0.18466666666666667, "grad_norm": 4.1396708488464355, "learning_rate": 3.3740689655172415e-06, "loss": 0.2576, "step": 2770 }, { "epoch": 0.185, "grad_norm": 5.115489959716797, "learning_rate": 3.3726896551724137e-06, "loss": 0.2833, "step": 2775 }, { "epoch": 0.18533333333333332, "grad_norm": 3.9723570346832275, "learning_rate": 3.371310344827586e-06, "loss": 0.2454, "step": 2780 }, { "epoch": 0.18566666666666667, "grad_norm": 4.776898384094238, "learning_rate": 3.3699310344827586e-06, "loss": 0.2763, "step": 2785 }, { "epoch": 0.186, "grad_norm": 4.0240278244018555, "learning_rate": 3.368551724137931e-06, "loss": 0.2591, "step": 2790 }, { "epoch": 0.18633333333333332, "grad_norm": 5.07747220993042, "learning_rate": 3.367172413793103e-06, "loss": 0.2262, "step": 2795 }, { "epoch": 0.18666666666666668, "grad_norm": 4.789224624633789, "learning_rate": 3.3657931034482758e-06, "loss": 0.237, "step": 2800 }, { "epoch": 0.187, "grad_norm": 4.838815212249756, "learning_rate": 3.364413793103448e-06, "loss": 0.212, "step": 2805 }, { "epoch": 0.18733333333333332, "grad_norm": 4.1041412353515625, "learning_rate": 3.3630344827586202e-06, "loss": 0.2389, "step": 2810 }, { "epoch": 0.18766666666666668, "grad_norm": 3.9281668663024902, "learning_rate": 3.3616551724137933e-06, "loss": 0.2025, "step": 2815 }, { "epoch": 0.188, "grad_norm": 4.125972747802734, "learning_rate": 3.3602758620689656e-06, "loss": 0.2024, "step": 2820 }, { "epoch": 0.18833333333333332, "grad_norm": 4.832058906555176, "learning_rate": 3.358896551724138e-06, "loss": 0.27, "step": 2825 }, { "epoch": 0.18866666666666668, "grad_norm": 5.967172622680664, "learning_rate": 3.35751724137931e-06, "loss": 0.2495, "step": 2830 }, { "epoch": 0.189, "grad_norm": 4.961123943328857, "learning_rate": 3.3561379310344827e-06, "loss": 0.2149, "step": 2835 }, { "epoch": 0.18933333333333333, "grad_norm": 4.156426906585693, "learning_rate": 3.354758620689655e-06, "loss": 0.2665, "step": 2840 }, { "epoch": 0.18966666666666668, "grad_norm": 4.564237594604492, "learning_rate": 3.353379310344827e-06, "loss": 0.2181, "step": 2845 }, { "epoch": 0.19, "grad_norm": 4.784379005432129, "learning_rate": 3.352e-06, "loss": 0.2189, "step": 2850 }, { "epoch": 0.19033333333333333, "grad_norm": 3.5423190593719482, "learning_rate": 3.350620689655172e-06, "loss": 0.2418, "step": 2855 }, { "epoch": 0.19066666666666668, "grad_norm": 3.952510118484497, "learning_rate": 3.3492413793103447e-06, "loss": 0.2624, "step": 2860 }, { "epoch": 0.191, "grad_norm": 5.3700337409973145, "learning_rate": 3.3478620689655174e-06, "loss": 0.2359, "step": 2865 }, { "epoch": 0.19133333333333333, "grad_norm": 4.878916263580322, "learning_rate": 3.3464827586206896e-06, "loss": 0.2487, "step": 2870 }, { "epoch": 0.19166666666666668, "grad_norm": 3.750455617904663, "learning_rate": 3.345103448275862e-06, "loss": 0.2065, "step": 2875 }, { "epoch": 0.192, "grad_norm": 6.108488082885742, "learning_rate": 3.3437241379310345e-06, "loss": 0.2646, "step": 2880 }, { "epoch": 0.19233333333333333, "grad_norm": 5.342141628265381, "learning_rate": 3.3423448275862068e-06, "loss": 0.2193, "step": 2885 }, { "epoch": 0.19266666666666668, "grad_norm": 4.559185981750488, "learning_rate": 3.340965517241379e-06, "loss": 0.3068, "step": 2890 }, { "epoch": 0.193, "grad_norm": 3.8077902793884277, "learning_rate": 3.3395862068965517e-06, "loss": 0.2698, "step": 2895 }, { "epoch": 0.19333333333333333, "grad_norm": 4.816911220550537, "learning_rate": 3.338206896551724e-06, "loss": 0.2383, "step": 2900 }, { "epoch": 0.19366666666666665, "grad_norm": 5.662405014038086, "learning_rate": 3.336827586206896e-06, "loss": 0.2976, "step": 2905 }, { "epoch": 0.194, "grad_norm": 5.0890936851501465, "learning_rate": 3.335448275862069e-06, "loss": 0.3457, "step": 2910 }, { "epoch": 0.19433333333333333, "grad_norm": 4.810048580169678, "learning_rate": 3.3340689655172415e-06, "loss": 0.2545, "step": 2915 }, { "epoch": 0.19466666666666665, "grad_norm": 5.465974807739258, "learning_rate": 3.3326896551724137e-06, "loss": 0.2639, "step": 2920 }, { "epoch": 0.195, "grad_norm": 4.7607927322387695, "learning_rate": 3.331310344827586e-06, "loss": 0.2599, "step": 2925 }, { "epoch": 0.19533333333333333, "grad_norm": 4.343291759490967, "learning_rate": 3.3299310344827586e-06, "loss": 0.2344, "step": 2930 }, { "epoch": 0.19566666666666666, "grad_norm": 5.0552778244018555, "learning_rate": 3.328551724137931e-06, "loss": 0.2283, "step": 2935 }, { "epoch": 0.196, "grad_norm": 4.829711437225342, "learning_rate": 3.327172413793103e-06, "loss": 0.3655, "step": 2940 }, { "epoch": 1.0002666666666666, "grad_norm": 3.4949984550476074, "learning_rate": 3.3257931034482757e-06, "loss": 0.2038, "step": 2945 }, { "epoch": 1.0006, "grad_norm": 4.251642227172852, "learning_rate": 3.324413793103448e-06, "loss": 0.2422, "step": 2950 }, { "epoch": 1.0009333333333332, "grad_norm": 3.75738787651062, "learning_rate": 3.3230344827586206e-06, "loss": 0.2113, "step": 2955 }, { "epoch": 1.0012666666666667, "grad_norm": 3.388909101486206, "learning_rate": 3.3216551724137933e-06, "loss": 0.1937, "step": 2960 }, { "epoch": 1.0016, "grad_norm": 4.3214497566223145, "learning_rate": 3.3202758620689655e-06, "loss": 0.2291, "step": 2965 }, { "epoch": 1.0019333333333333, "grad_norm": 4.865558624267578, "learning_rate": 3.3188965517241378e-06, "loss": 0.2242, "step": 2970 }, { "epoch": 1.0022666666666666, "grad_norm": 3.5226480960845947, "learning_rate": 3.3175172413793104e-06, "loss": 0.1968, "step": 2975 }, { "epoch": 1.0026, "grad_norm": 4.301427364349365, "learning_rate": 3.3161379310344827e-06, "loss": 0.1687, "step": 2980 }, { "epoch": 1.0029333333333332, "grad_norm": 4.259810924530029, "learning_rate": 3.314758620689655e-06, "loss": 0.2035, "step": 2985 }, { "epoch": 1.0032666666666668, "grad_norm": 4.693942546844482, "learning_rate": 3.313379310344827e-06, "loss": 0.2366, "step": 2990 }, { "epoch": 1.0036, "grad_norm": 4.454593181610107, "learning_rate": 3.312e-06, "loss": 0.1951, "step": 2995 }, { "epoch": 1.0039333333333333, "grad_norm": 5.165683269500732, "learning_rate": 3.310620689655172e-06, "loss": 0.2012, "step": 3000 }, { "epoch": 1.0039333333333333, "eval_loss": 0.23444338142871857, "eval_runtime": 138.8572, "eval_samples_per_second": 4.321, "eval_steps_per_second": 1.08, "eval_wer": 12.279805973959663, "step": 3000 }, { "epoch": 1.0042666666666666, "grad_norm": 3.7630887031555176, "learning_rate": 3.3092413793103447e-06, "loss": 0.1909, "step": 3005 }, { "epoch": 1.0046, "grad_norm": 5.058170318603516, "learning_rate": 3.3078620689655174e-06, "loss": 0.1481, "step": 3010 }, { "epoch": 1.0049333333333332, "grad_norm": 3.2936718463897705, "learning_rate": 3.3064827586206896e-06, "loss": 0.1527, "step": 3015 }, { "epoch": 1.0052666666666668, "grad_norm": 4.079516887664795, "learning_rate": 3.305103448275862e-06, "loss": 0.1882, "step": 3020 }, { "epoch": 1.0056, "grad_norm": 3.6755354404449463, "learning_rate": 3.3037241379310345e-06, "loss": 0.1316, "step": 3025 }, { "epoch": 1.0059333333333333, "grad_norm": 3.8584976196289062, "learning_rate": 3.3023448275862067e-06, "loss": 0.1674, "step": 3030 }, { "epoch": 1.0062666666666666, "grad_norm": 3.816880941390991, "learning_rate": 3.300965517241379e-06, "loss": 0.1907, "step": 3035 }, { "epoch": 1.0066, "grad_norm": 3.5711309909820557, "learning_rate": 3.2995862068965516e-06, "loss": 0.1336, "step": 3040 }, { "epoch": 1.0069333333333332, "grad_norm": 3.798013687133789, "learning_rate": 3.298206896551724e-06, "loss": 0.1499, "step": 3045 }, { "epoch": 1.0072666666666668, "grad_norm": 4.890843391418457, "learning_rate": 3.2968275862068965e-06, "loss": 0.2151, "step": 3050 }, { "epoch": 1.0076, "grad_norm": 3.8821091651916504, "learning_rate": 3.2954482758620688e-06, "loss": 0.1992, "step": 3055 }, { "epoch": 1.0079333333333333, "grad_norm": 4.8673248291015625, "learning_rate": 3.2940689655172414e-06, "loss": 0.185, "step": 3060 }, { "epoch": 1.0082666666666666, "grad_norm": 4.067516803741455, "learning_rate": 3.2926896551724137e-06, "loss": 0.2063, "step": 3065 }, { "epoch": 1.0086, "grad_norm": 4.3480329513549805, "learning_rate": 3.291310344827586e-06, "loss": 0.202, "step": 3070 }, { "epoch": 1.0089333333333332, "grad_norm": 3.9027059078216553, "learning_rate": 3.2899310344827586e-06, "loss": 0.1982, "step": 3075 }, { "epoch": 1.0092666666666668, "grad_norm": 3.708803653717041, "learning_rate": 3.288551724137931e-06, "loss": 0.2497, "step": 3080 }, { "epoch": 1.0096, "grad_norm": 4.1015424728393555, "learning_rate": 3.287172413793103e-06, "loss": 0.1959, "step": 3085 }, { "epoch": 1.0099333333333333, "grad_norm": 3.7574470043182373, "learning_rate": 3.2857931034482757e-06, "loss": 0.1831, "step": 3090 }, { "epoch": 1.0102666666666666, "grad_norm": 3.5008668899536133, "learning_rate": 3.2844137931034484e-06, "loss": 0.1775, "step": 3095 }, { "epoch": 1.0106, "grad_norm": 3.8982155323028564, "learning_rate": 3.2830344827586206e-06, "loss": 0.2011, "step": 3100 }, { "epoch": 1.0109333333333332, "grad_norm": 5.034063816070557, "learning_rate": 3.2816551724137933e-06, "loss": 0.209, "step": 3105 }, { "epoch": 1.0112666666666668, "grad_norm": 3.708975076675415, "learning_rate": 3.2802758620689655e-06, "loss": 0.206, "step": 3110 }, { "epoch": 1.0116, "grad_norm": 3.9706759452819824, "learning_rate": 3.2788965517241377e-06, "loss": 0.1918, "step": 3115 }, { "epoch": 1.0119333333333334, "grad_norm": 3.984116315841675, "learning_rate": 3.2775172413793104e-06, "loss": 0.2163, "step": 3120 }, { "epoch": 1.0122666666666666, "grad_norm": 5.8934173583984375, "learning_rate": 3.2761379310344826e-06, "loss": 0.2608, "step": 3125 }, { "epoch": 1.0126, "grad_norm": 4.748132705688477, "learning_rate": 3.274758620689655e-06, "loss": 0.2407, "step": 3130 }, { "epoch": 1.0129333333333332, "grad_norm": 5.090843200683594, "learning_rate": 3.273379310344827e-06, "loss": 0.2375, "step": 3135 }, { "epoch": 1.0132666666666668, "grad_norm": 4.086766242980957, "learning_rate": 3.2719999999999998e-06, "loss": 0.2068, "step": 3140 }, { "epoch": 1.0136, "grad_norm": 5.127700328826904, "learning_rate": 3.2706206896551724e-06, "loss": 0.2281, "step": 3145 }, { "epoch": 1.0139333333333334, "grad_norm": 4.562211513519287, "learning_rate": 3.2692413793103447e-06, "loss": 0.281, "step": 3150 }, { "epoch": 1.0142666666666666, "grad_norm": 4.463860511779785, "learning_rate": 3.2678620689655173e-06, "loss": 0.2361, "step": 3155 }, { "epoch": 1.0146, "grad_norm": 4.80808162689209, "learning_rate": 3.2664827586206896e-06, "loss": 0.2556, "step": 3160 }, { "epoch": 1.0149333333333332, "grad_norm": 4.368381977081299, "learning_rate": 3.265103448275862e-06, "loss": 0.2362, "step": 3165 }, { "epoch": 1.0152666666666668, "grad_norm": 5.268251895904541, "learning_rate": 3.2637241379310345e-06, "loss": 0.2408, "step": 3170 }, { "epoch": 1.0156, "grad_norm": 4.445746421813965, "learning_rate": 3.2623448275862067e-06, "loss": 0.2018, "step": 3175 }, { "epoch": 1.0159333333333334, "grad_norm": 4.361732006072998, "learning_rate": 3.260965517241379e-06, "loss": 0.2134, "step": 3180 }, { "epoch": 1.0162666666666667, "grad_norm": 4.289709091186523, "learning_rate": 3.2595862068965516e-06, "loss": 0.222, "step": 3185 }, { "epoch": 1.0166, "grad_norm": 4.434460639953613, "learning_rate": 3.2582068965517242e-06, "loss": 0.2018, "step": 3190 }, { "epoch": 1.0169333333333332, "grad_norm": 3.44372820854187, "learning_rate": 3.2568275862068965e-06, "loss": 0.21, "step": 3195 }, { "epoch": 1.0172666666666668, "grad_norm": 5.500320911407471, "learning_rate": 3.255448275862069e-06, "loss": 0.2029, "step": 3200 }, { "epoch": 1.0176, "grad_norm": 3.647191286087036, "learning_rate": 3.2540689655172414e-06, "loss": 0.2666, "step": 3205 }, { "epoch": 1.0179333333333334, "grad_norm": 5.200259208679199, "learning_rate": 3.2526896551724136e-06, "loss": 0.2285, "step": 3210 }, { "epoch": 1.0182666666666667, "grad_norm": 4.9900102615356445, "learning_rate": 3.251310344827586e-06, "loss": 0.2263, "step": 3215 }, { "epoch": 1.0186, "grad_norm": 4.464180946350098, "learning_rate": 3.2499310344827585e-06, "loss": 0.1887, "step": 3220 }, { "epoch": 1.0189333333333332, "grad_norm": 3.559330463409424, "learning_rate": 3.2485517241379308e-06, "loss": 0.2447, "step": 3225 }, { "epoch": 1.0192666666666668, "grad_norm": 3.701608896255493, "learning_rate": 3.247172413793103e-06, "loss": 0.168, "step": 3230 }, { "epoch": 1.0196, "grad_norm": 4.096370697021484, "learning_rate": 3.2457931034482757e-06, "loss": 0.1994, "step": 3235 }, { "epoch": 1.0199333333333334, "grad_norm": 4.785329818725586, "learning_rate": 3.2444137931034483e-06, "loss": 0.2353, "step": 3240 }, { "epoch": 1.0202666666666667, "grad_norm": 4.224263668060303, "learning_rate": 3.2430344827586206e-06, "loss": 0.2036, "step": 3245 }, { "epoch": 1.0206, "grad_norm": 4.927604675292969, "learning_rate": 3.241655172413793e-06, "loss": 0.3024, "step": 3250 }, { "epoch": 1.0209333333333332, "grad_norm": 4.49512243270874, "learning_rate": 3.2402758620689654e-06, "loss": 0.2074, "step": 3255 }, { "epoch": 1.0212666666666668, "grad_norm": 3.2073464393615723, "learning_rate": 3.2388965517241377e-06, "loss": 0.1872, "step": 3260 }, { "epoch": 1.0216, "grad_norm": 3.708272933959961, "learning_rate": 3.2375172413793103e-06, "loss": 0.2165, "step": 3265 }, { "epoch": 1.0219333333333334, "grad_norm": 3.688525676727295, "learning_rate": 3.2361379310344826e-06, "loss": 0.1811, "step": 3270 }, { "epoch": 1.0222666666666667, "grad_norm": 3.9060750007629395, "learning_rate": 3.234758620689655e-06, "loss": 0.2347, "step": 3275 }, { "epoch": 1.0226, "grad_norm": 4.962421417236328, "learning_rate": 3.233379310344827e-06, "loss": 0.182, "step": 3280 }, { "epoch": 1.0229333333333333, "grad_norm": 3.9890761375427246, "learning_rate": 3.232e-06, "loss": 0.1922, "step": 3285 }, { "epoch": 1.0232666666666668, "grad_norm": 4.4562458992004395, "learning_rate": 3.2306206896551724e-06, "loss": 0.2098, "step": 3290 }, { "epoch": 1.0236, "grad_norm": 5.162217617034912, "learning_rate": 3.2292413793103446e-06, "loss": 0.1922, "step": 3295 }, { "epoch": 1.0239333333333334, "grad_norm": 5.276288986206055, "learning_rate": 3.2278620689655173e-06, "loss": 0.1876, "step": 3300 }, { "epoch": 1.0242666666666667, "grad_norm": 4.711269855499268, "learning_rate": 3.2264827586206895e-06, "loss": 0.2109, "step": 3305 }, { "epoch": 1.0246, "grad_norm": 4.391339302062988, "learning_rate": 3.2251034482758618e-06, "loss": 0.2139, "step": 3310 }, { "epoch": 1.0249333333333333, "grad_norm": 3.997645139694214, "learning_rate": 3.2237241379310344e-06, "loss": 0.1698, "step": 3315 }, { "epoch": 1.0252666666666668, "grad_norm": 3.2267558574676514, "learning_rate": 3.2223448275862066e-06, "loss": 0.179, "step": 3320 }, { "epoch": 1.0256, "grad_norm": 4.2319111824035645, "learning_rate": 3.220965517241379e-06, "loss": 0.2338, "step": 3325 }, { "epoch": 1.0259333333333334, "grad_norm": 3.426051378250122, "learning_rate": 3.2195862068965515e-06, "loss": 0.1647, "step": 3330 }, { "epoch": 1.0262666666666667, "grad_norm": 3.3006865978240967, "learning_rate": 3.218206896551724e-06, "loss": 0.1576, "step": 3335 }, { "epoch": 1.0266, "grad_norm": 4.378168106079102, "learning_rate": 3.2168275862068964e-06, "loss": 0.1901, "step": 3340 }, { "epoch": 1.0269333333333333, "grad_norm": 5.147646903991699, "learning_rate": 3.215448275862069e-06, "loss": 0.1682, "step": 3345 }, { "epoch": 1.0272666666666668, "grad_norm": 4.058917045593262, "learning_rate": 3.2140689655172413e-06, "loss": 0.1877, "step": 3350 }, { "epoch": 1.0276, "grad_norm": 4.000892639160156, "learning_rate": 3.2126896551724136e-06, "loss": 0.2084, "step": 3355 }, { "epoch": 1.0279333333333334, "grad_norm": 3.0352602005004883, "learning_rate": 3.211310344827586e-06, "loss": 0.2037, "step": 3360 }, { "epoch": 1.0282666666666667, "grad_norm": 4.52240514755249, "learning_rate": 3.2099310344827585e-06, "loss": 0.2006, "step": 3365 }, { "epoch": 1.0286, "grad_norm": 3.595707416534424, "learning_rate": 3.2085517241379307e-06, "loss": 0.1681, "step": 3370 }, { "epoch": 1.0289333333333333, "grad_norm": 4.7902936935424805, "learning_rate": 3.207172413793103e-06, "loss": 0.2526, "step": 3375 }, { "epoch": 1.0292666666666668, "grad_norm": 3.4989466667175293, "learning_rate": 3.205793103448276e-06, "loss": 0.1738, "step": 3380 }, { "epoch": 1.0296, "grad_norm": 4.579338073730469, "learning_rate": 3.2044137931034483e-06, "loss": 0.1961, "step": 3385 }, { "epoch": 1.0299333333333334, "grad_norm": 4.113155364990234, "learning_rate": 3.2030344827586205e-06, "loss": 0.1966, "step": 3390 }, { "epoch": 1.0302666666666667, "grad_norm": 5.247110366821289, "learning_rate": 3.201655172413793e-06, "loss": 0.2133, "step": 3395 }, { "epoch": 1.0306, "grad_norm": 4.388834476470947, "learning_rate": 3.2002758620689654e-06, "loss": 0.1995, "step": 3400 }, { "epoch": 1.0309333333333333, "grad_norm": 5.551411151885986, "learning_rate": 3.1988965517241376e-06, "loss": 0.2236, "step": 3405 }, { "epoch": 1.0312666666666668, "grad_norm": 4.183872699737549, "learning_rate": 3.1975172413793103e-06, "loss": 0.1659, "step": 3410 }, { "epoch": 1.0316, "grad_norm": 3.8768043518066406, "learning_rate": 3.1961379310344825e-06, "loss": 0.2295, "step": 3415 }, { "epoch": 1.0319333333333334, "grad_norm": 4.20235538482666, "learning_rate": 3.1947586206896548e-06, "loss": 0.1712, "step": 3420 }, { "epoch": 1.0322666666666667, "grad_norm": 3.7663445472717285, "learning_rate": 3.193379310344828e-06, "loss": 0.2281, "step": 3425 }, { "epoch": 1.0326, "grad_norm": 5.9546685218811035, "learning_rate": 3.192e-06, "loss": 0.1973, "step": 3430 }, { "epoch": 1.0329333333333333, "grad_norm": 4.071985721588135, "learning_rate": 3.1906206896551723e-06, "loss": 0.2054, "step": 3435 }, { "epoch": 1.0332666666666666, "grad_norm": 5.176264762878418, "learning_rate": 3.1892413793103446e-06, "loss": 0.1994, "step": 3440 }, { "epoch": 1.0336, "grad_norm": 3.963297128677368, "learning_rate": 3.1878620689655172e-06, "loss": 0.1849, "step": 3445 }, { "epoch": 1.0339333333333334, "grad_norm": 4.035712718963623, "learning_rate": 3.1864827586206895e-06, "loss": 0.184, "step": 3450 }, { "epoch": 1.0342666666666667, "grad_norm": 3.4552323818206787, "learning_rate": 3.1851034482758617e-06, "loss": 0.1895, "step": 3455 }, { "epoch": 1.0346, "grad_norm": 3.8243696689605713, "learning_rate": 3.1837241379310344e-06, "loss": 0.191, "step": 3460 }, { "epoch": 1.0349333333333333, "grad_norm": 3.533039093017578, "learning_rate": 3.1823448275862066e-06, "loss": 0.1591, "step": 3465 }, { "epoch": 1.0352666666666668, "grad_norm": 4.106102466583252, "learning_rate": 3.180965517241379e-06, "loss": 0.2006, "step": 3470 }, { "epoch": 1.0356, "grad_norm": 3.587372303009033, "learning_rate": 3.179586206896552e-06, "loss": 0.154, "step": 3475 }, { "epoch": 1.0359333333333334, "grad_norm": 3.8791685104370117, "learning_rate": 3.178206896551724e-06, "loss": 0.2502, "step": 3480 }, { "epoch": 1.0362666666666667, "grad_norm": 4.646202564239502, "learning_rate": 3.1768275862068964e-06, "loss": 0.2084, "step": 3485 }, { "epoch": 1.0366, "grad_norm": 4.669162273406982, "learning_rate": 3.175448275862069e-06, "loss": 0.2138, "step": 3490 }, { "epoch": 1.0369333333333333, "grad_norm": 3.882847547531128, "learning_rate": 3.1740689655172413e-06, "loss": 0.2208, "step": 3495 }, { "epoch": 1.0372666666666666, "grad_norm": 4.695615291595459, "learning_rate": 3.1726896551724135e-06, "loss": 0.2188, "step": 3500 }, { "epoch": 1.0376, "grad_norm": 3.413388967514038, "learning_rate": 3.1713103448275858e-06, "loss": 0.1746, "step": 3505 }, { "epoch": 1.0379333333333334, "grad_norm": 3.3137855529785156, "learning_rate": 3.1699310344827584e-06, "loss": 0.1657, "step": 3510 }, { "epoch": 1.0382666666666667, "grad_norm": 3.8661205768585205, "learning_rate": 3.1685517241379307e-06, "loss": 0.2199, "step": 3515 }, { "epoch": 1.0386, "grad_norm": 3.643791675567627, "learning_rate": 3.1671724137931033e-06, "loss": 0.1542, "step": 3520 }, { "epoch": 1.0389333333333333, "grad_norm": 3.955091714859009, "learning_rate": 3.165793103448276e-06, "loss": 0.1641, "step": 3525 }, { "epoch": 1.0392666666666666, "grad_norm": 3.7957170009613037, "learning_rate": 3.1644137931034482e-06, "loss": 0.1911, "step": 3530 }, { "epoch": 1.0396, "grad_norm": 4.432152271270752, "learning_rate": 3.1630344827586205e-06, "loss": 0.1884, "step": 3535 }, { "epoch": 1.0399333333333334, "grad_norm": 3.359846830368042, "learning_rate": 3.161655172413793e-06, "loss": 0.1674, "step": 3540 }, { "epoch": 1.0402666666666667, "grad_norm": 4.731626510620117, "learning_rate": 3.1602758620689654e-06, "loss": 0.1871, "step": 3545 }, { "epoch": 1.0406, "grad_norm": 3.7631399631500244, "learning_rate": 3.1588965517241376e-06, "loss": 0.2136, "step": 3550 }, { "epoch": 1.0409333333333333, "grad_norm": 4.278292655944824, "learning_rate": 3.1575172413793103e-06, "loss": 0.1958, "step": 3555 }, { "epoch": 1.0412666666666666, "grad_norm": 4.066004276275635, "learning_rate": 3.1561379310344825e-06, "loss": 0.2206, "step": 3560 }, { "epoch": 1.0416, "grad_norm": 4.494546413421631, "learning_rate": 3.1547586206896547e-06, "loss": 0.2025, "step": 3565 }, { "epoch": 1.0419333333333334, "grad_norm": 3.467820644378662, "learning_rate": 3.153379310344828e-06, "loss": 0.2135, "step": 3570 }, { "epoch": 1.0422666666666667, "grad_norm": 4.746524810791016, "learning_rate": 3.152e-06, "loss": 0.1888, "step": 3575 }, { "epoch": 1.0426, "grad_norm": 3.6339330673217773, "learning_rate": 3.1506206896551723e-06, "loss": 0.1759, "step": 3580 }, { "epoch": 1.0429333333333333, "grad_norm": 5.353305816650391, "learning_rate": 3.1492413793103445e-06, "loss": 0.1957, "step": 3585 }, { "epoch": 1.0432666666666666, "grad_norm": 4.319478511810303, "learning_rate": 3.147862068965517e-06, "loss": 0.1924, "step": 3590 }, { "epoch": 1.0436, "grad_norm": 3.649482488632202, "learning_rate": 3.1464827586206894e-06, "loss": 0.1976, "step": 3595 }, { "epoch": 1.0439333333333334, "grad_norm": 3.8759238719940186, "learning_rate": 3.1451034482758617e-06, "loss": 0.1748, "step": 3600 }, { "epoch": 1.0442666666666667, "grad_norm": 5.296712875366211, "learning_rate": 3.1437241379310343e-06, "loss": 0.2466, "step": 3605 }, { "epoch": 1.0446, "grad_norm": 3.317796230316162, "learning_rate": 3.1423448275862066e-06, "loss": 0.1958, "step": 3610 }, { "epoch": 1.0449333333333333, "grad_norm": 3.99485182762146, "learning_rate": 3.1409655172413792e-06, "loss": 0.219, "step": 3615 }, { "epoch": 1.0452666666666666, "grad_norm": 2.9838738441467285, "learning_rate": 3.139586206896552e-06, "loss": 0.1545, "step": 3620 }, { "epoch": 1.0456, "grad_norm": 4.66552209854126, "learning_rate": 3.138206896551724e-06, "loss": 0.2351, "step": 3625 }, { "epoch": 1.0459333333333334, "grad_norm": 3.717733860015869, "learning_rate": 3.1368275862068964e-06, "loss": 0.1671, "step": 3630 }, { "epoch": 1.0462666666666667, "grad_norm": 3.64137864112854, "learning_rate": 3.135448275862069e-06, "loss": 0.1988, "step": 3635 }, { "epoch": 1.0466, "grad_norm": 3.9805660247802734, "learning_rate": 3.1340689655172413e-06, "loss": 0.2213, "step": 3640 }, { "epoch": 1.0469333333333333, "grad_norm": 4.7378339767456055, "learning_rate": 3.1326896551724135e-06, "loss": 0.1979, "step": 3645 }, { "epoch": 1.0472666666666666, "grad_norm": 4.871990203857422, "learning_rate": 3.1313103448275857e-06, "loss": 0.2044, "step": 3650 }, { "epoch": 1.0476, "grad_norm": 4.227668285369873, "learning_rate": 3.1299310344827584e-06, "loss": 0.1717, "step": 3655 }, { "epoch": 1.0479333333333334, "grad_norm": 4.246823310852051, "learning_rate": 3.128551724137931e-06, "loss": 0.2326, "step": 3660 }, { "epoch": 1.0482666666666667, "grad_norm": 3.4186837673187256, "learning_rate": 3.1271724137931033e-06, "loss": 0.1619, "step": 3665 }, { "epoch": 1.0486, "grad_norm": 4.648886203765869, "learning_rate": 3.125793103448276e-06, "loss": 0.1986, "step": 3670 }, { "epoch": 1.0489333333333333, "grad_norm": 5.317938804626465, "learning_rate": 3.124413793103448e-06, "loss": 0.2063, "step": 3675 }, { "epoch": 1.0492666666666666, "grad_norm": 4.476776599884033, "learning_rate": 3.1230344827586204e-06, "loss": 0.1925, "step": 3680 }, { "epoch": 1.0496, "grad_norm": 3.589637041091919, "learning_rate": 3.121655172413793e-06, "loss": 0.199, "step": 3685 }, { "epoch": 1.0499333333333334, "grad_norm": 5.552938938140869, "learning_rate": 3.1202758620689653e-06, "loss": 0.2303, "step": 3690 }, { "epoch": 1.0502666666666667, "grad_norm": 4.239089488983154, "learning_rate": 3.1188965517241376e-06, "loss": 0.1644, "step": 3695 }, { "epoch": 1.0506, "grad_norm": 4.648257255554199, "learning_rate": 3.1175172413793102e-06, "loss": 0.2364, "step": 3700 }, { "epoch": 1.0509333333333333, "grad_norm": 5.070471286773682, "learning_rate": 3.1161379310344825e-06, "loss": 0.2363, "step": 3705 }, { "epoch": 1.0512666666666666, "grad_norm": 5.2760539054870605, "learning_rate": 3.114758620689655e-06, "loss": 0.2216, "step": 3710 }, { "epoch": 1.0516, "grad_norm": 5.112910270690918, "learning_rate": 3.1133793103448278e-06, "loss": 0.2141, "step": 3715 }, { "epoch": 1.0519333333333334, "grad_norm": 4.717859745025635, "learning_rate": 3.112e-06, "loss": 0.2009, "step": 3720 }, { "epoch": 1.0522666666666667, "grad_norm": 4.894160270690918, "learning_rate": 3.1106206896551723e-06, "loss": 0.1853, "step": 3725 }, { "epoch": 1.0526, "grad_norm": 5.59440803527832, "learning_rate": 3.1092413793103445e-06, "loss": 0.2313, "step": 3730 }, { "epoch": 1.0529333333333333, "grad_norm": 5.3291707038879395, "learning_rate": 3.107862068965517e-06, "loss": 0.1965, "step": 3735 }, { "epoch": 1.0532666666666666, "grad_norm": 4.112637996673584, "learning_rate": 3.1064827586206894e-06, "loss": 0.2689, "step": 3740 }, { "epoch": 1.0536, "grad_norm": 5.865375995635986, "learning_rate": 3.1051034482758616e-06, "loss": 0.2346, "step": 3745 }, { "epoch": 1.0539333333333334, "grad_norm": 4.408691883087158, "learning_rate": 3.1037241379310343e-06, "loss": 0.2514, "step": 3750 }, { "epoch": 1.0542666666666667, "grad_norm": 4.8006205558776855, "learning_rate": 3.102344827586207e-06, "loss": 0.2206, "step": 3755 }, { "epoch": 1.0546, "grad_norm": 5.385299205780029, "learning_rate": 3.100965517241379e-06, "loss": 0.2552, "step": 3760 }, { "epoch": 1.0549333333333333, "grad_norm": 4.512875556945801, "learning_rate": 3.099586206896552e-06, "loss": 0.1898, "step": 3765 }, { "epoch": 1.0552666666666666, "grad_norm": 4.165173530578613, "learning_rate": 3.098206896551724e-06, "loss": 0.3024, "step": 3770 }, { "epoch": 1.0556, "grad_norm": 3.932673454284668, "learning_rate": 3.0968275862068963e-06, "loss": 0.1942, "step": 3775 }, { "epoch": 1.0559333333333334, "grad_norm": 3.3296172618865967, "learning_rate": 3.095448275862069e-06, "loss": 0.2054, "step": 3780 }, { "epoch": 1.0562666666666667, "grad_norm": 3.992089033126831, "learning_rate": 3.0940689655172412e-06, "loss": 0.167, "step": 3785 }, { "epoch": 1.0566, "grad_norm": 3.4820895195007324, "learning_rate": 3.0926896551724135e-06, "loss": 0.1475, "step": 3790 }, { "epoch": 1.0569333333333333, "grad_norm": 5.051333427429199, "learning_rate": 3.0913103448275857e-06, "loss": 0.2781, "step": 3795 }, { "epoch": 1.0572666666666666, "grad_norm": 3.6183791160583496, "learning_rate": 3.0899310344827584e-06, "loss": 0.2042, "step": 3800 }, { "epoch": 1.0576, "grad_norm": 4.3645243644714355, "learning_rate": 3.088551724137931e-06, "loss": 0.162, "step": 3805 }, { "epoch": 1.0579333333333334, "grad_norm": 4.305047988891602, "learning_rate": 3.0871724137931033e-06, "loss": 0.2386, "step": 3810 }, { "epoch": 1.0582666666666667, "grad_norm": 4.209627628326416, "learning_rate": 3.085793103448276e-06, "loss": 0.2291, "step": 3815 }, { "epoch": 1.0586, "grad_norm": 4.50907564163208, "learning_rate": 3.084413793103448e-06, "loss": 0.171, "step": 3820 }, { "epoch": 1.0589333333333333, "grad_norm": 4.226495265960693, "learning_rate": 3.0830344827586204e-06, "loss": 0.1879, "step": 3825 }, { "epoch": 1.0592666666666666, "grad_norm": 5.424273490905762, "learning_rate": 3.081655172413793e-06, "loss": 0.2011, "step": 3830 }, { "epoch": 1.0596, "grad_norm": 3.443089246749878, "learning_rate": 3.0802758620689653e-06, "loss": 0.1845, "step": 3835 }, { "epoch": 1.0599333333333334, "grad_norm": 5.67151403427124, "learning_rate": 3.0788965517241375e-06, "loss": 0.209, "step": 3840 }, { "epoch": 1.0602666666666667, "grad_norm": 4.465269565582275, "learning_rate": 3.07751724137931e-06, "loss": 0.1923, "step": 3845 }, { "epoch": 1.0606, "grad_norm": 4.850132465362549, "learning_rate": 3.076137931034483e-06, "loss": 0.2131, "step": 3850 }, { "epoch": 1.0609333333333333, "grad_norm": 4.652693271636963, "learning_rate": 3.074758620689655e-06, "loss": 0.233, "step": 3855 }, { "epoch": 1.0612666666666666, "grad_norm": 4.815736293792725, "learning_rate": 3.0733793103448277e-06, "loss": 0.2008, "step": 3860 }, { "epoch": 1.0616, "grad_norm": 4.697230339050293, "learning_rate": 3.072e-06, "loss": 0.31, "step": 3865 }, { "epoch": 1.0619333333333334, "grad_norm": 4.672793865203857, "learning_rate": 3.0706206896551722e-06, "loss": 0.2109, "step": 3870 }, { "epoch": 1.0622666666666667, "grad_norm": 5.066920280456543, "learning_rate": 3.0692413793103445e-06, "loss": 0.1986, "step": 3875 }, { "epoch": 1.0626, "grad_norm": 4.078789234161377, "learning_rate": 3.067862068965517e-06, "loss": 0.1737, "step": 3880 }, { "epoch": 1.0629333333333333, "grad_norm": 4.136058330535889, "learning_rate": 3.0664827586206894e-06, "loss": 0.1837, "step": 3885 }, { "epoch": 1.0632666666666666, "grad_norm": 3.653874397277832, "learning_rate": 3.0651034482758616e-06, "loss": 0.2169, "step": 3890 }, { "epoch": 1.0636, "grad_norm": 3.3892691135406494, "learning_rate": 3.0637241379310342e-06, "loss": 0.167, "step": 3895 }, { "epoch": 1.0639333333333334, "grad_norm": 3.95196795463562, "learning_rate": 3.062344827586207e-06, "loss": 0.1978, "step": 3900 }, { "epoch": 1.0642666666666667, "grad_norm": 3.911151885986328, "learning_rate": 3.060965517241379e-06, "loss": 0.1862, "step": 3905 }, { "epoch": 1.0646, "grad_norm": 4.3409552574157715, "learning_rate": 3.059586206896552e-06, "loss": 0.242, "step": 3910 }, { "epoch": 1.0649333333333333, "grad_norm": 4.812688827514648, "learning_rate": 3.058206896551724e-06, "loss": 0.1786, "step": 3915 }, { "epoch": 1.0652666666666666, "grad_norm": 4.161563873291016, "learning_rate": 3.0568275862068963e-06, "loss": 0.1774, "step": 3920 }, { "epoch": 1.0656, "grad_norm": 5.180776119232178, "learning_rate": 3.055448275862069e-06, "loss": 0.191, "step": 3925 }, { "epoch": 1.0659333333333334, "grad_norm": 4.710734844207764, "learning_rate": 3.054068965517241e-06, "loss": 0.2186, "step": 3930 }, { "epoch": 1.0662666666666667, "grad_norm": 4.065145015716553, "learning_rate": 3.0526896551724134e-06, "loss": 0.1978, "step": 3935 }, { "epoch": 1.0666, "grad_norm": 3.9113762378692627, "learning_rate": 3.051310344827586e-06, "loss": 0.1683, "step": 3940 }, { "epoch": 1.0669333333333333, "grad_norm": 5.384532928466797, "learning_rate": 3.0499310344827587e-06, "loss": 0.2197, "step": 3945 }, { "epoch": 1.0672666666666666, "grad_norm": 5.0923380851745605, "learning_rate": 3.048551724137931e-06, "loss": 0.1868, "step": 3950 }, { "epoch": 1.0676, "grad_norm": 5.146890640258789, "learning_rate": 3.0471724137931032e-06, "loss": 0.1935, "step": 3955 }, { "epoch": 1.0679333333333334, "grad_norm": 4.69185209274292, "learning_rate": 3.045793103448276e-06, "loss": 0.1969, "step": 3960 }, { "epoch": 1.0682666666666667, "grad_norm": 3.563713550567627, "learning_rate": 3.044413793103448e-06, "loss": 0.166, "step": 3965 }, { "epoch": 1.0686, "grad_norm": 5.871016025543213, "learning_rate": 3.0430344827586203e-06, "loss": 0.2253, "step": 3970 }, { "epoch": 1.0689333333333333, "grad_norm": 3.954554319381714, "learning_rate": 3.041655172413793e-06, "loss": 0.1674, "step": 3975 }, { "epoch": 1.0692666666666666, "grad_norm": 4.5953569412231445, "learning_rate": 3.0402758620689652e-06, "loss": 0.2718, "step": 3980 }, { "epoch": 1.0695999999999999, "grad_norm": 5.061355113983154, "learning_rate": 3.0388965517241375e-06, "loss": 0.1897, "step": 3985 }, { "epoch": 1.0699333333333334, "grad_norm": 3.9905238151550293, "learning_rate": 3.0375172413793106e-06, "loss": 0.1749, "step": 3990 }, { "epoch": 1.0702666666666667, "grad_norm": 3.580721616744995, "learning_rate": 3.036137931034483e-06, "loss": 0.1835, "step": 3995 }, { "epoch": 1.0706, "grad_norm": 4.102931976318359, "learning_rate": 3.034758620689655e-06, "loss": 0.2343, "step": 4000 }, { "epoch": 1.0706, "eval_loss": 0.2268410176038742, "eval_runtime": 138.2212, "eval_samples_per_second": 4.341, "eval_steps_per_second": 1.085, "eval_wer": 11.399029869798314, "step": 4000 }, { "epoch": 1.0709333333333333, "grad_norm": 4.876556396484375, "learning_rate": 3.0333793103448277e-06, "loss": 0.1746, "step": 4005 }, { "epoch": 1.0712666666666666, "grad_norm": 4.110330104827881, "learning_rate": 3.032e-06, "loss": 0.1855, "step": 4010 }, { "epoch": 1.0716, "grad_norm": 3.2885100841522217, "learning_rate": 3.030620689655172e-06, "loss": 0.1696, "step": 4015 }, { "epoch": 1.0719333333333334, "grad_norm": 4.894953727722168, "learning_rate": 3.0292413793103444e-06, "loss": 0.1763, "step": 4020 }, { "epoch": 1.0722666666666667, "grad_norm": 3.9903762340545654, "learning_rate": 3.027862068965517e-06, "loss": 0.212, "step": 4025 }, { "epoch": 1.0726, "grad_norm": 3.7582547664642334, "learning_rate": 3.0264827586206893e-06, "loss": 0.1878, "step": 4030 }, { "epoch": 1.0729333333333333, "grad_norm": 3.9547064304351807, "learning_rate": 3.0251034482758615e-06, "loss": 0.1642, "step": 4035 }, { "epoch": 1.0732666666666666, "grad_norm": 4.206972122192383, "learning_rate": 3.0237241379310346e-06, "loss": 0.1587, "step": 4040 }, { "epoch": 1.0735999999999999, "grad_norm": 3.920929431915283, "learning_rate": 3.022344827586207e-06, "loss": 0.2444, "step": 4045 }, { "epoch": 1.0739333333333334, "grad_norm": 3.9810147285461426, "learning_rate": 3.020965517241379e-06, "loss": 0.1823, "step": 4050 }, { "epoch": 1.0742666666666667, "grad_norm": 4.789390563964844, "learning_rate": 3.0195862068965518e-06, "loss": 0.2364, "step": 4055 }, { "epoch": 1.0746, "grad_norm": 4.057789325714111, "learning_rate": 3.018206896551724e-06, "loss": 0.187, "step": 4060 }, { "epoch": 1.0749333333333333, "grad_norm": 5.300390720367432, "learning_rate": 3.0168275862068962e-06, "loss": 0.2875, "step": 4065 }, { "epoch": 1.0752666666666666, "grad_norm": 3.4985101222991943, "learning_rate": 3.015448275862069e-06, "loss": 0.1993, "step": 4070 }, { "epoch": 1.0756000000000001, "grad_norm": 3.110759973526001, "learning_rate": 3.014068965517241e-06, "loss": 0.2151, "step": 4075 }, { "epoch": 1.0759333333333334, "grad_norm": 4.66387414932251, "learning_rate": 3.0126896551724134e-06, "loss": 0.2036, "step": 4080 }, { "epoch": 1.0762666666666667, "grad_norm": 4.885064601898193, "learning_rate": 3.0113103448275865e-06, "loss": 0.2476, "step": 4085 }, { "epoch": 1.0766, "grad_norm": 4.288619518280029, "learning_rate": 3.0099310344827587e-06, "loss": 0.1904, "step": 4090 }, { "epoch": 1.0769333333333333, "grad_norm": 3.69870924949646, "learning_rate": 3.008551724137931e-06, "loss": 0.2235, "step": 4095 }, { "epoch": 1.0772666666666666, "grad_norm": 4.05826997756958, "learning_rate": 3.007172413793103e-06, "loss": 0.2252, "step": 4100 }, { "epoch": 1.0776, "grad_norm": 4.888148784637451, "learning_rate": 3.005793103448276e-06, "loss": 0.2561, "step": 4105 }, { "epoch": 1.0779333333333334, "grad_norm": 4.877688407897949, "learning_rate": 3.004413793103448e-06, "loss": 0.2113, "step": 4110 }, { "epoch": 1.0782666666666667, "grad_norm": 5.413600444793701, "learning_rate": 3.0030344827586203e-06, "loss": 0.2256, "step": 4115 }, { "epoch": 1.0786, "grad_norm": 4.270473957061768, "learning_rate": 3.001655172413793e-06, "loss": 0.2396, "step": 4120 }, { "epoch": 1.0789333333333333, "grad_norm": 4.500417232513428, "learning_rate": 3.000275862068965e-06, "loss": 0.2096, "step": 4125 }, { "epoch": 1.0792666666666666, "grad_norm": 5.2032976150512695, "learning_rate": 2.9988965517241374e-06, "loss": 0.2856, "step": 4130 }, { "epoch": 1.0796000000000001, "grad_norm": 3.901552438735962, "learning_rate": 2.9975172413793105e-06, "loss": 0.2042, "step": 4135 }, { "epoch": 1.0799333333333334, "grad_norm": 4.482265472412109, "learning_rate": 2.9961379310344828e-06, "loss": 0.2789, "step": 4140 }, { "epoch": 1.0802666666666667, "grad_norm": 4.165291786193848, "learning_rate": 2.994758620689655e-06, "loss": 0.2469, "step": 4145 }, { "epoch": 1.0806, "grad_norm": 4.953929901123047, "learning_rate": 2.9933793103448277e-06, "loss": 0.2223, "step": 4150 }, { "epoch": 1.0809333333333333, "grad_norm": 3.369699001312256, "learning_rate": 2.992e-06, "loss": 0.1778, "step": 4155 }, { "epoch": 1.0812666666666666, "grad_norm": 4.080148220062256, "learning_rate": 2.990620689655172e-06, "loss": 0.2358, "step": 4160 }, { "epoch": 1.0816, "grad_norm": 4.838709831237793, "learning_rate": 2.989241379310345e-06, "loss": 0.1956, "step": 4165 }, { "epoch": 1.0819333333333334, "grad_norm": 3.5639090538024902, "learning_rate": 2.987862068965517e-06, "loss": 0.1918, "step": 4170 }, { "epoch": 1.0822666666666667, "grad_norm": 4.2466559410095215, "learning_rate": 2.9864827586206893e-06, "loss": 0.1803, "step": 4175 }, { "epoch": 1.0826, "grad_norm": 4.495343208312988, "learning_rate": 2.985103448275862e-06, "loss": 0.1952, "step": 4180 }, { "epoch": 1.0829333333333333, "grad_norm": 3.988090991973877, "learning_rate": 2.9837241379310346e-06, "loss": 0.1831, "step": 4185 }, { "epoch": 1.0832666666666666, "grad_norm": 5.0828022956848145, "learning_rate": 2.982344827586207e-06, "loss": 0.177, "step": 4190 }, { "epoch": 1.0836, "grad_norm": 4.129793643951416, "learning_rate": 2.980965517241379e-06, "loss": 0.1925, "step": 4195 }, { "epoch": 1.0839333333333334, "grad_norm": 3.910735607147217, "learning_rate": 2.9795862068965517e-06, "loss": 0.1656, "step": 4200 }, { "epoch": 1.0842666666666667, "grad_norm": 4.47676944732666, "learning_rate": 2.978206896551724e-06, "loss": 0.2102, "step": 4205 }, { "epoch": 1.0846, "grad_norm": 3.7634642124176025, "learning_rate": 2.976827586206896e-06, "loss": 0.1772, "step": 4210 }, { "epoch": 1.0849333333333333, "grad_norm": 4.9601922035217285, "learning_rate": 2.975448275862069e-06, "loss": 0.1989, "step": 4215 }, { "epoch": 1.0852666666666666, "grad_norm": 4.601022720336914, "learning_rate": 2.974068965517241e-06, "loss": 0.1825, "step": 4220 }, { "epoch": 1.0856, "grad_norm": 4.730509281158447, "learning_rate": 2.9726896551724138e-06, "loss": 0.1598, "step": 4225 }, { "epoch": 1.0859333333333334, "grad_norm": 4.796960353851318, "learning_rate": 2.9713103448275864e-06, "loss": 0.1897, "step": 4230 }, { "epoch": 1.0862666666666667, "grad_norm": 4.407510757446289, "learning_rate": 2.9699310344827587e-06, "loss": 0.2468, "step": 4235 }, { "epoch": 1.0866, "grad_norm": 3.56827974319458, "learning_rate": 2.968551724137931e-06, "loss": 0.1966, "step": 4240 }, { "epoch": 1.0869333333333333, "grad_norm": 4.364830017089844, "learning_rate": 2.9671724137931036e-06, "loss": 0.1815, "step": 4245 }, { "epoch": 1.0872666666666666, "grad_norm": 3.9958388805389404, "learning_rate": 2.965793103448276e-06, "loss": 0.163, "step": 4250 }, { "epoch": 1.0876, "grad_norm": 4.383339881896973, "learning_rate": 2.964413793103448e-06, "loss": 0.1843, "step": 4255 }, { "epoch": 1.0879333333333334, "grad_norm": 4.407564640045166, "learning_rate": 2.9630344827586203e-06, "loss": 0.2141, "step": 4260 }, { "epoch": 1.0882666666666667, "grad_norm": 3.8947925567626953, "learning_rate": 2.961655172413793e-06, "loss": 0.1907, "step": 4265 }, { "epoch": 1.0886, "grad_norm": 4.602950096130371, "learning_rate": 2.960275862068965e-06, "loss": 0.2073, "step": 4270 }, { "epoch": 1.0889333333333333, "grad_norm": 4.016214370727539, "learning_rate": 2.958896551724138e-06, "loss": 0.1899, "step": 4275 }, { "epoch": 1.0892666666666666, "grad_norm": 4.071616172790527, "learning_rate": 2.9575172413793105e-06, "loss": 0.1744, "step": 4280 }, { "epoch": 1.0896, "grad_norm": 4.90535306930542, "learning_rate": 2.9561379310344827e-06, "loss": 0.2292, "step": 4285 }, { "epoch": 1.0899333333333334, "grad_norm": 4.6877899169921875, "learning_rate": 2.954758620689655e-06, "loss": 0.2133, "step": 4290 }, { "epoch": 1.0902666666666667, "grad_norm": 4.8565568923950195, "learning_rate": 2.9533793103448276e-06, "loss": 0.2033, "step": 4295 }, { "epoch": 1.0906, "grad_norm": 4.437283992767334, "learning_rate": 2.952e-06, "loss": 0.1895, "step": 4300 }, { "epoch": 1.0909333333333333, "grad_norm": 3.8942887783050537, "learning_rate": 2.950620689655172e-06, "loss": 0.2173, "step": 4305 }, { "epoch": 1.0912666666666666, "grad_norm": 4.399665832519531, "learning_rate": 2.9492413793103448e-06, "loss": 0.2351, "step": 4310 }, { "epoch": 1.0916, "grad_norm": 3.764101028442383, "learning_rate": 2.947862068965517e-06, "loss": 0.1524, "step": 4315 }, { "epoch": 1.0919333333333334, "grad_norm": 4.842204570770264, "learning_rate": 2.9464827586206897e-06, "loss": 0.1682, "step": 4320 }, { "epoch": 1.0922666666666667, "grad_norm": 3.149669885635376, "learning_rate": 2.945103448275862e-06, "loss": 0.1731, "step": 4325 }, { "epoch": 1.0926, "grad_norm": 3.956570625305176, "learning_rate": 2.9437241379310346e-06, "loss": 0.1599, "step": 4330 }, { "epoch": 1.0929333333333333, "grad_norm": 4.893487453460693, "learning_rate": 2.942344827586207e-06, "loss": 0.1968, "step": 4335 }, { "epoch": 1.0932666666666666, "grad_norm": 3.495042085647583, "learning_rate": 2.940965517241379e-06, "loss": 0.1556, "step": 4340 }, { "epoch": 1.0936, "grad_norm": 3.724201202392578, "learning_rate": 2.9395862068965517e-06, "loss": 0.1823, "step": 4345 }, { "epoch": 1.0939333333333334, "grad_norm": 3.40342116355896, "learning_rate": 2.938206896551724e-06, "loss": 0.1844, "step": 4350 }, { "epoch": 1.0942666666666667, "grad_norm": 3.983743667602539, "learning_rate": 2.936827586206896e-06, "loss": 0.1951, "step": 4355 }, { "epoch": 1.0946, "grad_norm": 4.165203094482422, "learning_rate": 2.935448275862069e-06, "loss": 0.2019, "step": 4360 }, { "epoch": 1.0949333333333333, "grad_norm": 4.881627559661865, "learning_rate": 2.934068965517241e-06, "loss": 0.1788, "step": 4365 }, { "epoch": 1.0952666666666666, "grad_norm": 4.997315883636475, "learning_rate": 2.9326896551724137e-06, "loss": 0.2112, "step": 4370 }, { "epoch": 1.0956, "grad_norm": 4.4181132316589355, "learning_rate": 2.9313103448275864e-06, "loss": 0.1757, "step": 4375 }, { "epoch": 1.0959333333333334, "grad_norm": 5.474098205566406, "learning_rate": 2.9299310344827586e-06, "loss": 0.2404, "step": 4380 }, { "epoch": 1.0962666666666667, "grad_norm": 4.443711757659912, "learning_rate": 2.928551724137931e-06, "loss": 0.2079, "step": 4385 }, { "epoch": 1.0966, "grad_norm": 3.8749783039093018, "learning_rate": 2.9271724137931035e-06, "loss": 0.2402, "step": 4390 }, { "epoch": 1.0969333333333333, "grad_norm": 3.3482859134674072, "learning_rate": 2.9257931034482758e-06, "loss": 0.2293, "step": 4395 }, { "epoch": 1.0972666666666666, "grad_norm": 4.840886116027832, "learning_rate": 2.924413793103448e-06, "loss": 0.2063, "step": 4400 }, { "epoch": 1.0976, "grad_norm": 5.348876953125, "learning_rate": 2.9230344827586202e-06, "loss": 0.2203, "step": 4405 }, { "epoch": 1.0979333333333334, "grad_norm": 4.477566719055176, "learning_rate": 2.921655172413793e-06, "loss": 0.1992, "step": 4410 }, { "epoch": 1.0982666666666667, "grad_norm": 4.385368824005127, "learning_rate": 2.9202758620689655e-06, "loss": 0.1758, "step": 4415 }, { "epoch": 1.0986, "grad_norm": 5.30516242980957, "learning_rate": 2.9188965517241378e-06, "loss": 0.239, "step": 4420 }, { "epoch": 1.0989333333333333, "grad_norm": 5.109501838684082, "learning_rate": 2.9175172413793104e-06, "loss": 0.2201, "step": 4425 }, { "epoch": 1.0992666666666666, "grad_norm": 4.417385101318359, "learning_rate": 2.9161379310344827e-06, "loss": 0.192, "step": 4430 }, { "epoch": 1.0996, "grad_norm": 3.6924843788146973, "learning_rate": 2.914758620689655e-06, "loss": 0.2265, "step": 4435 }, { "epoch": 1.0999333333333334, "grad_norm": 4.569225311279297, "learning_rate": 2.9133793103448276e-06, "loss": 0.2105, "step": 4440 }, { "epoch": 1.1002666666666667, "grad_norm": 3.942950963973999, "learning_rate": 2.912e-06, "loss": 0.2081, "step": 4445 }, { "epoch": 1.1006, "grad_norm": 3.613032817840576, "learning_rate": 2.910620689655172e-06, "loss": 0.1844, "step": 4450 }, { "epoch": 1.1009333333333333, "grad_norm": 5.1066131591796875, "learning_rate": 2.9092413793103447e-06, "loss": 0.1967, "step": 4455 }, { "epoch": 1.1012666666666666, "grad_norm": 4.886391639709473, "learning_rate": 2.907862068965517e-06, "loss": 0.188, "step": 4460 }, { "epoch": 1.1016, "grad_norm": 3.572789192199707, "learning_rate": 2.9064827586206896e-06, "loss": 0.1525, "step": 4465 }, { "epoch": 1.1019333333333334, "grad_norm": 3.4419796466827393, "learning_rate": 2.9051034482758623e-06, "loss": 0.1826, "step": 4470 }, { "epoch": 1.1022666666666667, "grad_norm": 4.468290328979492, "learning_rate": 2.9037241379310345e-06, "loss": 0.199, "step": 4475 }, { "epoch": 1.1026, "grad_norm": 5.7574076652526855, "learning_rate": 2.9023448275862067e-06, "loss": 0.2697, "step": 4480 }, { "epoch": 1.1029333333333333, "grad_norm": 4.674327373504639, "learning_rate": 2.900965517241379e-06, "loss": 0.1546, "step": 4485 }, { "epoch": 1.1032666666666666, "grad_norm": 4.679714202880859, "learning_rate": 2.8995862068965516e-06, "loss": 0.1934, "step": 4490 }, { "epoch": 1.1036, "grad_norm": 4.581182956695557, "learning_rate": 2.898206896551724e-06, "loss": 0.2217, "step": 4495 }, { "epoch": 1.1039333333333334, "grad_norm": 4.956315517425537, "learning_rate": 2.896827586206896e-06, "loss": 0.2422, "step": 4500 }, { "epoch": 1.1042666666666667, "grad_norm": 3.650285005569458, "learning_rate": 2.8954482758620688e-06, "loss": 0.1317, "step": 4505 }, { "epoch": 1.1046, "grad_norm": 4.513254642486572, "learning_rate": 2.8940689655172414e-06, "loss": 0.2146, "step": 4510 }, { "epoch": 1.1049333333333333, "grad_norm": 3.55983829498291, "learning_rate": 2.8926896551724137e-06, "loss": 0.1783, "step": 4515 }, { "epoch": 1.1052666666666666, "grad_norm": 4.265017509460449, "learning_rate": 2.8913103448275863e-06, "loss": 0.1758, "step": 4520 }, { "epoch": 1.1056, "grad_norm": 4.156493186950684, "learning_rate": 2.8899310344827586e-06, "loss": 0.1898, "step": 4525 }, { "epoch": 1.1059333333333334, "grad_norm": 4.1872406005859375, "learning_rate": 2.888551724137931e-06, "loss": 0.2069, "step": 4530 }, { "epoch": 1.1062666666666667, "grad_norm": 3.242173910140991, "learning_rate": 2.8871724137931035e-06, "loss": 0.2084, "step": 4535 }, { "epoch": 1.1066, "grad_norm": 4.0468292236328125, "learning_rate": 2.8857931034482757e-06, "loss": 0.1787, "step": 4540 }, { "epoch": 1.1069333333333333, "grad_norm": 3.2678468227386475, "learning_rate": 2.884413793103448e-06, "loss": 0.1837, "step": 4545 }, { "epoch": 1.1072666666666666, "grad_norm": 3.554248571395874, "learning_rate": 2.88303448275862e-06, "loss": 0.1483, "step": 4550 }, { "epoch": 1.1076, "grad_norm": 3.46049427986145, "learning_rate": 2.8816551724137933e-06, "loss": 0.1815, "step": 4555 }, { "epoch": 1.1079333333333334, "grad_norm": 4.22011137008667, "learning_rate": 2.8802758620689655e-06, "loss": 0.163, "step": 4560 }, { "epoch": 1.1082666666666667, "grad_norm": 3.987525463104248, "learning_rate": 2.8788965517241377e-06, "loss": 0.1505, "step": 4565 }, { "epoch": 1.1086, "grad_norm": 5.824914455413818, "learning_rate": 2.8775172413793104e-06, "loss": 0.2732, "step": 4570 }, { "epoch": 1.1089333333333333, "grad_norm": 4.02011775970459, "learning_rate": 2.8761379310344826e-06, "loss": 0.2066, "step": 4575 }, { "epoch": 1.1092666666666666, "grad_norm": 3.7263333797454834, "learning_rate": 2.874758620689655e-06, "loss": 0.1959, "step": 4580 }, { "epoch": 1.1096, "grad_norm": 3.231119155883789, "learning_rate": 2.8733793103448275e-06, "loss": 0.1523, "step": 4585 }, { "epoch": 1.1099333333333332, "grad_norm": 3.4508893489837646, "learning_rate": 2.8719999999999998e-06, "loss": 0.1596, "step": 4590 }, { "epoch": 1.1102666666666667, "grad_norm": 5.301802635192871, "learning_rate": 2.870620689655172e-06, "loss": 0.1994, "step": 4595 }, { "epoch": 1.1106, "grad_norm": 3.6685116291046143, "learning_rate": 2.8692413793103447e-06, "loss": 0.1824, "step": 4600 }, { "epoch": 1.1109333333333333, "grad_norm": 4.879263401031494, "learning_rate": 2.8678620689655173e-06, "loss": 0.1789, "step": 4605 }, { "epoch": 1.1112666666666666, "grad_norm": 4.326107501983643, "learning_rate": 2.8664827586206896e-06, "loss": 0.2, "step": 4610 }, { "epoch": 1.1116, "grad_norm": 3.3059206008911133, "learning_rate": 2.8651034482758622e-06, "loss": 0.2188, "step": 4615 }, { "epoch": 1.1119333333333334, "grad_norm": 5.0130486488342285, "learning_rate": 2.8637241379310345e-06, "loss": 0.2403, "step": 4620 }, { "epoch": 1.1122666666666667, "grad_norm": 4.662135601043701, "learning_rate": 2.8623448275862067e-06, "loss": 0.1851, "step": 4625 }, { "epoch": 1.1126, "grad_norm": 7.146907329559326, "learning_rate": 2.860965517241379e-06, "loss": 0.1482, "step": 4630 }, { "epoch": 1.1129333333333333, "grad_norm": 4.4374847412109375, "learning_rate": 2.8595862068965516e-06, "loss": 0.1872, "step": 4635 }, { "epoch": 1.1132666666666666, "grad_norm": 4.843354225158691, "learning_rate": 2.858206896551724e-06, "loss": 0.2323, "step": 4640 }, { "epoch": 1.1136, "grad_norm": 3.995206594467163, "learning_rate": 2.856827586206896e-06, "loss": 0.1724, "step": 4645 }, { "epoch": 1.1139333333333332, "grad_norm": 4.626944065093994, "learning_rate": 2.855448275862069e-06, "loss": 0.2481, "step": 4650 }, { "epoch": 1.1142666666666667, "grad_norm": 4.230355739593506, "learning_rate": 2.8540689655172414e-06, "loss": 0.2059, "step": 4655 }, { "epoch": 1.1146, "grad_norm": 3.855186700820923, "learning_rate": 2.8526896551724136e-06, "loss": 0.1772, "step": 4660 }, { "epoch": 1.1149333333333333, "grad_norm": 4.355653762817383, "learning_rate": 2.8513103448275863e-06, "loss": 0.1841, "step": 4665 }, { "epoch": 1.1152666666666666, "grad_norm": 3.413299560546875, "learning_rate": 2.8499310344827585e-06, "loss": 0.1614, "step": 4670 }, { "epoch": 1.1156, "grad_norm": 4.973278522491455, "learning_rate": 2.8485517241379308e-06, "loss": 0.1663, "step": 4675 }, { "epoch": 1.1159333333333334, "grad_norm": 4.464892864227295, "learning_rate": 2.8471724137931034e-06, "loss": 0.1872, "step": 4680 }, { "epoch": 1.1162666666666667, "grad_norm": 5.563607215881348, "learning_rate": 2.8457931034482757e-06, "loss": 0.2125, "step": 4685 }, { "epoch": 1.1166, "grad_norm": 3.4745309352874756, "learning_rate": 2.844413793103448e-06, "loss": 0.1895, "step": 4690 }, { "epoch": 1.1169333333333333, "grad_norm": 4.8930792808532715, "learning_rate": 2.84303448275862e-06, "loss": 0.175, "step": 4695 }, { "epoch": 1.1172666666666666, "grad_norm": 4.708552837371826, "learning_rate": 2.8416551724137932e-06, "loss": 0.2302, "step": 4700 }, { "epoch": 1.1176, "grad_norm": 4.1199798583984375, "learning_rate": 2.8402758620689655e-06, "loss": 0.1935, "step": 4705 }, { "epoch": 1.1179333333333332, "grad_norm": 3.9816079139709473, "learning_rate": 2.8388965517241377e-06, "loss": 0.1952, "step": 4710 }, { "epoch": 1.1182666666666667, "grad_norm": 3.914416551589966, "learning_rate": 2.8375172413793104e-06, "loss": 0.2051, "step": 4715 }, { "epoch": 1.1186, "grad_norm": 4.918084144592285, "learning_rate": 2.8361379310344826e-06, "loss": 0.181, "step": 4720 }, { "epoch": 1.1189333333333333, "grad_norm": 3.7524545192718506, "learning_rate": 2.834758620689655e-06, "loss": 0.1895, "step": 4725 }, { "epoch": 1.1192666666666666, "grad_norm": 4.190952777862549, "learning_rate": 2.8333793103448275e-06, "loss": 0.2072, "step": 4730 }, { "epoch": 1.1196, "grad_norm": 3.681546688079834, "learning_rate": 2.8319999999999997e-06, "loss": 0.1737, "step": 4735 }, { "epoch": 1.1199333333333334, "grad_norm": 5.234808444976807, "learning_rate": 2.830620689655172e-06, "loss": 0.2442, "step": 4740 }, { "epoch": 1.1202666666666667, "grad_norm": 3.9235680103302, "learning_rate": 2.829241379310345e-06, "loss": 0.2095, "step": 4745 }, { "epoch": 1.1206, "grad_norm": 3.7643444538116455, "learning_rate": 2.8278620689655173e-06, "loss": 0.1935, "step": 4750 }, { "epoch": 1.1209333333333333, "grad_norm": 4.407737731933594, "learning_rate": 2.8264827586206895e-06, "loss": 0.1941, "step": 4755 }, { "epoch": 1.1212666666666666, "grad_norm": 3.320873498916626, "learning_rate": 2.825103448275862e-06, "loss": 0.1777, "step": 4760 }, { "epoch": 1.1216, "grad_norm": 3.7639729976654053, "learning_rate": 2.8237241379310344e-06, "loss": 0.1787, "step": 4765 }, { "epoch": 1.1219333333333332, "grad_norm": 4.011973857879639, "learning_rate": 2.8223448275862067e-06, "loss": 0.1821, "step": 4770 }, { "epoch": 1.1222666666666667, "grad_norm": 4.560912609100342, "learning_rate": 2.820965517241379e-06, "loss": 0.1888, "step": 4775 }, { "epoch": 1.1226, "grad_norm": 4.736232280731201, "learning_rate": 2.8195862068965516e-06, "loss": 0.1985, "step": 4780 }, { "epoch": 1.1229333333333333, "grad_norm": 4.1751627922058105, "learning_rate": 2.818206896551724e-06, "loss": 0.1842, "step": 4785 }, { "epoch": 1.1232666666666666, "grad_norm": 3.8032777309417725, "learning_rate": 2.8168275862068965e-06, "loss": 0.1939, "step": 4790 }, { "epoch": 1.1236, "grad_norm": 4.563346862792969, "learning_rate": 2.815448275862069e-06, "loss": 0.1607, "step": 4795 }, { "epoch": 1.1239333333333335, "grad_norm": 3.5407750606536865, "learning_rate": 2.8140689655172414e-06, "loss": 0.2057, "step": 4800 }, { "epoch": 1.1242666666666667, "grad_norm": 4.015341281890869, "learning_rate": 2.8126896551724136e-06, "loss": 0.2087, "step": 4805 }, { "epoch": 1.1246, "grad_norm": 5.5382561683654785, "learning_rate": 2.8113103448275863e-06, "loss": 0.1925, "step": 4810 }, { "epoch": 1.1249333333333333, "grad_norm": 4.097034454345703, "learning_rate": 2.8099310344827585e-06, "loss": 0.2092, "step": 4815 }, { "epoch": 1.1252666666666666, "grad_norm": 3.994246244430542, "learning_rate": 2.8085517241379307e-06, "loss": 0.1999, "step": 4820 }, { "epoch": 1.1256, "grad_norm": 4.980210781097412, "learning_rate": 2.8071724137931034e-06, "loss": 0.2522, "step": 4825 }, { "epoch": 1.1259333333333332, "grad_norm": 5.69704008102417, "learning_rate": 2.8057931034482756e-06, "loss": 0.2447, "step": 4830 }, { "epoch": 1.1262666666666667, "grad_norm": 4.367610454559326, "learning_rate": 2.804413793103448e-06, "loss": 0.2244, "step": 4835 }, { "epoch": 1.1266, "grad_norm": 4.881072044372559, "learning_rate": 2.803034482758621e-06, "loss": 0.1531, "step": 4840 }, { "epoch": 1.1269333333333333, "grad_norm": 6.344549655914307, "learning_rate": 2.801655172413793e-06, "loss": 0.2531, "step": 4845 }, { "epoch": 1.1272666666666666, "grad_norm": 4.571545600891113, "learning_rate": 2.8002758620689654e-06, "loss": 0.2557, "step": 4850 }, { "epoch": 1.1276, "grad_norm": 4.428611755371094, "learning_rate": 2.7988965517241377e-06, "loss": 0.2433, "step": 4855 }, { "epoch": 1.1279333333333335, "grad_norm": 3.478060483932495, "learning_rate": 2.7975172413793103e-06, "loss": 0.2125, "step": 4860 }, { "epoch": 1.1282666666666668, "grad_norm": 4.306246757507324, "learning_rate": 2.7961379310344826e-06, "loss": 0.1583, "step": 4865 }, { "epoch": 1.1286, "grad_norm": 5.304801940917969, "learning_rate": 2.794758620689655e-06, "loss": 0.1917, "step": 4870 }, { "epoch": 1.1289333333333333, "grad_norm": 4.3496623039245605, "learning_rate": 2.7933793103448275e-06, "loss": 0.1868, "step": 4875 }, { "epoch": 1.1292666666666666, "grad_norm": 4.872969150543213, "learning_rate": 2.7919999999999997e-06, "loss": 0.3008, "step": 4880 }, { "epoch": 1.1296, "grad_norm": 5.376682758331299, "learning_rate": 2.7906206896551724e-06, "loss": 0.1846, "step": 4885 }, { "epoch": 1.1299333333333332, "grad_norm": 4.408675670623779, "learning_rate": 2.789241379310345e-06, "loss": 0.1979, "step": 4890 }, { "epoch": 1.1302666666666668, "grad_norm": 5.009186744689941, "learning_rate": 2.7878620689655173e-06, "loss": 0.2189, "step": 4895 }, { "epoch": 1.1306, "grad_norm": 4.575723648071289, "learning_rate": 2.7864827586206895e-06, "loss": 0.191, "step": 4900 }, { "epoch": 1.1309333333333333, "grad_norm": 4.254824161529541, "learning_rate": 2.785103448275862e-06, "loss": 0.2155, "step": 4905 }, { "epoch": 1.1312666666666666, "grad_norm": 3.905532121658325, "learning_rate": 2.7837241379310344e-06, "loss": 0.1899, "step": 4910 }, { "epoch": 1.1316, "grad_norm": 5.507880687713623, "learning_rate": 2.7823448275862066e-06, "loss": 0.2256, "step": 4915 }, { "epoch": 1.1319333333333335, "grad_norm": 4.343334674835205, "learning_rate": 2.780965517241379e-06, "loss": 0.1657, "step": 4920 }, { "epoch": 1.1322666666666668, "grad_norm": 4.475545883178711, "learning_rate": 2.7795862068965515e-06, "loss": 0.1989, "step": 4925 }, { "epoch": 1.1326, "grad_norm": 5.1606903076171875, "learning_rate": 2.7782068965517238e-06, "loss": 0.2428, "step": 4930 }, { "epoch": 1.1329333333333333, "grad_norm": 5.443267345428467, "learning_rate": 2.7768275862068964e-06, "loss": 0.2046, "step": 4935 }, { "epoch": 1.1332666666666666, "grad_norm": 3.020538568496704, "learning_rate": 2.775448275862069e-06, "loss": 0.1744, "step": 4940 }, { "epoch": 1.1336, "grad_norm": 3.7136950492858887, "learning_rate": 2.7740689655172413e-06, "loss": 0.1995, "step": 4945 }, { "epoch": 1.1339333333333332, "grad_norm": 4.379866600036621, "learning_rate": 2.7726896551724136e-06, "loss": 0.3399, "step": 4950 }, { "epoch": 1.1342666666666668, "grad_norm": 4.760313034057617, "learning_rate": 2.7713103448275862e-06, "loss": 0.225, "step": 4955 }, { "epoch": 1.1346, "grad_norm": 4.204442977905273, "learning_rate": 2.7699310344827585e-06, "loss": 0.2272, "step": 4960 }, { "epoch": 1.1349333333333333, "grad_norm": 4.384819030761719, "learning_rate": 2.7685517241379307e-06, "loss": 0.228, "step": 4965 }, { "epoch": 1.1352666666666666, "grad_norm": 3.8497352600097656, "learning_rate": 2.7671724137931034e-06, "loss": 0.2212, "step": 4970 }, { "epoch": 1.1356, "grad_norm": 4.877221584320068, "learning_rate": 2.7657931034482756e-06, "loss": 0.2536, "step": 4975 }, { "epoch": 1.1359333333333332, "grad_norm": 3.7856905460357666, "learning_rate": 2.7644137931034483e-06, "loss": 0.2111, "step": 4980 }, { "epoch": 1.1362666666666668, "grad_norm": 4.839357376098633, "learning_rate": 2.763034482758621e-06, "loss": 0.1918, "step": 4985 }, { "epoch": 1.1366, "grad_norm": 3.634368896484375, "learning_rate": 2.761655172413793e-06, "loss": 0.1906, "step": 4990 }, { "epoch": 1.1369333333333334, "grad_norm": 3.3249456882476807, "learning_rate": 2.7602758620689654e-06, "loss": 0.2133, "step": 4995 }, { "epoch": 1.1372666666666666, "grad_norm": 4.269469261169434, "learning_rate": 2.7588965517241376e-06, "loss": 0.2004, "step": 5000 }, { "epoch": 1.1372666666666666, "eval_loss": 0.22218205034732819, "eval_runtime": 137.1702, "eval_samples_per_second": 4.374, "eval_steps_per_second": 1.094, "eval_wer": 11.450089354097523, "step": 5000 }, { "epoch": 1.1376, "grad_norm": 3.6362509727478027, "learning_rate": 2.7575172413793103e-06, "loss": 0.1785, "step": 5005 }, { "epoch": 1.1379333333333332, "grad_norm": 4.418122291564941, "learning_rate": 2.7561379310344825e-06, "loss": 0.1665, "step": 5010 }, { "epoch": 1.1382666666666668, "grad_norm": 4.212091445922852, "learning_rate": 2.7547586206896548e-06, "loss": 0.1843, "step": 5015 }, { "epoch": 1.1386, "grad_norm": 3.4938228130340576, "learning_rate": 2.7533793103448274e-06, "loss": 0.1876, "step": 5020 }, { "epoch": 1.1389333333333334, "grad_norm": 3.74359393119812, "learning_rate": 2.7519999999999997e-06, "loss": 0.144, "step": 5025 }, { "epoch": 1.1392666666666666, "grad_norm": 3.883995532989502, "learning_rate": 2.7506206896551723e-06, "loss": 0.1694, "step": 5030 }, { "epoch": 1.1396, "grad_norm": 4.399216651916504, "learning_rate": 2.749241379310345e-06, "loss": 0.1732, "step": 5035 }, { "epoch": 1.1399333333333332, "grad_norm": 4.641524314880371, "learning_rate": 2.7478620689655172e-06, "loss": 0.1767, "step": 5040 }, { "epoch": 1.1402666666666668, "grad_norm": 3.757779359817505, "learning_rate": 2.7464827586206895e-06, "loss": 0.1938, "step": 5045 }, { "epoch": 1.1406, "grad_norm": 4.3538899421691895, "learning_rate": 2.745103448275862e-06, "loss": 0.2211, "step": 5050 }, { "epoch": 1.1409333333333334, "grad_norm": 3.578556537628174, "learning_rate": 2.7437241379310343e-06, "loss": 0.192, "step": 5055 }, { "epoch": 1.1412666666666667, "grad_norm": 4.390420913696289, "learning_rate": 2.7423448275862066e-06, "loss": 0.195, "step": 5060 }, { "epoch": 1.1416, "grad_norm": 4.332846164703369, "learning_rate": 2.740965517241379e-06, "loss": 0.2194, "step": 5065 }, { "epoch": 1.1419333333333332, "grad_norm": 4.345626354217529, "learning_rate": 2.7395862068965515e-06, "loss": 0.1912, "step": 5070 }, { "epoch": 1.1422666666666668, "grad_norm": 3.979213237762451, "learning_rate": 2.738206896551724e-06, "loss": 0.1914, "step": 5075 }, { "epoch": 1.1426, "grad_norm": 4.0453948974609375, "learning_rate": 2.7368275862068964e-06, "loss": 0.2032, "step": 5080 }, { "epoch": 1.1429333333333334, "grad_norm": 4.972130298614502, "learning_rate": 2.735448275862069e-06, "loss": 0.1831, "step": 5085 }, { "epoch": 1.1432666666666667, "grad_norm": 4.726823329925537, "learning_rate": 2.7340689655172413e-06, "loss": 0.202, "step": 5090 }, { "epoch": 1.1436, "grad_norm": 5.029985427856445, "learning_rate": 2.7326896551724135e-06, "loss": 0.2521, "step": 5095 }, { "epoch": 1.1439333333333332, "grad_norm": 3.465513229370117, "learning_rate": 2.731310344827586e-06, "loss": 0.1612, "step": 5100 }, { "epoch": 1.1442666666666668, "grad_norm": 4.140130996704102, "learning_rate": 2.7299310344827584e-06, "loss": 0.1746, "step": 5105 }, { "epoch": 1.1446, "grad_norm": 4.352369785308838, "learning_rate": 2.7285517241379307e-06, "loss": 0.1632, "step": 5110 }, { "epoch": 1.1449333333333334, "grad_norm": 4.439798355102539, "learning_rate": 2.7271724137931033e-06, "loss": 0.1629, "step": 5115 }, { "epoch": 1.1452666666666667, "grad_norm": 4.279767036437988, "learning_rate": 2.725793103448276e-06, "loss": 0.186, "step": 5120 }, { "epoch": 1.1456, "grad_norm": 4.694298267364502, "learning_rate": 2.724413793103448e-06, "loss": 0.1609, "step": 5125 }, { "epoch": 1.1459333333333332, "grad_norm": 4.133419036865234, "learning_rate": 2.723034482758621e-06, "loss": 0.1678, "step": 5130 }, { "epoch": 1.1462666666666665, "grad_norm": 4.086022853851318, "learning_rate": 2.721655172413793e-06, "loss": 0.1963, "step": 5135 }, { "epoch": 1.1466, "grad_norm": 4.062281131744385, "learning_rate": 2.7202758620689653e-06, "loss": 0.2177, "step": 5140 }, { "epoch": 1.1469333333333334, "grad_norm": 3.842663049697876, "learning_rate": 2.7188965517241376e-06, "loss": 0.2066, "step": 5145 }, { "epoch": 1.1472666666666667, "grad_norm": 4.185869216918945, "learning_rate": 2.7175172413793102e-06, "loss": 0.1963, "step": 5150 }, { "epoch": 1.1476, "grad_norm": 4.886322498321533, "learning_rate": 2.7161379310344825e-06, "loss": 0.2015, "step": 5155 }, { "epoch": 1.1479333333333333, "grad_norm": 4.741457939147949, "learning_rate": 2.7147586206896547e-06, "loss": 0.2075, "step": 5160 }, { "epoch": 1.1482666666666668, "grad_norm": 4.308309555053711, "learning_rate": 2.7133793103448274e-06, "loss": 0.1876, "step": 5165 }, { "epoch": 1.1486, "grad_norm": 4.164566516876221, "learning_rate": 2.712e-06, "loss": 0.182, "step": 5170 }, { "epoch": 1.1489333333333334, "grad_norm": 3.667811393737793, "learning_rate": 2.7106206896551723e-06, "loss": 0.2232, "step": 5175 }, { "epoch": 1.1492666666666667, "grad_norm": 4.263617992401123, "learning_rate": 2.709241379310345e-06, "loss": 0.1764, "step": 5180 }, { "epoch": 1.1496, "grad_norm": 3.409736156463623, "learning_rate": 2.707862068965517e-06, "loss": 0.1883, "step": 5185 }, { "epoch": 1.1499333333333333, "grad_norm": 4.180192470550537, "learning_rate": 2.7064827586206894e-06, "loss": 0.1867, "step": 5190 }, { "epoch": 1.1502666666666665, "grad_norm": 4.132522106170654, "learning_rate": 2.705103448275862e-06, "loss": 0.1931, "step": 5195 }, { "epoch": 1.1506, "grad_norm": 4.568750381469727, "learning_rate": 2.7037241379310343e-06, "loss": 0.2476, "step": 5200 }, { "epoch": 1.1509333333333334, "grad_norm": 4.722099304199219, "learning_rate": 2.7023448275862065e-06, "loss": 0.2099, "step": 5205 }, { "epoch": 1.1512666666666667, "grad_norm": 3.8684873580932617, "learning_rate": 2.700965517241379e-06, "loss": 0.2245, "step": 5210 }, { "epoch": 1.1516, "grad_norm": 3.5794153213500977, "learning_rate": 2.699586206896552e-06, "loss": 0.1653, "step": 5215 }, { "epoch": 1.1519333333333333, "grad_norm": 3.6119391918182373, "learning_rate": 2.698206896551724e-06, "loss": 0.1761, "step": 5220 }, { "epoch": 1.1522666666666668, "grad_norm": 3.7972981929779053, "learning_rate": 2.6968275862068963e-06, "loss": 0.1785, "step": 5225 }, { "epoch": 1.1526, "grad_norm": 4.842169284820557, "learning_rate": 2.695448275862069e-06, "loss": 0.2337, "step": 5230 }, { "epoch": 1.1529333333333334, "grad_norm": 3.4502532482147217, "learning_rate": 2.6940689655172412e-06, "loss": 0.2077, "step": 5235 }, { "epoch": 1.1532666666666667, "grad_norm": 3.4482548236846924, "learning_rate": 2.6926896551724135e-06, "loss": 0.163, "step": 5240 }, { "epoch": 1.1536, "grad_norm": 4.342613220214844, "learning_rate": 2.691310344827586e-06, "loss": 0.1848, "step": 5245 }, { "epoch": 1.1539333333333333, "grad_norm": 4.090986728668213, "learning_rate": 2.6899310344827584e-06, "loss": 0.1776, "step": 5250 }, { "epoch": 1.1542666666666666, "grad_norm": 4.537845611572266, "learning_rate": 2.6885517241379306e-06, "loss": 0.2145, "step": 5255 }, { "epoch": 1.1546, "grad_norm": 3.7832870483398438, "learning_rate": 2.6871724137931033e-06, "loss": 0.1667, "step": 5260 }, { "epoch": 1.1549333333333334, "grad_norm": 4.331830024719238, "learning_rate": 2.685793103448276e-06, "loss": 0.1955, "step": 5265 }, { "epoch": 1.1552666666666667, "grad_norm": 4.489880084991455, "learning_rate": 2.684413793103448e-06, "loss": 0.2373, "step": 5270 }, { "epoch": 1.1556, "grad_norm": 3.1144156455993652, "learning_rate": 2.683034482758621e-06, "loss": 0.1475, "step": 5275 }, { "epoch": 1.1559333333333333, "grad_norm": 3.966062068939209, "learning_rate": 2.681655172413793e-06, "loss": 0.1972, "step": 5280 }, { "epoch": 1.1562666666666668, "grad_norm": 3.8982529640197754, "learning_rate": 2.6802758620689653e-06, "loss": 0.167, "step": 5285 }, { "epoch": 1.1566, "grad_norm": 4.348316669464111, "learning_rate": 2.678896551724138e-06, "loss": 0.1798, "step": 5290 }, { "epoch": 1.1569333333333334, "grad_norm": 4.5591607093811035, "learning_rate": 2.67751724137931e-06, "loss": 0.175, "step": 5295 }, { "epoch": 1.1572666666666667, "grad_norm": 3.9797098636627197, "learning_rate": 2.6761379310344824e-06, "loss": 0.1895, "step": 5300 }, { "epoch": 1.1576, "grad_norm": 4.154595375061035, "learning_rate": 2.6747586206896547e-06, "loss": 0.1654, "step": 5305 }, { "epoch": 1.1579333333333333, "grad_norm": 3.974168300628662, "learning_rate": 2.6733793103448278e-06, "loss": 0.1927, "step": 5310 }, { "epoch": 1.1582666666666666, "grad_norm": 3.83962345123291, "learning_rate": 2.672e-06, "loss": 0.1875, "step": 5315 }, { "epoch": 1.1586, "grad_norm": 5.381604194641113, "learning_rate": 2.6706206896551722e-06, "loss": 0.1782, "step": 5320 }, { "epoch": 1.1589333333333334, "grad_norm": 4.654579162597656, "learning_rate": 2.669241379310345e-06, "loss": 0.2006, "step": 5325 }, { "epoch": 1.1592666666666667, "grad_norm": 4.560925006866455, "learning_rate": 2.667862068965517e-06, "loss": 0.2029, "step": 5330 }, { "epoch": 1.1596, "grad_norm": 5.027436256408691, "learning_rate": 2.6664827586206894e-06, "loss": 0.1945, "step": 5335 }, { "epoch": 1.1599333333333333, "grad_norm": 4.1756792068481445, "learning_rate": 2.665103448275862e-06, "loss": 0.1938, "step": 5340 }, { "epoch": 1.1602666666666668, "grad_norm": 4.538050174713135, "learning_rate": 2.6637241379310343e-06, "loss": 0.196, "step": 5345 }, { "epoch": 1.1606, "grad_norm": 4.5956501960754395, "learning_rate": 2.6623448275862065e-06, "loss": 0.2112, "step": 5350 }, { "epoch": 1.1609333333333334, "grad_norm": 3.1964244842529297, "learning_rate": 2.6609655172413796e-06, "loss": 0.1974, "step": 5355 }, { "epoch": 1.1612666666666667, "grad_norm": 3.3779561519622803, "learning_rate": 2.659586206896552e-06, "loss": 0.2654, "step": 5360 }, { "epoch": 1.1616, "grad_norm": 4.518371105194092, "learning_rate": 2.658206896551724e-06, "loss": 0.2293, "step": 5365 }, { "epoch": 1.1619333333333333, "grad_norm": 4.308935165405273, "learning_rate": 2.6568275862068963e-06, "loss": 0.1941, "step": 5370 }, { "epoch": 1.1622666666666666, "grad_norm": 4.0899834632873535, "learning_rate": 2.655448275862069e-06, "loss": 0.1812, "step": 5375 }, { "epoch": 1.1626, "grad_norm": 3.8920445442199707, "learning_rate": 2.654068965517241e-06, "loss": 0.164, "step": 5380 }, { "epoch": 1.1629333333333334, "grad_norm": 3.8093814849853516, "learning_rate": 2.6526896551724134e-06, "loss": 0.1659, "step": 5385 }, { "epoch": 1.1632666666666667, "grad_norm": 4.044894218444824, "learning_rate": 2.651310344827586e-06, "loss": 0.1786, "step": 5390 }, { "epoch": 1.1636, "grad_norm": 4.1796674728393555, "learning_rate": 2.6499310344827583e-06, "loss": 0.2143, "step": 5395 }, { "epoch": 1.1639333333333333, "grad_norm": 3.6118078231811523, "learning_rate": 2.6485517241379306e-06, "loss": 0.158, "step": 5400 }, { "epoch": 1.1642666666666668, "grad_norm": 3.5010926723480225, "learning_rate": 2.6471724137931037e-06, "loss": 0.2, "step": 5405 }, { "epoch": 1.1646, "grad_norm": 3.7809059619903564, "learning_rate": 2.645793103448276e-06, "loss": 0.2195, "step": 5410 }, { "epoch": 1.1649333333333334, "grad_norm": 4.180829048156738, "learning_rate": 2.644413793103448e-06, "loss": 0.2264, "step": 5415 }, { "epoch": 1.1652666666666667, "grad_norm": 4.222664833068848, "learning_rate": 2.643034482758621e-06, "loss": 0.1678, "step": 5420 }, { "epoch": 1.1656, "grad_norm": 4.0066237449646, "learning_rate": 2.641655172413793e-06, "loss": 0.2051, "step": 5425 }, { "epoch": 1.1659333333333333, "grad_norm": 4.288041114807129, "learning_rate": 2.6402758620689653e-06, "loss": 0.1806, "step": 5430 }, { "epoch": 1.1662666666666666, "grad_norm": 4.851680278778076, "learning_rate": 2.638896551724138e-06, "loss": 0.239, "step": 5435 }, { "epoch": 1.1666, "grad_norm": 4.772148132324219, "learning_rate": 2.63751724137931e-06, "loss": 0.206, "step": 5440 }, { "epoch": 1.1669333333333334, "grad_norm": 3.7656898498535156, "learning_rate": 2.6361379310344824e-06, "loss": 0.1997, "step": 5445 }, { "epoch": 1.1672666666666667, "grad_norm": 4.0738911628723145, "learning_rate": 2.634758620689655e-06, "loss": 0.184, "step": 5450 }, { "epoch": 1.1676, "grad_norm": 5.001456260681152, "learning_rate": 2.6333793103448277e-06, "loss": 0.2095, "step": 5455 }, { "epoch": 1.1679333333333333, "grad_norm": 3.3780059814453125, "learning_rate": 2.632e-06, "loss": 0.1465, "step": 5460 }, { "epoch": 1.1682666666666668, "grad_norm": 4.282598972320557, "learning_rate": 2.630620689655172e-06, "loss": 0.2624, "step": 5465 }, { "epoch": 1.1686, "grad_norm": 3.6612470149993896, "learning_rate": 2.629241379310345e-06, "loss": 0.1827, "step": 5470 }, { "epoch": 1.1689333333333334, "grad_norm": 4.536810874938965, "learning_rate": 2.627862068965517e-06, "loss": 0.1798, "step": 5475 }, { "epoch": 1.1692666666666667, "grad_norm": 4.173494338989258, "learning_rate": 2.6264827586206893e-06, "loss": 0.1622, "step": 5480 }, { "epoch": 1.1696, "grad_norm": 4.766840934753418, "learning_rate": 2.625103448275862e-06, "loss": 0.1699, "step": 5485 }, { "epoch": 1.1699333333333333, "grad_norm": 5.3170270919799805, "learning_rate": 2.6237241379310342e-06, "loss": 0.1875, "step": 5490 }, { "epoch": 1.1702666666666666, "grad_norm": 5.210724353790283, "learning_rate": 2.6223448275862065e-06, "loss": 0.1643, "step": 5495 }, { "epoch": 1.1706, "grad_norm": 4.620442867279053, "learning_rate": 2.6209655172413795e-06, "loss": 0.221, "step": 5500 }, { "epoch": 1.1709333333333334, "grad_norm": 3.9850666522979736, "learning_rate": 2.6195862068965518e-06, "loss": 0.1808, "step": 5505 }, { "epoch": 1.1712666666666667, "grad_norm": 4.121875762939453, "learning_rate": 2.618206896551724e-06, "loss": 0.1994, "step": 5510 }, { "epoch": 1.1716, "grad_norm": 3.990981340408325, "learning_rate": 2.6168275862068967e-06, "loss": 0.2255, "step": 5515 }, { "epoch": 1.1719333333333333, "grad_norm": 5.155255317687988, "learning_rate": 2.615448275862069e-06, "loss": 0.1899, "step": 5520 }, { "epoch": 1.1722666666666668, "grad_norm": 4.6461615562438965, "learning_rate": 2.614068965517241e-06, "loss": 0.1808, "step": 5525 }, { "epoch": 1.1726, "grad_norm": 4.348207473754883, "learning_rate": 2.6126896551724134e-06, "loss": 0.1858, "step": 5530 }, { "epoch": 1.1729333333333334, "grad_norm": 5.090117454528809, "learning_rate": 2.611310344827586e-06, "loss": 0.2089, "step": 5535 }, { "epoch": 1.1732666666666667, "grad_norm": 5.377852439880371, "learning_rate": 2.6099310344827583e-06, "loss": 0.1642, "step": 5540 }, { "epoch": 1.1736, "grad_norm": 4.564538478851318, "learning_rate": 2.608551724137931e-06, "loss": 0.2181, "step": 5545 }, { "epoch": 1.1739333333333333, "grad_norm": 3.6597437858581543, "learning_rate": 2.6071724137931036e-06, "loss": 0.2205, "step": 5550 }, { "epoch": 1.1742666666666666, "grad_norm": 4.818310737609863, "learning_rate": 2.605793103448276e-06, "loss": 0.2219, "step": 5555 }, { "epoch": 1.1746, "grad_norm": 3.765043020248413, "learning_rate": 2.604413793103448e-06, "loss": 0.1556, "step": 5560 }, { "epoch": 1.1749333333333334, "grad_norm": 4.182652950286865, "learning_rate": 2.6030344827586207e-06, "loss": 0.1773, "step": 5565 }, { "epoch": 1.1752666666666667, "grad_norm": 3.571772336959839, "learning_rate": 2.601655172413793e-06, "loss": 0.212, "step": 5570 }, { "epoch": 1.1756, "grad_norm": 4.352745056152344, "learning_rate": 2.6002758620689652e-06, "loss": 0.2092, "step": 5575 }, { "epoch": 1.1759333333333333, "grad_norm": 3.973794460296631, "learning_rate": 2.598896551724138e-06, "loss": 0.1917, "step": 5580 }, { "epoch": 1.1762666666666666, "grad_norm": 5.188632488250732, "learning_rate": 2.59751724137931e-06, "loss": 0.2377, "step": 5585 }, { "epoch": 1.1766, "grad_norm": 3.8647232055664062, "learning_rate": 2.5961379310344824e-06, "loss": 0.1737, "step": 5590 }, { "epoch": 1.1769333333333334, "grad_norm": 3.9960756301879883, "learning_rate": 2.5947586206896554e-06, "loss": 0.2156, "step": 5595 }, { "epoch": 1.1772666666666667, "grad_norm": 4.197457313537598, "learning_rate": 2.5933793103448277e-06, "loss": 0.1812, "step": 5600 }, { "epoch": 1.1776, "grad_norm": 4.95630407333374, "learning_rate": 2.592e-06, "loss": 0.182, "step": 5605 }, { "epoch": 1.1779333333333333, "grad_norm": 4.5366387367248535, "learning_rate": 2.590620689655172e-06, "loss": 0.1975, "step": 5610 }, { "epoch": 1.1782666666666666, "grad_norm": 3.710115909576416, "learning_rate": 2.589241379310345e-06, "loss": 0.2009, "step": 5615 }, { "epoch": 1.1786, "grad_norm": 4.694946765899658, "learning_rate": 2.587862068965517e-06, "loss": 0.2191, "step": 5620 }, { "epoch": 1.1789333333333334, "grad_norm": 3.8793816566467285, "learning_rate": 2.5864827586206893e-06, "loss": 0.1906, "step": 5625 }, { "epoch": 1.1792666666666667, "grad_norm": 5.386185169219971, "learning_rate": 2.585103448275862e-06, "loss": 0.1894, "step": 5630 }, { "epoch": 1.1796, "grad_norm": 4.052608966827393, "learning_rate": 2.583724137931034e-06, "loss": 0.1682, "step": 5635 }, { "epoch": 1.1799333333333333, "grad_norm": 4.280359268188477, "learning_rate": 2.582344827586207e-06, "loss": 0.2106, "step": 5640 }, { "epoch": 1.1802666666666666, "grad_norm": 5.458491802215576, "learning_rate": 2.5809655172413795e-06, "loss": 0.2485, "step": 5645 }, { "epoch": 1.1806, "grad_norm": 4.3142924308776855, "learning_rate": 2.5795862068965517e-06, "loss": 0.2342, "step": 5650 }, { "epoch": 1.1809333333333334, "grad_norm": 4.577561855316162, "learning_rate": 2.578206896551724e-06, "loss": 0.1901, "step": 5655 }, { "epoch": 1.1812666666666667, "grad_norm": 3.9250996112823486, "learning_rate": 2.5768275862068966e-06, "loss": 0.1453, "step": 5660 }, { "epoch": 1.1816, "grad_norm": 4.495615005493164, "learning_rate": 2.575448275862069e-06, "loss": 0.209, "step": 5665 }, { "epoch": 1.1819333333333333, "grad_norm": 4.680577278137207, "learning_rate": 2.574068965517241e-06, "loss": 0.2325, "step": 5670 }, { "epoch": 1.1822666666666666, "grad_norm": 5.013704299926758, "learning_rate": 2.5726896551724134e-06, "loss": 0.1724, "step": 5675 }, { "epoch": 1.1826, "grad_norm": 3.649595260620117, "learning_rate": 2.571310344827586e-06, "loss": 0.1794, "step": 5680 }, { "epoch": 1.1829333333333334, "grad_norm": 4.131871700286865, "learning_rate": 2.5699310344827587e-06, "loss": 0.1715, "step": 5685 }, { "epoch": 1.1832666666666667, "grad_norm": 3.885258436203003, "learning_rate": 2.568551724137931e-06, "loss": 0.1686, "step": 5690 }, { "epoch": 1.1836, "grad_norm": 3.905090808868408, "learning_rate": 2.5671724137931036e-06, "loss": 0.1591, "step": 5695 }, { "epoch": 1.1839333333333333, "grad_norm": 3.501511812210083, "learning_rate": 2.565793103448276e-06, "loss": 0.1829, "step": 5700 }, { "epoch": 1.1842666666666666, "grad_norm": 4.774788856506348, "learning_rate": 2.564413793103448e-06, "loss": 0.1672, "step": 5705 }, { "epoch": 1.1846, "grad_norm": 4.170146942138672, "learning_rate": 2.5630344827586207e-06, "loss": 0.2022, "step": 5710 }, { "epoch": 1.1849333333333334, "grad_norm": 4.3361382484436035, "learning_rate": 2.561655172413793e-06, "loss": 0.164, "step": 5715 }, { "epoch": 1.1852666666666667, "grad_norm": 4.41452169418335, "learning_rate": 2.560275862068965e-06, "loss": 0.2085, "step": 5720 }, { "epoch": 1.1856, "grad_norm": 4.213366985321045, "learning_rate": 2.558896551724138e-06, "loss": 0.2094, "step": 5725 }, { "epoch": 1.1859333333333333, "grad_norm": 4.418910026550293, "learning_rate": 2.55751724137931e-06, "loss": 0.1877, "step": 5730 }, { "epoch": 1.1862666666666666, "grad_norm": 5.433710098266602, "learning_rate": 2.5561379310344827e-06, "loss": 0.2082, "step": 5735 }, { "epoch": 1.1865999999999999, "grad_norm": 3.9778237342834473, "learning_rate": 2.5547586206896554e-06, "loss": 0.195, "step": 5740 }, { "epoch": 1.1869333333333334, "grad_norm": 2.914391040802002, "learning_rate": 2.5533793103448276e-06, "loss": 0.1669, "step": 5745 }, { "epoch": 1.1872666666666667, "grad_norm": 3.020949125289917, "learning_rate": 2.552e-06, "loss": 0.194, "step": 5750 }, { "epoch": 1.1876, "grad_norm": 4.662065505981445, "learning_rate": 2.550620689655172e-06, "loss": 0.1947, "step": 5755 }, { "epoch": 1.1879333333333333, "grad_norm": 5.251242160797119, "learning_rate": 2.5492413793103448e-06, "loss": 0.205, "step": 5760 }, { "epoch": 1.1882666666666666, "grad_norm": 4.292612552642822, "learning_rate": 2.547862068965517e-06, "loss": 0.1703, "step": 5765 }, { "epoch": 1.1886, "grad_norm": 4.258412837982178, "learning_rate": 2.5464827586206892e-06, "loss": 0.2039, "step": 5770 }, { "epoch": 1.1889333333333334, "grad_norm": 4.016767978668213, "learning_rate": 2.545103448275862e-06, "loss": 0.166, "step": 5775 }, { "epoch": 1.1892666666666667, "grad_norm": 3.79431414604187, "learning_rate": 2.5437241379310346e-06, "loss": 0.1524, "step": 5780 }, { "epoch": 1.1896, "grad_norm": 4.945562362670898, "learning_rate": 2.542344827586207e-06, "loss": 0.1993, "step": 5785 }, { "epoch": 1.1899333333333333, "grad_norm": 4.6653008460998535, "learning_rate": 2.5409655172413795e-06, "loss": 0.2085, "step": 5790 }, { "epoch": 1.1902666666666666, "grad_norm": 3.278367519378662, "learning_rate": 2.5395862068965517e-06, "loss": 0.1632, "step": 5795 }, { "epoch": 1.1905999999999999, "grad_norm": 4.977532863616943, "learning_rate": 2.538206896551724e-06, "loss": 0.2225, "step": 5800 }, { "epoch": 1.1909333333333334, "grad_norm": 5.525883674621582, "learning_rate": 2.5368275862068966e-06, "loss": 0.2035, "step": 5805 }, { "epoch": 1.1912666666666667, "grad_norm": 4.043654918670654, "learning_rate": 2.535448275862069e-06, "loss": 0.1655, "step": 5810 }, { "epoch": 1.1916, "grad_norm": 3.2852120399475098, "learning_rate": 2.534068965517241e-06, "loss": 0.1756, "step": 5815 }, { "epoch": 1.1919333333333333, "grad_norm": 3.764739990234375, "learning_rate": 2.5326896551724133e-06, "loss": 0.1862, "step": 5820 }, { "epoch": 1.1922666666666666, "grad_norm": 3.2456486225128174, "learning_rate": 2.531310344827586e-06, "loss": 0.1713, "step": 5825 }, { "epoch": 1.1926, "grad_norm": 3.5262532234191895, "learning_rate": 2.5299310344827586e-06, "loss": 0.1701, "step": 5830 }, { "epoch": 1.1929333333333334, "grad_norm": 4.578812122344971, "learning_rate": 2.528551724137931e-06, "loss": 0.2007, "step": 5835 }, { "epoch": 1.1932666666666667, "grad_norm": 4.017645359039307, "learning_rate": 2.5271724137931035e-06, "loss": 0.1798, "step": 5840 }, { "epoch": 1.1936, "grad_norm": 3.869948625564575, "learning_rate": 2.5257931034482758e-06, "loss": 0.1891, "step": 5845 }, { "epoch": 1.1939333333333333, "grad_norm": 4.228075981140137, "learning_rate": 2.524413793103448e-06, "loss": 0.1813, "step": 5850 }, { "epoch": 1.1942666666666666, "grad_norm": 4.79827880859375, "learning_rate": 2.5230344827586207e-06, "loss": 0.2075, "step": 5855 }, { "epoch": 1.1945999999999999, "grad_norm": 3.552340507507324, "learning_rate": 2.521655172413793e-06, "loss": 0.1833, "step": 5860 }, { "epoch": 1.1949333333333334, "grad_norm": 4.267887592315674, "learning_rate": 2.520275862068965e-06, "loss": 0.2216, "step": 5865 }, { "epoch": 1.1952666666666667, "grad_norm": 4.0750250816345215, "learning_rate": 2.518896551724138e-06, "loss": 0.2081, "step": 5870 }, { "epoch": 1.1956, "grad_norm": 4.056178569793701, "learning_rate": 2.5175172413793105e-06, "loss": 0.1675, "step": 5875 }, { "epoch": 1.1959333333333333, "grad_norm": 3.9616215229034424, "learning_rate": 2.5161379310344827e-06, "loss": 0.179, "step": 5880 }, { "epoch": 2.0002, "grad_norm": 3.4019455909729004, "learning_rate": 2.5147586206896554e-06, "loss": 0.2171, "step": 5885 }, { "epoch": 2.0005333333333333, "grad_norm": 3.327521562576294, "learning_rate": 2.5133793103448276e-06, "loss": 0.1311, "step": 5890 }, { "epoch": 2.0008666666666666, "grad_norm": 2.4559452533721924, "learning_rate": 2.512e-06, "loss": 0.1262, "step": 5895 }, { "epoch": 2.0012, "grad_norm": 3.422168493270874, "learning_rate": 2.510620689655172e-06, "loss": 0.1526, "step": 5900 }, { "epoch": 2.001533333333333, "grad_norm": 4.129306793212891, "learning_rate": 2.5092413793103447e-06, "loss": 0.1984, "step": 5905 }, { "epoch": 2.0018666666666665, "grad_norm": 3.987211227416992, "learning_rate": 2.507862068965517e-06, "loss": 0.1695, "step": 5910 }, { "epoch": 2.0022, "grad_norm": 3.9452011585235596, "learning_rate": 2.506482758620689e-06, "loss": 0.1741, "step": 5915 }, { "epoch": 2.0025333333333335, "grad_norm": 4.8507537841796875, "learning_rate": 2.5051034482758623e-06, "loss": 0.1724, "step": 5920 }, { "epoch": 2.002866666666667, "grad_norm": 3.538630247116089, "learning_rate": 2.5037241379310345e-06, "loss": 0.1389, "step": 5925 }, { "epoch": 2.0032, "grad_norm": 3.8724489212036133, "learning_rate": 2.5023448275862068e-06, "loss": 0.1536, "step": 5930 }, { "epoch": 2.0035333333333334, "grad_norm": 3.0832672119140625, "learning_rate": 2.5009655172413794e-06, "loss": 0.1258, "step": 5935 }, { "epoch": 2.0038666666666667, "grad_norm": 4.680577754974365, "learning_rate": 2.4995862068965517e-06, "loss": 0.1837, "step": 5940 }, { "epoch": 2.0042, "grad_norm": 3.051957368850708, "learning_rate": 2.498206896551724e-06, "loss": 0.1414, "step": 5945 }, { "epoch": 2.0045333333333333, "grad_norm": 3.573773145675659, "learning_rate": 2.4968275862068966e-06, "loss": 0.1369, "step": 5950 }, { "epoch": 2.0048666666666666, "grad_norm": 3.4350762367248535, "learning_rate": 2.495448275862069e-06, "loss": 0.1644, "step": 5955 }, { "epoch": 2.0052, "grad_norm": 4.305556297302246, "learning_rate": 2.494068965517241e-06, "loss": 0.1652, "step": 5960 }, { "epoch": 2.005533333333333, "grad_norm": 4.270698547363281, "learning_rate": 2.4926896551724133e-06, "loss": 0.1815, "step": 5965 }, { "epoch": 2.0058666666666665, "grad_norm": 3.4140586853027344, "learning_rate": 2.4913103448275864e-06, "loss": 0.1314, "step": 5970 }, { "epoch": 2.0062, "grad_norm": 4.222008228302002, "learning_rate": 2.4899310344827586e-06, "loss": 0.1584, "step": 5975 }, { "epoch": 2.0065333333333335, "grad_norm": 3.956826686859131, "learning_rate": 2.488551724137931e-06, "loss": 0.162, "step": 5980 }, { "epoch": 2.006866666666667, "grad_norm": 3.809159517288208, "learning_rate": 2.4871724137931035e-06, "loss": 0.1593, "step": 5985 }, { "epoch": 2.0072, "grad_norm": 4.637021541595459, "learning_rate": 2.4857931034482757e-06, "loss": 0.1509, "step": 5990 }, { "epoch": 2.0075333333333334, "grad_norm": 3.9600725173950195, "learning_rate": 2.484413793103448e-06, "loss": 0.1701, "step": 5995 }, { "epoch": 2.0078666666666667, "grad_norm": 3.3591468334198, "learning_rate": 2.4830344827586206e-06, "loss": 0.1595, "step": 6000 }, { "epoch": 2.0078666666666667, "eval_loss": 0.2206214964389801, "eval_runtime": 137.8347, "eval_samples_per_second": 4.353, "eval_steps_per_second": 1.088, "eval_wer": 11.233086545825888, "step": 6000 }, { "epoch": 2.0082, "grad_norm": 2.9284799098968506, "learning_rate": 2.481655172413793e-06, "loss": 0.1483, "step": 6005 }, { "epoch": 2.0085333333333333, "grad_norm": 3.9744112491607666, "learning_rate": 2.480275862068965e-06, "loss": 0.1641, "step": 6010 }, { "epoch": 2.0088666666666666, "grad_norm": 4.071737289428711, "learning_rate": 2.478896551724138e-06, "loss": 0.1512, "step": 6015 }, { "epoch": 2.0092, "grad_norm": 4.080634117126465, "learning_rate": 2.4775172413793104e-06, "loss": 0.1675, "step": 6020 }, { "epoch": 2.009533333333333, "grad_norm": 4.3488030433654785, "learning_rate": 2.4761379310344827e-06, "loss": 0.1461, "step": 6025 }, { "epoch": 2.0098666666666665, "grad_norm": 3.0543127059936523, "learning_rate": 2.4747586206896553e-06, "loss": 0.1414, "step": 6030 }, { "epoch": 2.0102, "grad_norm": 5.4342145919799805, "learning_rate": 2.4733793103448276e-06, "loss": 0.171, "step": 6035 }, { "epoch": 2.0105333333333335, "grad_norm": 3.0767934322357178, "learning_rate": 2.472e-06, "loss": 0.1077, "step": 6040 }, { "epoch": 2.010866666666667, "grad_norm": 4.758918762207031, "learning_rate": 2.470620689655172e-06, "loss": 0.1667, "step": 6045 }, { "epoch": 2.0112, "grad_norm": 3.507658004760742, "learning_rate": 2.4692413793103447e-06, "loss": 0.126, "step": 6050 }, { "epoch": 2.0115333333333334, "grad_norm": 3.546591281890869, "learning_rate": 2.467862068965517e-06, "loss": 0.1446, "step": 6055 }, { "epoch": 2.0118666666666667, "grad_norm": 3.361182689666748, "learning_rate": 2.466482758620689e-06, "loss": 0.1397, "step": 6060 }, { "epoch": 2.0122, "grad_norm": 3.401625633239746, "learning_rate": 2.4651034482758623e-06, "loss": 0.1308, "step": 6065 }, { "epoch": 2.0125333333333333, "grad_norm": 3.72898530960083, "learning_rate": 2.4637241379310345e-06, "loss": 0.1361, "step": 6070 }, { "epoch": 2.0128666666666666, "grad_norm": 3.7618777751922607, "learning_rate": 2.4623448275862067e-06, "loss": 0.1716, "step": 6075 }, { "epoch": 2.0132, "grad_norm": 3.8370299339294434, "learning_rate": 2.4609655172413794e-06, "loss": 0.1797, "step": 6080 }, { "epoch": 2.013533333333333, "grad_norm": 4.010655879974365, "learning_rate": 2.4595862068965516e-06, "loss": 0.156, "step": 6085 }, { "epoch": 2.0138666666666665, "grad_norm": 3.4017035961151123, "learning_rate": 2.458206896551724e-06, "loss": 0.146, "step": 6090 }, { "epoch": 2.0142, "grad_norm": 3.2852694988250732, "learning_rate": 2.4568275862068965e-06, "loss": 0.1541, "step": 6095 }, { "epoch": 2.0145333333333335, "grad_norm": 4.687168121337891, "learning_rate": 2.4554482758620688e-06, "loss": 0.1638, "step": 6100 }, { "epoch": 2.014866666666667, "grad_norm": 4.25932502746582, "learning_rate": 2.454068965517241e-06, "loss": 0.1555, "step": 6105 }, { "epoch": 2.0152, "grad_norm": 3.5426619052886963, "learning_rate": 2.452689655172414e-06, "loss": 0.191, "step": 6110 }, { "epoch": 2.0155333333333334, "grad_norm": 3.8437821865081787, "learning_rate": 2.4513103448275863e-06, "loss": 0.1708, "step": 6115 }, { "epoch": 2.0158666666666667, "grad_norm": 3.993281126022339, "learning_rate": 2.4499310344827586e-06, "loss": 0.1333, "step": 6120 }, { "epoch": 2.0162, "grad_norm": 3.7849533557891846, "learning_rate": 2.448551724137931e-06, "loss": 0.1457, "step": 6125 }, { "epoch": 2.0165333333333333, "grad_norm": 3.9170854091644287, "learning_rate": 2.4471724137931035e-06, "loss": 0.1498, "step": 6130 }, { "epoch": 2.0168666666666666, "grad_norm": 4.545523643493652, "learning_rate": 2.4457931034482757e-06, "loss": 0.1845, "step": 6135 }, { "epoch": 2.0172, "grad_norm": 5.464803218841553, "learning_rate": 2.444413793103448e-06, "loss": 0.1622, "step": 6140 }, { "epoch": 2.017533333333333, "grad_norm": 3.933396816253662, "learning_rate": 2.4430344827586206e-06, "loss": 0.1631, "step": 6145 }, { "epoch": 2.0178666666666665, "grad_norm": 3.6314265727996826, "learning_rate": 2.441655172413793e-06, "loss": 0.141, "step": 6150 }, { "epoch": 2.0182, "grad_norm": 4.516257286071777, "learning_rate": 2.440275862068965e-06, "loss": 0.1871, "step": 6155 }, { "epoch": 2.0185333333333335, "grad_norm": 3.838791608810425, "learning_rate": 2.438896551724138e-06, "loss": 0.1688, "step": 6160 }, { "epoch": 2.018866666666667, "grad_norm": 4.129659175872803, "learning_rate": 2.4375172413793104e-06, "loss": 0.177, "step": 6165 }, { "epoch": 2.0192, "grad_norm": 4.023396968841553, "learning_rate": 2.4361379310344826e-06, "loss": 0.1957, "step": 6170 }, { "epoch": 2.0195333333333334, "grad_norm": 4.311656475067139, "learning_rate": 2.4347586206896553e-06, "loss": 0.2098, "step": 6175 }, { "epoch": 2.0198666666666667, "grad_norm": 4.429049968719482, "learning_rate": 2.4333793103448275e-06, "loss": 0.168, "step": 6180 }, { "epoch": 2.0202, "grad_norm": 3.8686649799346924, "learning_rate": 2.4319999999999998e-06, "loss": 0.1929, "step": 6185 }, { "epoch": 2.0205333333333333, "grad_norm": 4.216354846954346, "learning_rate": 2.430620689655172e-06, "loss": 0.2161, "step": 6190 }, { "epoch": 2.0208666666666666, "grad_norm": 3.234408140182495, "learning_rate": 2.4292413793103447e-06, "loss": 0.1503, "step": 6195 }, { "epoch": 2.0212, "grad_norm": 3.1274430751800537, "learning_rate": 2.427862068965517e-06, "loss": 0.1423, "step": 6200 }, { "epoch": 2.021533333333333, "grad_norm": 4.326944828033447, "learning_rate": 2.4264827586206896e-06, "loss": 0.2044, "step": 6205 }, { "epoch": 2.0218666666666665, "grad_norm": 4.822159290313721, "learning_rate": 2.425103448275862e-06, "loss": 0.1711, "step": 6210 }, { "epoch": 2.0222, "grad_norm": 3.8796615600585938, "learning_rate": 2.4237241379310344e-06, "loss": 0.1645, "step": 6215 }, { "epoch": 2.0225333333333335, "grad_norm": 3.7455146312713623, "learning_rate": 2.4223448275862067e-06, "loss": 0.1295, "step": 6220 }, { "epoch": 2.022866666666667, "grad_norm": 5.32850456237793, "learning_rate": 2.4209655172413793e-06, "loss": 0.1758, "step": 6225 }, { "epoch": 2.0232, "grad_norm": 4.442831993103027, "learning_rate": 2.4195862068965516e-06, "loss": 0.1825, "step": 6230 }, { "epoch": 2.0235333333333334, "grad_norm": 3.199673652648926, "learning_rate": 2.418206896551724e-06, "loss": 0.1572, "step": 6235 }, { "epoch": 2.0238666666666667, "grad_norm": 3.3632278442382812, "learning_rate": 2.4168275862068965e-06, "loss": 0.1659, "step": 6240 }, { "epoch": 2.0242, "grad_norm": 4.634693145751953, "learning_rate": 2.4154482758620687e-06, "loss": 0.2139, "step": 6245 }, { "epoch": 2.0245333333333333, "grad_norm": 3.2010443210601807, "learning_rate": 2.4140689655172414e-06, "loss": 0.1856, "step": 6250 }, { "epoch": 2.0248666666666666, "grad_norm": 3.9895453453063965, "learning_rate": 2.412689655172414e-06, "loss": 0.1342, "step": 6255 }, { "epoch": 2.0252, "grad_norm": 3.4072585105895996, "learning_rate": 2.4113103448275863e-06, "loss": 0.1595, "step": 6260 }, { "epoch": 2.025533333333333, "grad_norm": 2.9930360317230225, "learning_rate": 2.4099310344827585e-06, "loss": 0.1384, "step": 6265 }, { "epoch": 2.0258666666666665, "grad_norm": 2.727341651916504, "learning_rate": 2.4085517241379308e-06, "loss": 0.1209, "step": 6270 }, { "epoch": 2.0262000000000002, "grad_norm": 4.323426246643066, "learning_rate": 2.4071724137931034e-06, "loss": 0.1497, "step": 6275 }, { "epoch": 2.0265333333333335, "grad_norm": 3.2896206378936768, "learning_rate": 2.4057931034482756e-06, "loss": 0.131, "step": 6280 }, { "epoch": 2.026866666666667, "grad_norm": 2.9699478149414062, "learning_rate": 2.404413793103448e-06, "loss": 0.1459, "step": 6285 }, { "epoch": 2.0272, "grad_norm": 4.548412322998047, "learning_rate": 2.4030344827586205e-06, "loss": 0.1991, "step": 6290 }, { "epoch": 2.0275333333333334, "grad_norm": 3.393186569213867, "learning_rate": 2.4016551724137928e-06, "loss": 0.1493, "step": 6295 }, { "epoch": 2.0278666666666667, "grad_norm": 3.3088104724884033, "learning_rate": 2.4002758620689654e-06, "loss": 0.1252, "step": 6300 }, { "epoch": 2.0282, "grad_norm": 3.849470376968384, "learning_rate": 2.398896551724138e-06, "loss": 0.1263, "step": 6305 }, { "epoch": 2.0285333333333333, "grad_norm": 3.925218343734741, "learning_rate": 2.3975172413793103e-06, "loss": 0.1329, "step": 6310 }, { "epoch": 2.0288666666666666, "grad_norm": 4.449056625366211, "learning_rate": 2.3961379310344826e-06, "loss": 0.2031, "step": 6315 }, { "epoch": 2.0292, "grad_norm": 3.771261692047119, "learning_rate": 2.3947586206896552e-06, "loss": 0.1642, "step": 6320 }, { "epoch": 2.029533333333333, "grad_norm": 5.380645275115967, "learning_rate": 2.3933793103448275e-06, "loss": 0.1506, "step": 6325 }, { "epoch": 2.0298666666666665, "grad_norm": 4.063842296600342, "learning_rate": 2.3919999999999997e-06, "loss": 0.1281, "step": 6330 }, { "epoch": 2.0302, "grad_norm": 4.147593021392822, "learning_rate": 2.390620689655172e-06, "loss": 0.1447, "step": 6335 }, { "epoch": 2.0305333333333335, "grad_norm": 3.8172614574432373, "learning_rate": 2.3892413793103446e-06, "loss": 0.1312, "step": 6340 }, { "epoch": 2.030866666666667, "grad_norm": 3.4617791175842285, "learning_rate": 2.3878620689655173e-06, "loss": 0.1383, "step": 6345 }, { "epoch": 2.0312, "grad_norm": 4.281315803527832, "learning_rate": 2.3864827586206895e-06, "loss": 0.17, "step": 6350 }, { "epoch": 2.0315333333333334, "grad_norm": 3.4667415618896484, "learning_rate": 2.385103448275862e-06, "loss": 0.1325, "step": 6355 }, { "epoch": 2.0318666666666667, "grad_norm": 3.9889936447143555, "learning_rate": 2.3837241379310344e-06, "loss": 0.1503, "step": 6360 }, { "epoch": 2.0322, "grad_norm": 3.5625672340393066, "learning_rate": 2.3823448275862066e-06, "loss": 0.1718, "step": 6365 }, { "epoch": 2.0325333333333333, "grad_norm": 3.3936870098114014, "learning_rate": 2.3809655172413793e-06, "loss": 0.1454, "step": 6370 }, { "epoch": 2.0328666666666666, "grad_norm": 4.005795001983643, "learning_rate": 2.3795862068965515e-06, "loss": 0.1403, "step": 6375 }, { "epoch": 2.0332, "grad_norm": 3.5315492153167725, "learning_rate": 2.3782068965517238e-06, "loss": 0.1947, "step": 6380 }, { "epoch": 2.033533333333333, "grad_norm": 4.18626070022583, "learning_rate": 2.3768275862068964e-06, "loss": 0.1897, "step": 6385 }, { "epoch": 2.0338666666666665, "grad_norm": 3.3266947269439697, "learning_rate": 2.3754482758620687e-06, "loss": 0.1864, "step": 6390 }, { "epoch": 2.0342, "grad_norm": 3.423628568649292, "learning_rate": 2.3740689655172413e-06, "loss": 0.1758, "step": 6395 }, { "epoch": 2.0345333333333335, "grad_norm": 4.604902744293213, "learning_rate": 2.372689655172414e-06, "loss": 0.1602, "step": 6400 }, { "epoch": 2.034866666666667, "grad_norm": 3.3750133514404297, "learning_rate": 2.3713103448275862e-06, "loss": 0.1275, "step": 6405 }, { "epoch": 2.0352, "grad_norm": 3.67788028717041, "learning_rate": 2.3699310344827585e-06, "loss": 0.1861, "step": 6410 }, { "epoch": 2.0355333333333334, "grad_norm": 3.170454740524292, "learning_rate": 2.3685517241379307e-06, "loss": 0.1391, "step": 6415 }, { "epoch": 2.0358666666666667, "grad_norm": 3.2502217292785645, "learning_rate": 2.3671724137931034e-06, "loss": 0.1752, "step": 6420 }, { "epoch": 2.0362, "grad_norm": 2.555879831314087, "learning_rate": 2.3657931034482756e-06, "loss": 0.1277, "step": 6425 }, { "epoch": 2.0365333333333333, "grad_norm": 4.388481140136719, "learning_rate": 2.364413793103448e-06, "loss": 0.1407, "step": 6430 }, { "epoch": 2.0368666666666666, "grad_norm": 3.942352533340454, "learning_rate": 2.3630344827586205e-06, "loss": 0.1408, "step": 6435 }, { "epoch": 2.0372, "grad_norm": 3.781611680984497, "learning_rate": 2.361655172413793e-06, "loss": 0.1564, "step": 6440 }, { "epoch": 2.037533333333333, "grad_norm": 2.880706548690796, "learning_rate": 2.3602758620689654e-06, "loss": 0.1202, "step": 6445 }, { "epoch": 2.0378666666666665, "grad_norm": 3.471635103225708, "learning_rate": 2.358896551724138e-06, "loss": 0.1428, "step": 6450 }, { "epoch": 2.0382, "grad_norm": 3.567894697189331, "learning_rate": 2.3575172413793103e-06, "loss": 0.158, "step": 6455 }, { "epoch": 2.0385333333333335, "grad_norm": 3.51959490776062, "learning_rate": 2.3561379310344825e-06, "loss": 0.1662, "step": 6460 }, { "epoch": 2.038866666666667, "grad_norm": 4.260256290435791, "learning_rate": 2.354758620689655e-06, "loss": 0.1684, "step": 6465 }, { "epoch": 2.0392, "grad_norm": 4.1639814376831055, "learning_rate": 2.3533793103448274e-06, "loss": 0.1402, "step": 6470 }, { "epoch": 2.0395333333333334, "grad_norm": 4.518980026245117, "learning_rate": 2.3519999999999997e-06, "loss": 0.174, "step": 6475 }, { "epoch": 2.0398666666666667, "grad_norm": 2.8983957767486572, "learning_rate": 2.3506206896551723e-06, "loss": 0.1276, "step": 6480 }, { "epoch": 2.0402, "grad_norm": 2.9927074909210205, "learning_rate": 2.349241379310345e-06, "loss": 0.1126, "step": 6485 }, { "epoch": 2.0405333333333333, "grad_norm": 3.5172576904296875, "learning_rate": 2.3478620689655172e-06, "loss": 0.1656, "step": 6490 }, { "epoch": 2.0408666666666666, "grad_norm": 3.429349422454834, "learning_rate": 2.3464827586206895e-06, "loss": 0.118, "step": 6495 }, { "epoch": 2.0412, "grad_norm": 3.425743579864502, "learning_rate": 2.345103448275862e-06, "loss": 0.1391, "step": 6500 }, { "epoch": 2.041533333333333, "grad_norm": 3.7436938285827637, "learning_rate": 2.3437241379310344e-06, "loss": 0.2033, "step": 6505 }, { "epoch": 2.0418666666666665, "grad_norm": 3.489729642868042, "learning_rate": 2.3423448275862066e-06, "loss": 0.1212, "step": 6510 }, { "epoch": 2.0422, "grad_norm": 3.3328723907470703, "learning_rate": 2.3409655172413793e-06, "loss": 0.1589, "step": 6515 }, { "epoch": 2.0425333333333335, "grad_norm": 3.7650060653686523, "learning_rate": 2.3395862068965515e-06, "loss": 0.1648, "step": 6520 }, { "epoch": 2.042866666666667, "grad_norm": 3.9741337299346924, "learning_rate": 2.3382068965517237e-06, "loss": 0.1524, "step": 6525 }, { "epoch": 2.0432, "grad_norm": 4.822859287261963, "learning_rate": 2.3368275862068964e-06, "loss": 0.1426, "step": 6530 }, { "epoch": 2.0435333333333334, "grad_norm": 3.7760298252105713, "learning_rate": 2.335448275862069e-06, "loss": 0.1211, "step": 6535 }, { "epoch": 2.0438666666666667, "grad_norm": 4.335626602172852, "learning_rate": 2.3340689655172413e-06, "loss": 0.1393, "step": 6540 }, { "epoch": 2.0442, "grad_norm": 4.315268516540527, "learning_rate": 2.332689655172414e-06, "loss": 0.1602, "step": 6545 }, { "epoch": 2.0445333333333333, "grad_norm": 3.516709089279175, "learning_rate": 2.331310344827586e-06, "loss": 0.1635, "step": 6550 }, { "epoch": 2.0448666666666666, "grad_norm": 3.8193275928497314, "learning_rate": 2.3299310344827584e-06, "loss": 0.1211, "step": 6555 }, { "epoch": 2.0452, "grad_norm": 3.7311155796051025, "learning_rate": 2.328551724137931e-06, "loss": 0.1326, "step": 6560 }, { "epoch": 2.045533333333333, "grad_norm": 4.1056294441223145, "learning_rate": 2.3271724137931033e-06, "loss": 0.126, "step": 6565 }, { "epoch": 2.0458666666666665, "grad_norm": 3.9369068145751953, "learning_rate": 2.3257931034482756e-06, "loss": 0.1227, "step": 6570 }, { "epoch": 2.0462, "grad_norm": 4.026267051696777, "learning_rate": 2.324413793103448e-06, "loss": 0.1445, "step": 6575 }, { "epoch": 2.0465333333333335, "grad_norm": 3.5593764781951904, "learning_rate": 2.323034482758621e-06, "loss": 0.1353, "step": 6580 }, { "epoch": 2.046866666666667, "grad_norm": 3.4588921070098877, "learning_rate": 2.321655172413793e-06, "loss": 0.1364, "step": 6585 }, { "epoch": 2.0472, "grad_norm": 3.3075644969940186, "learning_rate": 2.3202758620689654e-06, "loss": 0.1217, "step": 6590 }, { "epoch": 2.0475333333333334, "grad_norm": 4.4023213386535645, "learning_rate": 2.318896551724138e-06, "loss": 0.1313, "step": 6595 }, { "epoch": 2.0478666666666667, "grad_norm": 3.8876852989196777, "learning_rate": 2.3175172413793103e-06, "loss": 0.1354, "step": 6600 }, { "epoch": 2.0482, "grad_norm": 4.24415397644043, "learning_rate": 2.3161379310344825e-06, "loss": 0.1639, "step": 6605 }, { "epoch": 2.0485333333333333, "grad_norm": 4.411092281341553, "learning_rate": 2.314758620689655e-06, "loss": 0.1336, "step": 6610 }, { "epoch": 2.0488666666666666, "grad_norm": 3.6144371032714844, "learning_rate": 2.3133793103448274e-06, "loss": 0.1653, "step": 6615 }, { "epoch": 2.0492, "grad_norm": 5.215307712554932, "learning_rate": 2.3119999999999996e-06, "loss": 0.1527, "step": 6620 }, { "epoch": 2.049533333333333, "grad_norm": 3.1551544666290283, "learning_rate": 2.3106206896551723e-06, "loss": 0.1258, "step": 6625 }, { "epoch": 2.0498666666666665, "grad_norm": 4.284775733947754, "learning_rate": 2.309241379310345e-06, "loss": 0.1898, "step": 6630 }, { "epoch": 2.0502, "grad_norm": 3.991194725036621, "learning_rate": 2.307862068965517e-06, "loss": 0.1668, "step": 6635 }, { "epoch": 2.0505333333333335, "grad_norm": 3.812314033508301, "learning_rate": 2.3064827586206894e-06, "loss": 0.1808, "step": 6640 }, { "epoch": 2.050866666666667, "grad_norm": 4.20827579498291, "learning_rate": 2.305103448275862e-06, "loss": 0.1458, "step": 6645 }, { "epoch": 2.0512, "grad_norm": 4.6467814445495605, "learning_rate": 2.3037241379310343e-06, "loss": 0.18, "step": 6650 }, { "epoch": 2.0515333333333334, "grad_norm": 3.6880829334259033, "learning_rate": 2.3023448275862066e-06, "loss": 0.1744, "step": 6655 }, { "epoch": 2.0518666666666667, "grad_norm": 4.063170433044434, "learning_rate": 2.3009655172413792e-06, "loss": 0.2025, "step": 6660 }, { "epoch": 2.0522, "grad_norm": 3.556711196899414, "learning_rate": 2.2995862068965515e-06, "loss": 0.1397, "step": 6665 }, { "epoch": 2.0525333333333333, "grad_norm": 4.976069450378418, "learning_rate": 2.2982068965517237e-06, "loss": 0.1743, "step": 6670 }, { "epoch": 2.0528666666666666, "grad_norm": 3.9152138233184814, "learning_rate": 2.2968275862068968e-06, "loss": 0.1458, "step": 6675 }, { "epoch": 2.0532, "grad_norm": 3.247225046157837, "learning_rate": 2.295448275862069e-06, "loss": 0.2112, "step": 6680 }, { "epoch": 2.053533333333333, "grad_norm": 5.032403469085693, "learning_rate": 2.2940689655172413e-06, "loss": 0.1716, "step": 6685 }, { "epoch": 2.0538666666666665, "grad_norm": 4.110071182250977, "learning_rate": 2.292689655172414e-06, "loss": 0.2302, "step": 6690 }, { "epoch": 2.0542, "grad_norm": 3.942296028137207, "learning_rate": 2.291310344827586e-06, "loss": 0.1478, "step": 6695 }, { "epoch": 2.0545333333333335, "grad_norm": 3.944687843322754, "learning_rate": 2.2899310344827584e-06, "loss": 0.1675, "step": 6700 }, { "epoch": 2.054866666666667, "grad_norm": 5.045147895812988, "learning_rate": 2.288551724137931e-06, "loss": 0.1839, "step": 6705 }, { "epoch": 2.0552, "grad_norm": 3.712198257446289, "learning_rate": 2.2871724137931033e-06, "loss": 0.1493, "step": 6710 }, { "epoch": 2.0555333333333334, "grad_norm": 4.228917121887207, "learning_rate": 2.2857931034482755e-06, "loss": 0.1789, "step": 6715 }, { "epoch": 2.0558666666666667, "grad_norm": 4.081727027893066, "learning_rate": 2.284413793103448e-06, "loss": 0.1717, "step": 6720 }, { "epoch": 2.0562, "grad_norm": 3.436938524246216, "learning_rate": 2.283034482758621e-06, "loss": 0.143, "step": 6725 }, { "epoch": 2.0565333333333333, "grad_norm": 3.524822473526001, "learning_rate": 2.281655172413793e-06, "loss": 0.1572, "step": 6730 }, { "epoch": 2.0568666666666666, "grad_norm": 5.371495723724365, "learning_rate": 2.2802758620689653e-06, "loss": 0.2243, "step": 6735 }, { "epoch": 2.0572, "grad_norm": 3.7512853145599365, "learning_rate": 2.278896551724138e-06, "loss": 0.1328, "step": 6740 }, { "epoch": 2.057533333333333, "grad_norm": 3.7617597579956055, "learning_rate": 2.2775172413793102e-06, "loss": 0.1715, "step": 6745 }, { "epoch": 2.0578666666666665, "grad_norm": 4.0587077140808105, "learning_rate": 2.2761379310344825e-06, "loss": 0.1181, "step": 6750 }, { "epoch": 2.0582, "grad_norm": 4.450170516967773, "learning_rate": 2.274758620689655e-06, "loss": 0.1645, "step": 6755 }, { "epoch": 2.0585333333333335, "grad_norm": 4.999514102935791, "learning_rate": 2.2733793103448274e-06, "loss": 0.2015, "step": 6760 }, { "epoch": 2.058866666666667, "grad_norm": 3.5825555324554443, "learning_rate": 2.2719999999999996e-06, "loss": 0.1773, "step": 6765 }, { "epoch": 2.0592, "grad_norm": 3.1739566326141357, "learning_rate": 2.2706206896551727e-06, "loss": 0.1891, "step": 6770 }, { "epoch": 2.0595333333333334, "grad_norm": 3.8231146335601807, "learning_rate": 2.269241379310345e-06, "loss": 0.144, "step": 6775 }, { "epoch": 2.0598666666666667, "grad_norm": 3.907348155975342, "learning_rate": 2.267862068965517e-06, "loss": 0.1639, "step": 6780 }, { "epoch": 2.0602, "grad_norm": 5.400709629058838, "learning_rate": 2.26648275862069e-06, "loss": 0.1909, "step": 6785 }, { "epoch": 2.0605333333333333, "grad_norm": 2.642490863800049, "learning_rate": 2.265103448275862e-06, "loss": 0.1902, "step": 6790 }, { "epoch": 2.0608666666666666, "grad_norm": 4.5889811515808105, "learning_rate": 2.2637241379310343e-06, "loss": 0.1868, "step": 6795 }, { "epoch": 2.0612, "grad_norm": 3.4620330333709717, "learning_rate": 2.2623448275862065e-06, "loss": 0.1625, "step": 6800 }, { "epoch": 2.061533333333333, "grad_norm": 3.7081997394561768, "learning_rate": 2.260965517241379e-06, "loss": 0.1579, "step": 6805 }, { "epoch": 2.0618666666666665, "grad_norm": 3.6131811141967773, "learning_rate": 2.2595862068965514e-06, "loss": 0.1138, "step": 6810 }, { "epoch": 2.0622, "grad_norm": 4.773049831390381, "learning_rate": 2.258206896551724e-06, "loss": 0.1752, "step": 6815 }, { "epoch": 2.0625333333333336, "grad_norm": 3.7803397178649902, "learning_rate": 2.2568275862068967e-06, "loss": 0.152, "step": 6820 }, { "epoch": 2.062866666666667, "grad_norm": 3.8516604900360107, "learning_rate": 2.255448275862069e-06, "loss": 0.145, "step": 6825 }, { "epoch": 2.0632, "grad_norm": 3.1208994388580322, "learning_rate": 2.2540689655172412e-06, "loss": 0.1193, "step": 6830 }, { "epoch": 2.0635333333333334, "grad_norm": 4.044172286987305, "learning_rate": 2.252689655172414e-06, "loss": 0.1979, "step": 6835 }, { "epoch": 2.0638666666666667, "grad_norm": 3.7968876361846924, "learning_rate": 2.251310344827586e-06, "loss": 0.145, "step": 6840 }, { "epoch": 2.0642, "grad_norm": 3.4734935760498047, "learning_rate": 2.2499310344827584e-06, "loss": 0.18, "step": 6845 }, { "epoch": 2.0645333333333333, "grad_norm": 3.1294267177581787, "learning_rate": 2.248551724137931e-06, "loss": 0.1462, "step": 6850 }, { "epoch": 2.0648666666666666, "grad_norm": 4.181737422943115, "learning_rate": 2.2471724137931032e-06, "loss": 0.1487, "step": 6855 }, { "epoch": 2.0652, "grad_norm": 4.402034282684326, "learning_rate": 2.2457931034482755e-06, "loss": 0.1711, "step": 6860 }, { "epoch": 2.065533333333333, "grad_norm": 4.110632419586182, "learning_rate": 2.2444137931034486e-06, "loss": 0.1662, "step": 6865 }, { "epoch": 2.0658666666666665, "grad_norm": 3.2670960426330566, "learning_rate": 2.243034482758621e-06, "loss": 0.1623, "step": 6870 }, { "epoch": 2.0662, "grad_norm": 4.23391056060791, "learning_rate": 2.241655172413793e-06, "loss": 0.139, "step": 6875 }, { "epoch": 2.066533333333333, "grad_norm": 4.4274373054504395, "learning_rate": 2.2402758620689653e-06, "loss": 0.1211, "step": 6880 }, { "epoch": 2.066866666666667, "grad_norm": 3.7422409057617188, "learning_rate": 2.238896551724138e-06, "loss": 0.1392, "step": 6885 }, { "epoch": 2.0672, "grad_norm": 3.9725828170776367, "learning_rate": 2.23751724137931e-06, "loss": 0.1487, "step": 6890 }, { "epoch": 2.0675333333333334, "grad_norm": 3.564913511276245, "learning_rate": 2.2361379310344824e-06, "loss": 0.1431, "step": 6895 }, { "epoch": 2.0678666666666667, "grad_norm": 4.6742353439331055, "learning_rate": 2.234758620689655e-06, "loss": 0.1506, "step": 6900 }, { "epoch": 2.0682, "grad_norm": 3.743089437484741, "learning_rate": 2.2333793103448273e-06, "loss": 0.1506, "step": 6905 }, { "epoch": 2.0685333333333333, "grad_norm": 3.730095863342285, "learning_rate": 2.232e-06, "loss": 0.1487, "step": 6910 }, { "epoch": 2.0688666666666666, "grad_norm": 4.04982852935791, "learning_rate": 2.2306206896551726e-06, "loss": 0.1353, "step": 6915 }, { "epoch": 2.0692, "grad_norm": 5.054067611694336, "learning_rate": 2.229241379310345e-06, "loss": 0.151, "step": 6920 }, { "epoch": 2.0695333333333332, "grad_norm": 4.367348670959473, "learning_rate": 2.227862068965517e-06, "loss": 0.1701, "step": 6925 }, { "epoch": 2.0698666666666665, "grad_norm": 4.669203758239746, "learning_rate": 2.2264827586206898e-06, "loss": 0.1251, "step": 6930 }, { "epoch": 2.0702, "grad_norm": 4.2126617431640625, "learning_rate": 2.225103448275862e-06, "loss": 0.1769, "step": 6935 }, { "epoch": 2.0705333333333336, "grad_norm": 3.720592498779297, "learning_rate": 2.2237241379310342e-06, "loss": 0.1748, "step": 6940 }, { "epoch": 2.070866666666667, "grad_norm": 3.8916945457458496, "learning_rate": 2.2223448275862065e-06, "loss": 0.1786, "step": 6945 }, { "epoch": 2.0712, "grad_norm": 3.7122035026550293, "learning_rate": 2.220965517241379e-06, "loss": 0.1542, "step": 6950 }, { "epoch": 2.0715333333333334, "grad_norm": 4.1157026290893555, "learning_rate": 2.2195862068965514e-06, "loss": 0.1748, "step": 6955 }, { "epoch": 2.0718666666666667, "grad_norm": 4.15557861328125, "learning_rate": 2.218206896551724e-06, "loss": 0.136, "step": 6960 }, { "epoch": 2.0722, "grad_norm": 3.75467586517334, "learning_rate": 2.2168275862068967e-06, "loss": 0.1305, "step": 6965 }, { "epoch": 2.0725333333333333, "grad_norm": 3.990755081176758, "learning_rate": 2.215448275862069e-06, "loss": 0.1651, "step": 6970 }, { "epoch": 2.0728666666666666, "grad_norm": 3.0888497829437256, "learning_rate": 2.214068965517241e-06, "loss": 0.1834, "step": 6975 }, { "epoch": 2.0732, "grad_norm": 3.9069995880126953, "learning_rate": 2.212689655172414e-06, "loss": 0.1465, "step": 6980 }, { "epoch": 2.0735333333333332, "grad_norm": 3.751314163208008, "learning_rate": 2.211310344827586e-06, "loss": 0.1475, "step": 6985 }, { "epoch": 2.0738666666666665, "grad_norm": 3.257397413253784, "learning_rate": 2.2099310344827583e-06, "loss": 0.1467, "step": 6990 }, { "epoch": 2.0742, "grad_norm": 4.131998538970947, "learning_rate": 2.208551724137931e-06, "loss": 0.1363, "step": 6995 }, { "epoch": 2.074533333333333, "grad_norm": 3.626477003097534, "learning_rate": 2.207172413793103e-06, "loss": 0.1536, "step": 7000 }, { "epoch": 2.074533333333333, "eval_loss": 0.21925389766693115, "eval_runtime": 138.3271, "eval_samples_per_second": 4.338, "eval_steps_per_second": 1.084, "eval_wer": 11.475619096247128, "step": 7000 }, { "epoch": 2.074866666666667, "grad_norm": 3.922133445739746, "learning_rate": 2.205793103448276e-06, "loss": 0.1821, "step": 7005 }, { "epoch": 2.0752, "grad_norm": 3.888953924179077, "learning_rate": 2.2044137931034485e-06, "loss": 0.1394, "step": 7010 }, { "epoch": 2.0755333333333335, "grad_norm": 3.2622451782226562, "learning_rate": 2.2030344827586208e-06, "loss": 0.129, "step": 7015 }, { "epoch": 2.0758666666666667, "grad_norm": 4.794111728668213, "learning_rate": 2.201655172413793e-06, "loss": 0.1508, "step": 7020 }, { "epoch": 2.0762, "grad_norm": 3.4692211151123047, "learning_rate": 2.2002758620689652e-06, "loss": 0.1779, "step": 7025 }, { "epoch": 2.0765333333333333, "grad_norm": 3.5335543155670166, "learning_rate": 2.198896551724138e-06, "loss": 0.1341, "step": 7030 }, { "epoch": 2.0768666666666666, "grad_norm": 4.610071659088135, "learning_rate": 2.19751724137931e-06, "loss": 0.1583, "step": 7035 }, { "epoch": 2.0772, "grad_norm": 3.739980936050415, "learning_rate": 2.1961379310344824e-06, "loss": 0.1513, "step": 7040 }, { "epoch": 2.0775333333333332, "grad_norm": 3.6064891815185547, "learning_rate": 2.194758620689655e-06, "loss": 0.1962, "step": 7045 }, { "epoch": 2.0778666666666665, "grad_norm": 3.831463575363159, "learning_rate": 2.1933793103448277e-06, "loss": 0.1448, "step": 7050 }, { "epoch": 2.0782, "grad_norm": 3.5602200031280518, "learning_rate": 2.192e-06, "loss": 0.1657, "step": 7055 }, { "epoch": 2.078533333333333, "grad_norm": 4.79341983795166, "learning_rate": 2.1906206896551726e-06, "loss": 0.1956, "step": 7060 }, { "epoch": 2.078866666666667, "grad_norm": 3.699897527694702, "learning_rate": 2.189241379310345e-06, "loss": 0.1833, "step": 7065 }, { "epoch": 2.0792, "grad_norm": 4.393587112426758, "learning_rate": 2.187862068965517e-06, "loss": 0.1667, "step": 7070 }, { "epoch": 2.0795333333333335, "grad_norm": 3.7398903369903564, "learning_rate": 2.1864827586206897e-06, "loss": 0.1704, "step": 7075 }, { "epoch": 2.0798666666666668, "grad_norm": 4.504492282867432, "learning_rate": 2.185103448275862e-06, "loss": 0.1927, "step": 7080 }, { "epoch": 2.0802, "grad_norm": 4.033944129943848, "learning_rate": 2.183724137931034e-06, "loss": 0.1403, "step": 7085 }, { "epoch": 2.0805333333333333, "grad_norm": 3.927112579345703, "learning_rate": 2.1823448275862064e-06, "loss": 0.1837, "step": 7090 }, { "epoch": 2.0808666666666666, "grad_norm": 4.071290493011475, "learning_rate": 2.180965517241379e-06, "loss": 0.1303, "step": 7095 }, { "epoch": 2.0812, "grad_norm": 5.423714637756348, "learning_rate": 2.1795862068965518e-06, "loss": 0.1579, "step": 7100 }, { "epoch": 2.0815333333333332, "grad_norm": 5.649503231048584, "learning_rate": 2.178206896551724e-06, "loss": 0.203, "step": 7105 }, { "epoch": 2.0818666666666665, "grad_norm": 4.837689399719238, "learning_rate": 2.1768275862068967e-06, "loss": 0.1397, "step": 7110 }, { "epoch": 2.0822, "grad_norm": 3.4435794353485107, "learning_rate": 2.175448275862069e-06, "loss": 0.1291, "step": 7115 }, { "epoch": 2.082533333333333, "grad_norm": 3.9933724403381348, "learning_rate": 2.174068965517241e-06, "loss": 0.1375, "step": 7120 }, { "epoch": 2.082866666666667, "grad_norm": 3.218576192855835, "learning_rate": 2.172689655172414e-06, "loss": 0.1177, "step": 7125 }, { "epoch": 2.0832, "grad_norm": 3.144493579864502, "learning_rate": 2.171310344827586e-06, "loss": 0.1393, "step": 7130 }, { "epoch": 2.0835333333333335, "grad_norm": 4.224937915802002, "learning_rate": 2.1699310344827583e-06, "loss": 0.1709, "step": 7135 }, { "epoch": 2.0838666666666668, "grad_norm": 4.219892978668213, "learning_rate": 2.168551724137931e-06, "loss": 0.1502, "step": 7140 }, { "epoch": 2.0842, "grad_norm": 3.722003698348999, "learning_rate": 2.1671724137931036e-06, "loss": 0.1541, "step": 7145 }, { "epoch": 2.0845333333333333, "grad_norm": 3.8973941802978516, "learning_rate": 2.165793103448276e-06, "loss": 0.1379, "step": 7150 }, { "epoch": 2.0848666666666666, "grad_norm": 3.3449296951293945, "learning_rate": 2.1644137931034485e-06, "loss": 0.1515, "step": 7155 }, { "epoch": 2.0852, "grad_norm": 3.9079978466033936, "learning_rate": 2.1630344827586207e-06, "loss": 0.1518, "step": 7160 }, { "epoch": 2.0855333333333332, "grad_norm": 3.549809455871582, "learning_rate": 2.161655172413793e-06, "loss": 0.1691, "step": 7165 }, { "epoch": 2.0858666666666665, "grad_norm": 3.45920729637146, "learning_rate": 2.160275862068965e-06, "loss": 0.116, "step": 7170 }, { "epoch": 2.0862, "grad_norm": 4.075089454650879, "learning_rate": 2.158896551724138e-06, "loss": 0.1566, "step": 7175 }, { "epoch": 2.086533333333333, "grad_norm": 5.295050621032715, "learning_rate": 2.15751724137931e-06, "loss": 0.2106, "step": 7180 }, { "epoch": 2.086866666666667, "grad_norm": 3.751497507095337, "learning_rate": 2.1561379310344823e-06, "loss": 0.1253, "step": 7185 }, { "epoch": 2.0872, "grad_norm": 3.404095411300659, "learning_rate": 2.154758620689655e-06, "loss": 0.1275, "step": 7190 }, { "epoch": 2.0875333333333335, "grad_norm": 3.2637887001037598, "learning_rate": 2.1533793103448277e-06, "loss": 0.1178, "step": 7195 }, { "epoch": 2.0878666666666668, "grad_norm": 3.813154935836792, "learning_rate": 2.152e-06, "loss": 0.1444, "step": 7200 }, { "epoch": 2.0882, "grad_norm": 3.623206853866577, "learning_rate": 2.1506206896551726e-06, "loss": 0.1768, "step": 7205 }, { "epoch": 2.0885333333333334, "grad_norm": 3.298654556274414, "learning_rate": 2.149241379310345e-06, "loss": 0.1391, "step": 7210 }, { "epoch": 2.0888666666666666, "grad_norm": 3.854390859603882, "learning_rate": 2.147862068965517e-06, "loss": 0.1414, "step": 7215 }, { "epoch": 2.0892, "grad_norm": 3.9394309520721436, "learning_rate": 2.1464827586206897e-06, "loss": 0.1432, "step": 7220 }, { "epoch": 2.0895333333333332, "grad_norm": 3.7726545333862305, "learning_rate": 2.145103448275862e-06, "loss": 0.1467, "step": 7225 }, { "epoch": 2.0898666666666665, "grad_norm": 3.3038113117218018, "learning_rate": 2.143724137931034e-06, "loss": 0.1266, "step": 7230 }, { "epoch": 2.0902, "grad_norm": 4.220552921295166, "learning_rate": 2.1423448275862064e-06, "loss": 0.1736, "step": 7235 }, { "epoch": 2.090533333333333, "grad_norm": 3.4808144569396973, "learning_rate": 2.1409655172413795e-06, "loss": 0.1472, "step": 7240 }, { "epoch": 2.090866666666667, "grad_norm": 3.325847864151001, "learning_rate": 2.1395862068965517e-06, "loss": 0.1366, "step": 7245 }, { "epoch": 2.0912, "grad_norm": 3.5776450634002686, "learning_rate": 2.138206896551724e-06, "loss": 0.147, "step": 7250 }, { "epoch": 2.0915333333333335, "grad_norm": 3.711270809173584, "learning_rate": 2.1368275862068966e-06, "loss": 0.1495, "step": 7255 }, { "epoch": 2.0918666666666668, "grad_norm": 3.0170485973358154, "learning_rate": 2.135448275862069e-06, "loss": 0.1279, "step": 7260 }, { "epoch": 2.0922, "grad_norm": 3.493748426437378, "learning_rate": 2.134068965517241e-06, "loss": 0.1421, "step": 7265 }, { "epoch": 2.0925333333333334, "grad_norm": 3.3370070457458496, "learning_rate": 2.1326896551724138e-06, "loss": 0.1504, "step": 7270 }, { "epoch": 2.0928666666666667, "grad_norm": 3.520612955093384, "learning_rate": 2.131310344827586e-06, "loss": 0.1396, "step": 7275 }, { "epoch": 2.0932, "grad_norm": 4.096695423126221, "learning_rate": 2.1299310344827582e-06, "loss": 0.1225, "step": 7280 }, { "epoch": 2.0935333333333332, "grad_norm": 3.9768941402435303, "learning_rate": 2.1285517241379313e-06, "loss": 0.161, "step": 7285 }, { "epoch": 2.0938666666666665, "grad_norm": 4.0855584144592285, "learning_rate": 2.1271724137931036e-06, "loss": 0.2005, "step": 7290 }, { "epoch": 2.0942, "grad_norm": 3.242534875869751, "learning_rate": 2.1257931034482758e-06, "loss": 0.1151, "step": 7295 }, { "epoch": 2.094533333333333, "grad_norm": 3.7387003898620605, "learning_rate": 2.1244137931034484e-06, "loss": 0.1424, "step": 7300 }, { "epoch": 2.094866666666667, "grad_norm": 3.9830329418182373, "learning_rate": 2.1230344827586207e-06, "loss": 0.1209, "step": 7305 }, { "epoch": 2.0952, "grad_norm": 3.434047222137451, "learning_rate": 2.121655172413793e-06, "loss": 0.1587, "step": 7310 }, { "epoch": 2.0955333333333335, "grad_norm": 4.966354846954346, "learning_rate": 2.120275862068965e-06, "loss": 0.185, "step": 7315 }, { "epoch": 2.0958666666666668, "grad_norm": 3.3523054122924805, "learning_rate": 2.118896551724138e-06, "loss": 0.2296, "step": 7320 }, { "epoch": 2.0962, "grad_norm": 3.7074153423309326, "learning_rate": 2.11751724137931e-06, "loss": 0.1469, "step": 7325 }, { "epoch": 2.0965333333333334, "grad_norm": 4.574906826019287, "learning_rate": 2.1161379310344823e-06, "loss": 0.1765, "step": 7330 }, { "epoch": 2.0968666666666667, "grad_norm": 3.384641408920288, "learning_rate": 2.1147586206896554e-06, "loss": 0.1393, "step": 7335 }, { "epoch": 2.0972, "grad_norm": 3.8656980991363525, "learning_rate": 2.1133793103448276e-06, "loss": 0.1227, "step": 7340 }, { "epoch": 2.0975333333333332, "grad_norm": 4.578719139099121, "learning_rate": 2.112e-06, "loss": 0.1518, "step": 7345 }, { "epoch": 2.0978666666666665, "grad_norm": 3.5584146976470947, "learning_rate": 2.1106206896551725e-06, "loss": 0.1153, "step": 7350 }, { "epoch": 2.0982, "grad_norm": 4.185518264770508, "learning_rate": 2.1092413793103448e-06, "loss": 0.1511, "step": 7355 }, { "epoch": 2.098533333333333, "grad_norm": 3.7117464542388916, "learning_rate": 2.107862068965517e-06, "loss": 0.1699, "step": 7360 }, { "epoch": 2.098866666666667, "grad_norm": 3.3748395442962646, "learning_rate": 2.1064827586206896e-06, "loss": 0.1406, "step": 7365 }, { "epoch": 2.0992, "grad_norm": 5.840545177459717, "learning_rate": 2.105103448275862e-06, "loss": 0.1364, "step": 7370 }, { "epoch": 2.0995333333333335, "grad_norm": 3.8785436153411865, "learning_rate": 2.103724137931034e-06, "loss": 0.1516, "step": 7375 }, { "epoch": 2.0998666666666668, "grad_norm": 3.683256149291992, "learning_rate": 2.102344827586207e-06, "loss": 0.1498, "step": 7380 }, { "epoch": 2.1002, "grad_norm": 3.869828939437866, "learning_rate": 2.1009655172413794e-06, "loss": 0.1188, "step": 7385 }, { "epoch": 2.1005333333333334, "grad_norm": 3.9915361404418945, "learning_rate": 2.0995862068965517e-06, "loss": 0.1788, "step": 7390 }, { "epoch": 2.1008666666666667, "grad_norm": 3.87319278717041, "learning_rate": 2.098206896551724e-06, "loss": 0.1665, "step": 7395 }, { "epoch": 2.1012, "grad_norm": 4.562397480010986, "learning_rate": 2.0968275862068966e-06, "loss": 0.1443, "step": 7400 }, { "epoch": 2.1015333333333333, "grad_norm": 3.8572700023651123, "learning_rate": 2.095448275862069e-06, "loss": 0.171, "step": 7405 }, { "epoch": 2.1018666666666665, "grad_norm": 4.074642181396484, "learning_rate": 2.094068965517241e-06, "loss": 0.1278, "step": 7410 }, { "epoch": 2.1022, "grad_norm": 4.116250038146973, "learning_rate": 2.0926896551724137e-06, "loss": 0.1506, "step": 7415 }, { "epoch": 2.102533333333333, "grad_norm": 4.123210906982422, "learning_rate": 2.091310344827586e-06, "loss": 0.1752, "step": 7420 }, { "epoch": 2.1028666666666664, "grad_norm": 3.7808568477630615, "learning_rate": 2.089931034482758e-06, "loss": 0.136, "step": 7425 }, { "epoch": 2.1032, "grad_norm": 4.416501522064209, "learning_rate": 2.0885517241379313e-06, "loss": 0.1848, "step": 7430 }, { "epoch": 2.1035333333333335, "grad_norm": 3.8800084590911865, "learning_rate": 2.0871724137931035e-06, "loss": 0.1685, "step": 7435 }, { "epoch": 2.1038666666666668, "grad_norm": 4.5299973487854, "learning_rate": 2.0857931034482757e-06, "loss": 0.1241, "step": 7440 }, { "epoch": 2.1042, "grad_norm": 4.004883289337158, "learning_rate": 2.0844137931034484e-06, "loss": 0.1446, "step": 7445 }, { "epoch": 2.1045333333333334, "grad_norm": 2.8622915744781494, "learning_rate": 2.0830344827586206e-06, "loss": 0.1536, "step": 7450 }, { "epoch": 2.1048666666666667, "grad_norm": 4.724384307861328, "learning_rate": 2.081655172413793e-06, "loss": 0.1192, "step": 7455 }, { "epoch": 2.1052, "grad_norm": 3.037681818008423, "learning_rate": 2.080275862068965e-06, "loss": 0.1404, "step": 7460 }, { "epoch": 2.1055333333333333, "grad_norm": 3.978952407836914, "learning_rate": 2.0788965517241378e-06, "loss": 0.1326, "step": 7465 }, { "epoch": 2.1058666666666666, "grad_norm": 3.0445716381073, "learning_rate": 2.07751724137931e-06, "loss": 0.1615, "step": 7470 }, { "epoch": 2.1062, "grad_norm": 3.994690418243408, "learning_rate": 2.0761379310344827e-06, "loss": 0.1751, "step": 7475 }, { "epoch": 2.106533333333333, "grad_norm": 4.449130535125732, "learning_rate": 2.0747586206896553e-06, "loss": 0.1749, "step": 7480 }, { "epoch": 2.106866666666667, "grad_norm": 4.643054485321045, "learning_rate": 2.0733793103448276e-06, "loss": 0.2167, "step": 7485 }, { "epoch": 2.1072, "grad_norm": 4.296535491943359, "learning_rate": 2.072e-06, "loss": 0.1435, "step": 7490 }, { "epoch": 2.1075333333333335, "grad_norm": 4.520917892456055, "learning_rate": 2.0706206896551725e-06, "loss": 0.1921, "step": 7495 }, { "epoch": 2.1078666666666668, "grad_norm": 3.8882267475128174, "learning_rate": 2.0692413793103447e-06, "loss": 0.1647, "step": 7500 }, { "epoch": 2.1082, "grad_norm": 4.189269542694092, "learning_rate": 2.067862068965517e-06, "loss": 0.2007, "step": 7505 }, { "epoch": 2.1085333333333334, "grad_norm": 4.519824981689453, "learning_rate": 2.0664827586206896e-06, "loss": 0.1791, "step": 7510 }, { "epoch": 2.1088666666666667, "grad_norm": 3.1068503856658936, "learning_rate": 2.065103448275862e-06, "loss": 0.1505, "step": 7515 }, { "epoch": 2.1092, "grad_norm": 4.406242847442627, "learning_rate": 2.063724137931034e-06, "loss": 0.1781, "step": 7520 }, { "epoch": 2.1095333333333333, "grad_norm": 3.427713632583618, "learning_rate": 2.062344827586207e-06, "loss": 0.1703, "step": 7525 }, { "epoch": 2.1098666666666666, "grad_norm": 5.198995590209961, "learning_rate": 2.0609655172413794e-06, "loss": 0.206, "step": 7530 }, { "epoch": 2.1102, "grad_norm": 3.9831323623657227, "learning_rate": 2.0595862068965516e-06, "loss": 0.1588, "step": 7535 }, { "epoch": 2.110533333333333, "grad_norm": 4.110867023468018, "learning_rate": 2.058206896551724e-06, "loss": 0.1732, "step": 7540 }, { "epoch": 2.1108666666666664, "grad_norm": 4.439542770385742, "learning_rate": 2.0568275862068965e-06, "loss": 0.1533, "step": 7545 }, { "epoch": 2.1112, "grad_norm": 2.786781072616577, "learning_rate": 2.0554482758620688e-06, "loss": 0.1075, "step": 7550 }, { "epoch": 2.1115333333333335, "grad_norm": 4.361269950866699, "learning_rate": 2.054068965517241e-06, "loss": 0.132, "step": 7555 }, { "epoch": 2.111866666666667, "grad_norm": 2.961472272872925, "learning_rate": 2.0526896551724137e-06, "loss": 0.1834, "step": 7560 }, { "epoch": 2.1122, "grad_norm": 4.263070583343506, "learning_rate": 2.051310344827586e-06, "loss": 0.1481, "step": 7565 }, { "epoch": 2.1125333333333334, "grad_norm": 3.9604413509368896, "learning_rate": 2.0499310344827586e-06, "loss": 0.1724, "step": 7570 }, { "epoch": 2.1128666666666667, "grad_norm": 4.883656024932861, "learning_rate": 2.0485517241379312e-06, "loss": 0.181, "step": 7575 }, { "epoch": 2.1132, "grad_norm": 4.123628616333008, "learning_rate": 2.0471724137931035e-06, "loss": 0.159, "step": 7580 }, { "epoch": 2.1135333333333333, "grad_norm": 3.2786355018615723, "learning_rate": 2.0457931034482757e-06, "loss": 0.1717, "step": 7585 }, { "epoch": 2.1138666666666666, "grad_norm": 4.5266804695129395, "learning_rate": 2.0444137931034484e-06, "loss": 0.1818, "step": 7590 }, { "epoch": 2.1142, "grad_norm": 3.8377764225006104, "learning_rate": 2.0430344827586206e-06, "loss": 0.1226, "step": 7595 }, { "epoch": 2.114533333333333, "grad_norm": 3.637533664703369, "learning_rate": 2.041655172413793e-06, "loss": 0.1571, "step": 7600 }, { "epoch": 2.114866666666667, "grad_norm": 4.15459680557251, "learning_rate": 2.0402758620689655e-06, "loss": 0.1398, "step": 7605 }, { "epoch": 2.1152, "grad_norm": 3.467616558074951, "learning_rate": 2.0388965517241377e-06, "loss": 0.1746, "step": 7610 }, { "epoch": 2.1155333333333335, "grad_norm": 4.374525547027588, "learning_rate": 2.0375172413793104e-06, "loss": 0.1507, "step": 7615 }, { "epoch": 2.115866666666667, "grad_norm": 4.990701675415039, "learning_rate": 2.0361379310344826e-06, "loss": 0.1987, "step": 7620 }, { "epoch": 2.1162, "grad_norm": 3.5260660648345947, "learning_rate": 2.0347586206896553e-06, "loss": 0.1488, "step": 7625 }, { "epoch": 2.1165333333333334, "grad_norm": 3.705177068710327, "learning_rate": 2.0333793103448275e-06, "loss": 0.1725, "step": 7630 }, { "epoch": 2.1168666666666667, "grad_norm": 4.082669734954834, "learning_rate": 2.0319999999999998e-06, "loss": 0.1541, "step": 7635 }, { "epoch": 2.1172, "grad_norm": 3.1704165935516357, "learning_rate": 2.0306206896551724e-06, "loss": 0.1292, "step": 7640 }, { "epoch": 2.1175333333333333, "grad_norm": 3.3394253253936768, "learning_rate": 2.0292413793103447e-06, "loss": 0.1294, "step": 7645 }, { "epoch": 2.1178666666666666, "grad_norm": 3.7952277660369873, "learning_rate": 2.027862068965517e-06, "loss": 0.1546, "step": 7650 }, { "epoch": 2.1182, "grad_norm": 4.168078422546387, "learning_rate": 2.0264827586206896e-06, "loss": 0.1344, "step": 7655 }, { "epoch": 2.118533333333333, "grad_norm": 4.414212226867676, "learning_rate": 2.025103448275862e-06, "loss": 0.1833, "step": 7660 }, { "epoch": 2.1188666666666665, "grad_norm": 3.386073112487793, "learning_rate": 2.0237241379310345e-06, "loss": 0.14, "step": 7665 }, { "epoch": 2.1192, "grad_norm": 5.26906156539917, "learning_rate": 2.022344827586207e-06, "loss": 0.1954, "step": 7670 }, { "epoch": 2.1195333333333335, "grad_norm": 3.942183256149292, "learning_rate": 2.0209655172413794e-06, "loss": 0.1744, "step": 7675 }, { "epoch": 2.119866666666667, "grad_norm": 4.6427202224731445, "learning_rate": 2.0195862068965516e-06, "loss": 0.1677, "step": 7680 }, { "epoch": 2.1202, "grad_norm": 4.297618865966797, "learning_rate": 2.018206896551724e-06, "loss": 0.1462, "step": 7685 }, { "epoch": 2.1205333333333334, "grad_norm": 3.8949220180511475, "learning_rate": 2.0168275862068965e-06, "loss": 0.1087, "step": 7690 }, { "epoch": 2.1208666666666667, "grad_norm": 3.6529507637023926, "learning_rate": 2.0154482758620687e-06, "loss": 0.1404, "step": 7695 }, { "epoch": 2.1212, "grad_norm": 4.2960524559021, "learning_rate": 2.014068965517241e-06, "loss": 0.1949, "step": 7700 }, { "epoch": 2.1215333333333333, "grad_norm": 3.903557538986206, "learning_rate": 2.0126896551724136e-06, "loss": 0.1503, "step": 7705 }, { "epoch": 2.1218666666666666, "grad_norm": 4.214975833892822, "learning_rate": 2.0113103448275863e-06, "loss": 0.1568, "step": 7710 }, { "epoch": 2.1222, "grad_norm": 3.1488230228424072, "learning_rate": 2.0099310344827585e-06, "loss": 0.1421, "step": 7715 }, { "epoch": 2.122533333333333, "grad_norm": 4.408772945404053, "learning_rate": 2.008551724137931e-06, "loss": 0.173, "step": 7720 }, { "epoch": 2.1228666666666665, "grad_norm": 3.646116018295288, "learning_rate": 2.0071724137931034e-06, "loss": 0.1405, "step": 7725 }, { "epoch": 2.1232, "grad_norm": 4.132920742034912, "learning_rate": 2.0057931034482757e-06, "loss": 0.1626, "step": 7730 }, { "epoch": 2.1235333333333335, "grad_norm": 4.206435203552246, "learning_rate": 2.0044137931034483e-06, "loss": 0.1454, "step": 7735 }, { "epoch": 2.123866666666667, "grad_norm": 3.519291639328003, "learning_rate": 2.0030344827586206e-06, "loss": 0.1414, "step": 7740 }, { "epoch": 2.1242, "grad_norm": 3.4968624114990234, "learning_rate": 2.001655172413793e-06, "loss": 0.1552, "step": 7745 }, { "epoch": 2.1245333333333334, "grad_norm": 3.607034206390381, "learning_rate": 2.0002758620689655e-06, "loss": 0.1787, "step": 7750 }, { "epoch": 2.1248666666666667, "grad_norm": 4.205872058868408, "learning_rate": 1.9988965517241377e-06, "loss": 0.1637, "step": 7755 }, { "epoch": 2.1252, "grad_norm": 3.8468146324157715, "learning_rate": 1.9975172413793104e-06, "loss": 0.1491, "step": 7760 }, { "epoch": 2.1255333333333333, "grad_norm": 3.9270269870758057, "learning_rate": 1.9961379310344826e-06, "loss": 0.1546, "step": 7765 }, { "epoch": 2.1258666666666666, "grad_norm": 3.687591314315796, "learning_rate": 1.9947586206896553e-06, "loss": 0.181, "step": 7770 }, { "epoch": 2.1262, "grad_norm": 3.684657096862793, "learning_rate": 1.9933793103448275e-06, "loss": 0.175, "step": 7775 }, { "epoch": 2.126533333333333, "grad_norm": 3.959773540496826, "learning_rate": 1.9919999999999997e-06, "loss": 0.1688, "step": 7780 }, { "epoch": 2.1268666666666665, "grad_norm": 4.446990489959717, "learning_rate": 1.9906206896551724e-06, "loss": 0.1759, "step": 7785 }, { "epoch": 2.1272, "grad_norm": 3.9164199829101562, "learning_rate": 1.9892413793103446e-06, "loss": 0.1446, "step": 7790 }, { "epoch": 2.1275333333333335, "grad_norm": 3.8270504474639893, "learning_rate": 1.9878620689655173e-06, "loss": 0.23, "step": 7795 }, { "epoch": 2.127866666666667, "grad_norm": 3.4129297733306885, "learning_rate": 1.9864827586206895e-06, "loss": 0.2068, "step": 7800 }, { "epoch": 2.1282, "grad_norm": 3.801025390625, "learning_rate": 1.9851034482758618e-06, "loss": 0.1896, "step": 7805 }, { "epoch": 2.1285333333333334, "grad_norm": 4.211307048797607, "learning_rate": 1.9837241379310344e-06, "loss": 0.2484, "step": 7810 }, { "epoch": 2.1288666666666667, "grad_norm": 3.498392343521118, "learning_rate": 1.982344827586207e-06, "loss": 0.1496, "step": 7815 }, { "epoch": 2.1292, "grad_norm": 5.023584365844727, "learning_rate": 1.9809655172413793e-06, "loss": 0.1553, "step": 7820 }, { "epoch": 2.1295333333333333, "grad_norm": 3.951573133468628, "learning_rate": 1.9795862068965516e-06, "loss": 0.1316, "step": 7825 }, { "epoch": 2.1298666666666666, "grad_norm": 4.510411739349365, "learning_rate": 1.9782068965517242e-06, "loss": 0.2272, "step": 7830 }, { "epoch": 2.1302, "grad_norm": 3.3330047130584717, "learning_rate": 1.9768275862068965e-06, "loss": 0.1643, "step": 7835 }, { "epoch": 2.130533333333333, "grad_norm": 3.661222457885742, "learning_rate": 1.975448275862069e-06, "loss": 0.1454, "step": 7840 }, { "epoch": 2.1308666666666665, "grad_norm": 5.079435348510742, "learning_rate": 1.9740689655172414e-06, "loss": 0.1702, "step": 7845 }, { "epoch": 2.1312, "grad_norm": 6.023196697235107, "learning_rate": 1.9726896551724136e-06, "loss": 0.1289, "step": 7850 }, { "epoch": 2.1315333333333335, "grad_norm": 3.029942750930786, "learning_rate": 1.9713103448275863e-06, "loss": 0.1412, "step": 7855 }, { "epoch": 2.131866666666667, "grad_norm": 5.063018321990967, "learning_rate": 1.9699310344827585e-06, "loss": 0.1738, "step": 7860 }, { "epoch": 2.1322, "grad_norm": 4.71124267578125, "learning_rate": 1.968551724137931e-06, "loss": 0.1972, "step": 7865 }, { "epoch": 2.1325333333333334, "grad_norm": 3.9992754459381104, "learning_rate": 1.9671724137931034e-06, "loss": 0.1621, "step": 7870 }, { "epoch": 2.1328666666666667, "grad_norm": 3.8277359008789062, "learning_rate": 1.9657931034482756e-06, "loss": 0.1883, "step": 7875 }, { "epoch": 2.1332, "grad_norm": 4.417627811431885, "learning_rate": 1.9644137931034483e-06, "loss": 0.1878, "step": 7880 }, { "epoch": 2.1335333333333333, "grad_norm": 4.686520576477051, "learning_rate": 1.9630344827586205e-06, "loss": 0.1883, "step": 7885 }, { "epoch": 2.1338666666666666, "grad_norm": 4.109803199768066, "learning_rate": 1.961655172413793e-06, "loss": 0.1767, "step": 7890 }, { "epoch": 2.1342, "grad_norm": 4.489066123962402, "learning_rate": 1.9602758620689654e-06, "loss": 0.2076, "step": 7895 }, { "epoch": 2.134533333333333, "grad_norm": 4.182468891143799, "learning_rate": 1.9588965517241377e-06, "loss": 0.1724, "step": 7900 }, { "epoch": 2.1348666666666665, "grad_norm": 5.5826802253723145, "learning_rate": 1.9575172413793103e-06, "loss": 0.1574, "step": 7905 }, { "epoch": 2.1352, "grad_norm": 4.128483772277832, "learning_rate": 1.956137931034483e-06, "loss": 0.1486, "step": 7910 }, { "epoch": 2.1355333333333335, "grad_norm": 4.2858991622924805, "learning_rate": 1.9547586206896552e-06, "loss": 0.1672, "step": 7915 }, { "epoch": 2.135866666666667, "grad_norm": 4.280251502990723, "learning_rate": 1.9533793103448275e-06, "loss": 0.1536, "step": 7920 }, { "epoch": 2.1362, "grad_norm": 3.5940074920654297, "learning_rate": 1.9519999999999997e-06, "loss": 0.1515, "step": 7925 }, { "epoch": 2.1365333333333334, "grad_norm": 3.568645715713501, "learning_rate": 1.9506206896551724e-06, "loss": 0.1488, "step": 7930 }, { "epoch": 2.1368666666666667, "grad_norm": 4.062258720397949, "learning_rate": 1.949241379310345e-06, "loss": 0.1334, "step": 7935 }, { "epoch": 2.1372, "grad_norm": 3.241791009902954, "learning_rate": 1.9478620689655172e-06, "loss": 0.1603, "step": 7940 }, { "epoch": 2.1375333333333333, "grad_norm": 3.8876595497131348, "learning_rate": 1.9464827586206895e-06, "loss": 0.1686, "step": 7945 }, { "epoch": 2.1378666666666666, "grad_norm": 4.375921726226807, "learning_rate": 1.9451034482758617e-06, "loss": 0.1732, "step": 7950 }, { "epoch": 2.1382, "grad_norm": 4.465551376342773, "learning_rate": 1.9437241379310344e-06, "loss": 0.1294, "step": 7955 }, { "epoch": 2.138533333333333, "grad_norm": 2.9878158569335938, "learning_rate": 1.942344827586207e-06, "loss": 0.1417, "step": 7960 }, { "epoch": 2.1388666666666665, "grad_norm": 2.9558074474334717, "learning_rate": 1.9409655172413793e-06, "loss": 0.1158, "step": 7965 }, { "epoch": 2.1391999999999998, "grad_norm": 4.454432964324951, "learning_rate": 1.9395862068965515e-06, "loss": 0.1432, "step": 7970 }, { "epoch": 2.1395333333333335, "grad_norm": 4.049233436584473, "learning_rate": 1.938206896551724e-06, "loss": 0.1675, "step": 7975 }, { "epoch": 2.139866666666667, "grad_norm": 2.7268948554992676, "learning_rate": 1.9368275862068964e-06, "loss": 0.1455, "step": 7980 }, { "epoch": 2.1402, "grad_norm": 3.5670552253723145, "learning_rate": 1.935448275862069e-06, "loss": 0.1388, "step": 7985 }, { "epoch": 2.1405333333333334, "grad_norm": 3.5169382095336914, "learning_rate": 1.9340689655172413e-06, "loss": 0.1225, "step": 7990 }, { "epoch": 2.1408666666666667, "grad_norm": 3.916700601577759, "learning_rate": 1.9326896551724136e-06, "loss": 0.1767, "step": 7995 }, { "epoch": 2.1412, "grad_norm": 3.5488085746765137, "learning_rate": 1.9313103448275862e-06, "loss": 0.1728, "step": 8000 }, { "epoch": 2.1412, "eval_loss": 0.21526865661144257, "eval_runtime": 137.7459, "eval_samples_per_second": 4.356, "eval_steps_per_second": 1.089, "eval_wer": 11.271381159050293, "step": 8000 }, { "epoch": 2.1415333333333333, "grad_norm": 3.5232622623443604, "learning_rate": 1.9299310344827585e-06, "loss": 0.1272, "step": 8005 }, { "epoch": 2.1418666666666666, "grad_norm": 3.959883213043213, "learning_rate": 1.928551724137931e-06, "loss": 0.1514, "step": 8010 }, { "epoch": 2.1422, "grad_norm": 3.3533003330230713, "learning_rate": 1.9271724137931033e-06, "loss": 0.1217, "step": 8015 }, { "epoch": 2.142533333333333, "grad_norm": 3.159801721572876, "learning_rate": 1.9257931034482756e-06, "loss": 0.1368, "step": 8020 }, { "epoch": 2.1428666666666665, "grad_norm": 3.688117504119873, "learning_rate": 1.9244137931034482e-06, "loss": 0.1514, "step": 8025 }, { "epoch": 2.1432, "grad_norm": 3.9753034114837646, "learning_rate": 1.9230344827586205e-06, "loss": 0.1485, "step": 8030 }, { "epoch": 2.1435333333333335, "grad_norm": 4.067863464355469, "learning_rate": 1.921655172413793e-06, "loss": 0.1483, "step": 8035 }, { "epoch": 2.143866666666667, "grad_norm": 4.069934368133545, "learning_rate": 1.9202758620689654e-06, "loss": 0.16, "step": 8040 }, { "epoch": 2.1442, "grad_norm": 3.1546711921691895, "learning_rate": 1.9188965517241376e-06, "loss": 0.1588, "step": 8045 }, { "epoch": 2.1445333333333334, "grad_norm": 4.220521450042725, "learning_rate": 1.9175172413793103e-06, "loss": 0.164, "step": 8050 }, { "epoch": 2.1448666666666667, "grad_norm": 4.239305019378662, "learning_rate": 1.916137931034483e-06, "loss": 0.1268, "step": 8055 }, { "epoch": 2.1452, "grad_norm": 3.7235920429229736, "learning_rate": 1.914758620689655e-06, "loss": 0.1322, "step": 8060 }, { "epoch": 2.1455333333333333, "grad_norm": 3.906445026397705, "learning_rate": 1.9133793103448274e-06, "loss": 0.1687, "step": 8065 }, { "epoch": 2.1458666666666666, "grad_norm": 3.9240214824676514, "learning_rate": 1.9119999999999997e-06, "loss": 0.1482, "step": 8070 }, { "epoch": 2.1462, "grad_norm": 4.666675090789795, "learning_rate": 1.9106206896551723e-06, "loss": 0.1517, "step": 8075 }, { "epoch": 2.146533333333333, "grad_norm": 3.2189595699310303, "learning_rate": 1.909241379310345e-06, "loss": 0.1347, "step": 8080 }, { "epoch": 2.1468666666666665, "grad_norm": 4.857850551605225, "learning_rate": 1.907862068965517e-06, "loss": 0.2023, "step": 8085 }, { "epoch": 2.1471999999999998, "grad_norm": 3.833641529083252, "learning_rate": 1.9064827586206894e-06, "loss": 0.1481, "step": 8090 }, { "epoch": 2.1475333333333335, "grad_norm": 4.382359027862549, "learning_rate": 1.905103448275862e-06, "loss": 0.1679, "step": 8095 }, { "epoch": 2.147866666666667, "grad_norm": 4.568116664886475, "learning_rate": 1.9037241379310346e-06, "loss": 0.1789, "step": 8100 }, { "epoch": 2.1482, "grad_norm": 3.440861940383911, "learning_rate": 1.9023448275862068e-06, "loss": 0.1405, "step": 8105 }, { "epoch": 2.1485333333333334, "grad_norm": 3.7788281440734863, "learning_rate": 1.9009655172413792e-06, "loss": 0.1471, "step": 8110 }, { "epoch": 2.1488666666666667, "grad_norm": 4.138926029205322, "learning_rate": 1.8995862068965515e-06, "loss": 0.1607, "step": 8115 }, { "epoch": 2.1492, "grad_norm": 3.8638267517089844, "learning_rate": 1.898206896551724e-06, "loss": 0.1326, "step": 8120 }, { "epoch": 2.1495333333333333, "grad_norm": 5.205294609069824, "learning_rate": 1.8968275862068966e-06, "loss": 0.1521, "step": 8125 }, { "epoch": 2.1498666666666666, "grad_norm": 3.736191987991333, "learning_rate": 1.8954482758620688e-06, "loss": 0.123, "step": 8130 }, { "epoch": 2.1502, "grad_norm": 3.284804344177246, "learning_rate": 1.8940689655172413e-06, "loss": 0.1468, "step": 8135 }, { "epoch": 2.150533333333333, "grad_norm": 3.204585313796997, "learning_rate": 1.8926896551724137e-06, "loss": 0.1397, "step": 8140 }, { "epoch": 2.1508666666666665, "grad_norm": 4.732002258300781, "learning_rate": 1.8913103448275862e-06, "loss": 0.1869, "step": 8145 }, { "epoch": 2.1512000000000002, "grad_norm": 3.870253086090088, "learning_rate": 1.8899310344827586e-06, "loss": 0.153, "step": 8150 }, { "epoch": 2.1515333333333335, "grad_norm": 4.250088691711426, "learning_rate": 1.8885517241379309e-06, "loss": 0.159, "step": 8155 }, { "epoch": 2.151866666666667, "grad_norm": 4.497228622436523, "learning_rate": 1.8871724137931033e-06, "loss": 0.1825, "step": 8160 }, { "epoch": 2.1522, "grad_norm": 4.305934906005859, "learning_rate": 1.8857931034482758e-06, "loss": 0.1338, "step": 8165 }, { "epoch": 2.1525333333333334, "grad_norm": 6.173018932342529, "learning_rate": 1.8844137931034482e-06, "loss": 0.2208, "step": 8170 }, { "epoch": 2.1528666666666667, "grad_norm": 3.7534828186035156, "learning_rate": 1.8830344827586207e-06, "loss": 0.1466, "step": 8175 }, { "epoch": 2.1532, "grad_norm": 4.5661468505859375, "learning_rate": 1.881655172413793e-06, "loss": 0.1394, "step": 8180 }, { "epoch": 2.1535333333333333, "grad_norm": 3.2051525115966797, "learning_rate": 1.8802758620689653e-06, "loss": 0.1398, "step": 8185 }, { "epoch": 2.1538666666666666, "grad_norm": 4.009622573852539, "learning_rate": 1.8788965517241378e-06, "loss": 0.1279, "step": 8190 }, { "epoch": 2.1542, "grad_norm": 4.417429447174072, "learning_rate": 1.8775172413793102e-06, "loss": 0.1402, "step": 8195 }, { "epoch": 2.154533333333333, "grad_norm": 4.157866954803467, "learning_rate": 1.8761379310344827e-06, "loss": 0.1416, "step": 8200 }, { "epoch": 2.1548666666666665, "grad_norm": 5.456273555755615, "learning_rate": 1.8747586206896551e-06, "loss": 0.1774, "step": 8205 }, { "epoch": 2.1552, "grad_norm": 4.373351573944092, "learning_rate": 1.8733793103448274e-06, "loss": 0.1623, "step": 8210 }, { "epoch": 2.1555333333333335, "grad_norm": 3.606292486190796, "learning_rate": 1.872e-06, "loss": 0.1783, "step": 8215 }, { "epoch": 2.155866666666667, "grad_norm": 2.8683555126190186, "learning_rate": 1.8706206896551725e-06, "loss": 0.1456, "step": 8220 }, { "epoch": 2.1562, "grad_norm": 4.756180286407471, "learning_rate": 1.8692413793103447e-06, "loss": 0.1349, "step": 8225 }, { "epoch": 2.1565333333333334, "grad_norm": 3.5604751110076904, "learning_rate": 1.8678620689655172e-06, "loss": 0.1652, "step": 8230 }, { "epoch": 2.1568666666666667, "grad_norm": 3.298671245574951, "learning_rate": 1.8664827586206894e-06, "loss": 0.1558, "step": 8235 }, { "epoch": 2.1572, "grad_norm": 4.017250061035156, "learning_rate": 1.865103448275862e-06, "loss": 0.1834, "step": 8240 }, { "epoch": 2.1575333333333333, "grad_norm": 3.721139669418335, "learning_rate": 1.8637241379310345e-06, "loss": 0.1918, "step": 8245 }, { "epoch": 2.1578666666666666, "grad_norm": 5.082814693450928, "learning_rate": 1.8623448275862068e-06, "loss": 0.135, "step": 8250 }, { "epoch": 2.1582, "grad_norm": 3.383303642272949, "learning_rate": 1.8609655172413792e-06, "loss": 0.1382, "step": 8255 }, { "epoch": 2.158533333333333, "grad_norm": 4.598973274230957, "learning_rate": 1.8595862068965517e-06, "loss": 0.1357, "step": 8260 }, { "epoch": 2.1588666666666665, "grad_norm": 4.520269393920898, "learning_rate": 1.858206896551724e-06, "loss": 0.2124, "step": 8265 }, { "epoch": 2.1592000000000002, "grad_norm": 4.322984218597412, "learning_rate": 1.8568275862068965e-06, "loss": 0.177, "step": 8270 }, { "epoch": 2.1595333333333335, "grad_norm": 4.300741672515869, "learning_rate": 1.8554482758620688e-06, "loss": 0.1436, "step": 8275 }, { "epoch": 2.159866666666667, "grad_norm": 4.1086554527282715, "learning_rate": 1.8540689655172412e-06, "loss": 0.1482, "step": 8280 }, { "epoch": 2.1602, "grad_norm": 3.534214973449707, "learning_rate": 1.8526896551724137e-06, "loss": 0.1851, "step": 8285 }, { "epoch": 2.1605333333333334, "grad_norm": 3.127505302429199, "learning_rate": 1.8513103448275861e-06, "loss": 0.1541, "step": 8290 }, { "epoch": 2.1608666666666667, "grad_norm": 4.561563014984131, "learning_rate": 1.8499310344827586e-06, "loss": 0.1669, "step": 8295 }, { "epoch": 2.1612, "grad_norm": 3.6182634830474854, "learning_rate": 1.8485517241379308e-06, "loss": 0.1353, "step": 8300 }, { "epoch": 2.1615333333333333, "grad_norm": 3.6034393310546875, "learning_rate": 1.8471724137931033e-06, "loss": 0.1745, "step": 8305 }, { "epoch": 2.1618666666666666, "grad_norm": 3.932777166366577, "learning_rate": 1.845793103448276e-06, "loss": 0.1282, "step": 8310 }, { "epoch": 2.1622, "grad_norm": 3.576974391937256, "learning_rate": 1.8444137931034482e-06, "loss": 0.1404, "step": 8315 }, { "epoch": 2.162533333333333, "grad_norm": 4.214875221252441, "learning_rate": 1.8430344827586206e-06, "loss": 0.1537, "step": 8320 }, { "epoch": 2.1628666666666665, "grad_norm": 3.206268787384033, "learning_rate": 1.841655172413793e-06, "loss": 0.1335, "step": 8325 }, { "epoch": 2.1632, "grad_norm": 3.312103271484375, "learning_rate": 1.8402758620689653e-06, "loss": 0.1679, "step": 8330 }, { "epoch": 2.1635333333333335, "grad_norm": 3.4624552726745605, "learning_rate": 1.838896551724138e-06, "loss": 0.1672, "step": 8335 }, { "epoch": 2.163866666666667, "grad_norm": 4.053277969360352, "learning_rate": 1.8375172413793102e-06, "loss": 0.1398, "step": 8340 }, { "epoch": 2.1642, "grad_norm": 3.646374225616455, "learning_rate": 1.8361379310344826e-06, "loss": 0.1408, "step": 8345 }, { "epoch": 2.1645333333333334, "grad_norm": 4.11189603805542, "learning_rate": 1.834758620689655e-06, "loss": 0.1406, "step": 8350 }, { "epoch": 2.1648666666666667, "grad_norm": 3.126028299331665, "learning_rate": 1.8333793103448273e-06, "loss": 0.1719, "step": 8355 }, { "epoch": 2.1652, "grad_norm": 3.728790521621704, "learning_rate": 1.832e-06, "loss": 0.1563, "step": 8360 }, { "epoch": 2.1655333333333333, "grad_norm": 4.10999059677124, "learning_rate": 1.8306206896551724e-06, "loss": 0.1761, "step": 8365 }, { "epoch": 2.1658666666666666, "grad_norm": 3.48075270652771, "learning_rate": 1.8292413793103447e-06, "loss": 0.132, "step": 8370 }, { "epoch": 2.1662, "grad_norm": 3.1271069049835205, "learning_rate": 1.8278620689655171e-06, "loss": 0.1345, "step": 8375 }, { "epoch": 2.166533333333333, "grad_norm": 5.037559986114502, "learning_rate": 1.8264827586206896e-06, "loss": 0.1576, "step": 8380 }, { "epoch": 2.1668666666666665, "grad_norm": 4.991491794586182, "learning_rate": 1.825103448275862e-06, "loss": 0.1607, "step": 8385 }, { "epoch": 2.1672, "grad_norm": 3.7590858936309814, "learning_rate": 1.8237241379310345e-06, "loss": 0.1493, "step": 8390 }, { "epoch": 2.1675333333333335, "grad_norm": 4.343997001647949, "learning_rate": 1.8223448275862067e-06, "loss": 0.1619, "step": 8395 }, { "epoch": 2.167866666666667, "grad_norm": 4.275284290313721, "learning_rate": 1.8209655172413792e-06, "loss": 0.1566, "step": 8400 }, { "epoch": 2.1682, "grad_norm": 5.474055767059326, "learning_rate": 1.8195862068965518e-06, "loss": 0.1256, "step": 8405 }, { "epoch": 2.1685333333333334, "grad_norm": 4.446492671966553, "learning_rate": 1.818206896551724e-06, "loss": 0.1407, "step": 8410 }, { "epoch": 2.1688666666666667, "grad_norm": 3.7689285278320312, "learning_rate": 1.8168275862068965e-06, "loss": 0.1318, "step": 8415 }, { "epoch": 2.1692, "grad_norm": 3.66825008392334, "learning_rate": 1.8154482758620687e-06, "loss": 0.1496, "step": 8420 }, { "epoch": 2.1695333333333333, "grad_norm": 4.186960697174072, "learning_rate": 1.8140689655172412e-06, "loss": 0.1164, "step": 8425 }, { "epoch": 2.1698666666666666, "grad_norm": 2.956852912902832, "learning_rate": 1.8126896551724139e-06, "loss": 0.1262, "step": 8430 }, { "epoch": 2.1702, "grad_norm": 5.9926323890686035, "learning_rate": 1.811310344827586e-06, "loss": 0.1641, "step": 8435 }, { "epoch": 2.170533333333333, "grad_norm": 4.226884841918945, "learning_rate": 1.8099310344827585e-06, "loss": 0.1661, "step": 8440 }, { "epoch": 2.1708666666666665, "grad_norm": 3.088512897491455, "learning_rate": 1.808551724137931e-06, "loss": 0.1436, "step": 8445 }, { "epoch": 2.1712, "grad_norm": 4.03468656539917, "learning_rate": 1.8071724137931032e-06, "loss": 0.1315, "step": 8450 }, { "epoch": 2.1715333333333335, "grad_norm": 4.595294952392578, "learning_rate": 1.8057931034482759e-06, "loss": 0.1868, "step": 8455 }, { "epoch": 2.171866666666667, "grad_norm": 3.287555694580078, "learning_rate": 1.8044137931034481e-06, "loss": 0.1327, "step": 8460 }, { "epoch": 2.1722, "grad_norm": 3.081728219985962, "learning_rate": 1.8030344827586206e-06, "loss": 0.1141, "step": 8465 }, { "epoch": 2.1725333333333334, "grad_norm": 3.949039936065674, "learning_rate": 1.801655172413793e-06, "loss": 0.1544, "step": 8470 }, { "epoch": 2.1728666666666667, "grad_norm": 4.855032920837402, "learning_rate": 1.8002758620689655e-06, "loss": 0.19, "step": 8475 }, { "epoch": 2.1732, "grad_norm": 3.3504321575164795, "learning_rate": 1.798896551724138e-06, "loss": 0.1343, "step": 8480 }, { "epoch": 2.1735333333333333, "grad_norm": 3.221022129058838, "learning_rate": 1.7975172413793104e-06, "loss": 0.2011, "step": 8485 }, { "epoch": 2.1738666666666666, "grad_norm": 4.804887294769287, "learning_rate": 1.7961379310344826e-06, "loss": 0.1673, "step": 8490 }, { "epoch": 2.1742, "grad_norm": 3.5726826190948486, "learning_rate": 1.794758620689655e-06, "loss": 0.1542, "step": 8495 }, { "epoch": 2.174533333333333, "grad_norm": 3.9310481548309326, "learning_rate": 1.7933793103448275e-06, "loss": 0.15, "step": 8500 }, { "epoch": 2.1748666666666665, "grad_norm": 4.455894947052002, "learning_rate": 1.792e-06, "loss": 0.1275, "step": 8505 }, { "epoch": 2.1752, "grad_norm": 4.744019031524658, "learning_rate": 1.7906206896551724e-06, "loss": 0.17, "step": 8510 }, { "epoch": 2.1755333333333335, "grad_norm": 5.374943256378174, "learning_rate": 1.7892413793103446e-06, "loss": 0.1728, "step": 8515 }, { "epoch": 2.175866666666667, "grad_norm": 3.3343522548675537, "learning_rate": 1.787862068965517e-06, "loss": 0.1522, "step": 8520 }, { "epoch": 2.1762, "grad_norm": 3.9378371238708496, "learning_rate": 1.7864827586206897e-06, "loss": 0.1279, "step": 8525 }, { "epoch": 2.1765333333333334, "grad_norm": 3.869333028793335, "learning_rate": 1.785103448275862e-06, "loss": 0.1642, "step": 8530 }, { "epoch": 2.1768666666666667, "grad_norm": 4.777926445007324, "learning_rate": 1.7837241379310344e-06, "loss": 0.1321, "step": 8535 }, { "epoch": 2.1772, "grad_norm": 3.3414337635040283, "learning_rate": 1.7823448275862067e-06, "loss": 0.1357, "step": 8540 }, { "epoch": 2.1775333333333333, "grad_norm": 4.182128429412842, "learning_rate": 1.7809655172413793e-06, "loss": 0.1439, "step": 8545 }, { "epoch": 2.1778666666666666, "grad_norm": 4.353799343109131, "learning_rate": 1.7795862068965518e-06, "loss": 0.1125, "step": 8550 }, { "epoch": 2.1782, "grad_norm": 4.375477313995361, "learning_rate": 1.778206896551724e-06, "loss": 0.164, "step": 8555 }, { "epoch": 2.178533333333333, "grad_norm": 3.4945335388183594, "learning_rate": 1.7768275862068965e-06, "loss": 0.1544, "step": 8560 }, { "epoch": 2.1788666666666665, "grad_norm": 4.1269354820251465, "learning_rate": 1.7754482758620687e-06, "loss": 0.1422, "step": 8565 }, { "epoch": 2.1792, "grad_norm": 3.8401618003845215, "learning_rate": 1.7740689655172414e-06, "loss": 0.1304, "step": 8570 }, { "epoch": 2.1795333333333335, "grad_norm": 3.9661614894866943, "learning_rate": 1.7726896551724138e-06, "loss": 0.1666, "step": 8575 }, { "epoch": 2.179866666666667, "grad_norm": 3.4680862426757812, "learning_rate": 1.771310344827586e-06, "loss": 0.1182, "step": 8580 }, { "epoch": 2.1802, "grad_norm": 2.7374706268310547, "learning_rate": 1.7699310344827585e-06, "loss": 0.1205, "step": 8585 }, { "epoch": 2.1805333333333334, "grad_norm": 3.9679887294769287, "learning_rate": 1.768551724137931e-06, "loss": 0.1152, "step": 8590 }, { "epoch": 2.1808666666666667, "grad_norm": 3.9719510078430176, "learning_rate": 1.7671724137931034e-06, "loss": 0.1602, "step": 8595 }, { "epoch": 2.1812, "grad_norm": 5.028110504150391, "learning_rate": 1.7657931034482758e-06, "loss": 0.2604, "step": 8600 }, { "epoch": 2.1815333333333333, "grad_norm": 3.4604058265686035, "learning_rate": 1.764413793103448e-06, "loss": 0.1524, "step": 8605 }, { "epoch": 2.1818666666666666, "grad_norm": 3.3679041862487793, "learning_rate": 1.7630344827586205e-06, "loss": 0.1114, "step": 8610 }, { "epoch": 2.1822, "grad_norm": 2.889110565185547, "learning_rate": 1.7616551724137932e-06, "loss": 0.1353, "step": 8615 }, { "epoch": 2.182533333333333, "grad_norm": 4.661477565765381, "learning_rate": 1.7602758620689654e-06, "loss": 0.1558, "step": 8620 }, { "epoch": 2.1828666666666665, "grad_norm": 3.864149570465088, "learning_rate": 1.7588965517241379e-06, "loss": 0.1392, "step": 8625 }, { "epoch": 2.1832, "grad_norm": 3.6767807006835938, "learning_rate": 1.7575172413793103e-06, "loss": 0.1464, "step": 8630 }, { "epoch": 2.183533333333333, "grad_norm": 4.2633891105651855, "learning_rate": 1.7561379310344826e-06, "loss": 0.1668, "step": 8635 }, { "epoch": 2.183866666666667, "grad_norm": 4.703251838684082, "learning_rate": 1.7547586206896552e-06, "loss": 0.1739, "step": 8640 }, { "epoch": 2.1842, "grad_norm": 3.5388970375061035, "learning_rate": 1.7533793103448275e-06, "loss": 0.1704, "step": 8645 }, { "epoch": 2.1845333333333334, "grad_norm": 3.8639373779296875, "learning_rate": 1.752e-06, "loss": 0.1274, "step": 8650 }, { "epoch": 2.1848666666666667, "grad_norm": 3.1938366889953613, "learning_rate": 1.7506206896551724e-06, "loss": 0.112, "step": 8655 }, { "epoch": 2.1852, "grad_norm": 4.140189170837402, "learning_rate": 1.7492413793103446e-06, "loss": 0.1369, "step": 8660 }, { "epoch": 2.1855333333333333, "grad_norm": 3.9703152179718018, "learning_rate": 1.7478620689655173e-06, "loss": 0.1294, "step": 8665 }, { "epoch": 2.1858666666666666, "grad_norm": 2.8397016525268555, "learning_rate": 1.7464827586206897e-06, "loss": 0.1847, "step": 8670 }, { "epoch": 2.1862, "grad_norm": 4.075649261474609, "learning_rate": 1.745103448275862e-06, "loss": 0.1625, "step": 8675 }, { "epoch": 2.186533333333333, "grad_norm": 3.020195484161377, "learning_rate": 1.7437241379310344e-06, "loss": 0.1815, "step": 8680 }, { "epoch": 2.1868666666666665, "grad_norm": 4.173330307006836, "learning_rate": 1.7423448275862066e-06, "loss": 0.1307, "step": 8685 }, { "epoch": 2.1872, "grad_norm": 3.982363224029541, "learning_rate": 1.7409655172413793e-06, "loss": 0.1613, "step": 8690 }, { "epoch": 2.1875333333333336, "grad_norm": 4.021744728088379, "learning_rate": 1.7395862068965517e-06, "loss": 0.1755, "step": 8695 }, { "epoch": 2.187866666666667, "grad_norm": 4.122310161590576, "learning_rate": 1.738206896551724e-06, "loss": 0.2093, "step": 8700 }, { "epoch": 2.1882, "grad_norm": 3.324096441268921, "learning_rate": 1.7368275862068964e-06, "loss": 0.1626, "step": 8705 }, { "epoch": 2.1885333333333334, "grad_norm": 3.9189541339874268, "learning_rate": 1.735448275862069e-06, "loss": 0.1557, "step": 8710 }, { "epoch": 2.1888666666666667, "grad_norm": 4.058740615844727, "learning_rate": 1.7340689655172413e-06, "loss": 0.2072, "step": 8715 }, { "epoch": 2.1892, "grad_norm": 4.0295610427856445, "learning_rate": 1.7326896551724138e-06, "loss": 0.1381, "step": 8720 }, { "epoch": 2.1895333333333333, "grad_norm": 3.0452046394348145, "learning_rate": 1.731310344827586e-06, "loss": 0.193, "step": 8725 }, { "epoch": 2.1898666666666666, "grad_norm": 3.2471485137939453, "learning_rate": 1.7299310344827585e-06, "loss": 0.1535, "step": 8730 }, { "epoch": 2.1902, "grad_norm": 3.27593731880188, "learning_rate": 1.7285517241379311e-06, "loss": 0.1579, "step": 8735 }, { "epoch": 2.190533333333333, "grad_norm": 2.973141670227051, "learning_rate": 1.7271724137931034e-06, "loss": 0.1329, "step": 8740 }, { "epoch": 2.1908666666666665, "grad_norm": 3.8436200618743896, "learning_rate": 1.7257931034482758e-06, "loss": 0.1604, "step": 8745 }, { "epoch": 2.1912, "grad_norm": 4.40897798538208, "learning_rate": 1.724413793103448e-06, "loss": 0.1805, "step": 8750 }, { "epoch": 2.191533333333333, "grad_norm": 4.241269588470459, "learning_rate": 1.7230344827586205e-06, "loss": 0.1424, "step": 8755 }, { "epoch": 2.191866666666667, "grad_norm": 3.716587781906128, "learning_rate": 1.7216551724137932e-06, "loss": 0.1395, "step": 8760 }, { "epoch": 2.1922, "grad_norm": 4.128037929534912, "learning_rate": 1.7202758620689654e-06, "loss": 0.129, "step": 8765 }, { "epoch": 2.1925333333333334, "grad_norm": 3.789893388748169, "learning_rate": 1.7188965517241378e-06, "loss": 0.1195, "step": 8770 }, { "epoch": 2.1928666666666667, "grad_norm": 4.065726280212402, "learning_rate": 1.7175172413793103e-06, "loss": 0.1795, "step": 8775 }, { "epoch": 2.1932, "grad_norm": 3.332552671432495, "learning_rate": 1.7161379310344827e-06, "loss": 0.1542, "step": 8780 }, { "epoch": 2.1935333333333333, "grad_norm": 3.5648553371429443, "learning_rate": 1.7147586206896552e-06, "loss": 0.1336, "step": 8785 }, { "epoch": 2.1938666666666666, "grad_norm": 2.74189829826355, "learning_rate": 1.7133793103448274e-06, "loss": 0.1145, "step": 8790 }, { "epoch": 2.1942, "grad_norm": 6.111897945404053, "learning_rate": 1.7119999999999999e-06, "loss": 0.2038, "step": 8795 }, { "epoch": 2.1945333333333332, "grad_norm": 4.204073905944824, "learning_rate": 1.7106206896551723e-06, "loss": 0.1419, "step": 8800 }, { "epoch": 2.1948666666666665, "grad_norm": 3.7847278118133545, "learning_rate": 1.7092413793103448e-06, "loss": 0.1568, "step": 8805 }, { "epoch": 2.1952, "grad_norm": 3.485211133956909, "learning_rate": 1.7078620689655172e-06, "loss": 0.1143, "step": 8810 }, { "epoch": 2.1955333333333336, "grad_norm": 3.633013963699341, "learning_rate": 1.7064827586206897e-06, "loss": 0.1652, "step": 8815 }, { "epoch": 2.195866666666667, "grad_norm": 4.063668727874756, "learning_rate": 1.705103448275862e-06, "loss": 0.1298, "step": 8820 }, { "epoch": 3.0001333333333333, "grad_norm": 2.539724349975586, "learning_rate": 1.7037241379310344e-06, "loss": 0.1426, "step": 8825 }, { "epoch": 3.0004666666666666, "grad_norm": 3.1480917930603027, "learning_rate": 1.7023448275862068e-06, "loss": 0.1267, "step": 8830 }, { "epoch": 3.0008, "grad_norm": 2.630356550216675, "learning_rate": 1.7009655172413793e-06, "loss": 0.1082, "step": 8835 }, { "epoch": 3.001133333333333, "grad_norm": 2.65017032623291, "learning_rate": 1.6995862068965517e-06, "loss": 0.1201, "step": 8840 }, { "epoch": 3.0014666666666665, "grad_norm": 3.7857720851898193, "learning_rate": 1.698206896551724e-06, "loss": 0.1071, "step": 8845 }, { "epoch": 3.0018, "grad_norm": 2.6381359100341797, "learning_rate": 1.6968275862068964e-06, "loss": 0.1171, "step": 8850 }, { "epoch": 3.0021333333333335, "grad_norm": 3.8909502029418945, "learning_rate": 1.695448275862069e-06, "loss": 0.1487, "step": 8855 }, { "epoch": 3.002466666666667, "grad_norm": 2.907451868057251, "learning_rate": 1.6940689655172413e-06, "loss": 0.0999, "step": 8860 }, { "epoch": 3.0028, "grad_norm": 2.5638723373413086, "learning_rate": 1.6926896551724137e-06, "loss": 0.0943, "step": 8865 }, { "epoch": 3.0031333333333334, "grad_norm": 3.138784408569336, "learning_rate": 1.691310344827586e-06, "loss": 0.1472, "step": 8870 }, { "epoch": 3.0034666666666667, "grad_norm": 3.014455556869507, "learning_rate": 1.6899310344827586e-06, "loss": 0.099, "step": 8875 }, { "epoch": 3.0038, "grad_norm": 3.37086820602417, "learning_rate": 1.688551724137931e-06, "loss": 0.1157, "step": 8880 }, { "epoch": 3.0041333333333333, "grad_norm": 3.136986255645752, "learning_rate": 1.6871724137931033e-06, "loss": 0.1039, "step": 8885 }, { "epoch": 3.0044666666666666, "grad_norm": 4.7203216552734375, "learning_rate": 1.6857931034482758e-06, "loss": 0.1345, "step": 8890 }, { "epoch": 3.0048, "grad_norm": 3.3336660861968994, "learning_rate": 1.6844137931034482e-06, "loss": 0.1162, "step": 8895 }, { "epoch": 3.005133333333333, "grad_norm": 3.5961718559265137, "learning_rate": 1.6830344827586207e-06, "loss": 0.1302, "step": 8900 }, { "epoch": 3.0054666666666665, "grad_norm": 3.593472957611084, "learning_rate": 1.6816551724137931e-06, "loss": 0.1505, "step": 8905 }, { "epoch": 3.0058, "grad_norm": 4.182474136352539, "learning_rate": 1.6802758620689653e-06, "loss": 0.1184, "step": 8910 }, { "epoch": 3.0061333333333335, "grad_norm": 3.40610671043396, "learning_rate": 1.6788965517241378e-06, "loss": 0.0938, "step": 8915 }, { "epoch": 3.006466666666667, "grad_norm": 3.2819924354553223, "learning_rate": 1.6775172413793102e-06, "loss": 0.1489, "step": 8920 }, { "epoch": 3.0068, "grad_norm": 3.2076609134674072, "learning_rate": 1.6761379310344827e-06, "loss": 0.1239, "step": 8925 }, { "epoch": 3.0071333333333334, "grad_norm": 4.770686149597168, "learning_rate": 1.6747586206896551e-06, "loss": 0.1569, "step": 8930 }, { "epoch": 3.0074666666666667, "grad_norm": 3.113126516342163, "learning_rate": 1.6733793103448276e-06, "loss": 0.1053, "step": 8935 }, { "epoch": 3.0078, "grad_norm": 4.634932994842529, "learning_rate": 1.6719999999999998e-06, "loss": 0.1118, "step": 8940 }, { "epoch": 3.0081333333333333, "grad_norm": 3.3963279724121094, "learning_rate": 1.6706206896551725e-06, "loss": 0.1306, "step": 8945 }, { "epoch": 3.0084666666666666, "grad_norm": 3.59763503074646, "learning_rate": 1.6692413793103447e-06, "loss": 0.1204, "step": 8950 }, { "epoch": 3.0088, "grad_norm": 3.581852436065674, "learning_rate": 1.6678620689655172e-06, "loss": 0.0992, "step": 8955 }, { "epoch": 3.009133333333333, "grad_norm": 3.3116209506988525, "learning_rate": 1.6664827586206896e-06, "loss": 0.1131, "step": 8960 }, { "epoch": 3.0094666666666665, "grad_norm": 4.672176837921143, "learning_rate": 1.6651034482758619e-06, "loss": 0.1365, "step": 8965 }, { "epoch": 3.0098, "grad_norm": 3.792673110961914, "learning_rate": 1.6637241379310345e-06, "loss": 0.1698, "step": 8970 }, { "epoch": 3.0101333333333335, "grad_norm": 3.4112062454223633, "learning_rate": 1.6623448275862068e-06, "loss": 0.1381, "step": 8975 }, { "epoch": 3.010466666666667, "grad_norm": 4.230578422546387, "learning_rate": 1.6609655172413792e-06, "loss": 0.1487, "step": 8980 }, { "epoch": 3.0108, "grad_norm": 5.316370964050293, "learning_rate": 1.6595862068965517e-06, "loss": 0.115, "step": 8985 }, { "epoch": 3.0111333333333334, "grad_norm": 3.447941303253174, "learning_rate": 1.658206896551724e-06, "loss": 0.1094, "step": 8990 }, { "epoch": 3.0114666666666667, "grad_norm": 3.4434168338775635, "learning_rate": 1.6568275862068966e-06, "loss": 0.1602, "step": 8995 }, { "epoch": 3.0118, "grad_norm": 4.347789764404297, "learning_rate": 1.655448275862069e-06, "loss": 0.1574, "step": 9000 }, { "epoch": 3.0118, "eval_loss": 0.21846872568130493, "eval_runtime": 137.2533, "eval_samples_per_second": 4.371, "eval_steps_per_second": 1.093, "eval_wer": 11.169262190451876, "step": 9000 }, { "epoch": 3.0121333333333333, "grad_norm": 4.629955291748047, "learning_rate": 1.6540689655172412e-06, "loss": 0.1379, "step": 9005 }, { "epoch": 3.0124666666666666, "grad_norm": 2.9406256675720215, "learning_rate": 1.6526896551724137e-06, "loss": 0.1228, "step": 9010 }, { "epoch": 3.0128, "grad_norm": 3.049663782119751, "learning_rate": 1.651310344827586e-06, "loss": 0.1293, "step": 9015 }, { "epoch": 3.013133333333333, "grad_norm": 3.150233507156372, "learning_rate": 1.6499310344827586e-06, "loss": 0.1262, "step": 9020 }, { "epoch": 3.0134666666666665, "grad_norm": 3.872096300125122, "learning_rate": 1.648551724137931e-06, "loss": 0.1841, "step": 9025 }, { "epoch": 3.0138, "grad_norm": 3.682234048843384, "learning_rate": 1.6471724137931033e-06, "loss": 0.1454, "step": 9030 }, { "epoch": 3.0141333333333336, "grad_norm": 2.8203773498535156, "learning_rate": 1.6457931034482757e-06, "loss": 0.1442, "step": 9035 }, { "epoch": 3.014466666666667, "grad_norm": 3.316957712173462, "learning_rate": 1.6444137931034484e-06, "loss": 0.0985, "step": 9040 }, { "epoch": 3.0148, "grad_norm": 3.019538402557373, "learning_rate": 1.6430344827586206e-06, "loss": 0.0923, "step": 9045 }, { "epoch": 3.0151333333333334, "grad_norm": 3.5272879600524902, "learning_rate": 1.641655172413793e-06, "loss": 0.103, "step": 9050 }, { "epoch": 3.0154666666666667, "grad_norm": 3.8035950660705566, "learning_rate": 1.6402758620689653e-06, "loss": 0.0966, "step": 9055 }, { "epoch": 3.0158, "grad_norm": 2.990640640258789, "learning_rate": 1.6388965517241378e-06, "loss": 0.0944, "step": 9060 }, { "epoch": 3.0161333333333333, "grad_norm": 3.5581140518188477, "learning_rate": 1.6375172413793104e-06, "loss": 0.1009, "step": 9065 }, { "epoch": 3.0164666666666666, "grad_norm": 3.0962257385253906, "learning_rate": 1.6361379310344827e-06, "loss": 0.1072, "step": 9070 }, { "epoch": 3.0168, "grad_norm": 4.13941764831543, "learning_rate": 1.634758620689655e-06, "loss": 0.1105, "step": 9075 }, { "epoch": 3.0171333333333332, "grad_norm": 3.4292047023773193, "learning_rate": 1.6333793103448276e-06, "loss": 0.0997, "step": 9080 }, { "epoch": 3.0174666666666665, "grad_norm": 4.204373359680176, "learning_rate": 1.6319999999999998e-06, "loss": 0.1125, "step": 9085 }, { "epoch": 3.0178, "grad_norm": 3.8537063598632812, "learning_rate": 1.6306206896551725e-06, "loss": 0.1583, "step": 9090 }, { "epoch": 3.018133333333333, "grad_norm": 3.4400527477264404, "learning_rate": 1.6292413793103447e-06, "loss": 0.1638, "step": 9095 }, { "epoch": 3.018466666666667, "grad_norm": 4.959253787994385, "learning_rate": 1.6278620689655171e-06, "loss": 0.1298, "step": 9100 }, { "epoch": 3.0188, "grad_norm": 3.712973117828369, "learning_rate": 1.6264827586206896e-06, "loss": 0.1006, "step": 9105 }, { "epoch": 3.0191333333333334, "grad_norm": 4.025108814239502, "learning_rate": 1.625103448275862e-06, "loss": 0.1476, "step": 9110 }, { "epoch": 3.0194666666666667, "grad_norm": 4.32798957824707, "learning_rate": 1.6237241379310345e-06, "loss": 0.1014, "step": 9115 }, { "epoch": 3.0198, "grad_norm": 2.9364922046661377, "learning_rate": 1.622344827586207e-06, "loss": 0.123, "step": 9120 }, { "epoch": 3.0201333333333333, "grad_norm": 4.004990577697754, "learning_rate": 1.6209655172413792e-06, "loss": 0.0987, "step": 9125 }, { "epoch": 3.0204666666666666, "grad_norm": 4.291645050048828, "learning_rate": 1.6195862068965516e-06, "loss": 0.1219, "step": 9130 }, { "epoch": 3.0208, "grad_norm": 3.9014573097229004, "learning_rate": 1.618206896551724e-06, "loss": 0.1313, "step": 9135 }, { "epoch": 3.0211333333333332, "grad_norm": 3.630902051925659, "learning_rate": 1.6168275862068965e-06, "loss": 0.1452, "step": 9140 }, { "epoch": 3.0214666666666665, "grad_norm": 3.670945167541504, "learning_rate": 1.615448275862069e-06, "loss": 0.1356, "step": 9145 }, { "epoch": 3.0218, "grad_norm": 4.48456335067749, "learning_rate": 1.6140689655172412e-06, "loss": 0.1451, "step": 9150 }, { "epoch": 3.022133333333333, "grad_norm": 2.9850361347198486, "learning_rate": 1.6126896551724137e-06, "loss": 0.0971, "step": 9155 }, { "epoch": 3.022466666666667, "grad_norm": 3.8875746726989746, "learning_rate": 1.6113103448275863e-06, "loss": 0.1032, "step": 9160 }, { "epoch": 3.0228, "grad_norm": 4.1555047035217285, "learning_rate": 1.6099310344827585e-06, "loss": 0.1318, "step": 9165 }, { "epoch": 3.0231333333333335, "grad_norm": 3.7684998512268066, "learning_rate": 1.608551724137931e-06, "loss": 0.1098, "step": 9170 }, { "epoch": 3.0234666666666667, "grad_norm": 3.7158780097961426, "learning_rate": 1.6071724137931032e-06, "loss": 0.1293, "step": 9175 }, { "epoch": 3.0238, "grad_norm": 2.7922279834747314, "learning_rate": 1.605793103448276e-06, "loss": 0.1009, "step": 9180 }, { "epoch": 3.0241333333333333, "grad_norm": 3.8994603157043457, "learning_rate": 1.6044137931034483e-06, "loss": 0.0957, "step": 9185 }, { "epoch": 3.0244666666666666, "grad_norm": 3.6409683227539062, "learning_rate": 1.6030344827586206e-06, "loss": 0.1296, "step": 9190 }, { "epoch": 3.0248, "grad_norm": 3.3072190284729004, "learning_rate": 1.601655172413793e-06, "loss": 0.1199, "step": 9195 }, { "epoch": 3.0251333333333332, "grad_norm": 3.7103517055511475, "learning_rate": 1.6002758620689653e-06, "loss": 0.1251, "step": 9200 }, { "epoch": 3.0254666666666665, "grad_norm": 3.9387073516845703, "learning_rate": 1.598896551724138e-06, "loss": 0.1474, "step": 9205 }, { "epoch": 3.0258, "grad_norm": 3.7062556743621826, "learning_rate": 1.5975172413793104e-06, "loss": 0.1192, "step": 9210 }, { "epoch": 3.026133333333333, "grad_norm": 5.077581405639648, "learning_rate": 1.5961379310344826e-06, "loss": 0.1502, "step": 9215 }, { "epoch": 3.026466666666667, "grad_norm": 3.8413007259368896, "learning_rate": 1.594758620689655e-06, "loss": 0.1461, "step": 9220 }, { "epoch": 3.0268, "grad_norm": 3.794663906097412, "learning_rate": 1.5933793103448275e-06, "loss": 0.135, "step": 9225 }, { "epoch": 3.0271333333333335, "grad_norm": 4.478463649749756, "learning_rate": 1.592e-06, "loss": 0.1158, "step": 9230 }, { "epoch": 3.0274666666666668, "grad_norm": 3.3673126697540283, "learning_rate": 1.5906206896551724e-06, "loss": 0.1139, "step": 9235 }, { "epoch": 3.0278, "grad_norm": 3.524531602859497, "learning_rate": 1.5892413793103446e-06, "loss": 0.1568, "step": 9240 }, { "epoch": 3.0281333333333333, "grad_norm": 4.0221638679504395, "learning_rate": 1.587862068965517e-06, "loss": 0.0987, "step": 9245 }, { "epoch": 3.0284666666666666, "grad_norm": 2.6176412105560303, "learning_rate": 1.5864827586206895e-06, "loss": 0.178, "step": 9250 }, { "epoch": 3.0288, "grad_norm": 3.5416202545166016, "learning_rate": 1.585103448275862e-06, "loss": 0.1024, "step": 9255 }, { "epoch": 3.0291333333333332, "grad_norm": 3.216890335083008, "learning_rate": 1.5837241379310344e-06, "loss": 0.1159, "step": 9260 }, { "epoch": 3.0294666666666665, "grad_norm": 3.4409103393554688, "learning_rate": 1.5823448275862069e-06, "loss": 0.1258, "step": 9265 }, { "epoch": 3.0298, "grad_norm": 3.538853168487549, "learning_rate": 1.5809655172413791e-06, "loss": 0.1166, "step": 9270 }, { "epoch": 3.030133333333333, "grad_norm": 4.390598297119141, "learning_rate": 1.5795862068965518e-06, "loss": 0.1306, "step": 9275 }, { "epoch": 3.030466666666667, "grad_norm": 3.76890230178833, "learning_rate": 1.578206896551724e-06, "loss": 0.1081, "step": 9280 }, { "epoch": 3.0308, "grad_norm": 2.9830398559570312, "learning_rate": 1.5768275862068965e-06, "loss": 0.1488, "step": 9285 }, { "epoch": 3.0311333333333335, "grad_norm": 2.948573589324951, "learning_rate": 1.575448275862069e-06, "loss": 0.1535, "step": 9290 }, { "epoch": 3.0314666666666668, "grad_norm": 3.2220051288604736, "learning_rate": 1.5740689655172412e-06, "loss": 0.0981, "step": 9295 }, { "epoch": 3.0318, "grad_norm": 2.9556524753570557, "learning_rate": 1.5726896551724138e-06, "loss": 0.107, "step": 9300 }, { "epoch": 3.0321333333333333, "grad_norm": 3.7836482524871826, "learning_rate": 1.5713103448275863e-06, "loss": 0.1021, "step": 9305 }, { "epoch": 3.0324666666666666, "grad_norm": 4.98045015335083, "learning_rate": 1.5699310344827585e-06, "loss": 0.1473, "step": 9310 }, { "epoch": 3.0328, "grad_norm": 3.7003581523895264, "learning_rate": 1.568551724137931e-06, "loss": 0.1, "step": 9315 }, { "epoch": 3.0331333333333332, "grad_norm": 3.3061602115631104, "learning_rate": 1.5671724137931032e-06, "loss": 0.1711, "step": 9320 }, { "epoch": 3.0334666666666665, "grad_norm": 3.595574140548706, "learning_rate": 1.5657931034482759e-06, "loss": 0.0951, "step": 9325 }, { "epoch": 3.0338, "grad_norm": 3.2724099159240723, "learning_rate": 1.5644137931034483e-06, "loss": 0.1288, "step": 9330 }, { "epoch": 3.034133333333333, "grad_norm": 3.070297956466675, "learning_rate": 1.5630344827586205e-06, "loss": 0.104, "step": 9335 }, { "epoch": 3.034466666666667, "grad_norm": 2.6131012439727783, "learning_rate": 1.561655172413793e-06, "loss": 0.1194, "step": 9340 }, { "epoch": 3.0348, "grad_norm": 3.4743731021881104, "learning_rate": 1.5602758620689657e-06, "loss": 0.108, "step": 9345 }, { "epoch": 3.0351333333333335, "grad_norm": 3.9024970531463623, "learning_rate": 1.5588965517241379e-06, "loss": 0.1121, "step": 9350 }, { "epoch": 3.0354666666666668, "grad_norm": 3.286496639251709, "learning_rate": 1.5575172413793103e-06, "loss": 0.1236, "step": 9355 }, { "epoch": 3.0358, "grad_norm": 3.407349109649658, "learning_rate": 1.5561379310344826e-06, "loss": 0.1252, "step": 9360 }, { "epoch": 3.0361333333333334, "grad_norm": 2.8448264598846436, "learning_rate": 1.554758620689655e-06, "loss": 0.1137, "step": 9365 }, { "epoch": 3.0364666666666666, "grad_norm": 3.4842593669891357, "learning_rate": 1.5533793103448277e-06, "loss": 0.1318, "step": 9370 }, { "epoch": 3.0368, "grad_norm": 3.5775935649871826, "learning_rate": 1.552e-06, "loss": 0.1709, "step": 9375 }, { "epoch": 3.0371333333333332, "grad_norm": 3.455056667327881, "learning_rate": 1.5506206896551724e-06, "loss": 0.1124, "step": 9380 }, { "epoch": 3.0374666666666665, "grad_norm": 3.249504327774048, "learning_rate": 1.5492413793103446e-06, "loss": 0.1136, "step": 9385 }, { "epoch": 3.0378, "grad_norm": 3.305485725402832, "learning_rate": 1.547862068965517e-06, "loss": 0.1115, "step": 9390 }, { "epoch": 3.038133333333333, "grad_norm": 4.278693675994873, "learning_rate": 1.5464827586206897e-06, "loss": 0.1098, "step": 9395 }, { "epoch": 3.038466666666667, "grad_norm": 3.5658819675445557, "learning_rate": 1.545103448275862e-06, "loss": 0.1377, "step": 9400 }, { "epoch": 3.0388, "grad_norm": 4.900520324707031, "learning_rate": 1.5437241379310344e-06, "loss": 0.1896, "step": 9405 }, { "epoch": 3.0391333333333335, "grad_norm": 3.2976443767547607, "learning_rate": 1.5423448275862069e-06, "loss": 0.0946, "step": 9410 }, { "epoch": 3.0394666666666668, "grad_norm": 3.0675580501556396, "learning_rate": 1.540965517241379e-06, "loss": 0.1338, "step": 9415 }, { "epoch": 3.0398, "grad_norm": 4.276395320892334, "learning_rate": 1.5395862068965517e-06, "loss": 0.1532, "step": 9420 }, { "epoch": 3.0401333333333334, "grad_norm": 4.125718116760254, "learning_rate": 1.538206896551724e-06, "loss": 0.1116, "step": 9425 }, { "epoch": 3.0404666666666667, "grad_norm": 3.7554707527160645, "learning_rate": 1.5368275862068964e-06, "loss": 0.1458, "step": 9430 }, { "epoch": 3.0408, "grad_norm": 3.5874321460723877, "learning_rate": 1.5354482758620689e-06, "loss": 0.1216, "step": 9435 }, { "epoch": 3.0411333333333332, "grad_norm": 3.19573712348938, "learning_rate": 1.5340689655172413e-06, "loss": 0.0801, "step": 9440 }, { "epoch": 3.0414666666666665, "grad_norm": 3.8198704719543457, "learning_rate": 1.5326896551724138e-06, "loss": 0.1825, "step": 9445 }, { "epoch": 3.0418, "grad_norm": 3.6654012203216553, "learning_rate": 1.5313103448275862e-06, "loss": 0.1006, "step": 9450 }, { "epoch": 3.042133333333333, "grad_norm": 3.8197760581970215, "learning_rate": 1.5299310344827585e-06, "loss": 0.1144, "step": 9455 }, { "epoch": 3.042466666666667, "grad_norm": 3.896749496459961, "learning_rate": 1.528551724137931e-06, "loss": 0.0974, "step": 9460 }, { "epoch": 3.0428, "grad_norm": 4.4020094871521, "learning_rate": 1.5271724137931034e-06, "loss": 0.1439, "step": 9465 }, { "epoch": 3.0431333333333335, "grad_norm": 4.44556999206543, "learning_rate": 1.5257931034482758e-06, "loss": 0.1212, "step": 9470 }, { "epoch": 3.0434666666666668, "grad_norm": 4.154641151428223, "learning_rate": 1.5244137931034483e-06, "loss": 0.1355, "step": 9475 }, { "epoch": 3.0438, "grad_norm": 3.2818968296051025, "learning_rate": 1.5230344827586205e-06, "loss": 0.1138, "step": 9480 }, { "epoch": 3.0441333333333334, "grad_norm": 3.9070241451263428, "learning_rate": 1.521655172413793e-06, "loss": 0.0923, "step": 9485 }, { "epoch": 3.0444666666666667, "grad_norm": 4.5131330490112305, "learning_rate": 1.5202758620689656e-06, "loss": 0.1586, "step": 9490 }, { "epoch": 3.0448, "grad_norm": 3.2859296798706055, "learning_rate": 1.5188965517241378e-06, "loss": 0.1002, "step": 9495 }, { "epoch": 3.0451333333333332, "grad_norm": 3.572122812271118, "learning_rate": 1.5175172413793103e-06, "loss": 0.101, "step": 9500 }, { "epoch": 3.0454666666666665, "grad_norm": 3.683112859725952, "learning_rate": 1.5161379310344825e-06, "loss": 0.1152, "step": 9505 }, { "epoch": 3.0458, "grad_norm": 3.89717173576355, "learning_rate": 1.5147586206896552e-06, "loss": 0.1109, "step": 9510 }, { "epoch": 3.046133333333333, "grad_norm": 3.888115882873535, "learning_rate": 1.5133793103448276e-06, "loss": 0.1373, "step": 9515 }, { "epoch": 3.046466666666667, "grad_norm": 3.9829416275024414, "learning_rate": 1.5119999999999999e-06, "loss": 0.1088, "step": 9520 }, { "epoch": 3.0468, "grad_norm": 3.8838016986846924, "learning_rate": 1.5106206896551723e-06, "loss": 0.1375, "step": 9525 }, { "epoch": 3.0471333333333335, "grad_norm": 3.7164580821990967, "learning_rate": 1.5092413793103448e-06, "loss": 0.106, "step": 9530 }, { "epoch": 3.0474666666666668, "grad_norm": 4.986276626586914, "learning_rate": 1.5078620689655172e-06, "loss": 0.1528, "step": 9535 }, { "epoch": 3.0478, "grad_norm": 3.253887891769409, "learning_rate": 1.5064827586206897e-06, "loss": 0.141, "step": 9540 }, { "epoch": 3.0481333333333334, "grad_norm": 3.3866772651672363, "learning_rate": 1.505103448275862e-06, "loss": 0.0878, "step": 9545 }, { "epoch": 3.0484666666666667, "grad_norm": 3.6049654483795166, "learning_rate": 1.5037241379310344e-06, "loss": 0.1425, "step": 9550 }, { "epoch": 3.0488, "grad_norm": 3.2754223346710205, "learning_rate": 1.5023448275862068e-06, "loss": 0.0803, "step": 9555 }, { "epoch": 3.0491333333333333, "grad_norm": 3.4710190296173096, "learning_rate": 1.5009655172413793e-06, "loss": 0.1079, "step": 9560 }, { "epoch": 3.0494666666666665, "grad_norm": 3.296415328979492, "learning_rate": 1.4995862068965517e-06, "loss": 0.1512, "step": 9565 }, { "epoch": 3.0498, "grad_norm": 3.700373649597168, "learning_rate": 1.4982068965517242e-06, "loss": 0.1188, "step": 9570 }, { "epoch": 3.050133333333333, "grad_norm": 3.681427478790283, "learning_rate": 1.4968275862068964e-06, "loss": 0.1179, "step": 9575 }, { "epoch": 3.050466666666667, "grad_norm": 3.5094079971313477, "learning_rate": 1.495448275862069e-06, "loss": 0.1084, "step": 9580 }, { "epoch": 3.0508, "grad_norm": 3.996792793273926, "learning_rate": 1.4940689655172413e-06, "loss": 0.1275, "step": 9585 }, { "epoch": 3.0511333333333335, "grad_norm": 5.432217121124268, "learning_rate": 1.4926896551724137e-06, "loss": 0.1819, "step": 9590 }, { "epoch": 3.0514666666666668, "grad_norm": 3.9535973072052, "learning_rate": 1.4913103448275862e-06, "loss": 0.1462, "step": 9595 }, { "epoch": 3.0518, "grad_norm": 3.6771373748779297, "learning_rate": 1.4899310344827584e-06, "loss": 0.1605, "step": 9600 }, { "epoch": 3.0521333333333334, "grad_norm": 3.2249722480773926, "learning_rate": 1.488551724137931e-06, "loss": 0.0955, "step": 9605 }, { "epoch": 3.0524666666666667, "grad_norm": 3.5227978229522705, "learning_rate": 1.4871724137931033e-06, "loss": 0.1154, "step": 9610 }, { "epoch": 3.0528, "grad_norm": 4.009605884552002, "learning_rate": 1.4857931034482758e-06, "loss": 0.0897, "step": 9615 }, { "epoch": 3.0531333333333333, "grad_norm": 3.666917085647583, "learning_rate": 1.4844137931034482e-06, "loss": 0.1192, "step": 9620 }, { "epoch": 3.0534666666666666, "grad_norm": 3.558495044708252, "learning_rate": 1.4830344827586205e-06, "loss": 0.114, "step": 9625 }, { "epoch": 3.0538, "grad_norm": 3.240527868270874, "learning_rate": 1.4816551724137931e-06, "loss": 0.1303, "step": 9630 }, { "epoch": 3.054133333333333, "grad_norm": 3.1053049564361572, "learning_rate": 1.4802758620689656e-06, "loss": 0.1656, "step": 9635 }, { "epoch": 3.0544666666666664, "grad_norm": 3.117603302001953, "learning_rate": 1.4788965517241378e-06, "loss": 0.1524, "step": 9640 }, { "epoch": 3.0548, "grad_norm": 4.373559474945068, "learning_rate": 1.4775172413793103e-06, "loss": 0.1529, "step": 9645 }, { "epoch": 3.0551333333333335, "grad_norm": 3.975339651107788, "learning_rate": 1.4761379310344825e-06, "loss": 0.1055, "step": 9650 }, { "epoch": 3.0554666666666668, "grad_norm": 3.0194833278656006, "learning_rate": 1.4747586206896552e-06, "loss": 0.1193, "step": 9655 }, { "epoch": 3.0558, "grad_norm": 3.9133169651031494, "learning_rate": 1.4733793103448276e-06, "loss": 0.1242, "step": 9660 }, { "epoch": 3.0561333333333334, "grad_norm": 3.7636635303497314, "learning_rate": 1.4719999999999998e-06, "loss": 0.1188, "step": 9665 }, { "epoch": 3.0564666666666667, "grad_norm": 3.161651611328125, "learning_rate": 1.4706206896551723e-06, "loss": 0.1249, "step": 9670 }, { "epoch": 3.0568, "grad_norm": 4.220159530639648, "learning_rate": 1.469241379310345e-06, "loss": 0.1324, "step": 9675 }, { "epoch": 3.0571333333333333, "grad_norm": 3.3463799953460693, "learning_rate": 1.4678620689655172e-06, "loss": 0.1052, "step": 9680 }, { "epoch": 3.0574666666666666, "grad_norm": 3.6713685989379883, "learning_rate": 1.4664827586206896e-06, "loss": 0.1138, "step": 9685 }, { "epoch": 3.0578, "grad_norm": 3.3017044067382812, "learning_rate": 1.4651034482758619e-06, "loss": 0.0956, "step": 9690 }, { "epoch": 3.058133333333333, "grad_norm": 3.7839577198028564, "learning_rate": 1.4637241379310343e-06, "loss": 0.1298, "step": 9695 }, { "epoch": 3.058466666666667, "grad_norm": 4.022205829620361, "learning_rate": 1.462344827586207e-06, "loss": 0.1257, "step": 9700 }, { "epoch": 3.0588, "grad_norm": 3.567577362060547, "learning_rate": 1.4609655172413792e-06, "loss": 0.1509, "step": 9705 }, { "epoch": 3.0591333333333335, "grad_norm": 3.810065746307373, "learning_rate": 1.4595862068965517e-06, "loss": 0.0986, "step": 9710 }, { "epoch": 3.059466666666667, "grad_norm": 3.9192984104156494, "learning_rate": 1.4582068965517241e-06, "loss": 0.0969, "step": 9715 }, { "epoch": 3.0598, "grad_norm": 4.7874250411987305, "learning_rate": 1.4568275862068964e-06, "loss": 0.1261, "step": 9720 }, { "epoch": 3.0601333333333334, "grad_norm": 3.218153715133667, "learning_rate": 1.455448275862069e-06, "loss": 0.1053, "step": 9725 }, { "epoch": 3.0604666666666667, "grad_norm": 3.207300901412964, "learning_rate": 1.4540689655172413e-06, "loss": 0.1198, "step": 9730 }, { "epoch": 3.0608, "grad_norm": 3.807784080505371, "learning_rate": 1.4526896551724137e-06, "loss": 0.099, "step": 9735 }, { "epoch": 3.0611333333333333, "grad_norm": 2.9800631999969482, "learning_rate": 1.4513103448275862e-06, "loss": 0.1319, "step": 9740 }, { "epoch": 3.0614666666666666, "grad_norm": 3.1332738399505615, "learning_rate": 1.4499310344827586e-06, "loss": 0.12, "step": 9745 }, { "epoch": 3.0618, "grad_norm": 3.5641047954559326, "learning_rate": 1.448551724137931e-06, "loss": 0.1227, "step": 9750 }, { "epoch": 3.062133333333333, "grad_norm": 3.4133753776550293, "learning_rate": 1.4471724137931035e-06, "loss": 0.1168, "step": 9755 }, { "epoch": 3.0624666666666664, "grad_norm": 3.5068392753601074, "learning_rate": 1.4457931034482757e-06, "loss": 0.1518, "step": 9760 }, { "epoch": 3.0628, "grad_norm": 2.3612239360809326, "learning_rate": 1.4444137931034482e-06, "loss": 0.0918, "step": 9765 }, { "epoch": 3.0631333333333335, "grad_norm": 4.133335590362549, "learning_rate": 1.4430344827586206e-06, "loss": 0.1128, "step": 9770 }, { "epoch": 3.063466666666667, "grad_norm": 3.4736006259918213, "learning_rate": 1.441655172413793e-06, "loss": 0.1219, "step": 9775 }, { "epoch": 3.0638, "grad_norm": 3.0375216007232666, "learning_rate": 1.4402758620689655e-06, "loss": 0.152, "step": 9780 }, { "epoch": 3.0641333333333334, "grad_norm": 3.7021749019622803, "learning_rate": 1.4388965517241378e-06, "loss": 0.1079, "step": 9785 }, { "epoch": 3.0644666666666667, "grad_norm": 3.4906094074249268, "learning_rate": 1.4375172413793102e-06, "loss": 0.1222, "step": 9790 }, { "epoch": 3.0648, "grad_norm": 3.8730874061584473, "learning_rate": 1.4361379310344829e-06, "loss": 0.1111, "step": 9795 }, { "epoch": 3.0651333333333333, "grad_norm": 4.699617862701416, "learning_rate": 1.4347586206896551e-06, "loss": 0.1974, "step": 9800 }, { "epoch": 3.0654666666666666, "grad_norm": 4.562955379486084, "learning_rate": 1.4333793103448276e-06, "loss": 0.1446, "step": 9805 }, { "epoch": 3.0658, "grad_norm": 2.8153727054595947, "learning_rate": 1.4319999999999998e-06, "loss": 0.0916, "step": 9810 }, { "epoch": 3.066133333333333, "grad_norm": 4.157346725463867, "learning_rate": 1.4306206896551722e-06, "loss": 0.1048, "step": 9815 }, { "epoch": 3.0664666666666665, "grad_norm": 3.464782953262329, "learning_rate": 1.429241379310345e-06, "loss": 0.1086, "step": 9820 }, { "epoch": 3.0668, "grad_norm": 3.7958030700683594, "learning_rate": 1.4278620689655171e-06, "loss": 0.1103, "step": 9825 }, { "epoch": 3.0671333333333335, "grad_norm": 3.587458610534668, "learning_rate": 1.4264827586206896e-06, "loss": 0.1302, "step": 9830 }, { "epoch": 3.067466666666667, "grad_norm": 4.161714553833008, "learning_rate": 1.4251034482758618e-06, "loss": 0.1429, "step": 9835 }, { "epoch": 3.0678, "grad_norm": 3.2464241981506348, "learning_rate": 1.4237241379310345e-06, "loss": 0.1039, "step": 9840 }, { "epoch": 3.0681333333333334, "grad_norm": 3.8423023223876953, "learning_rate": 1.422344827586207e-06, "loss": 0.1276, "step": 9845 }, { "epoch": 3.0684666666666667, "grad_norm": 4.572516441345215, "learning_rate": 1.4209655172413792e-06, "loss": 0.108, "step": 9850 }, { "epoch": 3.0688, "grad_norm": 2.6932926177978516, "learning_rate": 1.4195862068965516e-06, "loss": 0.1196, "step": 9855 }, { "epoch": 3.0691333333333333, "grad_norm": 3.200352668762207, "learning_rate": 1.418206896551724e-06, "loss": 0.1391, "step": 9860 }, { "epoch": 3.0694666666666666, "grad_norm": 3.707923412322998, "learning_rate": 1.4168275862068965e-06, "loss": 0.1172, "step": 9865 }, { "epoch": 3.0698, "grad_norm": 3.586658239364624, "learning_rate": 1.415448275862069e-06, "loss": 0.1073, "step": 9870 }, { "epoch": 3.070133333333333, "grad_norm": 3.9943246841430664, "learning_rate": 1.4140689655172412e-06, "loss": 0.1422, "step": 9875 }, { "epoch": 3.0704666666666665, "grad_norm": 4.525385856628418, "learning_rate": 1.4126896551724137e-06, "loss": 0.1369, "step": 9880 }, { "epoch": 3.0708, "grad_norm": 4.468423366546631, "learning_rate": 1.4113103448275861e-06, "loss": 0.116, "step": 9885 }, { "epoch": 3.0711333333333335, "grad_norm": 3.3256771564483643, "learning_rate": 1.4099310344827586e-06, "loss": 0.0963, "step": 9890 }, { "epoch": 3.071466666666667, "grad_norm": 4.154018878936768, "learning_rate": 1.408551724137931e-06, "loss": 0.1406, "step": 9895 }, { "epoch": 3.0718, "grad_norm": 3.431687355041504, "learning_rate": 1.4071724137931035e-06, "loss": 0.1075, "step": 9900 }, { "epoch": 3.0721333333333334, "grad_norm": 3.103231430053711, "learning_rate": 1.4057931034482757e-06, "loss": 0.1221, "step": 9905 }, { "epoch": 3.0724666666666667, "grad_norm": 4.421375274658203, "learning_rate": 1.4044137931034484e-06, "loss": 0.1375, "step": 9910 }, { "epoch": 3.0728, "grad_norm": 4.023528099060059, "learning_rate": 1.4030344827586206e-06, "loss": 0.1186, "step": 9915 }, { "epoch": 3.0731333333333333, "grad_norm": 4.148938179016113, "learning_rate": 1.401655172413793e-06, "loss": 0.1501, "step": 9920 }, { "epoch": 3.0734666666666666, "grad_norm": 3.775146961212158, "learning_rate": 1.4002758620689655e-06, "loss": 0.1143, "step": 9925 }, { "epoch": 3.0738, "grad_norm": 4.040100574493408, "learning_rate": 1.3988965517241377e-06, "loss": 0.1075, "step": 9930 }, { "epoch": 3.074133333333333, "grad_norm": 3.866244077682495, "learning_rate": 1.3975172413793104e-06, "loss": 0.1283, "step": 9935 }, { "epoch": 3.0744666666666665, "grad_norm": 4.490005016326904, "learning_rate": 1.3961379310344828e-06, "loss": 0.1203, "step": 9940 }, { "epoch": 3.0748, "grad_norm": 4.239720344543457, "learning_rate": 1.394758620689655e-06, "loss": 0.1289, "step": 9945 }, { "epoch": 3.0751333333333335, "grad_norm": 4.578120231628418, "learning_rate": 1.3933793103448275e-06, "loss": 0.1052, "step": 9950 }, { "epoch": 3.075466666666667, "grad_norm": 4.03363561630249, "learning_rate": 1.3919999999999998e-06, "loss": 0.1028, "step": 9955 }, { "epoch": 3.0758, "grad_norm": 3.7015795707702637, "learning_rate": 1.3906206896551724e-06, "loss": 0.1433, "step": 9960 }, { "epoch": 3.0761333333333334, "grad_norm": 4.1098175048828125, "learning_rate": 1.3892413793103449e-06, "loss": 0.1442, "step": 9965 }, { "epoch": 3.0764666666666667, "grad_norm": 4.897979736328125, "learning_rate": 1.387862068965517e-06, "loss": 0.1361, "step": 9970 }, { "epoch": 3.0768, "grad_norm": 4.547065734863281, "learning_rate": 1.3864827586206896e-06, "loss": 0.1468, "step": 9975 }, { "epoch": 3.0771333333333333, "grad_norm": 2.948629140853882, "learning_rate": 1.3851034482758618e-06, "loss": 0.1342, "step": 9980 }, { "epoch": 3.0774666666666666, "grad_norm": 3.9705653190612793, "learning_rate": 1.3837241379310345e-06, "loss": 0.1195, "step": 9985 }, { "epoch": 3.0778, "grad_norm": 5.227104187011719, "learning_rate": 1.382344827586207e-06, "loss": 0.1707, "step": 9990 }, { "epoch": 3.078133333333333, "grad_norm": 4.129624843597412, "learning_rate": 1.3809655172413791e-06, "loss": 0.1454, "step": 9995 }, { "epoch": 3.0784666666666665, "grad_norm": 3.8669140338897705, "learning_rate": 1.3795862068965516e-06, "loss": 0.1414, "step": 10000 }, { "epoch": 3.0784666666666665, "eval_loss": 0.2151545137166977, "eval_runtime": 138.0545, "eval_samples_per_second": 4.346, "eval_steps_per_second": 1.087, "eval_wer": 11.13096757722747, "step": 10000 }, { "epoch": 3.0788, "grad_norm": 3.996640682220459, "learning_rate": 1.3782068965517242e-06, "loss": 0.1244, "step": 10005 }, { "epoch": 3.0791333333333335, "grad_norm": 3.5360796451568604, "learning_rate": 1.3768275862068965e-06, "loss": 0.1091, "step": 10010 }, { "epoch": 3.079466666666667, "grad_norm": 3.8392021656036377, "learning_rate": 1.375448275862069e-06, "loss": 0.1368, "step": 10015 }, { "epoch": 3.0798, "grad_norm": 3.7925262451171875, "learning_rate": 1.3740689655172412e-06, "loss": 0.1524, "step": 10020 }, { "epoch": 3.0801333333333334, "grad_norm": 4.564311504364014, "learning_rate": 1.3726896551724136e-06, "loss": 0.1555, "step": 10025 }, { "epoch": 3.0804666666666667, "grad_norm": 3.548948287963867, "learning_rate": 1.3713103448275863e-06, "loss": 0.1373, "step": 10030 }, { "epoch": 3.0808, "grad_norm": 3.7858855724334717, "learning_rate": 1.3699310344827585e-06, "loss": 0.1649, "step": 10035 }, { "epoch": 3.0811333333333333, "grad_norm": 3.785684585571289, "learning_rate": 1.368551724137931e-06, "loss": 0.1519, "step": 10040 }, { "epoch": 3.0814666666666666, "grad_norm": 3.667558193206787, "learning_rate": 1.3671724137931034e-06, "loss": 0.1295, "step": 10045 }, { "epoch": 3.0818, "grad_norm": 3.5948028564453125, "learning_rate": 1.3657931034482757e-06, "loss": 0.1146, "step": 10050 }, { "epoch": 3.082133333333333, "grad_norm": 3.646559000015259, "learning_rate": 1.3644137931034483e-06, "loss": 0.1156, "step": 10055 }, { "epoch": 3.0824666666666665, "grad_norm": 3.977006673812866, "learning_rate": 1.3630344827586206e-06, "loss": 0.1703, "step": 10060 }, { "epoch": 3.0828, "grad_norm": 3.335867166519165, "learning_rate": 1.361655172413793e-06, "loss": 0.1446, "step": 10065 }, { "epoch": 3.0831333333333335, "grad_norm": 3.488189935684204, "learning_rate": 1.3602758620689654e-06, "loss": 0.1302, "step": 10070 }, { "epoch": 3.083466666666667, "grad_norm": 4.849493980407715, "learning_rate": 1.358896551724138e-06, "loss": 0.1243, "step": 10075 }, { "epoch": 3.0838, "grad_norm": 4.077585220336914, "learning_rate": 1.3575172413793103e-06, "loss": 0.0981, "step": 10080 }, { "epoch": 3.0841333333333334, "grad_norm": 2.933472156524658, "learning_rate": 1.3561379310344828e-06, "loss": 0.1095, "step": 10085 }, { "epoch": 3.0844666666666667, "grad_norm": 2.764552593231201, "learning_rate": 1.354758620689655e-06, "loss": 0.0996, "step": 10090 }, { "epoch": 3.0848, "grad_norm": 3.538461446762085, "learning_rate": 1.3533793103448275e-06, "loss": 0.1857, "step": 10095 }, { "epoch": 3.0851333333333333, "grad_norm": 5.365030288696289, "learning_rate": 1.352e-06, "loss": 0.1223, "step": 10100 }, { "epoch": 3.0854666666666666, "grad_norm": 4.125615119934082, "learning_rate": 1.3506206896551724e-06, "loss": 0.1064, "step": 10105 }, { "epoch": 3.0858, "grad_norm": 3.770752191543579, "learning_rate": 1.3492413793103448e-06, "loss": 0.2049, "step": 10110 }, { "epoch": 3.086133333333333, "grad_norm": 5.2621941566467285, "learning_rate": 1.347862068965517e-06, "loss": 0.1523, "step": 10115 }, { "epoch": 3.0864666666666665, "grad_norm": 3.5793795585632324, "learning_rate": 1.3464827586206895e-06, "loss": 0.1531, "step": 10120 }, { "epoch": 3.0868, "grad_norm": 3.9691388607025146, "learning_rate": 1.3451034482758622e-06, "loss": 0.1256, "step": 10125 }, { "epoch": 3.0871333333333335, "grad_norm": 3.4311025142669678, "learning_rate": 1.3437241379310344e-06, "loss": 0.1523, "step": 10130 }, { "epoch": 3.087466666666667, "grad_norm": 4.1608357429504395, "learning_rate": 1.3423448275862069e-06, "loss": 0.1418, "step": 10135 }, { "epoch": 3.0878, "grad_norm": 3.0559632778167725, "learning_rate": 1.340965517241379e-06, "loss": 0.1115, "step": 10140 }, { "epoch": 3.0881333333333334, "grad_norm": 3.1799354553222656, "learning_rate": 1.3395862068965518e-06, "loss": 0.1321, "step": 10145 }, { "epoch": 3.0884666666666667, "grad_norm": 3.6046626567840576, "learning_rate": 1.3382068965517242e-06, "loss": 0.1141, "step": 10150 }, { "epoch": 3.0888, "grad_norm": 3.940310001373291, "learning_rate": 1.3368275862068964e-06, "loss": 0.1486, "step": 10155 }, { "epoch": 3.0891333333333333, "grad_norm": 3.5510153770446777, "learning_rate": 1.3354482758620689e-06, "loss": 0.1421, "step": 10160 }, { "epoch": 3.0894666666666666, "grad_norm": 4.632082462310791, "learning_rate": 1.3340689655172413e-06, "loss": 0.1127, "step": 10165 }, { "epoch": 3.0898, "grad_norm": 3.9303252696990967, "learning_rate": 1.3326896551724138e-06, "loss": 0.1563, "step": 10170 }, { "epoch": 3.090133333333333, "grad_norm": 5.55647087097168, "learning_rate": 1.3313103448275862e-06, "loss": 0.1894, "step": 10175 }, { "epoch": 3.0904666666666665, "grad_norm": 2.744114875793457, "learning_rate": 1.3299310344827585e-06, "loss": 0.1167, "step": 10180 }, { "epoch": 3.0908, "grad_norm": 3.892972946166992, "learning_rate": 1.328551724137931e-06, "loss": 0.1274, "step": 10185 }, { "epoch": 3.0911333333333335, "grad_norm": 4.232187747955322, "learning_rate": 1.3271724137931034e-06, "loss": 0.1127, "step": 10190 }, { "epoch": 3.091466666666667, "grad_norm": 3.388176918029785, "learning_rate": 1.3257931034482758e-06, "loss": 0.1348, "step": 10195 }, { "epoch": 3.0918, "grad_norm": 2.967561721801758, "learning_rate": 1.3244137931034483e-06, "loss": 0.1101, "step": 10200 }, { "epoch": 3.0921333333333334, "grad_norm": 3.6141135692596436, "learning_rate": 1.3230344827586207e-06, "loss": 0.1058, "step": 10205 }, { "epoch": 3.0924666666666667, "grad_norm": 3.638741970062256, "learning_rate": 1.321655172413793e-06, "loss": 0.1462, "step": 10210 }, { "epoch": 3.0928, "grad_norm": 4.456836223602295, "learning_rate": 1.3202758620689654e-06, "loss": 0.1824, "step": 10215 }, { "epoch": 3.0931333333333333, "grad_norm": 3.9638330936431885, "learning_rate": 1.3188965517241379e-06, "loss": 0.1411, "step": 10220 }, { "epoch": 3.0934666666666666, "grad_norm": 4.482806205749512, "learning_rate": 1.3175172413793103e-06, "loss": 0.222, "step": 10225 }, { "epoch": 3.0938, "grad_norm": 4.472507476806641, "learning_rate": 1.3161379310344828e-06, "loss": 0.0975, "step": 10230 }, { "epoch": 3.094133333333333, "grad_norm": 3.6130850315093994, "learning_rate": 1.314758620689655e-06, "loss": 0.1294, "step": 10235 }, { "epoch": 3.0944666666666665, "grad_norm": 3.7916407585144043, "learning_rate": 1.3133793103448277e-06, "loss": 0.096, "step": 10240 }, { "epoch": 3.0948, "grad_norm": 4.743300914764404, "learning_rate": 1.312e-06, "loss": 0.1876, "step": 10245 }, { "epoch": 3.0951333333333335, "grad_norm": 3.6078076362609863, "learning_rate": 1.3106206896551723e-06, "loss": 0.108, "step": 10250 }, { "epoch": 3.095466666666667, "grad_norm": 3.596766471862793, "learning_rate": 1.3092413793103448e-06, "loss": 0.1414, "step": 10255 }, { "epoch": 3.0958, "grad_norm": 3.1616384983062744, "learning_rate": 1.307862068965517e-06, "loss": 0.0936, "step": 10260 }, { "epoch": 3.0961333333333334, "grad_norm": 2.6668713092803955, "learning_rate": 1.3064827586206897e-06, "loss": 0.1349, "step": 10265 }, { "epoch": 3.0964666666666667, "grad_norm": 3.2159035205841064, "learning_rate": 1.3051034482758621e-06, "loss": 0.1007, "step": 10270 }, { "epoch": 3.0968, "grad_norm": 3.23105525970459, "learning_rate": 1.3037241379310344e-06, "loss": 0.1123, "step": 10275 }, { "epoch": 3.0971333333333333, "grad_norm": 3.9854116439819336, "learning_rate": 1.3023448275862068e-06, "loss": 0.1032, "step": 10280 }, { "epoch": 3.0974666666666666, "grad_norm": 3.63157320022583, "learning_rate": 1.300965517241379e-06, "loss": 0.1155, "step": 10285 }, { "epoch": 3.0978, "grad_norm": 3.9124128818511963, "learning_rate": 1.2995862068965517e-06, "loss": 0.0991, "step": 10290 }, { "epoch": 3.098133333333333, "grad_norm": 4.035768985748291, "learning_rate": 1.2982068965517242e-06, "loss": 0.1395, "step": 10295 }, { "epoch": 3.0984666666666665, "grad_norm": 3.3441524505615234, "learning_rate": 1.2968275862068964e-06, "loss": 0.1338, "step": 10300 }, { "epoch": 3.0987999999999998, "grad_norm": 3.586026906967163, "learning_rate": 1.2954482758620689e-06, "loss": 0.1139, "step": 10305 }, { "epoch": 3.0991333333333335, "grad_norm": 3.015698194503784, "learning_rate": 1.2940689655172415e-06, "loss": 0.0962, "step": 10310 }, { "epoch": 3.099466666666667, "grad_norm": 3.7036643028259277, "learning_rate": 1.2926896551724138e-06, "loss": 0.1113, "step": 10315 }, { "epoch": 3.0998, "grad_norm": 3.6607093811035156, "learning_rate": 1.2913103448275862e-06, "loss": 0.1385, "step": 10320 }, { "epoch": 3.1001333333333334, "grad_norm": 3.6044538021087646, "learning_rate": 1.2899310344827584e-06, "loss": 0.1105, "step": 10325 }, { "epoch": 3.1004666666666667, "grad_norm": 3.68890643119812, "learning_rate": 1.2885517241379309e-06, "loss": 0.1298, "step": 10330 }, { "epoch": 3.1008, "grad_norm": 3.2712888717651367, "learning_rate": 1.2871724137931035e-06, "loss": 0.1523, "step": 10335 }, { "epoch": 3.1011333333333333, "grad_norm": 3.4765255451202393, "learning_rate": 1.2857931034482758e-06, "loss": 0.1165, "step": 10340 }, { "epoch": 3.1014666666666666, "grad_norm": 3.53548002243042, "learning_rate": 1.2844137931034482e-06, "loss": 0.1367, "step": 10345 }, { "epoch": 3.1018, "grad_norm": 3.6743979454040527, "learning_rate": 1.2830344827586207e-06, "loss": 0.1195, "step": 10350 }, { "epoch": 3.102133333333333, "grad_norm": 2.819240093231201, "learning_rate": 1.281655172413793e-06, "loss": 0.1036, "step": 10355 }, { "epoch": 3.1024666666666665, "grad_norm": 4.219951629638672, "learning_rate": 1.2802758620689656e-06, "loss": 0.1354, "step": 10360 }, { "epoch": 3.1028000000000002, "grad_norm": 4.273504257202148, "learning_rate": 1.2788965517241378e-06, "loss": 0.0997, "step": 10365 }, { "epoch": 3.1031333333333335, "grad_norm": 4.44210958480835, "learning_rate": 1.2775172413793103e-06, "loss": 0.1233, "step": 10370 }, { "epoch": 3.103466666666667, "grad_norm": 3.8101072311401367, "learning_rate": 1.2761379310344827e-06, "loss": 0.1222, "step": 10375 }, { "epoch": 3.1038, "grad_norm": 3.7589430809020996, "learning_rate": 1.274758620689655e-06, "loss": 0.1143, "step": 10380 }, { "epoch": 3.1041333333333334, "grad_norm": 3.1892545223236084, "learning_rate": 1.2733793103448276e-06, "loss": 0.0986, "step": 10385 }, { "epoch": 3.1044666666666667, "grad_norm": 3.034914970397949, "learning_rate": 1.272e-06, "loss": 0.142, "step": 10390 }, { "epoch": 3.1048, "grad_norm": 3.335789203643799, "learning_rate": 1.2706206896551723e-06, "loss": 0.0852, "step": 10395 }, { "epoch": 3.1051333333333333, "grad_norm": 3.760930299758911, "learning_rate": 1.2692413793103447e-06, "loss": 0.1321, "step": 10400 }, { "epoch": 3.1054666666666666, "grad_norm": 3.2370388507843018, "learning_rate": 1.2678620689655172e-06, "loss": 0.0938, "step": 10405 }, { "epoch": 3.1058, "grad_norm": 5.059003829956055, "learning_rate": 1.2664827586206896e-06, "loss": 0.1234, "step": 10410 }, { "epoch": 3.106133333333333, "grad_norm": 3.7076058387756348, "learning_rate": 1.265103448275862e-06, "loss": 0.1214, "step": 10415 }, { "epoch": 3.1064666666666665, "grad_norm": 3.9566967487335205, "learning_rate": 1.2637241379310343e-06, "loss": 0.1239, "step": 10420 }, { "epoch": 3.1068, "grad_norm": 2.865980625152588, "learning_rate": 1.2623448275862068e-06, "loss": 0.1327, "step": 10425 }, { "epoch": 3.1071333333333335, "grad_norm": 3.8682289123535156, "learning_rate": 1.2609655172413794e-06, "loss": 0.1209, "step": 10430 }, { "epoch": 3.107466666666667, "grad_norm": 4.29340934753418, "learning_rate": 1.2595862068965517e-06, "loss": 0.1321, "step": 10435 }, { "epoch": 3.1078, "grad_norm": 4.072025299072266, "learning_rate": 1.2582068965517241e-06, "loss": 0.1362, "step": 10440 }, { "epoch": 3.1081333333333334, "grad_norm": 3.630307912826538, "learning_rate": 1.2568275862068964e-06, "loss": 0.1296, "step": 10445 }, { "epoch": 3.1084666666666667, "grad_norm": 3.4611058235168457, "learning_rate": 1.2554482758620688e-06, "loss": 0.1135, "step": 10450 }, { "epoch": 3.1088, "grad_norm": 4.336033344268799, "learning_rate": 1.2540689655172415e-06, "loss": 0.14, "step": 10455 }, { "epoch": 3.1091333333333333, "grad_norm": 4.57904052734375, "learning_rate": 1.2526896551724137e-06, "loss": 0.152, "step": 10460 }, { "epoch": 3.1094666666666666, "grad_norm": 3.789177656173706, "learning_rate": 1.2513103448275862e-06, "loss": 0.1435, "step": 10465 }, { "epoch": 3.1098, "grad_norm": 3.5479393005371094, "learning_rate": 1.2499310344827584e-06, "loss": 0.143, "step": 10470 }, { "epoch": 3.110133333333333, "grad_norm": 4.554353713989258, "learning_rate": 1.248551724137931e-06, "loss": 0.1122, "step": 10475 }, { "epoch": 3.1104666666666665, "grad_norm": 3.6915698051452637, "learning_rate": 1.2471724137931035e-06, "loss": 0.1078, "step": 10480 }, { "epoch": 3.1108, "grad_norm": 4.116068363189697, "learning_rate": 1.2457931034482757e-06, "loss": 0.1518, "step": 10485 }, { "epoch": 3.1111333333333335, "grad_norm": 3.5479066371917725, "learning_rate": 1.2444137931034482e-06, "loss": 0.115, "step": 10490 }, { "epoch": 3.111466666666667, "grad_norm": 4.481450080871582, "learning_rate": 1.2430344827586206e-06, "loss": 0.1133, "step": 10495 }, { "epoch": 3.1118, "grad_norm": 3.2450110912323, "learning_rate": 1.241655172413793e-06, "loss": 0.1045, "step": 10500 }, { "epoch": 3.1121333333333334, "grad_norm": 3.4612340927124023, "learning_rate": 1.2402758620689655e-06, "loss": 0.1025, "step": 10505 }, { "epoch": 3.1124666666666667, "grad_norm": 3.703700542449951, "learning_rate": 1.2388965517241378e-06, "loss": 0.095, "step": 10510 }, { "epoch": 3.1128, "grad_norm": 3.065117359161377, "learning_rate": 1.2375172413793102e-06, "loss": 0.1132, "step": 10515 }, { "epoch": 3.1131333333333333, "grad_norm": 5.1802873611450195, "learning_rate": 1.2361379310344827e-06, "loss": 0.1623, "step": 10520 }, { "epoch": 3.1134666666666666, "grad_norm": 4.305116176605225, "learning_rate": 1.2347586206896551e-06, "loss": 0.112, "step": 10525 }, { "epoch": 3.1138, "grad_norm": 2.9388232231140137, "learning_rate": 1.2333793103448276e-06, "loss": 0.0993, "step": 10530 }, { "epoch": 3.114133333333333, "grad_norm": 5.201348781585693, "learning_rate": 1.232e-06, "loss": 0.1392, "step": 10535 }, { "epoch": 3.1144666666666665, "grad_norm": 4.728110313415527, "learning_rate": 1.2306206896551723e-06, "loss": 0.1397, "step": 10540 }, { "epoch": 3.1148, "grad_norm": 4.256076812744141, "learning_rate": 1.2292413793103447e-06, "loss": 0.1437, "step": 10545 }, { "epoch": 3.1151333333333335, "grad_norm": 4.218815326690674, "learning_rate": 1.2278620689655172e-06, "loss": 0.0905, "step": 10550 }, { "epoch": 3.115466666666667, "grad_norm": 4.170873165130615, "learning_rate": 1.2264827586206896e-06, "loss": 0.1218, "step": 10555 }, { "epoch": 3.1158, "grad_norm": 4.890690326690674, "learning_rate": 1.225103448275862e-06, "loss": 0.1518, "step": 10560 }, { "epoch": 3.1161333333333334, "grad_norm": 4.365133762359619, "learning_rate": 1.2237241379310343e-06, "loss": 0.1651, "step": 10565 }, { "epoch": 3.1164666666666667, "grad_norm": 4.976833343505859, "learning_rate": 1.222344827586207e-06, "loss": 0.1328, "step": 10570 }, { "epoch": 3.1168, "grad_norm": 4.960318565368652, "learning_rate": 1.2209655172413794e-06, "loss": 0.1308, "step": 10575 }, { "epoch": 3.1171333333333333, "grad_norm": 4.8937458992004395, "learning_rate": 1.2195862068965516e-06, "loss": 0.1598, "step": 10580 }, { "epoch": 3.1174666666666666, "grad_norm": 3.756993055343628, "learning_rate": 1.218206896551724e-06, "loss": 0.1311, "step": 10585 }, { "epoch": 3.1178, "grad_norm": 4.717544078826904, "learning_rate": 1.2168275862068963e-06, "loss": 0.1691, "step": 10590 }, { "epoch": 3.118133333333333, "grad_norm": 3.9451236724853516, "learning_rate": 1.215448275862069e-06, "loss": 0.1112, "step": 10595 }, { "epoch": 3.1184666666666665, "grad_norm": 3.652914047241211, "learning_rate": 1.2140689655172414e-06, "loss": 0.1134, "step": 10600 }, { "epoch": 3.1188, "grad_norm": 3.0365517139434814, "learning_rate": 1.2126896551724137e-06, "loss": 0.1298, "step": 10605 }, { "epoch": 3.1191333333333335, "grad_norm": 4.4182233810424805, "learning_rate": 1.2113103448275861e-06, "loss": 0.1237, "step": 10610 }, { "epoch": 3.119466666666667, "grad_norm": 3.757007598876953, "learning_rate": 1.2099310344827584e-06, "loss": 0.139, "step": 10615 }, { "epoch": 3.1198, "grad_norm": 3.7715535163879395, "learning_rate": 1.208551724137931e-06, "loss": 0.1322, "step": 10620 }, { "epoch": 3.1201333333333334, "grad_norm": 3.6792795658111572, "learning_rate": 1.2071724137931035e-06, "loss": 0.142, "step": 10625 }, { "epoch": 3.1204666666666667, "grad_norm": 3.7322895526885986, "learning_rate": 1.2057931034482757e-06, "loss": 0.1142, "step": 10630 }, { "epoch": 3.1208, "grad_norm": 4.074817657470703, "learning_rate": 1.2044137931034482e-06, "loss": 0.116, "step": 10635 }, { "epoch": 3.1211333333333333, "grad_norm": 3.159771203994751, "learning_rate": 1.2030344827586208e-06, "loss": 0.1085, "step": 10640 }, { "epoch": 3.1214666666666666, "grad_norm": 3.867138624191284, "learning_rate": 1.201655172413793e-06, "loss": 0.1229, "step": 10645 }, { "epoch": 3.1218, "grad_norm": 4.077703475952148, "learning_rate": 1.2002758620689655e-06, "loss": 0.1515, "step": 10650 }, { "epoch": 3.122133333333333, "grad_norm": 4.26039981842041, "learning_rate": 1.1988965517241377e-06, "loss": 0.1483, "step": 10655 }, { "epoch": 3.1224666666666665, "grad_norm": 3.6894726753234863, "learning_rate": 1.1975172413793102e-06, "loss": 0.1298, "step": 10660 }, { "epoch": 3.1228, "grad_norm": 4.0900468826293945, "learning_rate": 1.1961379310344828e-06, "loss": 0.1048, "step": 10665 }, { "epoch": 3.1231333333333335, "grad_norm": 3.9871182441711426, "learning_rate": 1.194758620689655e-06, "loss": 0.0932, "step": 10670 }, { "epoch": 3.123466666666667, "grad_norm": 3.4371209144592285, "learning_rate": 1.1933793103448275e-06, "loss": 0.1051, "step": 10675 }, { "epoch": 3.1238, "grad_norm": 3.3936007022857666, "learning_rate": 1.192e-06, "loss": 0.1276, "step": 10680 }, { "epoch": 3.1241333333333334, "grad_norm": 3.814096450805664, "learning_rate": 1.1906206896551722e-06, "loss": 0.1292, "step": 10685 }, { "epoch": 3.1244666666666667, "grad_norm": 4.335970401763916, "learning_rate": 1.1892413793103449e-06, "loss": 0.1456, "step": 10690 }, { "epoch": 3.1248, "grad_norm": 4.3228983879089355, "learning_rate": 1.1878620689655171e-06, "loss": 0.119, "step": 10695 }, { "epoch": 3.1251333333333333, "grad_norm": 3.2616641521453857, "learning_rate": 1.1864827586206896e-06, "loss": 0.1151, "step": 10700 }, { "epoch": 3.1254666666666666, "grad_norm": 3.7150323390960693, "learning_rate": 1.185103448275862e-06, "loss": 0.1581, "step": 10705 }, { "epoch": 3.1258, "grad_norm": 3.531252145767212, "learning_rate": 1.1837241379310345e-06, "loss": 0.1257, "step": 10710 }, { "epoch": 3.126133333333333, "grad_norm": 3.1670119762420654, "learning_rate": 1.182344827586207e-06, "loss": 0.0836, "step": 10715 }, { "epoch": 3.1264666666666665, "grad_norm": 3.3919363021850586, "learning_rate": 1.1809655172413794e-06, "loss": 0.1031, "step": 10720 }, { "epoch": 3.1268, "grad_norm": 4.267131328582764, "learning_rate": 1.1795862068965516e-06, "loss": 0.1409, "step": 10725 }, { "epoch": 3.127133333333333, "grad_norm": 3.664895534515381, "learning_rate": 1.178206896551724e-06, "loss": 0.1271, "step": 10730 }, { "epoch": 3.127466666666667, "grad_norm": 5.976982593536377, "learning_rate": 1.1768275862068965e-06, "loss": 0.1818, "step": 10735 }, { "epoch": 3.1278, "grad_norm": 3.8469417095184326, "learning_rate": 1.175448275862069e-06, "loss": 0.1317, "step": 10740 }, { "epoch": 3.1281333333333334, "grad_norm": 3.3952291011810303, "learning_rate": 1.1740689655172414e-06, "loss": 0.1239, "step": 10745 }, { "epoch": 3.1284666666666667, "grad_norm": 3.541522264480591, "learning_rate": 1.1726896551724136e-06, "loss": 0.1153, "step": 10750 }, { "epoch": 3.1288, "grad_norm": 3.9640679359436035, "learning_rate": 1.171310344827586e-06, "loss": 0.1311, "step": 10755 }, { "epoch": 3.1291333333333333, "grad_norm": 3.732511520385742, "learning_rate": 1.1699310344827587e-06, "loss": 0.0935, "step": 10760 }, { "epoch": 3.1294666666666666, "grad_norm": 3.3035073280334473, "learning_rate": 1.168551724137931e-06, "loss": 0.099, "step": 10765 }, { "epoch": 3.1298, "grad_norm": 4.173254489898682, "learning_rate": 1.1671724137931034e-06, "loss": 0.1226, "step": 10770 }, { "epoch": 3.130133333333333, "grad_norm": 4.59857177734375, "learning_rate": 1.1657931034482757e-06, "loss": 0.1011, "step": 10775 }, { "epoch": 3.1304666666666665, "grad_norm": 4.927716255187988, "learning_rate": 1.1644137931034481e-06, "loss": 0.1772, "step": 10780 }, { "epoch": 3.1308, "grad_norm": 3.51751708984375, "learning_rate": 1.1630344827586208e-06, "loss": 0.111, "step": 10785 }, { "epoch": 3.1311333333333335, "grad_norm": 2.9985132217407227, "learning_rate": 1.161655172413793e-06, "loss": 0.1153, "step": 10790 }, { "epoch": 3.131466666666667, "grad_norm": 3.6003358364105225, "learning_rate": 1.1602758620689655e-06, "loss": 0.1219, "step": 10795 }, { "epoch": 3.1318, "grad_norm": 3.485626459121704, "learning_rate": 1.158896551724138e-06, "loss": 0.0861, "step": 10800 }, { "epoch": 3.1321333333333334, "grad_norm": 4.250816822052002, "learning_rate": 1.1575172413793104e-06, "loss": 0.1324, "step": 10805 }, { "epoch": 3.1324666666666667, "grad_norm": 3.031370162963867, "learning_rate": 1.1561379310344828e-06, "loss": 0.1007, "step": 10810 }, { "epoch": 3.1328, "grad_norm": 5.077173709869385, "learning_rate": 1.154758620689655e-06, "loss": 0.1367, "step": 10815 }, { "epoch": 3.1331333333333333, "grad_norm": 3.9092049598693848, "learning_rate": 1.1533793103448275e-06, "loss": 0.1295, "step": 10820 }, { "epoch": 3.1334666666666666, "grad_norm": 4.2345356941223145, "learning_rate": 1.152e-06, "loss": 0.1438, "step": 10825 }, { "epoch": 3.1338, "grad_norm": 3.644237995147705, "learning_rate": 1.1506206896551724e-06, "loss": 0.1134, "step": 10830 }, { "epoch": 3.134133333333333, "grad_norm": 3.2955996990203857, "learning_rate": 1.1492413793103448e-06, "loss": 0.1194, "step": 10835 }, { "epoch": 3.1344666666666665, "grad_norm": 4.0510478019714355, "learning_rate": 1.1478620689655173e-06, "loss": 0.1185, "step": 10840 }, { "epoch": 3.1348, "grad_norm": 3.5826263427734375, "learning_rate": 1.1464827586206895e-06, "loss": 0.1407, "step": 10845 }, { "epoch": 3.135133333333333, "grad_norm": 4.386380195617676, "learning_rate": 1.145103448275862e-06, "loss": 0.108, "step": 10850 }, { "epoch": 3.135466666666667, "grad_norm": 3.0576095581054688, "learning_rate": 1.1437241379310344e-06, "loss": 0.137, "step": 10855 }, { "epoch": 3.1358, "grad_norm": 3.588376522064209, "learning_rate": 1.1423448275862069e-06, "loss": 0.1139, "step": 10860 }, { "epoch": 3.1361333333333334, "grad_norm": 3.2220280170440674, "learning_rate": 1.1409655172413793e-06, "loss": 0.1446, "step": 10865 }, { "epoch": 3.1364666666666667, "grad_norm": 3.884505271911621, "learning_rate": 1.1395862068965516e-06, "loss": 0.1083, "step": 10870 }, { "epoch": 3.1368, "grad_norm": 3.9818637371063232, "learning_rate": 1.1382068965517242e-06, "loss": 0.1024, "step": 10875 }, { "epoch": 3.1371333333333333, "grad_norm": 4.275274753570557, "learning_rate": 1.1368275862068967e-06, "loss": 0.1416, "step": 10880 }, { "epoch": 3.1374666666666666, "grad_norm": 3.1379175186157227, "learning_rate": 1.135448275862069e-06, "loss": 0.0991, "step": 10885 }, { "epoch": 3.1378, "grad_norm": 4.130918502807617, "learning_rate": 1.1340689655172414e-06, "loss": 0.1231, "step": 10890 }, { "epoch": 3.138133333333333, "grad_norm": 3.362971544265747, "learning_rate": 1.1326896551724136e-06, "loss": 0.1064, "step": 10895 }, { "epoch": 3.1384666666666665, "grad_norm": 3.992236852645874, "learning_rate": 1.1313103448275862e-06, "loss": 0.0944, "step": 10900 }, { "epoch": 3.1388, "grad_norm": 4.799851417541504, "learning_rate": 1.1299310344827587e-06, "loss": 0.1704, "step": 10905 }, { "epoch": 3.1391333333333336, "grad_norm": 3.7183337211608887, "learning_rate": 1.128551724137931e-06, "loss": 0.1318, "step": 10910 }, { "epoch": 3.139466666666667, "grad_norm": 3.4529244899749756, "learning_rate": 1.1271724137931034e-06, "loss": 0.1234, "step": 10915 }, { "epoch": 3.1398, "grad_norm": 2.150162935256958, "learning_rate": 1.1257931034482756e-06, "loss": 0.0956, "step": 10920 }, { "epoch": 3.1401333333333334, "grad_norm": 2.968789577484131, "learning_rate": 1.1244137931034483e-06, "loss": 0.1416, "step": 10925 }, { "epoch": 3.1404666666666667, "grad_norm": 3.5411696434020996, "learning_rate": 1.1230344827586207e-06, "loss": 0.1583, "step": 10930 }, { "epoch": 3.1408, "grad_norm": 3.4134440422058105, "learning_rate": 1.121655172413793e-06, "loss": 0.0811, "step": 10935 }, { "epoch": 3.1411333333333333, "grad_norm": 3.2367703914642334, "learning_rate": 1.1202758620689654e-06, "loss": 0.1033, "step": 10940 }, { "epoch": 3.1414666666666666, "grad_norm": 3.544282913208008, "learning_rate": 1.1188965517241379e-06, "loss": 0.1638, "step": 10945 }, { "epoch": 3.1418, "grad_norm": 4.135570049285889, "learning_rate": 1.1175172413793103e-06, "loss": 0.0986, "step": 10950 }, { "epoch": 3.1421333333333332, "grad_norm": 3.966614007949829, "learning_rate": 1.1161379310344828e-06, "loss": 0.1324, "step": 10955 }, { "epoch": 3.1424666666666665, "grad_norm": 4.45792293548584, "learning_rate": 1.114758620689655e-06, "loss": 0.1203, "step": 10960 }, { "epoch": 3.1428, "grad_norm": 3.802588939666748, "learning_rate": 1.1133793103448274e-06, "loss": 0.1555, "step": 10965 }, { "epoch": 3.143133333333333, "grad_norm": 4.903188705444336, "learning_rate": 1.1120000000000001e-06, "loss": 0.1538, "step": 10970 }, { "epoch": 3.143466666666667, "grad_norm": 3.8604860305786133, "learning_rate": 1.1106206896551723e-06, "loss": 0.1404, "step": 10975 }, { "epoch": 3.1438, "grad_norm": 3.5122451782226562, "learning_rate": 1.1092413793103448e-06, "loss": 0.1177, "step": 10980 }, { "epoch": 3.1441333333333334, "grad_norm": 3.8989648818969727, "learning_rate": 1.1078620689655172e-06, "loss": 0.1128, "step": 10985 }, { "epoch": 3.1444666666666667, "grad_norm": 3.2486085891723633, "learning_rate": 1.1064827586206895e-06, "loss": 0.1369, "step": 10990 }, { "epoch": 3.1448, "grad_norm": 4.76756477355957, "learning_rate": 1.1051034482758621e-06, "loss": 0.1436, "step": 10995 }, { "epoch": 3.1451333333333333, "grad_norm": 3.242360830307007, "learning_rate": 1.1037241379310344e-06, "loss": 0.1105, "step": 11000 }, { "epoch": 3.1451333333333333, "eval_loss": 0.21625454723834991, "eval_runtime": 139.1217, "eval_samples_per_second": 4.313, "eval_steps_per_second": 1.078, "eval_wer": 11.48838396732193, "step": 11000 }, { "epoch": 3.1454666666666666, "grad_norm": 3.257913827896118, "learning_rate": 1.1023448275862068e-06, "loss": 0.1063, "step": 11005 }, { "epoch": 3.1458, "grad_norm": 3.9775197505950928, "learning_rate": 1.1009655172413793e-06, "loss": 0.1004, "step": 11010 }, { "epoch": 3.1461333333333332, "grad_norm": 2.74399471282959, "learning_rate": 1.0995862068965515e-06, "loss": 0.1133, "step": 11015 }, { "epoch": 3.1464666666666665, "grad_norm": 4.073766708374023, "learning_rate": 1.0982068965517242e-06, "loss": 0.1127, "step": 11020 }, { "epoch": 3.1468, "grad_norm": 3.816695213317871, "learning_rate": 1.0968275862068966e-06, "loss": 0.1277, "step": 11025 }, { "epoch": 3.1471333333333336, "grad_norm": 4.856080532073975, "learning_rate": 1.0954482758620689e-06, "loss": 0.1532, "step": 11030 }, { "epoch": 3.147466666666667, "grad_norm": 3.316800117492676, "learning_rate": 1.0940689655172413e-06, "loss": 0.1079, "step": 11035 }, { "epoch": 3.1478, "grad_norm": 3.2388341426849365, "learning_rate": 1.0926896551724138e-06, "loss": 0.1399, "step": 11040 }, { "epoch": 3.1481333333333335, "grad_norm": 4.24043083190918, "learning_rate": 1.0913103448275862e-06, "loss": 0.129, "step": 11045 }, { "epoch": 3.1484666666666667, "grad_norm": 4.13203239440918, "learning_rate": 1.0899310344827587e-06, "loss": 0.1257, "step": 11050 }, { "epoch": 3.1488, "grad_norm": 4.07288122177124, "learning_rate": 1.088551724137931e-06, "loss": 0.1082, "step": 11055 }, { "epoch": 3.1491333333333333, "grad_norm": 4.2372145652771, "learning_rate": 1.0871724137931033e-06, "loss": 0.1295, "step": 11060 }, { "epoch": 3.1494666666666666, "grad_norm": 3.7961506843566895, "learning_rate": 1.085793103448276e-06, "loss": 0.1027, "step": 11065 }, { "epoch": 3.1498, "grad_norm": 4.484466552734375, "learning_rate": 1.0844137931034482e-06, "loss": 0.1445, "step": 11070 }, { "epoch": 3.1501333333333332, "grad_norm": 3.1614105701446533, "learning_rate": 1.0830344827586207e-06, "loss": 0.1245, "step": 11075 }, { "epoch": 3.1504666666666665, "grad_norm": 4.640326976776123, "learning_rate": 1.081655172413793e-06, "loss": 0.1185, "step": 11080 }, { "epoch": 3.1508, "grad_norm": 3.374824285507202, "learning_rate": 1.0802758620689654e-06, "loss": 0.1054, "step": 11085 }, { "epoch": 3.151133333333333, "grad_norm": 3.6071701049804688, "learning_rate": 1.078896551724138e-06, "loss": 0.0998, "step": 11090 }, { "epoch": 3.151466666666667, "grad_norm": 4.138154029846191, "learning_rate": 1.0775172413793103e-06, "loss": 0.126, "step": 11095 }, { "epoch": 3.1518, "grad_norm": 3.0040457248687744, "learning_rate": 1.0761379310344827e-06, "loss": 0.092, "step": 11100 }, { "epoch": 3.1521333333333335, "grad_norm": 3.696608543395996, "learning_rate": 1.074758620689655e-06, "loss": 0.1423, "step": 11105 }, { "epoch": 3.1524666666666668, "grad_norm": 4.555488109588623, "learning_rate": 1.0733793103448274e-06, "loss": 0.1636, "step": 11110 }, { "epoch": 3.1528, "grad_norm": 3.590470314025879, "learning_rate": 1.072e-06, "loss": 0.1295, "step": 11115 }, { "epoch": 3.1531333333333333, "grad_norm": 4.454814910888672, "learning_rate": 1.0706206896551723e-06, "loss": 0.1218, "step": 11120 }, { "epoch": 3.1534666666666666, "grad_norm": 3.3021135330200195, "learning_rate": 1.0692413793103448e-06, "loss": 0.1202, "step": 11125 }, { "epoch": 3.1538, "grad_norm": 4.106543064117432, "learning_rate": 1.0678620689655172e-06, "loss": 0.134, "step": 11130 }, { "epoch": 3.1541333333333332, "grad_norm": 3.962252140045166, "learning_rate": 1.0664827586206897e-06, "loss": 0.1075, "step": 11135 }, { "epoch": 3.1544666666666665, "grad_norm": 3.1145286560058594, "learning_rate": 1.065103448275862e-06, "loss": 0.1391, "step": 11140 }, { "epoch": 3.1548, "grad_norm": 4.332203388214111, "learning_rate": 1.0637241379310343e-06, "loss": 0.1272, "step": 11145 }, { "epoch": 3.1551333333333336, "grad_norm": 2.9342081546783447, "learning_rate": 1.0623448275862068e-06, "loss": 0.1023, "step": 11150 }, { "epoch": 3.155466666666667, "grad_norm": 3.5210816860198975, "learning_rate": 1.0609655172413792e-06, "loss": 0.1945, "step": 11155 }, { "epoch": 3.1558, "grad_norm": 3.0766563415527344, "learning_rate": 1.0595862068965517e-06, "loss": 0.0974, "step": 11160 }, { "epoch": 3.1561333333333335, "grad_norm": 3.3893978595733643, "learning_rate": 1.0582068965517241e-06, "loss": 0.1445, "step": 11165 }, { "epoch": 3.1564666666666668, "grad_norm": 3.350029706954956, "learning_rate": 1.0568275862068966e-06, "loss": 0.0927, "step": 11170 }, { "epoch": 3.1568, "grad_norm": 3.751157283782959, "learning_rate": 1.0554482758620688e-06, "loss": 0.123, "step": 11175 }, { "epoch": 3.1571333333333333, "grad_norm": 3.256519317626953, "learning_rate": 1.0540689655172413e-06, "loss": 0.1132, "step": 11180 }, { "epoch": 3.1574666666666666, "grad_norm": 2.7681188583374023, "learning_rate": 1.0526896551724137e-06, "loss": 0.0957, "step": 11185 }, { "epoch": 3.1578, "grad_norm": 4.9340667724609375, "learning_rate": 1.0513103448275862e-06, "loss": 0.1276, "step": 11190 }, { "epoch": 3.1581333333333332, "grad_norm": 3.9707071781158447, "learning_rate": 1.0499310344827586e-06, "loss": 0.144, "step": 11195 }, { "epoch": 3.1584666666666665, "grad_norm": 4.298243045806885, "learning_rate": 1.0485517241379309e-06, "loss": 0.1734, "step": 11200 }, { "epoch": 3.1588, "grad_norm": 3.9184322357177734, "learning_rate": 1.0471724137931035e-06, "loss": 0.094, "step": 11205 }, { "epoch": 3.159133333333333, "grad_norm": 3.741377115249634, "learning_rate": 1.045793103448276e-06, "loss": 0.1215, "step": 11210 }, { "epoch": 3.159466666666667, "grad_norm": 4.62982702255249, "learning_rate": 1.0444137931034482e-06, "loss": 0.1551, "step": 11215 }, { "epoch": 3.1598, "grad_norm": 3.4716312885284424, "learning_rate": 1.0430344827586207e-06, "loss": 0.0976, "step": 11220 }, { "epoch": 3.1601333333333335, "grad_norm": 4.447044849395752, "learning_rate": 1.0416551724137929e-06, "loss": 0.0963, "step": 11225 }, { "epoch": 3.1604666666666668, "grad_norm": 3.4925308227539062, "learning_rate": 1.0402758620689655e-06, "loss": 0.1303, "step": 11230 }, { "epoch": 3.1608, "grad_norm": 3.4067769050598145, "learning_rate": 1.038896551724138e-06, "loss": 0.1699, "step": 11235 }, { "epoch": 3.1611333333333334, "grad_norm": 4.410013198852539, "learning_rate": 1.0375172413793102e-06, "loss": 0.1202, "step": 11240 }, { "epoch": 3.1614666666666666, "grad_norm": 2.8956611156463623, "learning_rate": 1.0361379310344827e-06, "loss": 0.0989, "step": 11245 }, { "epoch": 3.1618, "grad_norm": 3.65350079536438, "learning_rate": 1.0347586206896551e-06, "loss": 0.0842, "step": 11250 }, { "epoch": 3.1621333333333332, "grad_norm": 3.0125489234924316, "learning_rate": 1.0333793103448276e-06, "loss": 0.138, "step": 11255 }, { "epoch": 3.1624666666666665, "grad_norm": 4.406427383422852, "learning_rate": 1.032e-06, "loss": 0.1272, "step": 11260 }, { "epoch": 3.1628, "grad_norm": 3.2507541179656982, "learning_rate": 1.0306206896551723e-06, "loss": 0.1097, "step": 11265 }, { "epoch": 3.163133333333333, "grad_norm": 3.8086438179016113, "learning_rate": 1.0292413793103447e-06, "loss": 0.1235, "step": 11270 }, { "epoch": 3.163466666666667, "grad_norm": 3.936859369277954, "learning_rate": 1.0278620689655174e-06, "loss": 0.1135, "step": 11275 }, { "epoch": 3.1638, "grad_norm": 4.147543907165527, "learning_rate": 1.0264827586206896e-06, "loss": 0.1505, "step": 11280 }, { "epoch": 3.1641333333333335, "grad_norm": 4.5223307609558105, "learning_rate": 1.025103448275862e-06, "loss": 0.1218, "step": 11285 }, { "epoch": 3.1644666666666668, "grad_norm": 3.4818384647369385, "learning_rate": 1.0237241379310343e-06, "loss": 0.0828, "step": 11290 }, { "epoch": 3.1648, "grad_norm": 2.720883369445801, "learning_rate": 1.0223448275862067e-06, "loss": 0.0982, "step": 11295 }, { "epoch": 3.1651333333333334, "grad_norm": 3.4577271938323975, "learning_rate": 1.0209655172413794e-06, "loss": 0.1369, "step": 11300 }, { "epoch": 3.1654666666666667, "grad_norm": 3.8356244564056396, "learning_rate": 1.0195862068965516e-06, "loss": 0.0941, "step": 11305 }, { "epoch": 3.1658, "grad_norm": 4.9618754386901855, "learning_rate": 1.018206896551724e-06, "loss": 0.1244, "step": 11310 }, { "epoch": 3.1661333333333332, "grad_norm": 3.8449361324310303, "learning_rate": 1.0168275862068965e-06, "loss": 0.1626, "step": 11315 }, { "epoch": 3.1664666666666665, "grad_norm": 4.0659284591674805, "learning_rate": 1.0154482758620688e-06, "loss": 0.1104, "step": 11320 }, { "epoch": 3.1668, "grad_norm": 4.606715679168701, "learning_rate": 1.0140689655172414e-06, "loss": 0.1303, "step": 11325 }, { "epoch": 3.167133333333333, "grad_norm": 3.882478952407837, "learning_rate": 1.0126896551724137e-06, "loss": 0.1208, "step": 11330 }, { "epoch": 3.167466666666667, "grad_norm": 3.4454171657562256, "learning_rate": 1.0113103448275861e-06, "loss": 0.1181, "step": 11335 }, { "epoch": 3.1678, "grad_norm": 3.3926291465759277, "learning_rate": 1.0099310344827586e-06, "loss": 0.1234, "step": 11340 }, { "epoch": 3.1681333333333335, "grad_norm": 4.010322570800781, "learning_rate": 1.0085517241379308e-06, "loss": 0.1516, "step": 11345 }, { "epoch": 3.1684666666666668, "grad_norm": 4.193769931793213, "learning_rate": 1.0071724137931035e-06, "loss": 0.1143, "step": 11350 }, { "epoch": 3.1688, "grad_norm": 3.828843355178833, "learning_rate": 1.005793103448276e-06, "loss": 0.1385, "step": 11355 }, { "epoch": 3.1691333333333334, "grad_norm": 3.6923646926879883, "learning_rate": 1.0044137931034482e-06, "loss": 0.155, "step": 11360 }, { "epoch": 3.1694666666666667, "grad_norm": 4.8472747802734375, "learning_rate": 1.0030344827586206e-06, "loss": 0.1621, "step": 11365 }, { "epoch": 3.1698, "grad_norm": 3.7839255332946777, "learning_rate": 1.001655172413793e-06, "loss": 0.1137, "step": 11370 }, { "epoch": 3.1701333333333332, "grad_norm": 3.1415975093841553, "learning_rate": 1.0002758620689655e-06, "loss": 0.1233, "step": 11375 }, { "epoch": 3.1704666666666665, "grad_norm": 3.098907709121704, "learning_rate": 9.98896551724138e-07, "loss": 0.1355, "step": 11380 }, { "epoch": 3.1708, "grad_norm": 4.023937702178955, "learning_rate": 9.975172413793102e-07, "loss": 0.1345, "step": 11385 }, { "epoch": 3.171133333333333, "grad_norm": 3.4900336265563965, "learning_rate": 9.961379310344826e-07, "loss": 0.1484, "step": 11390 }, { "epoch": 3.1714666666666664, "grad_norm": 3.7556633949279785, "learning_rate": 9.94758620689655e-07, "loss": 0.14, "step": 11395 }, { "epoch": 3.1718, "grad_norm": 4.302180290222168, "learning_rate": 9.933793103448275e-07, "loss": 0.1161, "step": 11400 }, { "epoch": 3.1721333333333335, "grad_norm": 4.842629432678223, "learning_rate": 9.92e-07, "loss": 0.1481, "step": 11405 }, { "epoch": 3.1724666666666668, "grad_norm": 3.6063475608825684, "learning_rate": 9.906206896551722e-07, "loss": 0.1166, "step": 11410 }, { "epoch": 3.1728, "grad_norm": 3.3511264324188232, "learning_rate": 9.892413793103449e-07, "loss": 0.111, "step": 11415 }, { "epoch": 3.1731333333333334, "grad_norm": 4.066712856292725, "learning_rate": 9.878620689655171e-07, "loss": 0.1514, "step": 11420 }, { "epoch": 3.1734666666666667, "grad_norm": 4.23630952835083, "learning_rate": 9.864827586206896e-07, "loss": 0.1332, "step": 11425 }, { "epoch": 3.1738, "grad_norm": 3.69537615776062, "learning_rate": 9.85103448275862e-07, "loss": 0.1548, "step": 11430 }, { "epoch": 3.1741333333333333, "grad_norm": 4.02853536605835, "learning_rate": 9.837241379310345e-07, "loss": 0.1252, "step": 11435 }, { "epoch": 3.1744666666666665, "grad_norm": 3.5623393058776855, "learning_rate": 9.82344827586207e-07, "loss": 0.1098, "step": 11440 }, { "epoch": 3.1748, "grad_norm": 3.4090816974639893, "learning_rate": 9.809655172413792e-07, "loss": 0.0918, "step": 11445 }, { "epoch": 3.175133333333333, "grad_norm": 3.200495958328247, "learning_rate": 9.795862068965516e-07, "loss": 0.0897, "step": 11450 }, { "epoch": 3.175466666666667, "grad_norm": 3.247596502304077, "learning_rate": 9.78206896551724e-07, "loss": 0.1231, "step": 11455 }, { "epoch": 3.1758, "grad_norm": 4.432947158813477, "learning_rate": 9.768275862068965e-07, "loss": 0.1014, "step": 11460 }, { "epoch": 3.1761333333333335, "grad_norm": 3.2055153846740723, "learning_rate": 9.75448275862069e-07, "loss": 0.1161, "step": 11465 }, { "epoch": 3.1764666666666668, "grad_norm": 3.0054171085357666, "learning_rate": 9.740689655172414e-07, "loss": 0.1082, "step": 11470 }, { "epoch": 3.1768, "grad_norm": 3.225543975830078, "learning_rate": 9.726896551724139e-07, "loss": 0.0878, "step": 11475 }, { "epoch": 3.1771333333333334, "grad_norm": 3.2011003494262695, "learning_rate": 9.71310344827586e-07, "loss": 0.1094, "step": 11480 }, { "epoch": 3.1774666666666667, "grad_norm": 2.78452205657959, "learning_rate": 9.699310344827585e-07, "loss": 0.1223, "step": 11485 }, { "epoch": 3.1778, "grad_norm": 3.7415049076080322, "learning_rate": 9.68551724137931e-07, "loss": 0.1335, "step": 11490 }, { "epoch": 3.1781333333333333, "grad_norm": 3.844025135040283, "learning_rate": 9.671724137931034e-07, "loss": 0.1249, "step": 11495 }, { "epoch": 3.1784666666666666, "grad_norm": 3.727860689163208, "learning_rate": 9.657931034482759e-07, "loss": 0.0897, "step": 11500 }, { "epoch": 3.1788, "grad_norm": 3.7526516914367676, "learning_rate": 9.644137931034483e-07, "loss": 0.1048, "step": 11505 }, { "epoch": 3.179133333333333, "grad_norm": 5.0751447677612305, "learning_rate": 9.630344827586206e-07, "loss": 0.112, "step": 11510 }, { "epoch": 3.1794666666666664, "grad_norm": 3.638728618621826, "learning_rate": 9.61655172413793e-07, "loss": 0.1408, "step": 11515 }, { "epoch": 3.1798, "grad_norm": 4.104787349700928, "learning_rate": 9.602758620689655e-07, "loss": 0.1053, "step": 11520 }, { "epoch": 3.1801333333333335, "grad_norm": 3.876075029373169, "learning_rate": 9.58896551724138e-07, "loss": 0.1091, "step": 11525 }, { "epoch": 3.1804666666666668, "grad_norm": 3.4228522777557373, "learning_rate": 9.575172413793104e-07, "loss": 0.1192, "step": 11530 }, { "epoch": 3.1808, "grad_norm": 3.695359945297241, "learning_rate": 9.561379310344826e-07, "loss": 0.1338, "step": 11535 }, { "epoch": 3.1811333333333334, "grad_norm": 4.151112079620361, "learning_rate": 9.547586206896553e-07, "loss": 0.1097, "step": 11540 }, { "epoch": 3.1814666666666667, "grad_norm": 3.7210211753845215, "learning_rate": 9.533793103448275e-07, "loss": 0.1062, "step": 11545 }, { "epoch": 3.1818, "grad_norm": 3.5571415424346924, "learning_rate": 9.52e-07, "loss": 0.1579, "step": 11550 }, { "epoch": 3.1821333333333333, "grad_norm": 4.391376972198486, "learning_rate": 9.506206896551724e-07, "loss": 0.1546, "step": 11555 }, { "epoch": 3.1824666666666666, "grad_norm": 4.067860126495361, "learning_rate": 9.492413793103447e-07, "loss": 0.1284, "step": 11560 }, { "epoch": 3.1828, "grad_norm": 4.069371700286865, "learning_rate": 9.478620689655172e-07, "loss": 0.1298, "step": 11565 }, { "epoch": 3.183133333333333, "grad_norm": 3.5552937984466553, "learning_rate": 9.464827586206896e-07, "loss": 0.1032, "step": 11570 }, { "epoch": 3.183466666666667, "grad_norm": 3.9518773555755615, "learning_rate": 9.451034482758621e-07, "loss": 0.1263, "step": 11575 }, { "epoch": 3.1838, "grad_norm": 3.752544641494751, "learning_rate": 9.437241379310344e-07, "loss": 0.1286, "step": 11580 }, { "epoch": 3.1841333333333335, "grad_norm": 3.8621153831481934, "learning_rate": 9.423448275862068e-07, "loss": 0.1186, "step": 11585 }, { "epoch": 3.184466666666667, "grad_norm": 2.9975900650024414, "learning_rate": 9.409655172413793e-07, "loss": 0.1286, "step": 11590 }, { "epoch": 3.1848, "grad_norm": 3.364678382873535, "learning_rate": 9.395862068965517e-07, "loss": 0.1046, "step": 11595 }, { "epoch": 3.1851333333333334, "grad_norm": 3.5356502532958984, "learning_rate": 9.382068965517241e-07, "loss": 0.0894, "step": 11600 }, { "epoch": 3.1854666666666667, "grad_norm": 2.6523029804229736, "learning_rate": 9.368275862068965e-07, "loss": 0.0961, "step": 11605 }, { "epoch": 3.1858, "grad_norm": 4.011308193206787, "learning_rate": 9.354482758620689e-07, "loss": 0.1124, "step": 11610 }, { "epoch": 3.1861333333333333, "grad_norm": 3.4851319789886475, "learning_rate": 9.340689655172414e-07, "loss": 0.1066, "step": 11615 }, { "epoch": 3.1864666666666666, "grad_norm": 3.6874606609344482, "learning_rate": 9.326896551724137e-07, "loss": 0.1025, "step": 11620 }, { "epoch": 3.1868, "grad_norm": 3.4741806983947754, "learning_rate": 9.313103448275862e-07, "loss": 0.1093, "step": 11625 }, { "epoch": 3.187133333333333, "grad_norm": 4.731088638305664, "learning_rate": 9.299310344827586e-07, "loss": 0.1333, "step": 11630 }, { "epoch": 3.1874666666666664, "grad_norm": 4.179452419281006, "learning_rate": 9.28551724137931e-07, "loss": 0.0782, "step": 11635 }, { "epoch": 3.1878, "grad_norm": 3.4660122394561768, "learning_rate": 9.271724137931034e-07, "loss": 0.0968, "step": 11640 }, { "epoch": 3.1881333333333335, "grad_norm": 3.173128604888916, "learning_rate": 9.257931034482757e-07, "loss": 0.0849, "step": 11645 }, { "epoch": 3.188466666666667, "grad_norm": 4.242127895355225, "learning_rate": 9.244137931034483e-07, "loss": 0.1408, "step": 11650 }, { "epoch": 3.1888, "grad_norm": 2.967674732208252, "learning_rate": 9.230344827586206e-07, "loss": 0.1181, "step": 11655 }, { "epoch": 3.1891333333333334, "grad_norm": 3.6537790298461914, "learning_rate": 9.216551724137931e-07, "loss": 0.1212, "step": 11660 }, { "epoch": 3.1894666666666667, "grad_norm": 4.012179851531982, "learning_rate": 9.202758620689654e-07, "loss": 0.105, "step": 11665 }, { "epoch": 3.1898, "grad_norm": 3.1177618503570557, "learning_rate": 9.18896551724138e-07, "loss": 0.1258, "step": 11670 }, { "epoch": 3.1901333333333333, "grad_norm": 3.2957189083099365, "learning_rate": 9.175172413793103e-07, "loss": 0.1053, "step": 11675 }, { "epoch": 3.1904666666666666, "grad_norm": 3.2841341495513916, "learning_rate": 9.161379310344827e-07, "loss": 0.1204, "step": 11680 }, { "epoch": 3.1908, "grad_norm": 4.222930431365967, "learning_rate": 9.147586206896551e-07, "loss": 0.105, "step": 11685 }, { "epoch": 3.191133333333333, "grad_norm": 4.13801908493042, "learning_rate": 9.133793103448276e-07, "loss": 0.1079, "step": 11690 }, { "epoch": 3.191466666666667, "grad_norm": 3.3677818775177, "learning_rate": 9.12e-07, "loss": 0.1054, "step": 11695 }, { "epoch": 3.1918, "grad_norm": 4.869099140167236, "learning_rate": 9.106206896551724e-07, "loss": 0.1235, "step": 11700 }, { "epoch": 3.1921333333333335, "grad_norm": 5.588912010192871, "learning_rate": 9.092413793103448e-07, "loss": 0.1235, "step": 11705 }, { "epoch": 3.192466666666667, "grad_norm": 3.0313968658447266, "learning_rate": 9.078620689655173e-07, "loss": 0.0952, "step": 11710 }, { "epoch": 3.1928, "grad_norm": 3.1648051738739014, "learning_rate": 9.064827586206896e-07, "loss": 0.1169, "step": 11715 }, { "epoch": 3.1931333333333334, "grad_norm": 4.407665729522705, "learning_rate": 9.05103448275862e-07, "loss": 0.097, "step": 11720 }, { "epoch": 3.1934666666666667, "grad_norm": 3.2968454360961914, "learning_rate": 9.037241379310344e-07, "loss": 0.1042, "step": 11725 }, { "epoch": 3.1938, "grad_norm": 4.946019649505615, "learning_rate": 9.023448275862069e-07, "loss": 0.1352, "step": 11730 }, { "epoch": 3.1941333333333333, "grad_norm": 3.3684799671173096, "learning_rate": 9.009655172413793e-07, "loss": 0.1033, "step": 11735 }, { "epoch": 3.1944666666666666, "grad_norm": 4.070157051086426, "learning_rate": 8.995862068965517e-07, "loss": 0.1198, "step": 11740 }, { "epoch": 3.1948, "grad_norm": 2.985649347305298, "learning_rate": 8.982068965517241e-07, "loss": 0.1308, "step": 11745 }, { "epoch": 3.195133333333333, "grad_norm": 3.186408281326294, "learning_rate": 8.968275862068964e-07, "loss": 0.0959, "step": 11750 }, { "epoch": 3.1954666666666665, "grad_norm": 3.5271453857421875, "learning_rate": 8.95448275862069e-07, "loss": 0.1175, "step": 11755 }, { "epoch": 3.1958, "grad_norm": 4.286133289337158, "learning_rate": 8.940689655172413e-07, "loss": 0.0981, "step": 11760 }, { "epoch": 4.000066666666667, "grad_norm": 3.852144956588745, "learning_rate": 8.926896551724138e-07, "loss": 0.1092, "step": 11765 }, { "epoch": 4.0004, "grad_norm": 2.359714984893799, "learning_rate": 8.913103448275861e-07, "loss": 0.0982, "step": 11770 }, { "epoch": 4.000733333333334, "grad_norm": 3.267225503921509, "learning_rate": 8.899310344827587e-07, "loss": 0.0947, "step": 11775 }, { "epoch": 4.0010666666666665, "grad_norm": 3.4340498447418213, "learning_rate": 8.88551724137931e-07, "loss": 0.0898, "step": 11780 }, { "epoch": 4.0014, "grad_norm": 3.7093160152435303, "learning_rate": 8.871724137931034e-07, "loss": 0.1167, "step": 11785 }, { "epoch": 4.001733333333333, "grad_norm": 3.491961717605591, "learning_rate": 8.857931034482758e-07, "loss": 0.1353, "step": 11790 }, { "epoch": 4.002066666666667, "grad_norm": 3.1120567321777344, "learning_rate": 8.844137931034483e-07, "loss": 0.1097, "step": 11795 }, { "epoch": 4.0024, "grad_norm": 3.7733826637268066, "learning_rate": 8.830344827586207e-07, "loss": 0.1216, "step": 11800 }, { "epoch": 4.0027333333333335, "grad_norm": 3.99910044670105, "learning_rate": 8.81655172413793e-07, "loss": 0.1119, "step": 11805 }, { "epoch": 4.003066666666666, "grad_norm": 3.343719720840454, "learning_rate": 8.802758620689654e-07, "loss": 0.0976, "step": 11810 }, { "epoch": 4.0034, "grad_norm": 3.286072254180908, "learning_rate": 8.788965517241379e-07, "loss": 0.0907, "step": 11815 }, { "epoch": 4.003733333333333, "grad_norm": 3.1599345207214355, "learning_rate": 8.775172413793103e-07, "loss": 0.0781, "step": 11820 }, { "epoch": 4.004066666666667, "grad_norm": 3.587409496307373, "learning_rate": 8.761379310344827e-07, "loss": 0.1052, "step": 11825 }, { "epoch": 4.0044, "grad_norm": 3.36879301071167, "learning_rate": 8.747586206896551e-07, "loss": 0.0748, "step": 11830 }, { "epoch": 4.004733333333333, "grad_norm": 3.4844284057617188, "learning_rate": 8.733793103448276e-07, "loss": 0.1008, "step": 11835 }, { "epoch": 4.005066666666667, "grad_norm": 3.1570310592651367, "learning_rate": 8.72e-07, "loss": 0.0997, "step": 11840 }, { "epoch": 4.0054, "grad_norm": 3.236266613006592, "learning_rate": 8.706206896551723e-07, "loss": 0.0877, "step": 11845 }, { "epoch": 4.005733333333334, "grad_norm": 3.3424742221832275, "learning_rate": 8.692413793103448e-07, "loss": 0.1013, "step": 11850 }, { "epoch": 4.006066666666666, "grad_norm": 2.7490155696868896, "learning_rate": 8.678620689655172e-07, "loss": 0.0664, "step": 11855 }, { "epoch": 4.0064, "grad_norm": 4.206040382385254, "learning_rate": 8.664827586206897e-07, "loss": 0.082, "step": 11860 }, { "epoch": 4.006733333333333, "grad_norm": 3.450316905975342, "learning_rate": 8.65103448275862e-07, "loss": 0.1, "step": 11865 }, { "epoch": 4.007066666666667, "grad_norm": 4.00970458984375, "learning_rate": 8.637241379310345e-07, "loss": 0.1303, "step": 11870 }, { "epoch": 4.0074, "grad_norm": 3.4662065505981445, "learning_rate": 8.623448275862069e-07, "loss": 0.0924, "step": 11875 }, { "epoch": 4.007733333333333, "grad_norm": 2.4423773288726807, "learning_rate": 8.609655172413792e-07, "loss": 0.105, "step": 11880 }, { "epoch": 4.008066666666666, "grad_norm": 3.157292604446411, "learning_rate": 8.595862068965517e-07, "loss": 0.0756, "step": 11885 }, { "epoch": 4.0084, "grad_norm": 3.0233206748962402, "learning_rate": 8.58206896551724e-07, "loss": 0.0829, "step": 11890 }, { "epoch": 4.008733333333334, "grad_norm": 3.358638286590576, "learning_rate": 8.568275862068966e-07, "loss": 0.0838, "step": 11895 }, { "epoch": 4.009066666666667, "grad_norm": 3.736022472381592, "learning_rate": 8.554482758620689e-07, "loss": 0.1377, "step": 11900 }, { "epoch": 4.0094, "grad_norm": 3.917501926422119, "learning_rate": 8.540689655172414e-07, "loss": 0.0776, "step": 11905 }, { "epoch": 4.009733333333333, "grad_norm": 3.0256521701812744, "learning_rate": 8.526896551724137e-07, "loss": 0.1024, "step": 11910 }, { "epoch": 4.010066666666667, "grad_norm": 3.1207637786865234, "learning_rate": 8.513103448275861e-07, "loss": 0.0784, "step": 11915 }, { "epoch": 4.0104, "grad_norm": 3.4567348957061768, "learning_rate": 8.499310344827586e-07, "loss": 0.0731, "step": 11920 }, { "epoch": 4.0107333333333335, "grad_norm": 3.023005723953247, "learning_rate": 8.48551724137931e-07, "loss": 0.0733, "step": 11925 }, { "epoch": 4.011066666666666, "grad_norm": 2.3652994632720947, "learning_rate": 8.471724137931034e-07, "loss": 0.0886, "step": 11930 }, { "epoch": 4.0114, "grad_norm": 4.146409034729004, "learning_rate": 8.457931034482758e-07, "loss": 0.1198, "step": 11935 }, { "epoch": 4.011733333333333, "grad_norm": 3.667948007583618, "learning_rate": 8.444137931034483e-07, "loss": 0.072, "step": 11940 }, { "epoch": 4.012066666666667, "grad_norm": 2.771521806716919, "learning_rate": 8.430344827586207e-07, "loss": 0.1178, "step": 11945 }, { "epoch": 4.0124, "grad_norm": 3.1634113788604736, "learning_rate": 8.41655172413793e-07, "loss": 0.107, "step": 11950 }, { "epoch": 4.012733333333333, "grad_norm": 3.0591869354248047, "learning_rate": 8.402758620689655e-07, "loss": 0.0888, "step": 11955 }, { "epoch": 4.013066666666667, "grad_norm": 3.368868350982666, "learning_rate": 8.388965517241379e-07, "loss": 0.0884, "step": 11960 }, { "epoch": 4.0134, "grad_norm": 3.7147469520568848, "learning_rate": 8.375172413793103e-07, "loss": 0.0797, "step": 11965 }, { "epoch": 4.013733333333334, "grad_norm": 3.10611629486084, "learning_rate": 8.361379310344827e-07, "loss": 0.0828, "step": 11970 }, { "epoch": 4.0140666666666664, "grad_norm": 3.281848192214966, "learning_rate": 8.34758620689655e-07, "loss": 0.1178, "step": 11975 }, { "epoch": 4.0144, "grad_norm": 3.2157599925994873, "learning_rate": 8.333793103448276e-07, "loss": 0.0895, "step": 11980 }, { "epoch": 4.014733333333333, "grad_norm": 3.557180166244507, "learning_rate": 8.319999999999999e-07, "loss": 0.1007, "step": 11985 }, { "epoch": 4.015066666666667, "grad_norm": 2.854917049407959, "learning_rate": 8.306206896551724e-07, "loss": 0.0863, "step": 11990 }, { "epoch": 4.0154, "grad_norm": 2.7035117149353027, "learning_rate": 8.292413793103447e-07, "loss": 0.0881, "step": 11995 }, { "epoch": 4.015733333333333, "grad_norm": 3.303386688232422, "learning_rate": 8.278620689655173e-07, "loss": 0.0952, "step": 12000 }, { "epoch": 4.015733333333333, "eval_loss": 0.22301289439201355, "eval_runtime": 140.1879, "eval_samples_per_second": 4.28, "eval_steps_per_second": 1.07, "eval_wer": 10.850140413581823, "step": 12000 } ], "logging_steps": 5, "max_steps": 15000, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 1000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 6.547967198783078e+20, "train_batch_size": 4, "trial_name": null, "trial_params": null }