distilbert-finetuned-imdb-mlm / log_history.json

Upload log_history.json with huggingface_hub

74e3ced verified about 2 months ago

35.7 kB

[{"loss": 3.1047, "grad_norm": 4.89377498626709, "learning_rate": 1.9600000000000003e-06, "epoch": 0.027948574622694244, "step": 100}, {"loss": 2.8192, "grad_norm": 4.3941850662231445, "learning_rate": 3.96e-06, "epoch": 0.05589714924538849, "step": 200}, {"loss": 2.7448, "grad_norm": 4.453423976898193, "learning_rate": 5.9600000000000005e-06, "epoch": 0.08384572386808273, "step": 300}, {"loss": 2.7036, "grad_norm": 4.592410087585449, "learning_rate": 7.960000000000002e-06, "epoch": 0.11179429849077697, "step": 400}, {"loss": 2.6995, "grad_norm": 4.377350330352783, "learning_rate": 9.960000000000001e-06, "epoch": 0.13974287311347122, "step": 500}, {"eval_loss": 2.5390326976776123, "eval_runtime": 52.7041, "eval_samples_per_second": 1412.566, "eval_steps_per_second": 44.152, "epoch": 0.13974287311347122, "step": 500}, {"loss": 2.6428, "grad_norm": 4.321450710296631, "learning_rate": 1.196e-05, "epoch": 0.16769144773616546, "step": 600}, {"loss": 2.6282, "grad_norm": 4.6372761726379395, "learning_rate": 1.396e-05, "epoch": 0.1956400223588597, "step": 700}, {"loss": 2.6057, "grad_norm": 4.035613536834717, "learning_rate": 1.5960000000000003e-05, "epoch": 0.22358859698155395, "step": 800}, {"loss": 2.5833, "grad_norm": 4.126962661743164, "learning_rate": 1.796e-05, "epoch": 0.2515371716042482, "step": 900}, {"loss": 2.5528, "grad_norm": 3.811983346939087, "learning_rate": 1.9960000000000002e-05, "epoch": 0.27948574622694244, "step": 1000}, {"eval_loss": 2.441873788833618, "eval_runtime": 52.7714, "eval_samples_per_second": 1410.765, "eval_steps_per_second": 44.096, "epoch": 0.27948574622694244, "step": 1000}, {"loss": 2.5353, "grad_norm": 3.8589742183685303, "learning_rate": 1.994364577343301e-05, "epoch": 0.3074343208496367, "step": 1100}, {"loss": 2.5412, "grad_norm": 3.977374792098999, "learning_rate": 1.988614146060955e-05, "epoch": 0.3353828954723309, "step": 1200}, {"loss": 2.5234, "grad_norm": 4.082961559295654, "learning_rate": 1.9828637147786083e-05, "epoch": 0.36333147009502514, "step": 1300}, {"loss": 2.5178, "grad_norm": 3.7309653759002686, "learning_rate": 1.977113283496262e-05, "epoch": 0.3912800447177194, "step": 1400}, {"loss": 2.5053, "grad_norm": 4.000097274780273, "learning_rate": 1.971362852213916e-05, "epoch": 0.41922861934041367, "step": 1500}, {"eval_loss": 2.3897337913513184, "eval_runtime": 52.5138, "eval_samples_per_second": 1417.684, "eval_steps_per_second": 44.312, "epoch": 0.41922861934041367, "step": 1500}, {"loss": 2.4885, "grad_norm": 3.882849931716919, "learning_rate": 1.96561242093157e-05, "epoch": 0.4471771939631079, "step": 1600}, {"loss": 2.4923, "grad_norm": 3.9837706089019775, "learning_rate": 1.959861989649224e-05, "epoch": 0.47512576858580213, "step": 1700}, {"loss": 2.4849, "grad_norm": 3.8959197998046875, "learning_rate": 1.9541115583668777e-05, "epoch": 0.5030743432084964, "step": 1800}, {"loss": 2.4648, "grad_norm": 3.974475383758545, "learning_rate": 1.9483611270845315e-05, "epoch": 0.5310229178311906, "step": 1900}, {"loss": 2.4633, "grad_norm": 3.645838975906372, "learning_rate": 1.9426106958021853e-05, "epoch": 0.5589714924538849, "step": 2000}, {"eval_loss": 2.353388786315918, "eval_runtime": 52.6135, "eval_samples_per_second": 1414.999, "eval_steps_per_second": 44.228, "epoch": 0.5589714924538849, "step": 2000}, {"loss": 2.4576, "grad_norm": 3.731006145477295, "learning_rate": 1.936860264519839e-05, "epoch": 0.5869200670765791, "step": 2100}, {"loss": 2.459, "grad_norm": 3.9809024333953857, "learning_rate": 1.931109833237493e-05, "epoch": 0.6148686416992734, "step": 2200}, {"loss": 2.4334, "grad_norm": 3.6916182041168213, "learning_rate": 1.9253594019551467e-05, "epoch": 0.6428172163219675, "step": 2300}, {"loss": 2.4535, "grad_norm": 3.899843692779541, "learning_rate": 1.919608970672801e-05, "epoch": 0.6707657909446618, "step": 2400}, {"loss": 2.4247, "grad_norm": 4.0207014083862305, "learning_rate": 1.9138585393904546e-05, "epoch": 0.6987143655673561, "step": 2500}, {"eval_loss": 2.3301198482513428, "eval_runtime": 52.5034, "eval_samples_per_second": 1417.966, "eval_steps_per_second": 44.321, "epoch": 0.6987143655673561, "step": 2500}, {"loss": 2.4408, "grad_norm": 3.9347500801086426, "learning_rate": 1.9081081081081084e-05, "epoch": 0.7266629401900503, "step": 2600}, {"loss": 2.4372, "grad_norm": 3.785374164581299, "learning_rate": 1.9023576768257622e-05, "epoch": 0.7546115148127446, "step": 2700}, {"loss": 2.4224, "grad_norm": 3.9950473308563232, "learning_rate": 1.896607245543416e-05, "epoch": 0.7825600894354388, "step": 2800}, {"loss": 2.423, "grad_norm": 3.8601973056793213, "learning_rate": 1.89085681426107e-05, "epoch": 0.810508664058133, "step": 2900}, {"loss": 2.4158, "grad_norm": 4.024655818939209, "learning_rate": 1.8851063829787236e-05, "epoch": 0.8384572386808273, "step": 3000}, {"eval_loss": 2.3086278438568115, "eval_runtime": 52.6099, "eval_samples_per_second": 1415.094, "eval_steps_per_second": 44.231, "epoch": 0.8384572386808273, "step": 3000}, {"loss": 2.412, "grad_norm": 3.703744411468506, "learning_rate": 1.8793559516963774e-05, "epoch": 0.8664058133035215, "step": 3100}, {"loss": 2.4024, "grad_norm": 4.003916263580322, "learning_rate": 1.8736055204140312e-05, "epoch": 0.8943543879262158, "step": 3200}, {"loss": 2.4073, "grad_norm": 3.822333574295044, "learning_rate": 1.867855089131685e-05, "epoch": 0.92230296254891, "step": 3300}, {"loss": 2.4006, "grad_norm": 3.93556547164917, "learning_rate": 1.862104657849339e-05, "epoch": 0.9502515371716043, "step": 3400}, {"loss": 2.3959, "grad_norm": 3.8699958324432373, "learning_rate": 1.8563542265669927e-05, "epoch": 0.9782001117942984, "step": 3500}, {"eval_loss": 2.291896104812622, "eval_runtime": 52.1619, "eval_samples_per_second": 1427.248, "eval_steps_per_second": 44.611, "epoch": 0.9782001117942984, "step": 3500}, {"loss": 2.4, "grad_norm": 3.7592082023620605, "learning_rate": 1.8506037952846465e-05, "epoch": 1.0061486864169928, "step": 3600}, {"loss": 2.3902, "grad_norm": 3.7731549739837646, "learning_rate": 1.8448533640023003e-05, "epoch": 1.034097261039687, "step": 3700}, {"loss": 2.3752, "grad_norm": 3.9741852283477783, "learning_rate": 1.839102932719954e-05, "epoch": 1.0620458356623812, "step": 3800}, {"loss": 2.3824, "grad_norm": 3.913311243057251, "learning_rate": 1.833352501437608e-05, "epoch": 1.0899944102850754, "step": 3900}, {"loss": 2.362, "grad_norm": 3.866694211959839, "learning_rate": 1.8276020701552617e-05, "epoch": 1.1179429849077698, "step": 4000}, {"eval_loss": 2.276815414428711, "eval_runtime": 52.5809, "eval_samples_per_second": 1415.876, "eval_steps_per_second": 44.256, "epoch": 1.1179429849077698, "step": 4000}, {"loss": 2.3732, "grad_norm": 3.940786123275757, "learning_rate": 1.8218516388729158e-05, "epoch": 1.145891559530464, "step": 4100}, {"loss": 2.359, "grad_norm": 3.6565425395965576, "learning_rate": 1.8161012075905696e-05, "epoch": 1.1738401341531581, "step": 4200}, {"loss": 2.3496, "grad_norm": 3.6673896312713623, "learning_rate": 1.8103507763082234e-05, "epoch": 1.2017887087758523, "step": 4300}, {"loss": 2.3673, "grad_norm": 3.906834602355957, "learning_rate": 1.8046003450258772e-05, "epoch": 1.2297372833985467, "step": 4400}, {"loss": 2.3645, "grad_norm": 3.678053379058838, "learning_rate": 1.798849913743531e-05, "epoch": 1.2576858580212409, "step": 4500}, {"eval_loss": 2.267490863800049, "eval_runtime": 52.4165, "eval_samples_per_second": 1420.317, "eval_steps_per_second": 44.394, "epoch": 1.2576858580212409, "step": 4500}, {"loss": 2.348, "grad_norm": 3.7969439029693604, "learning_rate": 1.7930994824611848e-05, "epoch": 1.2856344326439353, "step": 4600}, {"loss": 2.3396, "grad_norm": 3.764622449874878, "learning_rate": 1.7873490511788386e-05, "epoch": 1.3135830072666295, "step": 4700}, {"loss": 2.3534, "grad_norm": 3.7886691093444824, "learning_rate": 1.7815986198964924e-05, "epoch": 1.3415315818893236, "step": 4800}, {"loss": 2.3519, "grad_norm": 3.940391778945923, "learning_rate": 1.7758481886141462e-05, "epoch": 1.3694801565120178, "step": 4900}, {"loss": 2.3485, "grad_norm": 3.920891523361206, "learning_rate": 1.7700977573318e-05, "epoch": 1.397428731134712, "step": 5000}, {"eval_loss": 2.25654935836792, "eval_runtime": 52.3717, "eval_samples_per_second": 1421.53, "eval_steps_per_second": 44.432, "epoch": 1.397428731134712, "step": 5000}, {"loss": 2.3585, "grad_norm": 3.7215590476989746, "learning_rate": 1.7643473260494538e-05, "epoch": 1.4253773057574064, "step": 5100}, {"loss": 2.326, "grad_norm": 3.7235183715820312, "learning_rate": 1.7585968947671076e-05, "epoch": 1.4533258803801006, "step": 5200}, {"loss": 2.3449, "grad_norm": 3.831592559814453, "learning_rate": 1.7528464634847614e-05, "epoch": 1.481274455002795, "step": 5300}, {"loss": 2.3378, "grad_norm": 3.7258005142211914, "learning_rate": 1.7470960322024152e-05, "epoch": 1.5092230296254892, "step": 5400}, {"loss": 2.3424, "grad_norm": 3.7619292736053467, "learning_rate": 1.741345600920069e-05, "epoch": 1.5371716042481833, "step": 5500}, {"eval_loss": 2.248929977416992, "eval_runtime": 52.3545, "eval_samples_per_second": 1421.998, "eval_steps_per_second": 44.447, "epoch": 1.5371716042481833, "step": 5500}, {"loss": 2.323, "grad_norm": 3.771364212036133, "learning_rate": 1.7355951696377228e-05, "epoch": 1.5651201788708775, "step": 5600}, {"loss": 2.3178, "grad_norm": 3.536165237426758, "learning_rate": 1.7298447383553766e-05, "epoch": 1.5930687534935717, "step": 5700}, {"loss": 2.3407, "grad_norm": 3.8707046508789062, "learning_rate": 1.7240943070730308e-05, "epoch": 1.621017328116266, "step": 5800}, {"loss": 2.3297, "grad_norm": 3.936491012573242, "learning_rate": 1.7183438757906846e-05, "epoch": 1.6489659027389603, "step": 5900}, {"loss": 2.3454, "grad_norm": 3.846097230911255, "learning_rate": 1.7125934445083384e-05, "epoch": 1.6769144773616547, "step": 6000}, {"eval_loss": 2.2266361713409424, "eval_runtime": 52.4725, "eval_samples_per_second": 1418.8, "eval_steps_per_second": 44.347, "epoch": 1.6769144773616547, "step": 6000}, {"loss": 2.347, "grad_norm": 3.876675844192505, "learning_rate": 1.7068430132259922e-05, "epoch": 1.7048630519843488, "step": 6100}, {"loss": 2.334, "grad_norm": 3.8105781078338623, "learning_rate": 1.701092581943646e-05, "epoch": 1.732811626607043, "step": 6200}, {"loss": 2.3271, "grad_norm": 3.7261440753936768, "learning_rate": 1.6953421506612998e-05, "epoch": 1.7607602012297372, "step": 6300}, {"loss": 2.2933, "grad_norm": 3.6390011310577393, "learning_rate": 1.6895917193789536e-05, "epoch": 1.7887087758524314, "step": 6400}, {"loss": 2.3364, "grad_norm": 3.82381272315979, "learning_rate": 1.6838412880966074e-05, "epoch": 1.8166573504751258, "step": 6500}, {"eval_loss": 2.2285444736480713, "eval_runtime": 52.4294, "eval_samples_per_second": 1419.968, "eval_steps_per_second": 44.384, "epoch": 1.8166573504751258, "step": 6500}, {"loss": 2.3161, "grad_norm": 3.7404496669769287, "learning_rate": 1.6780908568142612e-05, "epoch": 1.8446059250978202, "step": 6600}, {"loss": 2.3181, "grad_norm": 3.818695306777954, "learning_rate": 1.672340425531915e-05, "epoch": 1.8725544997205144, "step": 6700}, {"loss": 2.316, "grad_norm": 3.919891595840454, "learning_rate": 1.6665899942495688e-05, "epoch": 1.9005030743432085, "step": 6800}, {"loss": 2.293, "grad_norm": 3.769660472869873, "learning_rate": 1.6608395629672226e-05, "epoch": 1.9284516489659027, "step": 6900}, {"loss": 2.3177, "grad_norm": 3.6235926151275635, "learning_rate": 1.6550891316848764e-05, "epoch": 1.9564002235885969, "step": 7000}, {"eval_loss": 2.21305775642395, "eval_runtime": 52.4648, "eval_samples_per_second": 1419.009, "eval_steps_per_second": 44.354, "epoch": 1.9564002235885969, "step": 7000}, {"loss": 2.2925, "grad_norm": 3.7652528285980225, "learning_rate": 1.6493387004025302e-05, "epoch": 1.984348798211291, "step": 7100}, {"loss": 2.3195, "grad_norm": 3.6505236625671387, "learning_rate": 1.643588269120184e-05, "epoch": 2.0122973728339857, "step": 7200}, {"loss": 2.2804, "grad_norm": 3.809847831726074, "learning_rate": 1.6378378378378378e-05, "epoch": 2.04024594745668, "step": 7300}, {"loss": 2.2886, "grad_norm": 3.642303943634033, "learning_rate": 1.6320874065554916e-05, "epoch": 2.068194522079374, "step": 7400}, {"loss": 2.2863, "grad_norm": 3.722576141357422, "learning_rate": 1.6263369752731457e-05, "epoch": 2.096143096702068, "step": 7500}, {"eval_loss": 2.21160626411438, "eval_runtime": 52.5919, "eval_samples_per_second": 1415.58, "eval_steps_per_second": 44.246, "epoch": 2.096143096702068, "step": 7500}, {"loss": 2.2948, "grad_norm": 3.6114726066589355, "learning_rate": 1.6205865439907995e-05, "epoch": 2.1240916713247624, "step": 7600}, {"loss": 2.2927, "grad_norm": 3.5630359649658203, "learning_rate": 1.6148361127084533e-05, "epoch": 2.1520402459474566, "step": 7700}, {"loss": 2.2918, "grad_norm": 3.8145341873168945, "learning_rate": 1.609085681426107e-05, "epoch": 2.1799888205701508, "step": 7800}, {"loss": 2.2887, "grad_norm": 3.6148297786712646, "learning_rate": 1.603335250143761e-05, "epoch": 2.207937395192845, "step": 7900}, {"loss": 2.2948, "grad_norm": 3.7454118728637695, "learning_rate": 1.5975848188614147e-05, "epoch": 2.2358859698155396, "step": 8000}, {"eval_loss": 2.2047204971313477, "eval_runtime": 52.521, "eval_samples_per_second": 1417.49, "eval_steps_per_second": 44.306, "epoch": 2.2358859698155396, "step": 8000}, {"loss": 2.2993, "grad_norm": 3.553147554397583, "learning_rate": 1.591891891891892e-05, "epoch": 2.2638345444382337, "step": 8100}, {"loss": 2.2956, "grad_norm": 3.6165547370910645, "learning_rate": 1.5861414606095457e-05, "epoch": 2.291783119060928, "step": 8200}, {"loss": 2.2829, "grad_norm": 3.717777729034424, "learning_rate": 1.5803910293271995e-05, "epoch": 2.319731693683622, "step": 8300}, {"loss": 2.2802, "grad_norm": 3.904698610305786, "learning_rate": 1.574698102357677e-05, "epoch": 2.3476802683063163, "step": 8400}, {"loss": 2.2623, "grad_norm": 3.624176263809204, "learning_rate": 1.568947671075331e-05, "epoch": 2.3756288429290104, "step": 8500}, {"eval_loss": 2.1989293098449707, "eval_runtime": 52.5119, "eval_samples_per_second": 1417.735, "eval_steps_per_second": 44.314, "epoch": 2.3756288429290104, "step": 8500}, {"loss": 2.2712, "grad_norm": 3.886472702026367, "learning_rate": 1.5631972397929847e-05, "epoch": 2.4035774175517046, "step": 8600}, {"loss": 2.2858, "grad_norm": 3.601848602294922, "learning_rate": 1.5574468085106385e-05, "epoch": 2.4315259921743992, "step": 8700}, {"loss": 2.2613, "grad_norm": 3.795288562774658, "learning_rate": 1.5516963772282923e-05, "epoch": 2.4594745667970934, "step": 8800}, {"loss": 2.2842, "grad_norm": 3.611344575881958, "learning_rate": 1.545945945945946e-05, "epoch": 2.4874231414197876, "step": 8900}, {"loss": 2.3049, "grad_norm": 3.771401882171631, "learning_rate": 1.5401955146636e-05, "epoch": 2.5153717160424818, "step": 9000}, {"eval_loss": 2.193098306655884, "eval_runtime": 52.5903, "eval_samples_per_second": 1415.622, "eval_steps_per_second": 44.248, "epoch": 2.5153717160424818, "step": 9000}, {"loss": 2.2763, "grad_norm": 3.623861312866211, "learning_rate": 1.5344450833812537e-05, "epoch": 2.543320290665176, "step": 9100}, {"loss": 2.2771, "grad_norm": 3.709577798843384, "learning_rate": 1.5286946520989075e-05, "epoch": 2.5712688652878706, "step": 9200}, {"loss": 2.2752, "grad_norm": 3.6916894912719727, "learning_rate": 1.5229442208165614e-05, "epoch": 2.5992174399105643, "step": 9300}, {"loss": 2.2508, "grad_norm": 3.7596371173858643, "learning_rate": 1.5171937895342152e-05, "epoch": 2.627166014533259, "step": 9400}, {"loss": 2.2894, "grad_norm": 3.72701358795166, "learning_rate": 1.511443358251869e-05, "epoch": 2.655114589155953, "step": 9500}, {"eval_loss": 2.1868321895599365, "eval_runtime": 52.5627, "eval_samples_per_second": 1416.365, "eval_steps_per_second": 44.271, "epoch": 2.655114589155953, "step": 9500}, {"loss": 2.2707, "grad_norm": 3.6392552852630615, "learning_rate": 1.5056929269695229e-05, "epoch": 2.6830631637786473, "step": 9600}, {"loss": 2.2735, "grad_norm": 3.893707513809204, "learning_rate": 1.4999424956871767e-05, "epoch": 2.7110117384013415, "step": 9700}, {"loss": 2.271, "grad_norm": 3.811750650405884, "learning_rate": 1.4941920644048305e-05, "epoch": 2.7389603130240356, "step": 9800}, {"loss": 2.2571, "grad_norm": 3.94960355758667, "learning_rate": 1.4884416331224843e-05, "epoch": 2.7669088876467303, "step": 9900}, {"loss": 2.2672, "grad_norm": 3.5204451084136963, "learning_rate": 1.482691201840138e-05, "epoch": 2.794857462269424, "step": 10000}, {"eval_loss": 2.1833484172821045, "eval_runtime": 52.6336, "eval_samples_per_second": 1414.458, "eval_steps_per_second": 44.211, "epoch": 2.794857462269424, "step": 10000}, {"loss": 2.2485, "grad_norm": 3.6678199768066406, "learning_rate": 1.476940770557792e-05, "epoch": 2.8228060368921186, "step": 10100}, {"loss": 2.2421, "grad_norm": 3.6623871326446533, "learning_rate": 1.4711903392754458e-05, "epoch": 2.850754611514813, "step": 10200}, {"loss": 2.26, "grad_norm": 3.870002031326294, "learning_rate": 1.4654399079930996e-05, "epoch": 2.878703186137507, "step": 10300}, {"loss": 2.2453, "grad_norm": 3.785987615585327, "learning_rate": 1.4596894767107534e-05, "epoch": 2.906651760760201, "step": 10400}, {"loss": 2.2528, "grad_norm": 3.887012481689453, "learning_rate": 1.4539390454284072e-05, "epoch": 2.9346003353828953, "step": 10500}, {"eval_loss": 2.176848888397217, "eval_runtime": 52.6357, "eval_samples_per_second": 1414.403, "eval_steps_per_second": 44.21, "epoch": 2.9346003353828953, "step": 10500}, {"loss": 2.2565, "grad_norm": 3.8787901401519775, "learning_rate": 1.448188614146061e-05, "epoch": 2.96254891000559, "step": 10600}, {"loss": 2.2487, "grad_norm": 3.6856021881103516, "learning_rate": 1.4424381828637148e-05, "epoch": 2.9904974846282837, "step": 10700}, {"loss": 2.2403, "grad_norm": 3.6995084285736084, "learning_rate": 1.4366877515813686e-05, "epoch": 3.0184460592509783, "step": 10800}, {"loss": 2.2489, "grad_norm": 3.792896032333374, "learning_rate": 1.4309373202990224e-05, "epoch": 3.0463946338736725, "step": 10900}, {"loss": 2.2428, "grad_norm": 3.7143845558166504, "learning_rate": 1.4251868890166764e-05, "epoch": 3.0743432084963667, "step": 11000}, {"eval_loss": 2.1769468784332275, "eval_runtime": 52.5124, "eval_samples_per_second": 1417.722, "eval_steps_per_second": 44.313, "epoch": 3.0743432084963667, "step": 11000}, {"loss": 2.2546, "grad_norm": 3.6846072673797607, "learning_rate": 1.4194364577343302e-05, "epoch": 3.102291783119061, "step": 11100}, {"loss": 2.2479, "grad_norm": 3.7158901691436768, "learning_rate": 1.413686026451984e-05, "epoch": 3.130240357741755, "step": 11200}, {"loss": 2.2416, "grad_norm": 3.8515408039093018, "learning_rate": 1.4079355951696378e-05, "epoch": 3.1581889323644496, "step": 11300}, {"loss": 2.2544, "grad_norm": 3.6149802207946777, "learning_rate": 1.4021851638872916e-05, "epoch": 3.186137506987144, "step": 11400}, {"loss": 2.2369, "grad_norm": 3.561479330062866, "learning_rate": 1.3964347326049454e-05, "epoch": 3.214086081609838, "step": 11500}, {"eval_loss": 2.1687326431274414, "eval_runtime": 52.6208, "eval_samples_per_second": 1414.801, "eval_steps_per_second": 44.222, "epoch": 3.214086081609838, "step": 11500}, {"loss": 2.2303, "grad_norm": 3.8693594932556152, "learning_rate": 1.3906843013225992e-05, "epoch": 3.242034656232532, "step": 11600}, {"loss": 2.2389, "grad_norm": 3.808295249938965, "learning_rate": 1.384933870040253e-05, "epoch": 3.2699832308552264, "step": 11700}, {"loss": 2.2459, "grad_norm": 3.899364471435547, "learning_rate": 1.379183438757907e-05, "epoch": 3.2979318054779205, "step": 11800}, {"loss": 2.2468, "grad_norm": 3.8885858058929443, "learning_rate": 1.3734330074755608e-05, "epoch": 3.3258803801006147, "step": 11900}, {"loss": 2.2415, "grad_norm": 3.7248382568359375, "learning_rate": 1.3676825761932146e-05, "epoch": 3.3538289547233093, "step": 12000}, {"eval_loss": 2.165362596511841, "eval_runtime": 52.5718, "eval_samples_per_second": 1416.121, "eval_steps_per_second": 44.263, "epoch": 3.3538289547233093, "step": 12000}, {"loss": 2.2385, "grad_norm": 3.5870091915130615, "learning_rate": 1.3619321449108684e-05, "epoch": 3.3817775293460035, "step": 12100}, {"loss": 2.2348, "grad_norm": 3.847461700439453, "learning_rate": 1.3561817136285222e-05, "epoch": 3.4097261039686977, "step": 12200}, {"loss": 2.231, "grad_norm": 3.9145312309265137, "learning_rate": 1.350431282346176e-05, "epoch": 3.437674678591392, "step": 12300}, {"loss": 2.2516, "grad_norm": 3.646599769592285, "learning_rate": 1.3447383553766534e-05, "epoch": 3.465623253214086, "step": 12400}, {"loss": 2.2253, "grad_norm": 3.6800575256347656, "learning_rate": 1.3389879240943072e-05, "epoch": 3.49357182783678, "step": 12500}, {"eval_loss": 2.159052610397339, "eval_runtime": 52.4924, "eval_samples_per_second": 1418.262, "eval_steps_per_second": 44.33, "epoch": 3.49357182783678, "step": 12500}, {"loss": 2.2319, "grad_norm": 3.760059118270874, "learning_rate": 1.333237492811961e-05, "epoch": 3.5215204024594744, "step": 12600}, {"loss": 2.2206, "grad_norm": 3.814999580383301, "learning_rate": 1.327487061529615e-05, "epoch": 3.549468977082169, "step": 12700}, {"loss": 2.2424, "grad_norm": 3.706214666366577, "learning_rate": 1.3217366302472687e-05, "epoch": 3.577417551704863, "step": 12800}, {"loss": 2.2202, "grad_norm": 3.687554359436035, "learning_rate": 1.3159861989649225e-05, "epoch": 3.6053661263275574, "step": 12900}, {"loss": 2.2116, "grad_norm": 3.5483527183532715, "learning_rate": 1.3102357676825763e-05, "epoch": 3.6333147009502516, "step": 13000}, {"eval_loss": 2.1558547019958496, "eval_runtime": 52.5836, "eval_samples_per_second": 1415.804, "eval_steps_per_second": 44.253, "epoch": 3.6333147009502516, "step": 13000}, {"loss": 2.2503, "grad_norm": 3.588886022567749, "learning_rate": 1.3044853364002301e-05, "epoch": 3.6612632755729457, "step": 13100}, {"loss": 2.2301, "grad_norm": 3.56290602684021, "learning_rate": 1.298734905117884e-05, "epoch": 3.68921185019564, "step": 13200}, {"loss": 2.215, "grad_norm": 3.637357711791992, "learning_rate": 1.2929844738355377e-05, "epoch": 3.717160424818334, "step": 13300}, {"loss": 2.204, "grad_norm": 3.6798911094665527, "learning_rate": 1.2872340425531915e-05, "epoch": 3.7451089994410287, "step": 13400}, {"loss": 2.2094, "grad_norm": 3.62524151802063, "learning_rate": 1.2814836112708455e-05, "epoch": 3.773057574063723, "step": 13500}, {"eval_loss": 2.1496083736419678, "eval_runtime": 52.5386, "eval_samples_per_second": 1417.014, "eval_steps_per_second": 44.291, "epoch": 3.773057574063723, "step": 13500}, {"loss": 2.2378, "grad_norm": 3.570605993270874, "learning_rate": 1.2757331799884993e-05, "epoch": 3.801006148686417, "step": 13600}, {"loss": 2.2256, "grad_norm": 3.713261127471924, "learning_rate": 1.2699827487061531e-05, "epoch": 3.8289547233091112, "step": 13700}, {"loss": 2.2272, "grad_norm": 3.6366031169891357, "learning_rate": 1.264232317423807e-05, "epoch": 3.8569032979318054, "step": 13800}, {"loss": 2.207, "grad_norm": 3.8409183025360107, "learning_rate": 1.2584818861414607e-05, "epoch": 3.8848518725544996, "step": 13900}, {"loss": 2.2464, "grad_norm": 3.8982441425323486, "learning_rate": 1.2527314548591145e-05, "epoch": 3.9128004471771938, "step": 14000}, {"eval_loss": 2.1492888927459717, "eval_runtime": 52.4432, "eval_samples_per_second": 1419.592, "eval_steps_per_second": 44.372, "epoch": 3.9128004471771938, "step": 14000}, {"loss": 2.2176, "grad_norm": 3.8001906871795654, "learning_rate": 1.2469810235767683e-05, "epoch": 3.9407490217998884, "step": 14100}, {"loss": 2.2287, "grad_norm": 3.706984281539917, "learning_rate": 1.2412305922944221e-05, "epoch": 3.9686975964225826, "step": 14200}, {"loss": 2.2118, "grad_norm": 3.773850917816162, "learning_rate": 1.235480161012076e-05, "epoch": 3.9966461710452768, "step": 14300}, {"loss": 2.2227, "grad_norm": 3.5696425437927246, "learning_rate": 1.2297872340425535e-05, "epoch": 4.024594745667971, "step": 14400}, {"loss": 2.2189, "grad_norm": 3.9605777263641357, "learning_rate": 1.2240368027602073e-05, "epoch": 4.052543320290665, "step": 14500}, {"eval_loss": 2.148578405380249, "eval_runtime": 52.5397, "eval_samples_per_second": 1416.987, "eval_steps_per_second": 44.29, "epoch": 4.052543320290665, "step": 14500}, {"loss": 2.2217, "grad_norm": 3.656407117843628, "learning_rate": 1.218286371477861e-05, "epoch": 4.08049189491336, "step": 14600}, {"loss": 2.2075, "grad_norm": 3.555678606033325, "learning_rate": 1.2125359401955149e-05, "epoch": 4.1084404695360535, "step": 14700}, {"loss": 2.2091, "grad_norm": 3.6327028274536133, "learning_rate": 1.2067855089131687e-05, "epoch": 4.136389044158748, "step": 14800}, {"loss": 2.2, "grad_norm": 3.9101433753967285, "learning_rate": 1.2010350776308225e-05, "epoch": 4.164337618781442, "step": 14900}, {"loss": 2.1856, "grad_norm": 3.3938472270965576, "learning_rate": 1.1952846463484763e-05, "epoch": 4.192286193404136, "step": 15000}, {"eval_loss": 2.1461806297302246, "eval_runtime": 52.4805, "eval_samples_per_second": 1418.583, "eval_steps_per_second": 44.34, "epoch": 4.192286193404136, "step": 15000}, {"loss": 2.2019, "grad_norm": 3.76733660697937, "learning_rate": 1.1895342150661299e-05, "epoch": 4.220234768026831, "step": 15100}, {"loss": 2.2029, "grad_norm": 3.912949562072754, "learning_rate": 1.1837837837837837e-05, "epoch": 4.248183342649525, "step": 15200}, {"loss": 2.2038, "grad_norm": 3.696024179458618, "learning_rate": 1.1780333525014378e-05, "epoch": 4.276131917272219, "step": 15300}, {"loss": 2.1935, "grad_norm": 3.6557836532592773, "learning_rate": 1.1722829212190916e-05, "epoch": 4.304080491894913, "step": 15400}, {"loss": 2.1862, "grad_norm": 3.625537157058716, "learning_rate": 1.1665324899367454e-05, "epoch": 4.332029066517608, "step": 15500}, {"eval_loss": 2.1389307975769043, "eval_runtime": 52.4568, "eval_samples_per_second": 1419.225, "eval_steps_per_second": 44.36, "epoch": 4.332029066517608, "step": 15500}, {"loss": 2.1936, "grad_norm": 3.551037549972534, "learning_rate": 1.1607820586543992e-05, "epoch": 4.3599776411403015, "step": 15600}, {"loss": 2.1996, "grad_norm": 3.939487934112549, "learning_rate": 1.155031627372053e-05, "epoch": 4.387926215762996, "step": 15700}, {"loss": 2.2196, "grad_norm": 3.753139019012451, "learning_rate": 1.1492811960897069e-05, "epoch": 4.41587479038569, "step": 15800}, {"loss": 2.1846, "grad_norm": 3.747812032699585, "learning_rate": 1.1435307648073607e-05, "epoch": 4.4438233650083845, "step": 15900}, {"loss": 2.2028, "grad_norm": 3.703045606613159, "learning_rate": 1.1377803335250145e-05, "epoch": 4.471771939631079, "step": 16000}, {"eval_loss": 2.1330885887145996, "eval_runtime": 52.4556, "eval_samples_per_second": 1419.257, "eval_steps_per_second": 44.361, "epoch": 4.471771939631079, "step": 16000}, {"loss": 2.2094, "grad_norm": 3.799128770828247, "learning_rate": 1.1320299022426684e-05, "epoch": 4.499720514253773, "step": 16100}, {"loss": 2.1987, "grad_norm": 3.6739342212677, "learning_rate": 1.1262794709603222e-05, "epoch": 4.5276690888764675, "step": 16200}, {"loss": 2.1853, "grad_norm": 3.564405679702759, "learning_rate": 1.120529039677976e-05, "epoch": 4.555617663499161, "step": 16300}, {"loss": 2.2066, "grad_norm": 3.897737503051758, "learning_rate": 1.1148361127084532e-05, "epoch": 4.583566238121856, "step": 16400}, {"loss": 2.2071, "grad_norm": 4.004103183746338, "learning_rate": 1.109085681426107e-05, "epoch": 4.61151481274455, "step": 16500}, {"eval_loss": 2.136902093887329, "eval_runtime": 52.4017, "eval_samples_per_second": 1420.717, "eval_steps_per_second": 44.407, "epoch": 4.61151481274455, "step": 16500}, {"loss": 2.1967, "grad_norm": 3.6435747146606445, "learning_rate": 1.1033352501437608e-05, "epoch": 4.639463387367244, "step": 16600}, {"loss": 2.2041, "grad_norm": 3.887831926345825, "learning_rate": 1.0975848188614146e-05, "epoch": 4.667411961989939, "step": 16700}, {"loss": 2.1922, "grad_norm": 3.811499834060669, "learning_rate": 1.0918343875790684e-05, "epoch": 4.6953605366126325, "step": 16800}, {"loss": 2.1955, "grad_norm": 3.626366376876831, "learning_rate": 1.0860839562967222e-05, "epoch": 4.723309111235327, "step": 16900}, {"loss": 2.1905, "grad_norm": 3.6714162826538086, "learning_rate": 1.0803335250143762e-05, "epoch": 4.751257685858021, "step": 17000}, {"eval_loss": 2.1298909187316895, "eval_runtime": 52.4891, "eval_samples_per_second": 1418.35, "eval_steps_per_second": 44.333, "epoch": 4.751257685858021, "step": 17000}, {"loss": 2.1786, "grad_norm": 3.5966291427612305, "learning_rate": 1.07458309373203e-05, "epoch": 4.7792062604807155, "step": 17100}, {"loss": 2.1872, "grad_norm": 3.8779733180999756, "learning_rate": 1.0688326624496838e-05, "epoch": 4.807154835103409, "step": 17200}, {"loss": 2.1917, "grad_norm": 3.6838462352752686, "learning_rate": 1.0630822311673376e-05, "epoch": 4.835103409726104, "step": 17300}, {"loss": 2.1742, "grad_norm": 3.791729211807251, "learning_rate": 1.0573317998849914e-05, "epoch": 4.8630519843487985, "step": 17400}, {"loss": 2.2008, "grad_norm": 3.5529613494873047, "learning_rate": 1.0515813686026452e-05, "epoch": 4.891000558971492, "step": 17500}, {"eval_loss": 2.122312068939209, "eval_runtime": 52.4857, "eval_samples_per_second": 1418.444, "eval_steps_per_second": 44.336, "epoch": 4.891000558971492, "step": 17500}, {"loss": 2.2023, "grad_norm": 3.6309902667999268, "learning_rate": 1.045830937320299e-05, "epoch": 4.918949133594187, "step": 17600}, {"loss": 2.1897, "grad_norm": 3.727041244506836, "learning_rate": 1.0400805060379528e-05, "epoch": 4.946897708216881, "step": 17700}, {"loss": 2.1875, "grad_norm": 3.7729105949401855, "learning_rate": 1.0343300747556066e-05, "epoch": 4.974846282839575, "step": 17800}, {"loss": 2.1813, "grad_norm": 3.657167434692383, "learning_rate": 1.0285796434732608e-05, "epoch": 5.00279485746227, "step": 17900}, {"loss": 2.1894, "grad_norm": 3.780454158782959, "learning_rate": 1.0228292121909144e-05, "epoch": 5.0307434320849636, "step": 18000}, {"eval_loss": 2.130140781402588, "eval_runtime": 52.4172, "eval_samples_per_second": 1420.297, "eval_steps_per_second": 44.394, "epoch": 5.0307434320849636, "step": 18000}, {"loss": 2.1718, "grad_norm": 3.7347042560577393, "learning_rate": 1.0170787809085682e-05, "epoch": 5.058692006707658, "step": 18100}, {"loss": 2.1848, "grad_norm": 3.7820048332214355, "learning_rate": 1.011328349626222e-05, "epoch": 5.086640581330352, "step": 18200}, {"loss": 2.1939, "grad_norm": 3.7700273990631104, "learning_rate": 1.0055779183438758e-05, "epoch": 5.1145891559530465, "step": 18300}, {"loss": 2.1733, "grad_norm": 3.6012725830078125, "learning_rate": 9.998274870615296e-06, "epoch": 5.14253773057574, "step": 18400}, {"loss": 2.168, "grad_norm": 3.5818052291870117, "learning_rate": 9.94134560092007e-06, "epoch": 5.170486305198435, "step": 18500}, {"eval_loss": 2.123793363571167, "eval_runtime": 52.5035, "eval_samples_per_second": 1417.962, "eval_steps_per_second": 44.321, "epoch": 5.170486305198435, "step": 18500}, {"loss": 2.1716, "grad_norm": 3.702817440032959, "learning_rate": 9.88384128809661e-06, "epoch": 5.1984348798211295, "step": 18600}, {"loss": 2.1962, "grad_norm": 3.728191375732422, "learning_rate": 9.826336975273145e-06, "epoch": 5.226383454443823, "step": 18700}, {"loss": 2.1905, "grad_norm": 3.841203212738037, "learning_rate": 9.768832662449684e-06, "epoch": 5.254332029066518, "step": 18800}, {"loss": 2.1879, "grad_norm": 4.043895244598389, "learning_rate": 9.711328349626222e-06, "epoch": 5.282280603689212, "step": 18900}, {"loss": 2.1894, "grad_norm": 3.58307147026062, "learning_rate": 9.653824036802761e-06, "epoch": 5.310229178311906, "step": 19000}, {"eval_loss": 2.120260000228882, "eval_runtime": 52.5538, "eval_samples_per_second": 1416.606, "eval_steps_per_second": 44.278, "epoch": 5.310229178311906, "step": 19000}, {"loss": 2.1644, "grad_norm": 3.639327049255371, "learning_rate": 9.5963197239793e-06, "epoch": 5.3381777529346, "step": 19100}, {"loss": 2.1609, "grad_norm": 3.8910558223724365, "learning_rate": 9.538815411155837e-06, "epoch": 5.366126327557295, "step": 19200}, {"loss": 2.1804, "grad_norm": 3.6812901496887207, "learning_rate": 9.481311098332375e-06, "epoch": 5.394074902179989, "step": 19300}, {"loss": 2.1748, "grad_norm": 3.562530279159546, "learning_rate": 9.423806785508915e-06, "epoch": 5.422023476802683, "step": 19400}, {"loss": 2.1885, "grad_norm": 3.818065881729126, "learning_rate": 9.366302472685453e-06, "epoch": 5.4499720514253776, "step": 19500}, {"eval_loss": 2.1142170429229736, "eval_runtime": 52.4781, "eval_samples_per_second": 1418.65, "eval_steps_per_second": 44.342, "epoch": 5.4499720514253776, "step": 19500}, {"loss": 2.2, "grad_norm": 3.665357828140259, "learning_rate": 9.308798159861991e-06, "epoch": 5.477920626048071, "step": 19600}, {"loss": 2.1879, "grad_norm": 3.9723501205444336, "learning_rate": 9.251293847038529e-06, "epoch": 5.505869200670766, "step": 19700}, {"loss": 2.1769, "grad_norm": 3.8034074306488037, "learning_rate": 9.193789534215067e-06, "epoch": 5.5338177752934605, "step": 19800}, {"loss": 2.1739, "grad_norm": 3.6746654510498047, "learning_rate": 9.136285221391605e-06, "epoch": 5.561766349916154, "step": 19900}, {"loss": 2.1835, "grad_norm": 3.5555126667022705, "learning_rate": 9.078780908568143e-06, "epoch": 5.589714924538849, "step": 20000}, {"eval_loss": 2.114222526550293, "eval_runtime": 52.5734, "eval_samples_per_second": 1416.078, "eval_steps_per_second": 44.262, "epoch": 5.589714924538849, "step": 20000}, {"loss": 2.1759, "grad_norm": 3.689662218093872, "learning_rate": 9.021276595744681e-06, "epoch": 5.617663499161543, "step": 20100}, {"loss": 2.1737, "grad_norm": 3.7420449256896973, "learning_rate": 8.96377228292122e-06, "epoch": 5.645612073784237, "step": 20200}, {"loss": 2.1626, "grad_norm": 3.9478886127471924, "learning_rate": 8.906267970097759e-06, "epoch": 5.673560648406931, "step": 20300}, {"loss": 2.2018, "grad_norm": 3.8834993839263916, "learning_rate": 8.848763657274297e-06, "epoch": 5.701509223029626, "step": 20400}, {"loss": 2.1746, "grad_norm": 3.7774899005889893, "learning_rate": 8.791834387579069e-06, "epoch": 5.729457797652319, "step": 20500}, {"eval_loss": 2.1182730197906494, "eval_runtime": 52.5779, "eval_samples_per_second": 1415.957, "eval_steps_per_second": 44.258, "epoch": 5.729457797652319, "step": 20500}, {"loss": 2.1603, "grad_norm": 3.8018441200256348, "learning_rate": 8.734330074755607e-06, "epoch": 5.757406372275014, "step": 20600}, {"loss": 2.1721, "grad_norm": 3.860416889190674, "learning_rate": 8.676825761932146e-06, "epoch": 5.785354946897709, "step": 20700}, {"loss": 2.1736, "grad_norm": 3.822904586791992, "learning_rate": 8.619321449108684e-06, "epoch": 5.813303521520402, "step": 20800}, {"loss": 2.1664, "grad_norm": 3.672532558441162, "learning_rate": 8.561817136285222e-06, "epoch": 5.841252096143097, "step": 20900}, {"loss": 2.206, "grad_norm": 3.703555107116699, "learning_rate": 8.50431282346176e-06, "epoch": 5.869200670765791, "step": 21000}, {"eval_loss": 2.114932060241699, "eval_runtime": 52.4896, "eval_samples_per_second": 1418.337, "eval_steps_per_second": 44.333, "epoch": 5.869200670765791, "step": 21000}, {"train_runtime": 4837.5299, "train_samples_per_second": 473.339, "train_steps_per_second": 7.396, "total_flos": 3.583948918699494e+16, "train_loss": 2.2944495900472006, "epoch": 5.869200670765791, "step": 21000}, {"eval_loss": 2.120969533920288, "eval_runtime": 53.0068, "eval_samples_per_second": 1404.499, "eval_steps_per_second": 43.9, "epoch": 5.869200670765791, "step": 21000}]