large_sami_22k_finetuned_ft_pseudolabels

Browse files

Files changed (5) hide show

README.md +3 -3
all_results.json +10 -10
eval--1hr test set_results.json +6 -6
train_results.json +4 -4
trainer_state.json +532 -532

README.md CHANGED Viewed

@@ -16,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.1908
-- Wer: 0.5762
-- Cer: 0.2198
 ## Model description

 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4804
+- Wer: 0.3867
+- Cer: 0.1484
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 60.0,
-    "eval_cer": 0.12414167860494986,
-    "eval_loss": 0.4442386329174042,
-    "eval_runtime": 33.9749,
     "eval_samples": 890,
-    "eval_samples_per_second": 26.196,
-    "eval_steps_per_second": 3.297,
-    "eval_wer": 0.3508522727272727,
     "total_flos": 1.8440987587856836e+20,
-    "train_loss": 0.08842882802456985,
-    "train_runtime": 67339.4697,
     "train_samples": 17267,
-    "train_samples_per_second": 15.385,
-    "train_steps_per_second": 0.962
 }

 {
     "epoch": 60.0,
+    "eval_cer": 0.14837227683643728,
+    "eval_loss": 0.480378657579422,
+    "eval_runtime": 50.3698,
     "eval_samples": 890,
+    "eval_samples_per_second": 17.669,
+    "eval_steps_per_second": 2.224,
+    "eval_wer": 0.38667929292929293,
     "total_flos": 1.8440987587856836e+20,
+    "train_loss": 0.1667554270485301,
+    "train_runtime": 81955.137,
     "train_samples": 17267,
+    "train_samples_per_second": 12.641,
+    "train_steps_per_second": 0.791
 }

eval--1hr test set_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 60.0,
-    "eval_cer": 0.12414167860494986,
-    "eval_loss": 0.4442386329174042,
-    "eval_runtime": 33.9749,
     "eval_samples": 890,
-    "eval_samples_per_second": 26.196,
-    "eval_steps_per_second": 3.297,
-    "eval_wer": 0.3508522727272727
 }

 {
     "epoch": 60.0,
+    "eval_cer": 0.14837227683643728,
+    "eval_loss": 0.480378657579422,
+    "eval_runtime": 50.3698,
     "eval_samples": 890,
+    "eval_samples_per_second": 17.669,
+    "eval_steps_per_second": 2.224,
+    "eval_wer": 0.38667929292929293
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 60.0,
     "total_flos": 1.8440987587856836e+20,
-    "train_loss": 0.08842882802456985,
-    "train_runtime": 67339.4697,
     "train_samples": 17267,
-    "train_samples_per_second": 15.385,
-    "train_steps_per_second": 0.962
 }

 {
     "epoch": 60.0,
     "total_flos": 1.8440987587856836e+20,
+    "train_loss": 0.1667554270485301,
+    "train_runtime": 81955.137,
     "train_samples": 17267,
+    "train_samples_per_second": 12.641,
+    "train_steps_per_second": 0.791
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.35132575757575757,
-  "best_model_checkpoint": "/scratch/elec/puhe/p/palp3/sami_ASR/large_model_output/large-sami-cont-pt-22k-finetuned/outputs/checkpoint-1080",
   "epoch": 60.0,
   "eval_steps": 500,
   "global_step": 64800,
@@ -10,1032 +10,1032 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.6521588563919067,
-      "learning_rate": 3.3302469135802465e-05,
-      "loss": 0.1355,
       "step": 1080
     },
     {
       "epoch": 1.0,
-      "eval_cer": 0.12424047818999161,
-      "eval_loss": 0.4442259669303894,
-      "eval_runtime": 33.5884,
-      "eval_samples_per_second": 26.497,
-      "eval_steps_per_second": 3.334,
-      "eval_wer": 0.35132575757575757,
       "step": 1080
     },
     {
       "epoch": 2.0,
-      "grad_norm": 4.438964366912842,
-      "learning_rate": 6.66358024691358e-05,
-      "loss": 0.1271,
       "step": 2160
     },
     {
       "epoch": 2.0,
-      "eval_cer": 0.13202094551202884,
-      "eval_loss": 0.4743848443031311,
-      "eval_runtime": 33.2763,
-      "eval_samples_per_second": 26.746,
-      "eval_steps_per_second": 3.366,
-      "eval_wer": 0.37247474747474746,
       "step": 2160
     },
     {
       "epoch": 3.0,
-      "grad_norm": 4.780850887298584,
-      "learning_rate": 9.993827160493828e-05,
-      "loss": 0.1255,
       "step": 3240
     },
     {
       "epoch": 3.0,
-      "eval_cer": 0.15150916366151262,
-      "eval_loss": 0.5318964123725891,
-      "eval_runtime": 34.1253,
-      "eval_samples_per_second": 26.08,
-      "eval_steps_per_second": 3.282,
-      "eval_wer": 0.38620580808080807,
       "step": 3240
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.0735939741134644,
-      "learning_rate": 0.0001332716049382716,
-      "loss": 0.1335,
       "step": 4320
     },
     {
       "epoch": 4.0,
-      "eval_cer": 0.13908511584251346,
-      "eval_loss": 0.5112303495407104,
-      "eval_runtime": 34.1035,
-      "eval_samples_per_second": 26.097,
-      "eval_steps_per_second": 3.284,
-      "eval_wer": 0.39662247474747475,
       "step": 4320
     },
     {
       "epoch": 5.0,
-      "grad_norm": 1.963199257850647,
-      "learning_rate": 0.00016660493827160493,
-      "loss": 0.1387,
       "step": 5400
     },
     {
       "epoch": 5.0,
-      "eval_cer": 0.1588944326433829,
-      "eval_loss": 0.5254867672920227,
-      "eval_runtime": 34.9852,
-      "eval_samples_per_second": 25.439,
-      "eval_steps_per_second": 3.201,
-      "eval_wer": 0.41745580808080807,
       "step": 5400
     },
     {
       "epoch": 6.0,
-      "grad_norm": 7.2430219650268555,
-      "learning_rate": 0.0001999074074074074,
-      "loss": 0.1441,
       "step": 6480
     },
     {
       "epoch": 6.0,
-      "eval_cer": 0.1554364471669219,
-      "eval_loss": 0.6283074021339417,
-      "eval_runtime": 34.01,
-      "eval_samples_per_second": 26.169,
-      "eval_steps_per_second": 3.293,
-      "eval_wer": 0.43513257575757575,
       "step": 6480
     },
     {
       "epoch": 7.0,
-      "grad_norm": 7.408224105834961,
-      "learning_rate": 0.00023324074074074076,
-      "loss": 0.1513,
       "step": 7560
     },
     {
       "epoch": 7.0,
-      "eval_cer": 0.15200316158672134,
-      "eval_loss": 0.5582847595214844,
-      "eval_runtime": 36.0318,
-      "eval_samples_per_second": 24.7,
-      "eval_steps_per_second": 3.108,
-      "eval_wer": 0.43308080808080807,
       "step": 7560
     },
     {
       "epoch": 8.0,
-      "grad_norm": 0.40320536494255066,
-      "learning_rate": 0.0002665740740740741,
-      "loss": 0.1557,
       "step": 8640
     },
     {
       "epoch": 8.0,
-      "eval_cer": 0.18389072765894382,
-      "eval_loss": 0.7035284638404846,
-      "eval_runtime": 34.1655,
-      "eval_samples_per_second": 26.05,
-      "eval_steps_per_second": 3.278,
-      "eval_wer": 0.5014204545454546,
       "step": 8640
     },
     {
       "epoch": 9.0,
-      "grad_norm": 0.3960403501987457,
-      "learning_rate": 0.0002998765432098766,
-      "loss": 0.1634,
       "step": 9720
     },
     {
       "epoch": 9.0,
-      "eval_cer": 0.18984340265770883,
-      "eval_loss": 0.6695614457130432,
-      "eval_runtime": 35.0021,
-      "eval_samples_per_second": 25.427,
-      "eval_steps_per_second": 3.2,
-      "eval_wer": 0.47111742424242425,
       "step": 9720
     },
     {
       "epoch": 10.0,
-      "grad_norm": 12.15442943572998,
-      "learning_rate": 0.00033320987654320987,
-      "loss": 0.1696,
       "step": 10800
     },
     {
       "epoch": 10.0,
-      "eval_cer": 0.16003062787136293,
-      "eval_loss": 0.6147846579551697,
-      "eval_runtime": 34.8188,
-      "eval_samples_per_second": 25.561,
-      "eval_steps_per_second": 3.217,
-      "eval_wer": 0.4605429292929293,
       "step": 10800
     },
     {
       "epoch": 11.0,
-      "grad_norm": 5.4118757247924805,
-      "learning_rate": 0.0003665432098765432,
-      "loss": 0.1774,
       "step": 11880
     },
     {
       "epoch": 11.0,
-      "eval_cer": 0.18080324062638936,
-      "eval_loss": 0.7655736207962036,
-      "eval_runtime": 34.3969,
-      "eval_samples_per_second": 25.874,
-      "eval_steps_per_second": 3.256,
-      "eval_wer": 0.4981060606060606,
       "step": 11880
     },
     {
       "epoch": 12.0,
-      "grad_norm": NaN,
-      "learning_rate": 0.0003998456790123457,
-      "loss": 0.1687,
       "step": 12960
     },
     {
       "epoch": 12.0,
-      "eval_cer": 0.19537617942004643,
-      "eval_loss": 0.7117329239845276,
-      "eval_runtime": 33.6673,
-      "eval_samples_per_second": 26.435,
-      "eval_steps_per_second": 3.327,
-      "eval_wer": 0.5232007575757576,
       "step": 12960
     },
     {
       "epoch": 13.0,
-      "grad_norm": 0.43450596928596497,
-      "learning_rate": 0.000433179012345679,
-      "loss": 0.1825,
       "step": 14040
     },
     {
       "epoch": 13.0,
-      "eval_cer": 0.18658301635133132,
-      "eval_loss": 0.6913736462593079,
-      "eval_runtime": 34.2044,
-      "eval_samples_per_second": 26.02,
-      "eval_steps_per_second": 3.274,
-      "eval_wer": 0.5255681818181818,
       "step": 14040
     },
     {
       "epoch": 14.0,
-      "grad_norm": 2.9280543327331543,
-      "learning_rate": 0.00046651234567901236,
-      "loss": 0.1781,
       "step": 15120
     },
     {
       "epoch": 14.0,
-      "eval_cer": 0.20901052215580695,
-      "eval_loss": 0.7841426730155945,
-      "eval_runtime": 34.3961,
-      "eval_samples_per_second": 25.875,
-      "eval_steps_per_second": 3.256,
-      "eval_wer": 0.5473484848484849,
       "step": 15120
     },
     {
       "epoch": 15.0,
-      "grad_norm": 0.16209368407726288,
-      "learning_rate": 0.0004998148148148148,
-      "loss": 0.186,
       "step": 16200
     },
     {
       "epoch": 15.0,
-      "eval_cer": 0.1943140838808477,
-      "eval_loss": 0.6776570677757263,
-      "eval_runtime": 34.0657,
-      "eval_samples_per_second": 26.126,
-      "eval_steps_per_second": 3.288,
-      "eval_wer": 0.538510101010101,
       "step": 16200
     },
     {
       "epoch": 16.0,
-      "grad_norm": 3.6948094367980957,
-      "learning_rate": 0.0004889506172839507,
-      "loss": 0.1784,
       "step": 17280
     },
     {
       "epoch": 16.0,
-      "eval_cer": 0.19367188657807638,
-      "eval_loss": 0.8023106455802917,
-      "eval_runtime": 33.7998,
-      "eval_samples_per_second": 26.332,
-      "eval_steps_per_second": 3.314,
-      "eval_wer": 0.5694444444444444,
       "step": 17280
     },
     {
       "epoch": 17.0,
-      "grad_norm": 0.0647168681025505,
-      "learning_rate": 0.00047784979423868315,
-      "loss": 0.1666,
       "step": 18360
     },
     {
       "epoch": 17.0,
-      "eval_cer": 0.20740502889887863,
-      "eval_loss": 0.6939805746078491,
-      "eval_runtime": 42.0792,
-      "eval_samples_per_second": 21.151,
-      "eval_steps_per_second": 2.662,
-      "eval_wer": 0.5599747474747475,
       "step": 18360
     },
     {
       "epoch": 18.0,
-      "grad_norm": 0.016156639903783798,
-      "learning_rate": 0.000466738683127572,
-      "loss": 0.1583,
       "step": 19440
     },
     {
       "epoch": 18.0,
-      "eval_cer": 0.24267648075878082,
-      "eval_loss": 0.8497462868690491,
-      "eval_runtime": 34.5186,
-      "eval_samples_per_second": 25.783,
-      "eval_steps_per_second": 3.245,
-      "eval_wer": 0.6180555555555556,
       "step": 19440
     },
     {
       "epoch": 19.0,
-      "grad_norm": 0.07191939651966095,
-      "learning_rate": 0.00045562757201646095,
-      "loss": 0.1532,
       "step": 20520
     },
     {
       "epoch": 19.0,
-      "eval_cer": 0.19596897693029688,
-      "eval_loss": 0.6177073121070862,
-      "eval_runtime": 37.0842,
-      "eval_samples_per_second": 23.999,
-      "eval_steps_per_second": 3.02,
-      "eval_wer": 0.5247790404040404,
       "step": 20520
     },
     {
       "epoch": 20.0,
-      "grad_norm": 0.5676774382591248,
-      "learning_rate": 0.0004445164609053498,
-      "loss": 0.138,
       "step": 21600
     },
     {
       "epoch": 20.0,
-      "eval_cer": 0.21503729684335326,
-      "eval_loss": 0.7171837091445923,
-      "eval_runtime": 33.7172,
-      "eval_samples_per_second": 26.396,
-      "eval_steps_per_second": 3.322,
-      "eval_wer": 0.5287247474747475,
       "step": 21600
     },
     {
       "epoch": 21.0,
-      "grad_norm": 1.0357455015182495,
       "learning_rate": 0.0004334362139917696,
-      "loss": 0.1342,
       "step": 22680
     },
     {
       "epoch": 21.0,
-      "eval_cer": 0.2018475522402806,
-      "eval_loss": 0.7149861454963684,
-      "eval_runtime": 34.7823,
-      "eval_samples_per_second": 25.588,
-      "eval_steps_per_second": 3.22,
-      "eval_wer": 0.5334595959595959,
       "step": 22680
     },
     {
       "epoch": 22.0,
-      "grad_norm": 14.927299499511719,
-      "learning_rate": 0.00042232510288065845,
-      "loss": 0.1258,
       "step": 23760
     },
     {
       "epoch": 22.0,
-      "eval_cer": 0.2112582127155066,
-      "eval_loss": 0.7246299386024475,
-      "eval_runtime": 34.2959,
-      "eval_samples_per_second": 25.951,
-      "eval_steps_per_second": 3.266,
-      "eval_wer": 0.5443497474747475,
       "step": 23760
     },
     {
       "epoch": 23.0,
-      "grad_norm": 2.454263925552368,
       "learning_rate": 0.00041122427983539094,
-      "loss": 0.1228,
       "step": 24840
     },
     {
       "epoch": 23.0,
-      "eval_cer": 0.21503729684335326,
-      "eval_loss": 0.7502724528312683,
-      "eval_runtime": 34.0741,
-      "eval_samples_per_second": 26.12,
-      "eval_steps_per_second": 3.287,
-      "eval_wer": 0.5336174242424242,
       "step": 24840
     },
     {
       "epoch": 24.0,
-      "grad_norm": 0.7376189827919006,
       "learning_rate": 0.00040011316872427984,
-      "loss": 0.1153,
       "step": 25920
     },
     {
       "epoch": 24.0,
-      "eval_cer": 0.19337548782295114,
-      "eval_loss": 0.6936143040657043,
-      "eval_runtime": 33.9341,
-      "eval_samples_per_second": 26.227,
-      "eval_steps_per_second": 3.301,
-      "eval_wer": 0.5146780303030303,
       "step": 25920
     },
     {
       "epoch": 25.0,
-      "grad_norm": 19.62969207763672,
-      "learning_rate": 0.00038900205761316874,
-      "loss": 0.1097,
       "step": 27000
     },
     {
       "epoch": 25.0,
-      "eval_cer": 0.19305438917156548,
-      "eval_loss": 0.7183641791343689,
-      "eval_runtime": 34.3195,
-      "eval_samples_per_second": 25.933,
-      "eval_steps_per_second": 3.263,
-      "eval_wer": 0.5124684343434344,
       "step": 27000
     },
     {
       "epoch": 26.0,
-      "grad_norm": 0.0018467491026967764,
-      "learning_rate": 0.00037789094650205764,
-      "loss": 0.1018,
       "step": 28080
     },
     {
       "epoch": 26.0,
-      "eval_cer": 0.1954255792125673,
-      "eval_loss": 0.742782473564148,
-      "eval_runtime": 34.148,
-      "eval_samples_per_second": 26.063,
-      "eval_steps_per_second": 3.28,
-      "eval_wer": 0.5290404040404041,
       "step": 28080
     },
     {
       "epoch": 27.0,
-      "grad_norm": 0.7026299834251404,
-      "learning_rate": 0.0003667798353909465,
-      "loss": 0.0951,
       "step": 29160
     },
     {
       "epoch": 27.0,
-      "eval_cer": 0.2779726325149434,
-      "eval_loss": 0.9667614698410034,
-      "eval_runtime": 34.0235,
-      "eval_samples_per_second": 26.158,
-      "eval_steps_per_second": 3.292,
-      "eval_wer": 0.5683396464646465,
       "step": 29160
     },
     {
       "epoch": 28.0,
-      "grad_norm": 0.02587762102484703,
-      "learning_rate": 0.0003556687242798354,
-      "loss": 0.0883,
       "step": 30240
     },
     {
       "epoch": 28.0,
-      "eval_cer": 0.19475868201353555,
-      "eval_loss": 0.8088436722755432,
-      "eval_runtime": 33.7463,
-      "eval_samples_per_second": 26.373,
-      "eval_steps_per_second": 3.319,
-      "eval_wer": 0.5249368686868687,
       "step": 30240
     },
     {
       "epoch": 29.0,
-      "grad_norm": 0.006352627649903297,
-      "learning_rate": 0.00034456790123456787,
-      "loss": 0.0888,
       "step": 31320
     },
     {
       "epoch": 29.0,
-      "eval_cer": 0.18826260929704094,
-      "eval_loss": 0.7689303159713745,
-      "eval_runtime": 34.1947,
-      "eval_samples_per_second": 26.027,
-      "eval_steps_per_second": 3.275,
-      "eval_wer": 0.5063131313131313,
       "step": 31320
     },
     {
       "epoch": 30.0,
-      "grad_norm": 0.6352426409721375,
-      "learning_rate": 0.00033345679012345683,
-      "loss": 0.0779,
       "step": 32400
     },
     {
       "epoch": 30.0,
-      "eval_cer": 0.20224275058044755,
-      "eval_loss": 0.7801844477653503,
-      "eval_runtime": 35.6742,
-      "eval_samples_per_second": 24.948,
-      "eval_steps_per_second": 3.14,
-      "eval_wer": 0.52114898989899,
       "step": 32400
     },
     {
       "epoch": 31.0,
-      "grad_norm": 3.922788143157959,
-      "learning_rate": 0.0003223456790123457,
-      "loss": 0.0781,
       "step": 33480
     },
     {
       "epoch": 31.0,
-      "eval_cer": 0.19910586375537223,
-      "eval_loss": 0.7932357788085938,
-      "eval_runtime": 33.9958,
-      "eval_samples_per_second": 26.18,
-      "eval_steps_per_second": 3.295,
-      "eval_wer": 0.5290404040404041,
       "step": 33480
     },
     {
       "epoch": 32.0,
-      "grad_norm": 0.4319939911365509,
       "learning_rate": 0.0003112448559670782,
-      "loss": 0.0729,
       "step": 34560
     },
     {
       "epoch": 32.0,
-      "eval_cer": 0.1849034234056217,
-      "eval_loss": 0.7396170496940613,
-      "eval_runtime": 33.5836,
-      "eval_samples_per_second": 26.501,
-      "eval_steps_per_second": 3.335,
-      "eval_wer": 0.5034722222222222,
       "step": 34560
     },
     {
       "epoch": 33.0,
-      "grad_norm": 4.486342906951904,
-      "learning_rate": 0.00030013374485596706,
-      "loss": 0.0662,
       "step": 35640
     },
     {
       "epoch": 33.0,
-      "eval_cer": 0.20654053252976337,
-      "eval_loss": 0.734420895576477,
-      "eval_runtime": 34.1026,
-      "eval_samples_per_second": 26.098,
-      "eval_steps_per_second": 3.284,
-      "eval_wer": 0.5157828282828283,
       "step": 35640
     },
     {
       "epoch": 34.0,
-      "grad_norm": 0.5255006551742554,
-      "learning_rate": 0.00028902263374485596,
-      "loss": 0.0653,
       "step": 36720
     },
     {
       "epoch": 34.0,
-      "eval_cer": 0.19868596551894482,
-      "eval_loss": 0.7865384817123413,
-      "eval_runtime": 34.0866,
-      "eval_samples_per_second": 26.11,
-      "eval_steps_per_second": 3.286,
-      "eval_wer": 0.5190972222222222,
       "step": 36720
     },
     {
       "epoch": 35.0,
-      "grad_norm": 7.736340045928955,
-      "learning_rate": 0.0002779218106995885,
-      "loss": 0.0636,
       "step": 37800
     },
     {
       "epoch": 35.0,
-      "eval_cer": 0.18742281282418613,
-      "eval_loss": 0.7694341540336609,
-      "eval_runtime": 34.057,
-      "eval_samples_per_second": 26.133,
-      "eval_steps_per_second": 3.289,
-      "eval_wer": 0.4952651515151515,
       "step": 37800
     },
     {
       "epoch": 36.0,
-      "grad_norm": 0.1871989518404007,
       "learning_rate": 0.000266820987654321,
-      "loss": 0.0618,
       "step": 38880
     },
     {
       "epoch": 36.0,
-      "eval_cer": 0.1889295064960727,
-      "eval_loss": 0.7620729207992554,
-      "eval_runtime": 34.1669,
-      "eval_samples_per_second": 26.049,
-      "eval_steps_per_second": 3.278,
-      "eval_wer": 0.5104166666666666,
       "step": 38880
     },
     {
       "epoch": 37.0,
-      "grad_norm": 0.010062905959784985,
       "learning_rate": 0.0002557098765432099,
-      "loss": 0.0549,
       "step": 39960
     },
     {
       "epoch": 37.0,
-      "eval_cer": 0.188435508570864,
-      "eval_loss": 0.7830834984779358,
-      "eval_runtime": 34.0922,
-      "eval_samples_per_second": 26.106,
-      "eval_steps_per_second": 3.285,
-      "eval_wer": 0.5058396464646465,
       "step": 39960
     },
     {
       "epoch": 38.0,
-      "grad_norm": 0.012355574406683445,
       "learning_rate": 0.0002445987654320988,
-      "loss": 0.0548,
       "step": 41040
     },
     {
       "epoch": 38.0,
-      "eval_cer": 0.19144889591463715,
-      "eval_loss": 0.8387961387634277,
-      "eval_runtime": 34.0941,
-      "eval_samples_per_second": 26.104,
-      "eval_steps_per_second": 3.285,
-      "eval_wer": 0.5074179292929293,
       "step": 41040
     },
     {
       "epoch": 39.0,
-      "grad_norm": 5.520277976989746,
-      "learning_rate": 0.00023348765432098766,
-      "loss": 0.0479,
       "step": 42120
     },
     {
       "epoch": 39.0,
-      "eval_cer": 0.19283209010522157,
-      "eval_loss": 0.8141205310821533,
-      "eval_runtime": 33.7176,
-      "eval_samples_per_second": 26.396,
-      "eval_steps_per_second": 3.322,
-      "eval_wer": 0.5115214646464646,
       "step": 42120
     },
     {
       "epoch": 40.0,
-      "grad_norm": 0.06226100027561188,
       "learning_rate": 0.00022238683127572017,
-      "loss": 0.0467,
       "step": 43200
     },
     {
       "epoch": 40.0,
-      "eval_cer": 0.1860890184261226,
-      "eval_loss": 0.8152617812156677,
-      "eval_runtime": 34.0751,
-      "eval_samples_per_second": 26.119,
-      "eval_steps_per_second": 3.287,
-      "eval_wer": 0.4971590909090909,
       "step": 43200
     },
     {
       "epoch": 41.0,
-      "grad_norm": 0.9956463575363159,
-      "learning_rate": 0.00021127572016460904,
-      "loss": 0.0425,
       "step": 44280
     },
     {
       "epoch": 41.0,
-      "eval_cer": 0.17685125722471964,
-      "eval_loss": 0.7244598865509033,
-      "eval_runtime": 34.7079,
-      "eval_samples_per_second": 25.643,
-      "eval_steps_per_second": 3.227,
-      "eval_wer": 0.4878472222222222,
       "step": 44280
     },
     {
       "epoch": 42.0,
-      "grad_norm": 0.3334626257419586,
       "learning_rate": 0.00020017489711934155,
-      "loss": 0.0402,
       "step": 45360
     },
     {
       "epoch": 42.0,
-      "eval_cer": 0.18507632267944474,
-      "eval_loss": 0.8202406167984009,
-      "eval_runtime": 34.196,
-      "eval_samples_per_second": 26.026,
-      "eval_steps_per_second": 3.275,
-      "eval_wer": 0.49936868686868685,
       "step": 45360
     },
     {
       "epoch": 43.0,
-      "grad_norm": 0.09065477550029755,
       "learning_rate": 0.00018907407407407406,
-      "loss": 0.0408,
       "step": 46440
     },
     {
       "epoch": 43.0,
-      "eval_cer": 0.19241219186879416,
-      "eval_loss": 0.7523993849754333,
-      "eval_runtime": 34.1394,
-      "eval_samples_per_second": 26.07,
-      "eval_steps_per_second": 3.281,
-      "eval_wer": 0.5041035353535354,
       "step": 46440
     },
     {
       "epoch": 44.0,
-      "grad_norm": 0.03374771401286125,
-      "learning_rate": 0.00017796296296296296,
-      "loss": 0.039,
       "step": 47520
     },
     {
       "epoch": 44.0,
-      "eval_cer": 0.18695351479523786,
-      "eval_loss": 0.7909926772117615,
-      "eval_runtime": 34.3484,
-      "eval_samples_per_second": 25.911,
-      "eval_steps_per_second": 3.261,
-      "eval_wer": 0.4936868686868687,
       "step": 47520
     },
     {
       "epoch": 45.0,
-      "grad_norm": 0.044817935675382614,
-      "learning_rate": 0.00016685185185185187,
-      "loss": 0.0319,
       "step": 48600
     },
     {
       "epoch": 45.0,
-      "eval_cer": 0.19157239539593934,
-      "eval_loss": 0.8348931670188904,
-      "eval_runtime": 33.9046,
-      "eval_samples_per_second": 26.25,
-      "eval_steps_per_second": 3.303,
-      "eval_wer": 0.5026830808080808,
       "step": 48600
     },
     {
       "epoch": 46.0,
-      "grad_norm": 0.09955661743879318,
       "learning_rate": 0.00015575102880658438,
-      "loss": 0.0315,
       "step": 49680
     },
     {
       "epoch": 46.0,
-      "eval_cer": 0.18660771624759176,
-      "eval_loss": 0.8406158089637756,
-      "eval_runtime": 34.5537,
-      "eval_samples_per_second": 25.757,
-      "eval_steps_per_second": 3.241,
-      "eval_wer": 0.489425505050505,
       "step": 49680
     },
     {
       "epoch": 47.0,
-      "grad_norm": 1.9601191282272339,
       "learning_rate": 0.00014463991769547325,
-      "loss": 0.0324,
       "step": 50760
     },
     {
       "epoch": 47.0,
-      "eval_cer": 0.1777157535938349,
-      "eval_loss": 0.8840826749801636,
-      "eval_runtime": 33.7677,
-      "eval_samples_per_second": 26.357,
-      "eval_steps_per_second": 3.317,
-      "eval_wer": 0.4876893939393939,
       "step": 50760
     },
     {
       "epoch": 48.0,
-      "grad_norm": 0.08828981965780258,
-      "learning_rate": 0.00013352880658436215,
-      "loss": 0.0267,
       "step": 51840
     },
     {
       "epoch": 48.0,
-      "eval_cer": 0.18964580348762536,
-      "eval_loss": 0.8589528203010559,
-      "eval_runtime": 34.2131,
-      "eval_samples_per_second": 26.013,
-      "eval_steps_per_second": 3.274,
-      "eval_wer": 0.5039457070707071,
       "step": 51840
     },
     {
       "epoch": 49.0,
-      "grad_norm": 0.02356182597577572,
-      "learning_rate": 0.00012241769547325103,
-      "loss": 0.0263,
       "step": 52920
     },
     {
       "epoch": 49.0,
-      "eval_cer": 0.18045744207874326,
-      "eval_loss": 0.7702302932739258,
-      "eval_runtime": 33.9692,
-      "eval_samples_per_second": 26.2,
-      "eval_steps_per_second": 3.297,
-      "eval_wer": 0.48327020202020204,
       "step": 52920
     },
     {
       "epoch": 50.0,
-      "grad_norm": 0.005286052357405424,
       "learning_rate": 0.00011131687242798354,
-      "loss": 0.0242,
       "step": 54000
     },
     {
       "epoch": 50.0,
-      "eval_cer": 0.18334732994121425,
-      "eval_loss": 0.8420283794403076,
-      "eval_runtime": 34.5458,
-      "eval_samples_per_second": 25.763,
-      "eval_steps_per_second": 3.242,
-      "eval_wer": 0.48011363636363635,
       "step": 54000
     },
     {
       "epoch": 51.0,
-      "grad_norm": 0.002476485911756754,
-      "learning_rate": 0.00010021604938271606,
-      "loss": 0.0237,
       "step": 55080
     },
     {
       "epoch": 51.0,
-      "eval_cer": 0.1833967297337351,
-      "eval_loss": 0.8621743321418762,
-      "eval_runtime": 33.473,
-      "eval_samples_per_second": 26.589,
-      "eval_steps_per_second": 3.346,
-      "eval_wer": 0.48137626262626265,
       "step": 55080
     },
     {
       "epoch": 52.0,
-      "grad_norm": 0.01960768923163414,
-      "learning_rate": 8.910493827160495e-05,
-      "loss": 0.0214,
       "step": 56160
     },
     {
       "epoch": 52.0,
-      "eval_cer": 0.18495282319814257,
-      "eval_loss": 0.8834346532821655,
-      "eval_runtime": 33.7718,
-      "eval_samples_per_second": 26.353,
-      "eval_steps_per_second": 3.316,
-      "eval_wer": 0.47679924242424243,
       "step": 56160
     },
     {
       "epoch": 53.0,
-      "grad_norm": 0.0076888990588486195,
       "learning_rate": 7.799382716049382e-05,
-      "loss": 0.0188,
       "step": 57240
     },
     {
       "epoch": 53.0,
-      "eval_cer": 0.18396482734772515,
-      "eval_loss": 0.9398559331893921,
-      "eval_runtime": 33.7324,
-      "eval_samples_per_second": 26.384,
-      "eval_steps_per_second": 3.32,
-      "eval_wer": 0.47664141414141414,
       "step": 57240
     },
     {
       "epoch": 54.0,
-      "grad_norm": 0.044491663575172424,
-      "learning_rate": 6.689300411522633e-05,
-      "loss": 0.0194,
       "step": 58320
     },
     {
       "epoch": 54.0,
-      "eval_cer": 0.18218643481697377,
-      "eval_loss": 0.880720853805542,
-      "eval_runtime": 35.0466,
-      "eval_samples_per_second": 25.395,
-      "eval_steps_per_second": 3.196,
-      "eval_wer": 0.4734848484848485,
       "step": 58320
     },
     {
       "epoch": 55.0,
-      "grad_norm": 0.2765955924987793,
-      "learning_rate": 5.578189300411523e-05,
-      "loss": 0.0165,
       "step": 59400
     },
     {
       "epoch": 55.0,
-      "eval_cer": 0.1782591513115645,
-      "eval_loss": 0.8844161629676819,
-      "eval_runtime": 33.9045,
-      "eval_samples_per_second": 26.25,
-      "eval_steps_per_second": 3.303,
-      "eval_wer": 0.46464646464646464,
       "step": 59400
     },
     {
       "epoch": 56.0,
-      "grad_norm": 0.0016414269339293242,
-      "learning_rate": 4.4670781893004116e-05,
-      "loss": 0.0145,
       "step": 60480
     },
     {
       "epoch": 56.0,
-      "eval_cer": 0.17428246801363434,
-      "eval_loss": 0.9099779725074768,
-      "eval_runtime": 35.1941,
-      "eval_samples_per_second": 25.288,
-      "eval_steps_per_second": 3.182,
-      "eval_wer": 0.46622474747474746,
       "step": 60480
     },
     {
       "epoch": 57.0,
-      "grad_norm": 0.13948026299476624,
-      "learning_rate": 3.3559670781893004e-05,
-      "loss": 0.0143,
       "step": 61560
     },
     {
       "epoch": 57.0,
-      "eval_cer": 0.17682655732845923,
-      "eval_loss": 0.9427079558372498,
-      "eval_runtime": 34.2545,
-      "eval_samples_per_second": 25.982,
-      "eval_steps_per_second": 3.27,
-      "eval_wer": 0.461489898989899,
       "step": 61560
     },
     {
       "epoch": 58.0,
-      "grad_norm": 0.01065619383007288,
-      "learning_rate": 2.2448559670781893e-05,
-      "loss": 0.0134,
       "step": 62640
     },
     {
       "epoch": 58.0,
-      "eval_cer": 0.1746776663538013,
-      "eval_loss": 0.9330604076385498,
-      "eval_runtime": 34.438,
-      "eval_samples_per_second": 25.844,
-      "eval_steps_per_second": 3.252,
-      "eval_wer": 0.4586489898989899,
       "step": 62640
     },
     {
       "epoch": 59.0,
-      "grad_norm": 0.003782533574849367,
-      "learning_rate": 1.1337448559670783e-05,
-      "loss": 0.0139,
       "step": 63720
     },
     {
       "epoch": 59.0,
-      "eval_cer": 0.17136788025490293,
-      "eval_loss": 0.9063072204589844,
-      "eval_runtime": 36.0426,
-      "eval_samples_per_second": 24.693,
-      "eval_steps_per_second": 3.107,
-      "eval_wer": 0.45533459595959597,
       "step": 63720
     },
     {
       "epoch": 60.0,
-      "grad_norm": 5.7463275879854336e-05,
-      "learning_rate": 2.366255144032922e-07,
-      "loss": 0.011,
       "step": 64800
     },
     {
       "epoch": 60.0,
-      "eval_cer": 0.1716148792175073,
-      "eval_loss": 0.9166492819786072,
-      "eval_runtime": 34.3521,
-      "eval_samples_per_second": 25.908,
-      "eval_steps_per_second": 3.26,
-      "eval_wer": 0.4569128787878788,
       "step": 64800
     },
     {
       "epoch": 60.0,
       "step": 64800,
       "total_flos": 1.8440987587856836e+20,
-      "train_loss": 0.08842882802456985,
-      "train_runtime": 67339.4697,
-      "train_samples_per_second": 15.385,
-      "train_steps_per_second": 0.962
     }
   ],
   "logging_steps": 500,

 {
+  "best_metric": 0.38667929292929293,
+  "best_model_checkpoint": "/scratch/elec/puhe/p/palp3/sami_ASR/large_model_output/large-sami-22k-finetuned/outputs/checkpoint-1080",
   "epoch": 60.0,
   "eval_steps": 500,
   "global_step": 64800,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.5049565434455872,
+      "learning_rate": 3.32716049382716e-05,
+      "loss": 0.126,
       "step": 1080
     },
     {
       "epoch": 1.0,
+      "eval_cer": 0.1485204762139999,
+      "eval_loss": 0.4803544282913208,
+      "eval_runtime": 50.5555,
+      "eval_samples_per_second": 17.604,
+      "eval_steps_per_second": 2.215,
+      "eval_wer": 0.38667929292929293,
       "step": 1080
     },
     {
       "epoch": 2.0,
+      "grad_norm": 2.3093390464782715,
+      "learning_rate": 6.660493827160493e-05,
+      "loss": 0.1441,
       "step": 2160
     },
     {
       "epoch": 2.0,
+      "eval_cer": 0.19503038087240035,
+      "eval_loss": 0.6097356677055359,
+      "eval_runtime": 49.9713,
+      "eval_samples_per_second": 17.81,
+      "eval_steps_per_second": 2.241,
+      "eval_wer": 0.44239267676767674,
       "step": 2160
     },
     {
       "epoch": 3.0,
+      "grad_norm": 3.067934513092041,
+      "learning_rate": 9.99074074074074e-05,
+      "loss": 0.1675,
       "step": 3240
     },
     {
       "epoch": 3.0,
+      "eval_cer": 0.16756409623079582,
+      "eval_loss": 0.5237330198287964,
+      "eval_runtime": 52.1692,
+      "eval_samples_per_second": 17.06,
+      "eval_steps_per_second": 2.147,
+      "eval_wer": 0.444760101010101,
       "step": 3240
     },
     {
       "epoch": 4.0,
+      "grad_norm": 6.190335750579834,
+      "learning_rate": 0.00013324074074074074,
+      "loss": 0.1919,
       "step": 4320
     },
     {
       "epoch": 4.0,
+      "eval_cer": 0.188435508570864,
+      "eval_loss": 0.6256272196769714,
+      "eval_runtime": 49.8649,
+      "eval_samples_per_second": 17.848,
+      "eval_steps_per_second": 2.246,
+      "eval_wer": 0.484375,
       "step": 4320
     },
     {
       "epoch": 5.0,
+      "grad_norm": 10.29676342010498,
+      "learning_rate": 0.0001665432098765432,
+      "loss": 0.2168,
       "step": 5400
     },
     {
       "epoch": 5.0,
+      "eval_cer": 0.1991552635478931,
+      "eval_loss": 0.6817235946655273,
+      "eval_runtime": 49.9056,
+      "eval_samples_per_second": 17.834,
+      "eval_steps_per_second": 2.244,
+      "eval_wer": 0.5130997474747475,
       "step": 5400
     },
     {
       "epoch": 6.0,
+      "grad_norm": 16.29789924621582,
+      "learning_rate": 0.00019987654320987656,
+      "loss": 0.2411,
       "step": 6480
     },
     {
       "epoch": 6.0,
+      "eval_cer": 0.20411994269624067,
+      "eval_loss": 0.6815704703330994,
+      "eval_runtime": 47.2826,
+      "eval_samples_per_second": 18.823,
+      "eval_steps_per_second": 2.369,
+      "eval_wer": 0.5233585858585859,
       "step": 6480
     },
     {
       "epoch": 7.0,
+      "grad_norm": 13.96838665008545,
+      "learning_rate": 0.000233179012345679,
+      "loss": 0.2493,
       "step": 7560
     },
     {
       "epoch": 7.0,
+      "eval_cer": 0.2558662253618535,
+      "eval_loss": 0.8295482993125916,
+      "eval_runtime": 47.3326,
+      "eval_samples_per_second": 18.803,
+      "eval_steps_per_second": 2.366,
+      "eval_wer": 0.6788194444444444,
       "step": 7560
     },
     {
       "epoch": 8.0,
+      "grad_norm": 12.302577018737793,
+      "learning_rate": 0.0002665123456790123,
+      "loss": 0.2718,
       "step": 8640
     },
     {
       "epoch": 8.0,
+      "eval_cer": 0.2669070789902682,
+      "eval_loss": 0.8849073648452759,
+      "eval_runtime": 47.1385,
+      "eval_samples_per_second": 18.881,
+      "eval_steps_per_second": 2.376,
+      "eval_wer": 0.6756628787878788,
       "step": 8640
     },
     {
       "epoch": 9.0,
+      "grad_norm": 0.21664512157440186,
+      "learning_rate": 0.0002998148148148148,
+      "loss": 0.2922,
       "step": 9720
     },
     {
       "epoch": 9.0,
+      "eval_cer": 0.3401422714024601,
+      "eval_loss": 1.0527104139328003,
+      "eval_runtime": 49.2164,
+      "eval_samples_per_second": 18.083,
+      "eval_steps_per_second": 2.276,
+      "eval_wer": 0.6721906565656566,
       "step": 9720
     },
     {
       "epoch": 10.0,
+      "grad_norm": 7.9486260414123535,
+      "learning_rate": 0.0003331172839506173,
+      "loss": 0.3156,
       "step": 10800
     },
     {
       "epoch": 10.0,
+      "eval_cer": 0.35758039816232773,
+      "eval_loss": 1.0661259889602661,
+      "eval_runtime": 48.5028,
+      "eval_samples_per_second": 18.349,
+      "eval_steps_per_second": 2.309,
+      "eval_wer": 0.7528409090909091,
       "step": 10800
     },
     {
       "epoch": 11.0,
+      "grad_norm": 8.1552095413208,
+      "learning_rate": 0.0003664506172839506,
+      "loss": 0.3273,
       "step": 11880
     },
     {
       "epoch": 11.0,
+      "eval_cer": 0.2929654695450279,
+      "eval_loss": 1.0082694292068481,
+      "eval_runtime": 48.9797,
+      "eval_samples_per_second": 18.171,
+      "eval_steps_per_second": 2.287,
+      "eval_wer": 0.7840909090909091,
       "step": 11880
     },
     {
       "epoch": 12.0,
+      "grad_norm": 8.20614242553711,
+      "learning_rate": 0.00039978395061728396,
+      "loss": 0.3216,
       "step": 12960
     },
     {
       "epoch": 12.0,
+      "eval_cer": 0.3153682754532431,
+      "eval_loss": 1.130453109741211,
+      "eval_runtime": 48.376,
+      "eval_samples_per_second": 18.398,
+      "eval_steps_per_second": 2.315,
+      "eval_wer": 0.728219696969697,
       "step": 12960
     },
     {
       "epoch": 13.0,
+      "grad_norm": 14.636846542358398,
+      "learning_rate": 0.00043311728395061726,
+      "loss": 0.3498,
       "step": 14040
     },
     {
       "epoch": 13.0,
+      "eval_cer": 0.3106258953712394,
+      "eval_loss": 1.0758916139602661,
+      "eval_runtime": 48.0575,
+      "eval_samples_per_second": 18.519,
+      "eval_steps_per_second": 2.331,
+      "eval_wer": 0.7312184343434344,
       "step": 14040
     },
     {
       "epoch": 14.0,
+      "grad_norm": 4.806951999664307,
+      "learning_rate": 0.0004664506172839506,
+      "loss": 0.3553,
       "step": 15120
     },
     {
       "epoch": 14.0,
+      "eval_cer": 0.28031912265968484,
+      "eval_loss": 0.8731944561004639,
+      "eval_runtime": 47.2505,
+      "eval_samples_per_second": 18.836,
+      "eval_steps_per_second": 2.37,
+      "eval_wer": 0.6756628787878788,
       "step": 15120
     },
     {
       "epoch": 15.0,
+      "grad_norm": 0.5450202822685242,
+      "learning_rate": 0.0004997530864197531,
+      "loss": 0.3582,
       "step": 16200
     },
     {
       "epoch": 15.0,
+      "eval_cer": 0.31852986217457885,
+      "eval_loss": 1.055077075958252,
+      "eval_runtime": 46.8181,
+      "eval_samples_per_second": 19.01,
+      "eval_steps_per_second": 2.392,
+      "eval_wer": 0.7623106060606061,
       "step": 16200
     },
     {
       "epoch": 16.0,
+      "grad_norm": 5.1030144691467285,
+      "learning_rate": 0.0004889814814814815,
+      "loss": 0.3607,
       "step": 17280
     },
     {
       "epoch": 16.0,
+      "eval_cer": 0.3101071975497703,
+      "eval_loss": 1.0534826517105103,
+      "eval_runtime": 47.5102,
+      "eval_samples_per_second": 18.733,
+      "eval_steps_per_second": 2.357,
+      "eval_wer": 0.7482638888888888,
       "step": 17280
     },
     {
       "epoch": 17.0,
+      "grad_norm": 0.22218887507915497,
+      "learning_rate": 0.0004778703703703704,
+      "loss": 0.3447,
       "step": 18360
     },
     {
       "epoch": 17.0,
+      "eval_cer": 0.30813120584893544,
+      "eval_loss": 1.064017415046692,
+      "eval_runtime": 48.3671,
+      "eval_samples_per_second": 18.401,
+      "eval_steps_per_second": 2.316,
+      "eval_wer": 0.7369002525252525,
       "step": 18360
     },
     {
       "epoch": 18.0,
+      "grad_norm": 0.14536279439926147,
+      "learning_rate": 0.00046675925925925926,
+      "loss": 0.325,
       "step": 19440
     },
     {
       "epoch": 18.0,
+      "eval_cer": 0.2905448797115052,
+      "eval_loss": 1.0327048301696777,
+      "eval_runtime": 48.9592,
+      "eval_samples_per_second": 18.178,
+      "eval_steps_per_second": 2.288,
+      "eval_wer": 0.7534722222222222,
       "step": 19440
     },
     {
       "epoch": 19.0,
+      "grad_norm": 1.5726815462112427,
+      "learning_rate": 0.00045564814814814817,
+      "loss": 0.3022,
       "step": 20520
     },
     {
       "epoch": 19.0,
+      "eval_cer": 0.2886923874919725,
+      "eval_loss": 0.9869930148124695,
+      "eval_runtime": 49.3541,
+      "eval_samples_per_second": 18.033,
+      "eval_steps_per_second": 2.269,
+      "eval_wer": 0.7231691919191919,
       "step": 20520
     },
     {
       "epoch": 20.0,
+      "grad_norm": 0.41919103264808655,
+      "learning_rate": 0.00044454732510288065,
+      "loss": 0.2825,
       "step": 21600
     },
     {
       "epoch": 20.0,
+      "eval_cer": 0.28056612162228917,
+      "eval_loss": 0.9183225035667419,
+      "eval_runtime": 49.2359,
+      "eval_samples_per_second": 18.076,
+      "eval_steps_per_second": 2.275,
+      "eval_wer": 0.686395202020202,
       "step": 21600
     },
     {
       "epoch": 21.0,
+      "grad_norm": 12.236234664916992,
       "learning_rate": 0.0004334362139917696,
+      "loss": 0.2706,
       "step": 22680
     },
     {
       "epoch": 21.0,
+      "eval_cer": 0.28604949859210593,
+      "eval_loss": 0.9366316795349121,
+      "eval_runtime": 49.1391,
+      "eval_samples_per_second": 18.112,
+      "eval_steps_per_second": 2.279,
+      "eval_wer": 0.6811868686868687,
       "step": 22680
     },
     {
       "epoch": 22.0,
+      "grad_norm": 4.797195911407471,
+      "learning_rate": 0.0004223353909465021,
+      "loss": 0.2507,
       "step": 23760
     },
     {
       "epoch": 22.0,
+      "eval_cer": 0.2608062046139406,
+      "eval_loss": 0.9585080146789551,
+      "eval_runtime": 48.7093,
+      "eval_samples_per_second": 18.272,
+      "eval_steps_per_second": 2.299,
+      "eval_wer": 0.6941287878787878,
       "step": 23760
     },
     {
       "epoch": 23.0,
+      "grad_norm": 4.625443935394287,
       "learning_rate": 0.00041122427983539094,
+      "loss": 0.237,
       "step": 24840
     },
     {
       "epoch": 23.0,
+      "eval_cer": 0.28024502297090353,
+      "eval_loss": 1.010016918182373,
+      "eval_runtime": 50.1358,
+      "eval_samples_per_second": 17.752,
+      "eval_steps_per_second": 2.234,
+      "eval_wer": 0.6797664141414141,
       "step": 24840
     },
     {
       "epoch": 24.0,
+      "grad_norm": 0.49481087923049927,
       "learning_rate": 0.00040011316872427984,
+      "loss": 0.2298,
       "step": 25920
     },
     {
       "epoch": 24.0,
+      "eval_cer": 0.24492417131848046,
+      "eval_loss": 0.9184597730636597,
+      "eval_runtime": 48.7455,
+      "eval_samples_per_second": 18.258,
+      "eval_steps_per_second": 2.298,
+      "eval_wer": 0.6349431818181818,
       "step": 25920
     },
     {
       "epoch": 25.0,
+      "grad_norm": 1.7336276769638062,
+      "learning_rate": 0.0003890123456790123,
+      "loss": 0.221,
       "step": 27000
     },
     {
       "epoch": 25.0,
+      "eval_cer": 0.27846663044015213,
+      "eval_loss": 0.9352790713310242,
+      "eval_runtime": 48.8906,
+      "eval_samples_per_second": 18.204,
+      "eval_steps_per_second": 2.291,
+      "eval_wer": 0.6579861111111112,
       "step": 27000
     },
     {
       "epoch": 26.0,
+      "grad_norm": 0.02212027832865715,
+      "learning_rate": 0.0003779012345679013,
+      "loss": 0.2052,
       "step": 28080
     },
     {
       "epoch": 26.0,
+      "eval_cer": 0.2507039470434224,
+      "eval_loss": 0.8651528358459473,
+      "eval_runtime": 49.0769,
+      "eval_samples_per_second": 18.135,
+      "eval_steps_per_second": 2.282,
+      "eval_wer": 0.6493055555555556,
       "step": 28080
     },
     {
       "epoch": 27.0,
+      "grad_norm": 2.215277910232544,
+      "learning_rate": 0.0003667901234567901,
+      "loss": 0.1928,
       "step": 29160
     },
     {
       "epoch": 27.0,
+      "eval_cer": 0.2630785950699007,
+      "eval_loss": 0.8858852386474609,
+      "eval_runtime": 49.657,
+      "eval_samples_per_second": 17.923,
+      "eval_steps_per_second": 2.255,
+      "eval_wer": 0.6775568181818182,
       "step": 29160
     },
     {
       "epoch": 28.0,
+      "grad_norm": 0.10988181829452515,
+      "learning_rate": 0.000355679012345679,
+      "loss": 0.1889,
       "step": 30240
     },
     {
       "epoch": 28.0,
+      "eval_cer": 0.2666353801314034,
+      "eval_loss": 0.9239539504051208,
+      "eval_runtime": 49.2302,
+      "eval_samples_per_second": 18.078,
+      "eval_steps_per_second": 2.275,
+      "eval_wer": 0.6636679292929293,
       "step": 30240
     },
     {
       "epoch": 29.0,
+      "grad_norm": 0.5829525589942932,
+      "learning_rate": 0.0003445781893004115,
+      "loss": 0.1771,
       "step": 31320
     },
     {
       "epoch": 29.0,
+      "eval_cer": 0.24934545274909845,
+      "eval_loss": 0.9042806625366211,
+      "eval_runtime": 52.6225,
+      "eval_samples_per_second": 16.913,
+      "eval_steps_per_second": 2.128,
+      "eval_wer": 0.6256313131313131,
       "step": 31320
     },
     {
       "epoch": 30.0,
+      "grad_norm": 3.2479238510131836,
+      "learning_rate": 0.00033346707818930046,
+      "loss": 0.163,
       "step": 32400
     },
     {
       "epoch": 30.0,
+      "eval_cer": 0.26213999901200413,
+      "eval_loss": 0.9130964875221252,
+      "eval_runtime": 50.9345,
+      "eval_samples_per_second": 17.473,
+      "eval_steps_per_second": 2.199,
+      "eval_wer": 0.6504103535353535,
       "step": 32400
     },
     {
       "epoch": 31.0,
+      "grad_norm": 2.047846555709839,
+      "learning_rate": 0.0003223559670781893,
+      "loss": 0.1603,
       "step": 33480
     },
     {
       "epoch": 31.0,
+      "eval_cer": 0.24055228968038334,
+      "eval_loss": 0.8102329969406128,
+      "eval_runtime": 50.6115,
+      "eval_samples_per_second": 17.585,
+      "eval_steps_per_second": 2.213,
+      "eval_wer": 0.6319444444444444,
       "step": 33480
     },
     {
       "epoch": 32.0,
+      "grad_norm": 0.3893296420574188,
       "learning_rate": 0.0003112448559670782,
+      "loss": 0.1447,
       "step": 34560
     },
     {
       "epoch": 32.0,
+      "eval_cer": 0.2447512720446574,
+      "eval_loss": 0.9245155453681946,
+      "eval_runtime": 51.908,
+      "eval_samples_per_second": 17.146,
+      "eval_steps_per_second": 2.158,
+      "eval_wer": 0.6336805555555556,
       "step": 34560
     },
     {
       "epoch": 33.0,
+      "grad_norm": 2.6302273273468018,
+      "learning_rate": 0.0003001440329218107,
+      "loss": 0.1418,
       "step": 35640
     },
     {
       "epoch": 33.0,
+      "eval_cer": 0.25300103739564295,
+      "eval_loss": 0.9590283632278442,
+      "eval_runtime": 52.0031,
+      "eval_samples_per_second": 17.114,
+      "eval_steps_per_second": 2.154,
+      "eval_wer": 0.6235795454545454,
       "step": 35640
     },
     {
       "epoch": 34.0,
+      "grad_norm": 3.61879301071167,
+      "learning_rate": 0.0002890432098765432,
+      "loss": 0.1415,
       "step": 36720
     },
     {
       "epoch": 34.0,
+      "eval_cer": 0.2578916168552092,
+      "eval_loss": 0.92754727602005,
+      "eval_runtime": 52.0318,
+      "eval_samples_per_second": 17.105,
+      "eval_steps_per_second": 2.153,
+      "eval_wer": 0.634469696969697,
       "step": 36720
     },
     {
       "epoch": 35.0,
+      "grad_norm": 6.908621311187744,
+      "learning_rate": 0.00027793209876543213,
+      "loss": 0.1313,
       "step": 37800
     },
     {
       "epoch": 35.0,
+      "eval_cer": 0.24981475077804674,
+      "eval_loss": 0.8644362688064575,
+      "eval_runtime": 53.8225,
+      "eval_samples_per_second": 16.536,
+      "eval_steps_per_second": 2.081,
+      "eval_wer": 0.6279987373737373,
       "step": 37800
     },
     {
       "epoch": 36.0,
+      "grad_norm": 2.5687201023101807,
       "learning_rate": 0.000266820987654321,
+      "loss": 0.1285,
       "step": 38880
     },
     {
       "epoch": 36.0,
+      "eval_cer": 0.26505458677073557,
+      "eval_loss": 0.9070570468902588,
+      "eval_runtime": 55.322,
+      "eval_samples_per_second": 16.088,
+      "eval_steps_per_second": 2.025,
+      "eval_wer": 0.625,
       "step": 38880
     },
     {
       "epoch": 37.0,
+      "grad_norm": 0.1792680323123932,
       "learning_rate": 0.0002557098765432099,
+      "loss": 0.1204,
       "step": 39960
     },
     {
       "epoch": 37.0,
+      "eval_cer": 0.2386503976683298,
+      "eval_loss": 0.8658037185668945,
+      "eval_runtime": 54.276,
+      "eval_samples_per_second": 16.398,
+      "eval_steps_per_second": 2.064,
+      "eval_wer": 0.6092171717171717,
       "step": 39960
     },
     {
       "epoch": 38.0,
+      "grad_norm": 0.05945800244808197,
       "learning_rate": 0.0002445987654320988,
+      "loss": 0.1116,
       "step": 41040
     },
     {
       "epoch": 38.0,
+      "eval_cer": 0.24588746727263747,
+      "eval_loss": 0.8684060573577881,
+      "eval_runtime": 55.9431,
+      "eval_samples_per_second": 15.909,
+      "eval_steps_per_second": 2.002,
+      "eval_wer": 0.6267361111111112,
       "step": 41040
     },
     {
       "epoch": 39.0,
+      "grad_norm": 2.164262056350708,
+      "learning_rate": 0.00023349794238683127,
+      "loss": 0.102,
       "step": 42120
     },
     {
       "epoch": 39.0,
+      "eval_cer": 0.24102158770933163,
+      "eval_loss": 0.9792320728302002,
+      "eval_runtime": 54.7942,
+      "eval_samples_per_second": 16.243,
+      "eval_steps_per_second": 2.044,
+      "eval_wer": 0.6245265151515151,
       "step": 42120
     },
     {
       "epoch": 40.0,
+      "grad_norm": 7.841192722320557,
       "learning_rate": 0.00022238683127572017,
+      "loss": 0.0966,
       "step": 43200
     },
     {
       "epoch": 40.0,
+      "eval_cer": 0.2466037642641901,
+      "eval_loss": 0.8880752325057983,
+      "eval_runtime": 57.0632,
+      "eval_samples_per_second": 15.597,
+      "eval_steps_per_second": 1.963,
+      "eval_wer": 0.6163194444444444,
       "step": 43200
     },
     {
       "epoch": 41.0,
+      "grad_norm": 0.5480403304100037,
+      "learning_rate": 0.00021128600823045268,
+      "loss": 0.0934,
       "step": 44280
     },
     {
       "epoch": 41.0,
+      "eval_cer": 0.23398211727510745,
+      "eval_loss": 0.8669174909591675,
+      "eval_runtime": 56.5233,
+      "eval_samples_per_second": 15.746,
+      "eval_steps_per_second": 1.981,
+      "eval_wer": 0.5970643939393939,
       "step": 44280
     },
     {
       "epoch": 42.0,
+      "grad_norm": 2.996035099029541,
       "learning_rate": 0.00020017489711934155,
+      "loss": 0.0847,
       "step": 45360
     },
     {
       "epoch": 42.0,
+      "eval_cer": 0.2370696043076619,
+      "eval_loss": 0.9717867970466614,
+      "eval_runtime": 55.4728,
+      "eval_samples_per_second": 16.044,
+      "eval_steps_per_second": 2.019,
+      "eval_wer": 0.6207386363636364,
       "step": 45360
     },
     {
       "epoch": 43.0,
+      "grad_norm": 0.41690441966056824,
       "learning_rate": 0.00018907407407407406,
+      "loss": 0.0828,
       "step": 46440
     },
     {
       "epoch": 43.0,
+      "eval_cer": 0.2392925949711011,
+      "eval_loss": 0.957336962223053,
+      "eval_runtime": 54.9772,
+      "eval_samples_per_second": 16.189,
+      "eval_steps_per_second": 2.037,
+      "eval_wer": 0.6223169191919192,
       "step": 46440
     },
     {
       "epoch": 44.0,
+      "grad_norm": 0.07533986121416092,
+      "learning_rate": 0.0001779732510288066,
+      "loss": 0.0727,
       "step": 47520
     },
     {
       "epoch": 44.0,
+      "eval_cer": 0.2357605098058588,
+      "eval_loss": 0.9871988892555237,
+      "eval_runtime": 57.6886,
+      "eval_samples_per_second": 15.428,
+      "eval_steps_per_second": 1.941,
+      "eval_wer": 0.6096906565656566,
       "step": 47520
     },
     {
       "epoch": 45.0,
+      "grad_norm": 0.7598063945770264,
+      "learning_rate": 0.00016686213991769547,
+      "loss": 0.0701,
       "step": 48600
     },
     {
       "epoch": 45.0,
+      "eval_cer": 0.24457837277083436,
+      "eval_loss": 0.9421331882476807,
+      "eval_runtime": 55.063,
+      "eval_samples_per_second": 16.163,
+      "eval_steps_per_second": 2.034,
+      "eval_wer": 0.6115845959595959,
       "step": 48600
     },
     {
       "epoch": 46.0,
+      "grad_norm": 0.43303415179252625,
       "learning_rate": 0.00015575102880658438,
+      "loss": 0.0648,
       "step": 49680
     },
     {
       "epoch": 46.0,
+      "eval_cer": 0.24672726374549228,
+      "eval_loss": 0.9590614438056946,
+      "eval_runtime": 57.1789,
+      "eval_samples_per_second": 15.565,
+      "eval_steps_per_second": 1.959,
+      "eval_wer": 0.6043244949494949,
       "step": 49680
     },
     {
       "epoch": 47.0,
+      "grad_norm": 6.171388626098633,
       "learning_rate": 0.00014463991769547325,
+      "loss": 0.0634,
       "step": 50760
     },
     {
       "epoch": 47.0,
+      "eval_cer": 0.23551351084325445,
+      "eval_loss": 0.9990620017051697,
+      "eval_runtime": 55.5622,
+      "eval_samples_per_second": 16.018,
+      "eval_steps_per_second": 2.016,
+      "eval_wer": 0.6109532828282829,
       "step": 50760
     },
     {
       "epoch": 48.0,
+      "grad_norm": 0.05001814663410187,
+      "learning_rate": 0.0001335390946502058,
+      "loss": 0.0573,
       "step": 51840
     },
     {
       "epoch": 48.0,
+      "eval_cer": 0.23452551499283703,
+      "eval_loss": 0.9873119592666626,
+      "eval_runtime": 55.0833,
+      "eval_samples_per_second": 16.157,
+      "eval_steps_per_second": 2.033,
+      "eval_wer": 0.6054292929292929,
       "step": 51840
     },
     {
       "epoch": 49.0,
+      "grad_norm": 3.651003360748291,
+      "learning_rate": 0.00012242798353909466,
+      "loss": 0.0527,
       "step": 52920
     },
     {
       "epoch": 49.0,
+      "eval_cer": 0.23247542360322088,
+      "eval_loss": 0.9885514974594116,
+      "eval_runtime": 52.5162,
+      "eval_samples_per_second": 16.947,
+      "eval_steps_per_second": 2.133,
+      "eval_wer": 0.5935921717171717,
       "step": 52920
     },
     {
       "epoch": 50.0,
+      "grad_norm": 3.5055177211761475,
       "learning_rate": 0.00011131687242798354,
+      "loss": 0.0506,
       "step": 54000
     },
     {
       "epoch": 50.0,
+      "eval_cer": 0.22867163957911377,
+      "eval_loss": 1.0199133157730103,
+      "eval_runtime": 51.406,
+      "eval_samples_per_second": 17.313,
+      "eval_steps_per_second": 2.179,
+      "eval_wer": 0.5940656565656566,
       "step": 54000
     },
     {
       "epoch": 51.0,
+      "grad_norm": 0.08695941418409348,
+      "learning_rate": 0.00010020576131687243,
+      "loss": 0.0486,
       "step": 55080
     },
     {
       "epoch": 51.0,
+      "eval_cer": 0.22634984933063282,
+      "eval_loss": 1.0691256523132324,
+      "eval_runtime": 54.2523,
+      "eval_samples_per_second": 16.405,
+      "eval_steps_per_second": 2.064,
+      "eval_wer": 0.5880681818181818,
       "step": 55080
     },
     {
       "epoch": 52.0,
+      "grad_norm": 0.4256766438484192,
+      "learning_rate": 8.909465020576133e-05,
+      "loss": 0.0447,
       "step": 56160
     },
     {
       "epoch": 52.0,
+      "eval_cer": 0.22963493553327077,
+      "eval_loss": 1.0140999555587769,
+      "eval_runtime": 58.925,
+      "eval_samples_per_second": 15.104,
+      "eval_steps_per_second": 1.901,
+      "eval_wer": 0.5893308080808081,
       "step": 56160
     },
     {
       "epoch": 53.0,
+      "grad_norm": 3.884925365447998,
       "learning_rate": 7.799382716049382e-05,
+      "loss": 0.0419,
       "step": 57240
     },
     {
       "epoch": 53.0,
+      "eval_cer": 0.2279306426913007,
+      "eval_loss": 1.0658098459243774,
+      "eval_runtime": 50.8901,
+      "eval_samples_per_second": 17.489,
+      "eval_steps_per_second": 2.201,
+      "eval_wer": 0.5872790404040404,
       "step": 57240
     },
     {
       "epoch": 54.0,
+      "grad_norm": 0.5678676962852478,
+      "learning_rate": 6.690329218106995e-05,
+      "loss": 0.0376,
       "step": 58320
     },
     {
       "epoch": 54.0,
+      "eval_cer": 0.2253618534802154,
+      "eval_loss": 1.144079327583313,
+      "eval_runtime": 52.3564,
+      "eval_samples_per_second": 16.999,
+      "eval_steps_per_second": 2.139,
+      "eval_wer": 0.5888573232323232,
       "step": 58320
     },
     {
       "epoch": 55.0,
+      "grad_norm": 1.0211379528045654,
+      "learning_rate": 5.579218106995885e-05,
+      "loss": 0.0355,
       "step": 59400
     },
     {
       "epoch": 55.0,
+      "eval_cer": 0.22486785555500666,
+      "eval_loss": 1.146174430847168,
+      "eval_runtime": 50.8316,
+      "eval_samples_per_second": 17.509,
+      "eval_steps_per_second": 2.203,
+      "eval_wer": 0.5880681818181818,
       "step": 59400
     },
     {
       "epoch": 56.0,
+      "grad_norm": 0.02778603509068489,
+      "learning_rate": 4.468106995884774e-05,
+      "loss": 0.0335,
       "step": 60480
     },
     {
       "epoch": 56.0,
+      "eval_cer": 0.22442325742231883,
+      "eval_loss": 1.1712491512298584,
+      "eval_runtime": 51.7561,
+      "eval_samples_per_second": 17.196,
+      "eval_steps_per_second": 2.164,
+      "eval_wer": 0.5860164141414141,
       "step": 60480
     },
     {
       "epoch": 57.0,
+      "grad_norm": 0.13397055864334106,
+      "learning_rate": 3.3569958847736626e-05,
+      "loss": 0.0296,
       "step": 61560
     },
     {
       "epoch": 57.0,
+      "eval_cer": 0.22180506841871264,
+      "eval_loss": 1.162169337272644,
+      "eval_runtime": 51.0452,
+      "eval_samples_per_second": 17.436,
+      "eval_steps_per_second": 2.194,
+      "eval_wer": 0.5785984848484849,
       "step": 61560
     },
     {
       "epoch": 58.0,
+      "grad_norm": 0.001944132731296122,
+      "learning_rate": 2.246913580246914e-05,
+      "loss": 0.0301,
       "step": 62640
     },
     {
       "epoch": 58.0,
+      "eval_cer": 0.22350936126068272,
+      "eval_loss": 1.170377492904663,
+      "eval_runtime": 50.364,
+      "eval_samples_per_second": 17.671,
+      "eval_steps_per_second": 2.224,
+      "eval_wer": 0.5839646464646465,
       "step": 62640
     },
     {
       "epoch": 59.0,
+      "grad_norm": 0.18270032107830048,
+      "learning_rate": 1.1358024691358025e-05,
+      "loss": 0.0283,
       "step": 63720
     },
     {
       "epoch": 59.0,
+      "eval_cer": 0.22133577038976437,
+      "eval_loss": 1.1973356008529663,
+      "eval_runtime": 50.9914,
+      "eval_samples_per_second": 17.454,
+      "eval_steps_per_second": 2.196,
+      "eval_wer": 0.5804924242424242,
       "step": 63720
     },
     {
       "epoch": 60.0,
+      "grad_norm": 0.00017149873019661754,
+      "learning_rate": 2.469135802469136e-07,
+      "loss": 0.0245,
       "step": 64800
     },
     {
       "epoch": 60.0,
+      "eval_cer": 0.2198290767178778,
+      "eval_loss": 1.1907662153244019,
+      "eval_runtime": 51.7658,
+      "eval_samples_per_second": 17.193,
+      "eval_steps_per_second": 2.164,
+      "eval_wer": 0.5762310606060606,
       "step": 64800
     },
     {
       "epoch": 60.0,
       "step": 64800,
       "total_flos": 1.8440987587856836e+20,
+      "train_loss": 0.1667554270485301,
+      "train_runtime": 81955.137,
+      "train_samples_per_second": 12.641,
+      "train_steps_per_second": 0.791
     }
   ],
   "logging_steps": 500,