End of training

Browse files

Files changed (5) hide show

README.md +8 -6
all_results.json +12 -12
eval_results.json +7 -7
train_results.json +6 -6
trainer_state.json +1255 -22

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 license: apache-2.0
 base_model: facebook/wav2vec2-large-xlsr-53
 tags:
 - generated_from_trainer
 datasets:
 - audiofolder
@@ -14,15 +16,15 @@ model-index:
       name: Automatic Speech Recognition
       type: automatic-speech-recognition
     dataset:
-      name: audiofolder
       type: audiofolder
       config: default
       split: validation
-      args: default
     metrics:
     - name: Wer
       type: wer
-      value: 0.9850068150840527
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -30,10 +32,10 @@ should probably proofread and complete it, then remove this comment. -->
 # em_ctc
-This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on the audiofolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.7311
-- Wer: 0.9850
 ## Model description

 license: apache-2.0
 base_model: facebook/wav2vec2-large-xlsr-53
 tags:
+- automatic-speech-recognition
+- wav_sub-P001
 - generated_from_trainer
 datasets:
 - audiofolder
       name: Automatic Speech Recognition
       type: automatic-speech-recognition
     dataset:
+      name: WAV_SUB-P001 - TR
       type: audiofolder
       config: default
       split: validation
+      args: 'Config: tr, Training split: train+validation, Eval split: test'
     metrics:
     - name: Wer
       type: wer
+      value: 0.9843253066787824
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # em_ctc
+This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on the WAV_SUB-P001 - TR dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.7286
+- Wer: 0.9843
 ## Model description

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 1.0,
-    "eval_loss": 2.863178253173828,
-    "eval_runtime": 55.6326,
-    "eval_samples": 796,
-    "eval_samples_per_second": 14.308,
-    "eval_steps_per_second": 1.798,
-    "eval_wer": 1.0,
-    "train_loss": 6.002392140204597,
-    "train_runtime": 1027.9684,
-    "train_samples": 7146,
-    "train_samples_per_second": 6.952,
-    "train_steps_per_second": 0.217
 }

 {
+    "epoch": 19.98,
+    "eval_loss": 2.728630542755127,
+    "eval_runtime": 35.1738,
+    "eval_samples": 2201,
+    "eval_samples_per_second": 62.575,
+    "eval_steps_per_second": 7.847,
+    "eval_wer": 0.9843253066787824,
+    "train_loss": 2.556843002393288,
+    "train_runtime": 17303.3516,
+    "train_samples": 19819,
+    "train_samples_per_second": 22.908,
+    "train_steps_per_second": 0.715
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.0,
-    "eval_loss": 2.863178253173828,
-    "eval_runtime": 55.6326,
-    "eval_samples": 796,
-    "eval_samples_per_second": 14.308,
-    "eval_steps_per_second": 1.798,
-    "eval_wer": 1.0
 }

 {
+    "epoch": 19.98,
+    "eval_loss": 2.728630542755127,
+    "eval_runtime": 35.1738,
+    "eval_samples": 2201,
+    "eval_samples_per_second": 62.575,
+    "eval_steps_per_second": 7.847,
+    "eval_wer": 0.9843253066787824
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 6.002392140204597,
-    "train_runtime": 1027.9684,
-    "train_samples": 7146,
-    "train_samples_per_second": 6.952,
-    "train_steps_per_second": 0.217
 }

 {
+    "epoch": 19.98,
+    "train_loss": 2.556843002393288,
+    "train_runtime": 17303.3516,
+    "train_samples": 19819,
+    "train_samples_per_second": 22.908,
+    "train_steps_per_second": 0.715
 }

trainer_state.json CHANGED Viewed

@@ -1,46 +1,1279 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9977628635346756,
   "eval_steps": 100,
-  "global_step": 223,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.45,
-      "eval_loss": 3.5278894901275635,
-      "eval_runtime": 56.6716,
-      "eval_samples_per_second": 14.046,
-      "eval_steps_per_second": 1.765,
       "eval_wer": 1.0,
       "step": 100
     },
     {
-      "epoch": 0.89,
-      "eval_loss": 2.8718643188476562,
-      "eval_runtime": 55.9168,
-      "eval_samples_per_second": 14.235,
-      "eval_steps_per_second": 1.788,
       "eval_wer": 1.0,
       "step": 200
     },
     {
-      "epoch": 1.0,
-      "step": 223,
-      "total_flos": 1.3442433304892314e+18,
-      "train_loss": 6.002392140204597,
-      "train_runtime": 1027.9684,
-      "train_samples_per_second": 6.952,
-      "train_steps_per_second": 0.217
     }
   ],
   "logging_steps": 500,
-  "max_steps": 223,
-  "num_train_epochs": 1,
   "save_steps": 400,
-  "total_flos": 1.3442433304892314e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 19.983857949959646,
   "eval_steps": 100,
+  "global_step": 12380,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.16,
+      "eval_loss": 3.898963689804077,
+      "eval_runtime": 35.3167,
+      "eval_samples_per_second": 62.322,
+      "eval_steps_per_second": 7.815,
       "eval_wer": 1.0,
       "step": 100
     },
     {
+      "epoch": 0.32,
+      "eval_loss": 2.8678269386291504,
+      "eval_runtime": 35.3815,
+      "eval_samples_per_second": 62.208,
+      "eval_steps_per_second": 7.801,
       "eval_wer": 1.0,
       "step": 200
     },
     {
+      "epoch": 0.48,
+      "eval_loss": 2.7794852256774902,
+      "eval_runtime": 35.4013,
+      "eval_samples_per_second": 62.173,
+      "eval_steps_per_second": 7.796,
+      "eval_wer": 1.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 2.7316112518310547,
+      "eval_runtime": 35.4325,
+      "eval_samples_per_second": 62.118,
+      "eval_steps_per_second": 7.789,
+      "eval_wer": 1.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00029699999999999996,
+      "loss": 4.389,
+      "step": 500
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 2.688910722732544,
+      "eval_runtime": 35.4199,
+      "eval_samples_per_second": 62.14,
+      "eval_steps_per_second": 7.792,
+      "eval_wer": 0.9784189004997729,
+      "step": 500
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 3.272650957107544,
+      "eval_runtime": 35.3276,
+      "eval_samples_per_second": 62.303,
+      "eval_steps_per_second": 7.813,
+      "eval_wer": 0.9784189004997729,
+      "step": 600
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 2.7057435512542725,
+      "eval_runtime": 35.3617,
+      "eval_samples_per_second": 62.243,
+      "eval_steps_per_second": 7.805,
+      "eval_wer": 0.9784189004997729,
+      "step": 700
+    },
+    {
+      "epoch": 1.29,
+      "eval_loss": 2.852546215057373,
+      "eval_runtime": 35.394,
+      "eval_samples_per_second": 62.186,
+      "eval_steps_per_second": 7.798,
+      "eval_wer": 0.9963652885052249,
+      "step": 800
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 2.668452024459839,
+      "eval_runtime": 35.1413,
+      "eval_samples_per_second": 62.633,
+      "eval_steps_per_second": 7.854,
+      "eval_wer": 0.9968196274420718,
+      "step": 900
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0002875,
+      "loss": 2.5649,
+      "step": 1000
+    },
+    {
+      "epoch": 1.61,
+      "eval_loss": 2.740328788757324,
+      "eval_runtime": 35.5622,
+      "eval_samples_per_second": 61.892,
+      "eval_steps_per_second": 7.761,
+      "eval_wer": 1.0,
+      "step": 1000
+    },
+    {
+      "epoch": 1.78,
+      "eval_loss": 2.7789676189422607,
+      "eval_runtime": 35.3028,
+      "eval_samples_per_second": 62.346,
+      "eval_steps_per_second": 7.818,
+      "eval_wer": 1.0,
+      "step": 1100
+    },
+    {
+      "epoch": 1.94,
+      "eval_loss": 2.812997579574585,
+      "eval_runtime": 35.2664,
+      "eval_samples_per_second": 62.411,
+      "eval_steps_per_second": 7.826,
+      "eval_wer": 0.9786460699681963,
+      "step": 1200
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 2.803067207336426,
+      "eval_runtime": 35.2577,
+      "eval_samples_per_second": 62.426,
+      "eval_steps_per_second": 7.828,
+      "eval_wer": 1.0,
+      "step": 1300
+    },
+    {
+      "epoch": 2.26,
+      "eval_loss": 2.9682765007019043,
+      "eval_runtime": 35.4719,
+      "eval_samples_per_second": 62.049,
+      "eval_steps_per_second": 7.781,
+      "eval_wer": 1.0,
+      "step": 1400
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.00027489898989898986,
+      "loss": 2.5421,
+      "step": 1500
+    },
+    {
+      "epoch": 2.42,
+      "eval_loss": 2.9459009170532227,
+      "eval_runtime": 35.5607,
+      "eval_samples_per_second": 61.894,
+      "eval_steps_per_second": 7.761,
+      "eval_wer": 0.9784189004997729,
+      "step": 1500
+    },
+    {
+      "epoch": 2.58,
+      "eval_loss": 2.7052440643310547,
+      "eval_runtime": 35.4157,
+      "eval_samples_per_second": 62.148,
+      "eval_steps_per_second": 7.793,
+      "eval_wer": 0.9784189004997729,
+      "step": 1600
+    },
+    {
+      "epoch": 2.74,
+      "eval_loss": 2.7878549098968506,
+      "eval_runtime": 35.5231,
+      "eval_samples_per_second": 61.96,
+      "eval_steps_per_second": 7.77,
+      "eval_wer": 0.9786460699681963,
+      "step": 1700
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 2.7955620288848877,
+      "eval_runtime": 35.85,
+      "eval_samples_per_second": 61.395,
+      "eval_steps_per_second": 7.699,
+      "eval_wer": 1.0,
+      "step": 1800
+    },
+    {
+      "epoch": 3.07,
+      "eval_loss": 2.776027202606201,
+      "eval_runtime": 35.7619,
+      "eval_samples_per_second": 61.546,
+      "eval_steps_per_second": 7.718,
+      "eval_wer": 0.9784189004997729,
+      "step": 1900
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 0.00026227272727272726,
+      "loss": 2.5357,
+      "step": 2000
+    },
+    {
+      "epoch": 3.23,
+      "eval_loss": 2.859441041946411,
+      "eval_runtime": 35.6034,
+      "eval_samples_per_second": 61.82,
+      "eval_steps_per_second": 7.752,
+      "eval_wer": 0.9995456610631531,
+      "step": 2000
+    },
+    {
+      "epoch": 3.39,
+      "eval_loss": 2.9047751426696777,
+      "eval_runtime": 35.41,
+      "eval_samples_per_second": 62.158,
+      "eval_steps_per_second": 7.794,
+      "eval_wer": 0.97955474784189,
+      "step": 2100
+    },
+    {
+      "epoch": 3.55,
+      "eval_loss": 3.0097830295562744,
+      "eval_runtime": 36.2831,
+      "eval_samples_per_second": 60.662,
+      "eval_steps_per_second": 7.607,
+      "eval_wer": 0.9784189004997729,
+      "step": 2200
+    },
+    {
+      "epoch": 3.71,
+      "eval_loss": 2.7079336643218994,
+      "eval_runtime": 35.6106,
+      "eval_samples_per_second": 61.807,
+      "eval_steps_per_second": 7.75,
+      "eval_wer": 0.9784189004997729,
+      "step": 2300
+    },
+    {
+      "epoch": 3.87,
+      "eval_loss": 3.2402844429016113,
+      "eval_runtime": 35.4272,
+      "eval_samples_per_second": 62.127,
+      "eval_steps_per_second": 7.791,
+      "eval_wer": 1.0,
+      "step": 2400
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 0.00024967171717171717,
+      "loss": 2.5203,
+      "step": 2500
+    },
+    {
+      "epoch": 4.04,
+      "eval_loss": 3.0476486682891846,
+      "eval_runtime": 35.3746,
+      "eval_samples_per_second": 62.22,
+      "eval_steps_per_second": 7.802,
+      "eval_wer": 0.9784189004997729,
+      "step": 2500
+    },
+    {
+      "epoch": 4.2,
+      "eval_loss": 2.850980520248413,
+      "eval_runtime": 35.1192,
+      "eval_samples_per_second": 62.672,
+      "eval_steps_per_second": 7.859,
+      "eval_wer": 1.0,
+      "step": 2600
+    },
+    {
+      "epoch": 4.36,
+      "eval_loss": 2.790703296661377,
+      "eval_runtime": 34.998,
+      "eval_samples_per_second": 62.889,
+      "eval_steps_per_second": 7.886,
+      "eval_wer": 0.9784189004997729,
+      "step": 2700
+    },
+    {
+      "epoch": 4.52,
+      "eval_loss": 2.7485764026641846,
+      "eval_runtime": 35.3947,
+      "eval_samples_per_second": 62.184,
+      "eval_steps_per_second": 7.798,
+      "eval_wer": 0.9784189004997729,
+      "step": 2800
+    },
+    {
+      "epoch": 4.68,
+      "eval_loss": 3.1700756549835205,
+      "eval_runtime": 35.059,
+      "eval_samples_per_second": 62.78,
+      "eval_steps_per_second": 7.872,
+      "eval_wer": 1.0,
+      "step": 2900
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 0.00023704545454545452,
+      "loss": 2.5191,
+      "step": 3000
+    },
+    {
+      "epoch": 4.84,
+      "eval_loss": 2.9528985023498535,
+      "eval_runtime": 34.7932,
+      "eval_samples_per_second": 63.259,
+      "eval_steps_per_second": 7.933,
+      "eval_wer": 0.9784189004997729,
+      "step": 3000
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 3.1192333698272705,
+      "eval_runtime": 35.2754,
+      "eval_samples_per_second": 62.395,
+      "eval_steps_per_second": 7.824,
+      "eval_wer": 0.9650159018627896,
+      "step": 3100
+    },
+    {
+      "epoch": 5.17,
+      "eval_loss": 2.8595774173736572,
+      "eval_runtime": 34.9676,
+      "eval_samples_per_second": 62.944,
+      "eval_steps_per_second": 7.893,
+      "eval_wer": 1.0,
+      "step": 3200
+    },
+    {
+      "epoch": 5.33,
+      "eval_loss": 2.919292449951172,
+      "eval_runtime": 34.9757,
+      "eval_samples_per_second": 62.929,
+      "eval_steps_per_second": 7.891,
+      "eval_wer": 1.0,
+      "step": 3300
+    },
+    {
+      "epoch": 5.49,
+      "eval_loss": 3.0366740226745605,
+      "eval_runtime": 35.2556,
+      "eval_samples_per_second": 62.43,
+      "eval_steps_per_second": 7.829,
+      "eval_wer": 0.9784189004997729,
+      "step": 3400
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 0.00022441919191919192,
+      "loss": 2.5422,
+      "step": 3500
+    },
+    {
+      "epoch": 5.65,
+      "eval_loss": 2.9161534309387207,
+      "eval_runtime": 35.3286,
+      "eval_samples_per_second": 62.301,
+      "eval_steps_per_second": 7.812,
+      "eval_wer": 0.9784189004997729,
+      "step": 3500
+    },
+    {
+      "epoch": 5.81,
+      "eval_loss": 3.033392906188965,
+      "eval_runtime": 35.2038,
+      "eval_samples_per_second": 62.522,
+      "eval_steps_per_second": 7.84,
+      "eval_wer": 1.0,
+      "step": 3600
+    },
+    {
+      "epoch": 5.97,
+      "eval_loss": 2.8513946533203125,
+      "eval_runtime": 35.344,
+      "eval_samples_per_second": 62.274,
+      "eval_steps_per_second": 7.809,
+      "eval_wer": 0.9784189004997729,
+      "step": 3700
+    },
+    {
+      "epoch": 6.13,
+      "eval_loss": 2.9653778076171875,
+      "eval_runtime": 35.1238,
+      "eval_samples_per_second": 62.664,
+      "eval_steps_per_second": 7.858,
+      "eval_wer": 1.0,
+      "step": 3800
+    },
+    {
+      "epoch": 6.3,
+      "eval_loss": 3.261630058288574,
+      "eval_runtime": 35.0149,
+      "eval_samples_per_second": 62.859,
+      "eval_steps_per_second": 7.882,
+      "eval_wer": 0.9784189004997729,
+      "step": 3900
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 0.00021179292929292926,
+      "loss": 2.5062,
+      "step": 4000
+    },
+    {
+      "epoch": 6.46,
+      "eval_loss": 3.33202862739563,
+      "eval_runtime": 34.9678,
+      "eval_samples_per_second": 62.944,
+      "eval_steps_per_second": 7.893,
+      "eval_wer": 0.9793275783734666,
+      "step": 4000
+    },
+    {
+      "epoch": 6.62,
+      "eval_loss": 2.714141845703125,
+      "eval_runtime": 35.0566,
+      "eval_samples_per_second": 62.784,
+      "eval_steps_per_second": 7.873,
+      "eval_wer": 0.9784189004997729,
+      "step": 4100
+    },
+    {
+      "epoch": 6.78,
+      "eval_loss": 3.2108442783355713,
+      "eval_runtime": 34.9263,
+      "eval_samples_per_second": 63.018,
+      "eval_steps_per_second": 7.902,
+      "eval_wer": 0.9784189004997729,
+      "step": 4200
+    },
+    {
+      "epoch": 6.94,
+      "eval_loss": 3.0015201568603516,
+      "eval_runtime": 35.4639,
+      "eval_samples_per_second": 62.063,
+      "eval_steps_per_second": 7.783,
+      "eval_wer": 0.9784189004997729,
+      "step": 4300
+    },
+    {
+      "epoch": 7.1,
+      "eval_loss": 3.024397134780884,
+      "eval_runtime": 35.8959,
+      "eval_samples_per_second": 61.316,
+      "eval_steps_per_second": 7.689,
+      "eval_wer": 1.0,
+      "step": 4400
+    },
+    {
+      "epoch": 7.26,
+      "learning_rate": 0.00019916666666666664,
+      "loss": 2.5114,
+      "step": 4500
+    },
+    {
+      "epoch": 7.26,
+      "eval_loss": 2.874232053756714,
+      "eval_runtime": 35.3093,
+      "eval_samples_per_second": 62.335,
+      "eval_steps_per_second": 7.817,
+      "eval_wer": 0.9784189004997729,
+      "step": 4500
+    },
+    {
+      "epoch": 7.43,
+      "eval_loss": 3.147094488143921,
+      "eval_runtime": 35.1341,
+      "eval_samples_per_second": 62.646,
+      "eval_steps_per_second": 7.856,
+      "eval_wer": 0.9784189004997729,
+      "step": 4600
+    },
+    {
+      "epoch": 7.59,
+      "eval_loss": 2.7005865573883057,
+      "eval_runtime": 35.1317,
+      "eval_samples_per_second": 62.65,
+      "eval_steps_per_second": 7.856,
+      "eval_wer": 0.9772830531576556,
+      "step": 4700
+    },
+    {
+      "epoch": 7.75,
+      "eval_loss": 3.118854284286499,
+      "eval_runtime": 35.077,
+      "eval_samples_per_second": 62.748,
+      "eval_steps_per_second": 7.868,
+      "eval_wer": 1.0,
+      "step": 4800
+    },
+    {
+      "epoch": 7.91,
+      "eval_loss": 3.1604197025299072,
+      "eval_runtime": 35.1065,
+      "eval_samples_per_second": 62.695,
+      "eval_steps_per_second": 7.862,
+      "eval_wer": 0.9784189004997729,
+      "step": 4900
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 0.000186540404040404,
+      "loss": 2.5065,
+      "step": 5000
+    },
+    {
+      "epoch": 8.07,
+      "eval_loss": 2.92966890335083,
+      "eval_runtime": 35.3426,
+      "eval_samples_per_second": 62.276,
+      "eval_steps_per_second": 7.809,
+      "eval_wer": 0.9784189004997729,
+      "step": 5000
+    },
+    {
+      "epoch": 8.23,
+      "eval_loss": 3.0998189449310303,
+      "eval_runtime": 34.9856,
+      "eval_samples_per_second": 62.912,
+      "eval_steps_per_second": 7.889,
+      "eval_wer": 0.9784189004997729,
+      "step": 5100
+    },
+    {
+      "epoch": 8.39,
+      "eval_loss": 2.818410873413086,
+      "eval_runtime": 35.4037,
+      "eval_samples_per_second": 62.169,
+      "eval_steps_per_second": 7.796,
+      "eval_wer": 0.9843253066787824,
+      "step": 5200
+    },
+    {
+      "epoch": 8.56,
+      "eval_loss": 2.7132983207702637,
+      "eval_runtime": 35.1176,
+      "eval_samples_per_second": 62.675,
+      "eval_steps_per_second": 7.859,
+      "eval_wer": 0.9861426624261699,
+      "step": 5300
+    },
+    {
+      "epoch": 8.72,
+      "eval_loss": 2.7398695945739746,
+      "eval_runtime": 35.1472,
+      "eval_samples_per_second": 62.622,
+      "eval_steps_per_second": 7.853,
+      "eval_wer": 0.9811449341208541,
+      "step": 5400
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 0.0001739141414141414,
+      "loss": 2.4956,
+      "step": 5500
+    },
+    {
+      "epoch": 8.88,
+      "eval_loss": 2.7186269760131836,
+      "eval_runtime": 35.2793,
+      "eval_samples_per_second": 62.388,
+      "eval_steps_per_second": 7.823,
+      "eval_wer": 0.9888686960472512,
+      "step": 5500
+    },
+    {
+      "epoch": 9.04,
+      "eval_loss": 2.9871914386749268,
+      "eval_runtime": 34.9607,
+      "eval_samples_per_second": 62.956,
+      "eval_steps_per_second": 7.895,
+      "eval_wer": 0.9954566106315311,
+      "step": 5600
+    },
+    {
+      "epoch": 9.2,
+      "eval_loss": 3.082458257675171,
+      "eval_runtime": 34.98,
+      "eval_samples_per_second": 62.922,
+      "eval_steps_per_second": 7.89,
+      "eval_wer": 0.9993184915947296,
+      "step": 5700
+    },
+    {
+      "epoch": 9.36,
+      "eval_loss": 3.0588910579681396,
+      "eval_runtime": 35.5843,
+      "eval_samples_per_second": 61.853,
+      "eval_steps_per_second": 7.756,
+      "eval_wer": 0.9854611540208996,
+      "step": 5800
+    },
+    {
+      "epoch": 9.52,
+      "eval_loss": 2.8176536560058594,
+      "eval_runtime": 35.3586,
+      "eval_samples_per_second": 62.248,
+      "eval_steps_per_second": 7.806,
+      "eval_wer": 0.9784189004997729,
+      "step": 5900
+    },
+    {
+      "epoch": 9.69,
+      "learning_rate": 0.00016128787878787879,
+      "loss": 2.4774,
+      "step": 6000
+    },
+    {
+      "epoch": 9.69,
+      "eval_loss": 2.8103556632995605,
+      "eval_runtime": 34.9221,
+      "eval_samples_per_second": 63.026,
+      "eval_steps_per_second": 7.903,
+      "eval_wer": 0.9993184915947296,
+      "step": 6000
+    },
+    {
+      "epoch": 9.85,
+      "eval_loss": 2.9498021602630615,
+      "eval_runtime": 35.3693,
+      "eval_samples_per_second": 62.229,
+      "eval_steps_per_second": 7.803,
+      "eval_wer": 0.97955474784189,
+      "step": 6100
+    },
+    {
+      "epoch": 10.01,
+      "eval_loss": 3.000636577606201,
+      "eval_runtime": 35.1186,
+      "eval_samples_per_second": 62.673,
+      "eval_steps_per_second": 7.859,
+      "eval_wer": 0.9784189004997729,
+      "step": 6200
+    },
+    {
+      "epoch": 10.17,
+      "eval_loss": 2.809988260269165,
+      "eval_runtime": 35.4693,
+      "eval_samples_per_second": 62.054,
+      "eval_steps_per_second": 7.781,
+      "eval_wer": 0.9784189004997729,
+      "step": 6300
+    },
+    {
+      "epoch": 10.33,
+      "eval_loss": 3.1577372550964355,
+      "eval_runtime": 34.9862,
+      "eval_samples_per_second": 62.91,
+      "eval_steps_per_second": 7.889,
+      "eval_wer": 0.9786460699681963,
+      "step": 6400
+    },
+    {
+      "epoch": 10.49,
+      "learning_rate": 0.00014866161616161616,
+      "loss": 2.4689,
+      "step": 6500
+    },
+    {
+      "epoch": 10.49,
+      "eval_loss": 2.7814252376556396,
+      "eval_runtime": 35.2563,
+      "eval_samples_per_second": 62.429,
+      "eval_steps_per_second": 7.828,
+      "eval_wer": 0.9977283053157655,
+      "step": 6500
+    },
+    {
+      "epoch": 10.65,
+      "eval_loss": 2.72709059715271,
+      "eval_runtime": 35.1394,
+      "eval_samples_per_second": 62.636,
+      "eval_steps_per_second": 7.854,
+      "eval_wer": 0.983643798273512,
+      "step": 6600
+    },
+    {
+      "epoch": 10.82,
+      "eval_loss": 2.840341567993164,
+      "eval_runtime": 35.568,
+      "eval_samples_per_second": 61.882,
+      "eval_steps_per_second": 7.76,
+      "eval_wer": 0.9784189004997729,
+      "step": 6700
+    },
+    {
+      "epoch": 10.98,
+      "eval_loss": 2.72574782371521,
+      "eval_runtime": 35.3787,
+      "eval_samples_per_second": 62.213,
+      "eval_steps_per_second": 7.801,
+      "eval_wer": 0.9997728305315765,
+      "step": 6800
+    },
+    {
+      "epoch": 11.14,
+      "eval_loss": 2.672818183898926,
+      "eval_runtime": 35.1351,
+      "eval_samples_per_second": 62.644,
+      "eval_steps_per_second": 7.855,
+      "eval_wer": 0.989777373920945,
+      "step": 6900
+    },
+    {
+      "epoch": 11.3,
+      "learning_rate": 0.0001360353535353535,
+      "loss": 2.486,
+      "step": 7000
+    },
+    {
+      "epoch": 11.3,
+      "eval_loss": 2.7347543239593506,
+      "eval_runtime": 35.0574,
+      "eval_samples_per_second": 62.783,
+      "eval_steps_per_second": 7.873,
+      "eval_wer": 0.9809177646524307,
+      "step": 7000
+    },
+    {
+      "epoch": 11.46,
+      "eval_loss": 2.705395460128784,
+      "eval_runtime": 35.0691,
+      "eval_samples_per_second": 62.762,
+      "eval_steps_per_second": 7.87,
+      "eval_wer": 0.9981826442526125,
+      "step": 7100
+    },
+    {
+      "epoch": 11.62,
+      "eval_loss": 2.725370168685913,
+      "eval_runtime": 35.6237,
+      "eval_samples_per_second": 61.785,
+      "eval_steps_per_second": 7.748,
+      "eval_wer": 0.9947751022262608,
+      "step": 7200
+    },
+    {
+      "epoch": 11.78,
+      "eval_loss": 2.74984073638916,
+      "eval_runtime": 36.5139,
+      "eval_samples_per_second": 60.278,
+      "eval_steps_per_second": 7.559,
+      "eval_wer": 0.9890958655156747,
+      "step": 7300
+    },
+    {
+      "epoch": 11.95,
+      "eval_loss": 2.707601308822632,
+      "eval_runtime": 34.9847,
+      "eval_samples_per_second": 62.913,
+      "eval_steps_per_second": 7.889,
+      "eval_wer": 0.989777373920945,
+      "step": 7400
+    },
+    {
+      "epoch": 12.11,
+      "learning_rate": 0.0001234090909090909,
+      "loss": 2.4616,
+      "step": 7500
+    },
+    {
+      "epoch": 12.11,
+      "eval_loss": 2.639796733856201,
+      "eval_runtime": 34.999,
+      "eval_samples_per_second": 62.888,
+      "eval_steps_per_second": 7.886,
+      "eval_wer": 0.9995456610631531,
+      "step": 7500
+    },
+    {
+      "epoch": 12.27,
+      "eval_loss": 2.7625598907470703,
+      "eval_runtime": 35.1361,
+      "eval_samples_per_second": 62.642,
+      "eval_steps_per_second": 7.855,
+      "eval_wer": 0.9845524761472059,
+      "step": 7600
+    },
+    {
+      "epoch": 12.43,
+      "eval_loss": 2.6803925037384033,
+      "eval_runtime": 34.9233,
+      "eval_samples_per_second": 63.024,
+      "eval_steps_per_second": 7.903,
+      "eval_wer": 0.9813721035892776,
+      "step": 7700
+    },
+    {
+      "epoch": 12.59,
+      "eval_loss": 2.82122540473938,
+      "eval_runtime": 35.0324,
+      "eval_samples_per_second": 62.828,
+      "eval_steps_per_second": 7.878,
+      "eval_wer": 0.9834166288050886,
+      "step": 7800
+    },
+    {
+      "epoch": 12.75,
+      "eval_loss": 2.6534788608551025,
+      "eval_runtime": 35.3231,
+      "eval_samples_per_second": 62.311,
+      "eval_steps_per_second": 7.814,
+      "eval_wer": 0.995910949568378,
+      "step": 7900
+    },
+    {
+      "epoch": 12.91,
+      "learning_rate": 0.00011078282828282827,
+      "loss": 2.4573,
+      "step": 8000
+    },
+    {
+      "epoch": 12.91,
+      "eval_loss": 2.754741668701172,
+      "eval_runtime": 35.0413,
+      "eval_samples_per_second": 62.812,
+      "eval_steps_per_second": 7.876,
+      "eval_wer": 0.9993184915947296,
+      "step": 8000
+    },
+    {
+      "epoch": 13.08,
+      "eval_loss": 2.7253224849700928,
+      "eval_runtime": 35.5654,
+      "eval_samples_per_second": 61.886,
+      "eval_steps_per_second": 7.76,
+      "eval_wer": 0.9797819173103135,
+      "step": 8100
+    },
+    {
+      "epoch": 13.24,
+      "eval_loss": 2.6850526332855225,
+      "eval_runtime": 35.1914,
+      "eval_samples_per_second": 62.544,
+      "eval_steps_per_second": 7.843,
+      "eval_wer": 0.9936392548841436,
+      "step": 8200
+    },
+    {
+      "epoch": 13.4,
+      "eval_loss": 2.7627077102661133,
+      "eval_runtime": 35.2815,
+      "eval_samples_per_second": 62.384,
+      "eval_steps_per_second": 7.823,
+      "eval_wer": 0.9906860517946388,
+      "step": 8300
+    },
+    {
+      "epoch": 13.56,
+      "eval_loss": 2.6607019901275635,
+      "eval_runtime": 34.8716,
+      "eval_samples_per_second": 63.117,
+      "eval_steps_per_second": 7.915,
+      "eval_wer": 0.985688323489323,
+      "step": 8400
+    },
+    {
+      "epoch": 13.72,
+      "learning_rate": 9.815656565656566e-05,
+      "loss": 2.4487,
+      "step": 8500
+    },
+    {
+      "epoch": 13.72,
+      "eval_loss": 2.6645030975341797,
+      "eval_runtime": 34.8917,
+      "eval_samples_per_second": 63.081,
+      "eval_steps_per_second": 7.91,
+      "eval_wer": 0.980009086778737,
+      "step": 8500
+    },
+    {
+      "epoch": 13.88,
+      "eval_loss": 2.7558000087738037,
+      "eval_runtime": 35.3637,
+      "eval_samples_per_second": 62.239,
+      "eval_steps_per_second": 7.805,
+      "eval_wer": 0.9972739663789186,
+      "step": 8600
+    },
+    {
+      "epoch": 14.04,
+      "eval_loss": 2.7665319442749023,
+      "eval_runtime": 35.5805,
+      "eval_samples_per_second": 61.86,
+      "eval_steps_per_second": 7.757,
+      "eval_wer": 0.9961381190368015,
+      "step": 8700
+    },
+    {
+      "epoch": 14.21,
+      "eval_loss": 2.7696964740753174,
+      "eval_runtime": 36.3477,
+      "eval_samples_per_second": 60.554,
+      "eval_steps_per_second": 7.593,
+      "eval_wer": 0.9827351203998183,
+      "step": 8800
+    },
+    {
+      "epoch": 14.37,
+      "eval_loss": 2.8530843257904053,
+      "eval_runtime": 35.2199,
+      "eval_samples_per_second": 62.493,
+      "eval_steps_per_second": 7.836,
+      "eval_wer": 0.991821899136756,
+      "step": 8900
+    },
+    {
+      "epoch": 14.53,
+      "learning_rate": 8.555555555555556e-05,
+      "loss": 2.4416,
+      "step": 9000
+    },
+    {
+      "epoch": 14.53,
+      "eval_loss": 2.8973543643951416,
+      "eval_runtime": 35.1322,
+      "eval_samples_per_second": 62.649,
+      "eval_steps_per_second": 7.856,
+      "eval_wer": 0.9920490686051795,
+      "step": 9000
+    },
+    {
+      "epoch": 14.69,
+      "eval_loss": 2.7307872772216797,
+      "eval_runtime": 35.6885,
+      "eval_samples_per_second": 61.673,
+      "eval_steps_per_second": 7.734,
+      "eval_wer": 0.9975011358473421,
+      "step": 9100
+    },
+    {
+      "epoch": 14.85,
+      "eval_loss": 2.7919318675994873,
+      "eval_runtime": 35.3942,
+      "eval_samples_per_second": 62.185,
+      "eval_steps_per_second": 7.798,
+      "eval_wer": 0.981599273057701,
+      "step": 9200
+    },
+    {
+      "epoch": 15.01,
+      "eval_loss": 2.660515308380127,
+      "eval_runtime": 35.5069,
+      "eval_samples_per_second": 61.988,
+      "eval_steps_per_second": 7.773,
+      "eval_wer": 0.9893230349840981,
+      "step": 9300
+    },
+    {
+      "epoch": 15.17,
+      "eval_loss": 2.605780839920044,
+      "eval_runtime": 35.3171,
+      "eval_samples_per_second": 62.321,
+      "eval_steps_per_second": 7.815,
+      "eval_wer": 0.981599273057701,
+      "step": 9400
+    },
+    {
+      "epoch": 15.33,
+      "learning_rate": 7.292929292929292e-05,
+      "loss": 2.4405,
+      "step": 9500
+    },
+    {
+      "epoch": 15.33,
+      "eval_loss": 2.63655161857605,
+      "eval_runtime": 35.0912,
+      "eval_samples_per_second": 62.722,
+      "eval_steps_per_second": 7.865,
+      "eval_wer": 0.9911403907314857,
+      "step": 9500
+    },
+    {
+      "epoch": 15.5,
+      "eval_loss": 2.565321207046509,
+      "eval_runtime": 35.6382,
+      "eval_samples_per_second": 61.76,
+      "eval_steps_per_second": 7.745,
+      "eval_wer": 0.9818264425261245,
+      "step": 9600
+    },
+    {
+      "epoch": 15.66,
+      "eval_loss": 2.7025833129882812,
+      "eval_runtime": 35.355,
+      "eval_samples_per_second": 62.254,
+      "eval_steps_per_second": 7.807,
+      "eval_wer": 0.9806905951840073,
+      "step": 9700
+    },
+    {
+      "epoch": 15.82,
+      "eval_loss": 2.7358055114746094,
+      "eval_runtime": 35.0441,
+      "eval_samples_per_second": 62.807,
+      "eval_steps_per_second": 7.876,
+      "eval_wer": 0.97955474784189,
+      "step": 9800
+    },
+    {
+      "epoch": 15.98,
+      "eval_loss": 2.695399522781372,
+      "eval_runtime": 35.2995,
+      "eval_samples_per_second": 62.352,
+      "eval_steps_per_second": 7.819,
+      "eval_wer": 0.9847796456156293,
+      "step": 9900
+    },
+    {
+      "epoch": 16.14,
+      "learning_rate": 6.0303030303030296e-05,
+      "loss": 2.4352,
+      "step": 10000
+    },
+    {
+      "epoch": 16.14,
+      "eval_loss": 2.661024570465088,
+      "eval_runtime": 35.3284,
+      "eval_samples_per_second": 62.301,
+      "eval_steps_per_second": 7.812,
+      "eval_wer": 0.985688323489323,
+      "step": 10000
+    },
+    {
+      "epoch": 16.3,
+      "eval_loss": 2.7686407566070557,
+      "eval_runtime": 35.066,
+      "eval_samples_per_second": 62.767,
+      "eval_steps_per_second": 7.871,
+      "eval_wer": 0.9811449341208541,
+      "step": 10100
+    },
+    {
+      "epoch": 16.46,
+      "eval_loss": 2.775808572769165,
+      "eval_runtime": 34.9312,
+      "eval_samples_per_second": 63.01,
+      "eval_steps_per_second": 7.901,
+      "eval_wer": 0.9797819173103135,
+      "step": 10200
+    },
+    {
+      "epoch": 16.63,
+      "eval_loss": 2.751512050628662,
+      "eval_runtime": 35.1597,
+      "eval_samples_per_second": 62.6,
+      "eval_steps_per_second": 7.85,
+      "eval_wer": 0.9847796456156293,
+      "step": 10300
+    },
+    {
+      "epoch": 16.79,
+      "eval_loss": 2.726439952850342,
+      "eval_runtime": 35.8311,
+      "eval_samples_per_second": 61.427,
+      "eval_steps_per_second": 7.703,
+      "eval_wer": 0.9911403907314857,
+      "step": 10400
+    },
+    {
+      "epoch": 16.95,
+      "learning_rate": 4.767676767676767e-05,
+      "loss": 2.4354,
+      "step": 10500
+    },
+    {
+      "epoch": 16.95,
+      "eval_loss": 2.7038702964782715,
+      "eval_runtime": 35.4185,
+      "eval_samples_per_second": 62.143,
+      "eval_steps_per_second": 7.793,
+      "eval_wer": 0.9791004089050431,
+      "step": 10500
+    },
+    {
+      "epoch": 17.11,
+      "eval_loss": 2.7579615116119385,
+      "eval_runtime": 35.1081,
+      "eval_samples_per_second": 62.692,
+      "eval_steps_per_second": 7.861,
+      "eval_wer": 0.9843253066787824,
+      "step": 10600
+    },
+    {
+      "epoch": 17.27,
+      "eval_loss": 2.7186856269836426,
+      "eval_runtime": 35.331,
+      "eval_samples_per_second": 62.297,
+      "eval_steps_per_second": 7.812,
+      "eval_wer": 0.9854611540208996,
+      "step": 10700
+    },
+    {
+      "epoch": 17.43,
+      "eval_loss": 2.7545225620269775,
+      "eval_runtime": 35.2267,
+      "eval_samples_per_second": 62.481,
+      "eval_steps_per_second": 7.835,
+      "eval_wer": 0.9797819173103135,
+      "step": 10800
+    },
+    {
+      "epoch": 17.59,
+      "eval_loss": 2.745208501815796,
+      "eval_runtime": 35.2608,
+      "eval_samples_per_second": 62.421,
+      "eval_steps_per_second": 7.827,
+      "eval_wer": 0.9809177646524307,
+      "step": 10900
+    },
+    {
+      "epoch": 17.76,
+      "learning_rate": 3.5050505050505044e-05,
+      "loss": 2.4321,
+      "step": 11000
+    },
+    {
+      "epoch": 17.76,
+      "eval_loss": 2.680445432662964,
+      "eval_runtime": 35.0774,
+      "eval_samples_per_second": 62.747,
+      "eval_steps_per_second": 7.868,
+      "eval_wer": 0.983643798273512,
+      "step": 11000
+    },
+    {
+      "epoch": 17.92,
+      "eval_loss": 2.6586036682128906,
+      "eval_runtime": 35.3748,
+      "eval_samples_per_second": 62.219,
+      "eval_steps_per_second": 7.802,
+      "eval_wer": 0.9890958655156747,
+      "step": 11100
+    },
+    {
+      "epoch": 18.08,
+      "eval_loss": 2.680509328842163,
+      "eval_runtime": 35.5491,
+      "eval_samples_per_second": 61.914,
+      "eval_steps_per_second": 7.764,
+      "eval_wer": 0.9829622898682417,
+      "step": 11200
+    },
+    {
+      "epoch": 18.24,
+      "eval_loss": 2.662594795227051,
+      "eval_runtime": 35.3779,
+      "eval_samples_per_second": 62.214,
+      "eval_steps_per_second": 7.801,
+      "eval_wer": 0.9870513402998637,
+      "step": 11300
+    },
+    {
+      "epoch": 18.4,
+      "eval_loss": 2.70019268989563,
+      "eval_runtime": 35.0267,
+      "eval_samples_per_second": 62.838,
+      "eval_steps_per_second": 7.88,
+      "eval_wer": 0.9809177646524307,
+      "step": 11400
+    },
+    {
+      "epoch": 18.56,
+      "learning_rate": 2.242424242424242e-05,
+      "loss": 2.4193,
+      "step": 11500
+    },
+    {
+      "epoch": 18.56,
+      "eval_loss": 2.7054154872894287,
+      "eval_runtime": 35.0708,
+      "eval_samples_per_second": 62.759,
+      "eval_steps_per_second": 7.87,
+      "eval_wer": 0.9838709677419355,
+      "step": 11500
+    },
+    {
+      "epoch": 18.72,
+      "eval_loss": 2.717078447341919,
+      "eval_runtime": 35.1262,
+      "eval_samples_per_second": 62.66,
+      "eval_steps_per_second": 7.857,
+      "eval_wer": 0.9900045433893685,
+      "step": 11600
+    },
+    {
+      "epoch": 18.89,
+      "eval_loss": 2.712236166000366,
+      "eval_runtime": 35.0347,
+      "eval_samples_per_second": 62.823,
+      "eval_steps_per_second": 7.878,
+      "eval_wer": 0.9852339845524761,
+      "step": 11700
+    },
+    {
+      "epoch": 19.05,
+      "eval_loss": 2.705820083618164,
+      "eval_runtime": 35.6595,
+      "eval_samples_per_second": 61.723,
+      "eval_steps_per_second": 7.74,
+      "eval_wer": 0.9870513402998637,
+      "step": 11800
+    },
+    {
+      "epoch": 19.21,
+      "eval_loss": 2.7003977298736572,
+      "eval_runtime": 35.7161,
+      "eval_samples_per_second": 61.625,
+      "eval_steps_per_second": 7.728,
+      "eval_wer": 0.9838709677419355,
+      "step": 11900
+    },
+    {
+      "epoch": 19.37,
+      "learning_rate": 9.797979797979796e-06,
+      "loss": 2.4276,
+      "step": 12000
+    },
+    {
+      "epoch": 19.37,
+      "eval_loss": 2.725003719329834,
+      "eval_runtime": 35.3082,
+      "eval_samples_per_second": 62.337,
+      "eval_steps_per_second": 7.817,
+      "eval_wer": 0.9852339845524761,
+      "step": 12000
+    },
+    {
+      "epoch": 19.53,
+      "eval_loss": 2.7126049995422363,
+      "eval_runtime": 35.1508,
+      "eval_samples_per_second": 62.616,
+      "eval_steps_per_second": 7.852,
+      "eval_wer": 0.9861426624261699,
+      "step": 12100
+    },
+    {
+      "epoch": 19.69,
+      "eval_loss": 2.738818645477295,
+      "eval_runtime": 35.2814,
+      "eval_samples_per_second": 62.384,
+      "eval_steps_per_second": 7.823,
+      "eval_wer": 0.9834166288050886,
+      "step": 12200
+    },
+    {
+      "epoch": 19.85,
+      "eval_loss": 2.7310702800750732,
+      "eval_runtime": 35.2924,
+      "eval_samples_per_second": 62.365,
+      "eval_steps_per_second": 7.82,
+      "eval_wer": 0.9850068150840527,
+      "step": 12300
+    },
+    {
+      "epoch": 19.98,
+      "step": 12380,
+      "total_flos": 1.642150502507821e+19,
+      "train_loss": 2.556843002393288,
+      "train_runtime": 17303.3516,
+      "train_samples_per_second": 22.908,
+      "train_steps_per_second": 0.715
     }
   ],
   "logging_steps": 500,
+  "max_steps": 12380,
+  "num_train_epochs": 20,
   "save_steps": 400,
+  "total_flos": 1.642150502507821e+19,
   "trial_name": null,
   "trial_params": null
 }