End of training

Browse files

Files changed (7) hide show

README.md +6 -3
adapter.ada.safetensors +3 -0
all_results.json +9 -9
eval_results.json +5 -5
runs/Aug12_14-49-50_srvrocgpu014.uct.ac.za/events.out.tfevents.1755007778.srvrocgpu014.uct.ac.za.314165.1 +3 -0
train_results.json +4 -4
trainer_state.json +155 -155

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-all-bemgen-combined-fusion
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2150
-- Wer: 0.3920
 ## Model description

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- bemgen
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-all-bemgen-combined-fusion
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the BEMGEN - ADA dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2155
+- Wer: 0.3934
 ## Model description

adapter.ada.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bce3059e642d3e94368a6a85be2615ff63d73c69951820ae4d10c4f861519095
+size 8798532

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 5.0,
-    "eval_loss": 0.21950095891952515,
-    "eval_runtime": 69.6984,
     "eval_samples": 1676,
-    "eval_samples_per_second": 24.046,
-    "eval_steps_per_second": 6.012,
-    "eval_wer": 0.4012815378454145,
     "total_flos": 1.9392924694598373e+19,
-    "train_loss": 1.2170672131068816,
-    "train_runtime": 4223.7671,
     "train_samples": 6299,
-    "train_samples_per_second": 7.457,
-    "train_steps_per_second": 0.466
 }

 {
     "epoch": 5.0,
+    "eval_loss": 0.21548815071582794,
+    "eval_runtime": 71.9815,
     "eval_samples": 1676,
+    "eval_samples_per_second": 23.284,
+    "eval_steps_per_second": 5.821,
+    "eval_wer": 0.3934054198371379,
     "total_flos": 1.9392924694598373e+19,
+    "train_loss": 1.2152001163076023,
+    "train_runtime": 4269.1717,
     "train_samples": 6299,
+    "train_samples_per_second": 7.377,
+    "train_steps_per_second": 0.461
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
-    "eval_loss": 0.21950095891952515,
-    "eval_runtime": 69.6984,
     "eval_samples": 1676,
-    "eval_samples_per_second": 24.046,
-    "eval_steps_per_second": 6.012,
-    "eval_wer": 0.4012815378454145
 }

 {
     "epoch": 5.0,
+    "eval_loss": 0.21548815071582794,
+    "eval_runtime": 71.9815,
     "eval_samples": 1676,
+    "eval_samples_per_second": 23.284,
+    "eval_steps_per_second": 5.821,
+    "eval_wer": 0.3934054198371379
 }

runs/Aug12_14-49-50_srvrocgpu014.uct.ac.za/events.out.tfevents.1755007778.srvrocgpu014.uct.ac.za.314165.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7779914368d0aed4bef47c1109dbe5dade3c61ac8fa246d8e23c4216616cbaf6
+size 406

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
     "total_flos": 1.9392924694598373e+19,
-    "train_loss": 1.2170672131068816,
-    "train_runtime": 4223.7671,
     "train_samples": 6299,
-    "train_samples_per_second": 7.457,
-    "train_steps_per_second": 0.466
 }

 {
     "epoch": 5.0,
     "total_flos": 1.9392924694598373e+19,
+    "train_loss": 1.2152001163076023,
+    "train_runtime": 4269.1717,
     "train_samples": 6299,
+    "train_samples_per_second": 7.377,
+    "train_steps_per_second": 0.461
 }

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_global_step": 1900,
-  "best_metric": 0.2150741070508957,
-  "best_model_checkpoint": "/scratch/skscla001/experiments/datasets/results/mms-1b-all-bemgen-combined-fusion/checkpoint-1200",
   "epoch": 5.0,
   "eval_steps": 100,
   "global_step": 1970,
@@ -11,316 +11,316 @@
   "log_history": [
     {
       "epoch": 0.25380710659898476,
-      "grad_norm": 32.2292594909668,
-      "learning_rate": 0.000285,
-      "loss": 7.7625,
       "step": 100
     },
     {
       "epoch": 0.25380710659898476,
-      "eval_loss": 5.588669300079346,
-      "eval_runtime": 69.3281,
-      "eval_samples_per_second": 24.175,
-      "eval_steps_per_second": 6.044,
-      "eval_wer": 0.999933253237218,
       "step": 100
     },
     {
       "epoch": 0.5076142131979695,
-      "grad_norm": 10.083724975585938,
       "learning_rate": 0.00028475935828877006,
-      "loss": 4.8937,
       "step": 200
     },
     {
       "epoch": 0.5076142131979695,
-      "eval_loss": 4.956684589385986,
-      "eval_runtime": 68.9661,
-      "eval_samples_per_second": 24.302,
-      "eval_steps_per_second": 6.075,
       "eval_wer": 1.0,
       "step": 200
     },
     {
       "epoch": 0.7614213197969543,
-      "grad_norm": 5.518433094024658,
       "learning_rate": 0.00026871657754010695,
-      "loss": 4.2312,
       "step": 300
     },
     {
       "epoch": 0.7614213197969543,
-      "eval_loss": 3.7783877849578857,
-      "eval_runtime": 68.6885,
-      "eval_samples_per_second": 24.4,
-      "eval_steps_per_second": 6.1,
-      "eval_wer": 0.99966626618609,
       "step": 300
     },
     {
       "epoch": 1.015228426395939,
-      "grad_norm": 0.7774800062179565,
-      "learning_rate": 0.00025283422459893045,
-      "loss": 1.194,
       "step": 400
     },
     {
       "epoch": 1.015228426395939,
-      "eval_loss": 0.25593841075897217,
-      "eval_runtime": 68.6022,
-      "eval_samples_per_second": 24.431,
-      "eval_steps_per_second": 6.108,
-      "eval_wer": 0.46515818982779333,
       "step": 400
     },
     {
       "epoch": 1.2690355329949239,
-      "grad_norm": 0.8243533372879028,
-      "learning_rate": 0.00023679144385026736,
-      "loss": 0.4372,
       "step": 500
     },
     {
       "epoch": 1.2690355329949239,
-      "eval_loss": 0.2409835159778595,
-      "eval_runtime": 70.2102,
-      "eval_samples_per_second": 23.871,
-      "eval_steps_per_second": 5.968,
-      "eval_wer": 0.4499399279134962,
       "step": 500
     },
     {
       "epoch": 1.5228426395939088,
-      "grad_norm": 0.6686663031578064,
-      "learning_rate": 0.00022074866310160427,
-      "loss": 0.4276,
       "step": 600
     },
     {
       "epoch": 1.5228426395939088,
-      "eval_loss": 0.2348148673772812,
-      "eval_runtime": 69.4735,
-      "eval_samples_per_second": 24.124,
-      "eval_steps_per_second": 6.031,
-      "eval_wer": 0.4280469897209985,
       "step": 600
     },
     {
       "epoch": 1.7766497461928934,
-      "grad_norm": 1.5514487028121948,
-      "learning_rate": 0.00020470588235294116,
-      "loss": 0.4003,
       "step": 700
     },
     {
       "epoch": 1.7766497461928934,
-      "eval_loss": 0.2333621233701706,
-      "eval_runtime": 69.3321,
-      "eval_samples_per_second": 24.174,
-      "eval_steps_per_second": 6.043,
-      "eval_wer": 0.44132959551461753,
       "step": 700
     },
     {
       "epoch": 2.030456852791878,
-      "grad_norm": 4.034536838531494,
-      "learning_rate": 0.00018866310160427807,
-      "loss": 0.3853,
       "step": 800
     },
     {
       "epoch": 2.030456852791878,
-      "eval_loss": 0.22295093536376953,
-      "eval_runtime": 69.6283,
-      "eval_samples_per_second": 24.071,
-      "eval_steps_per_second": 6.018,
-      "eval_wer": 0.4092911493792551,
       "step": 800
     },
     {
       "epoch": 2.284263959390863,
-      "grad_norm": 0.36776381731033325,
-      "learning_rate": 0.00017262032085561496,
-      "loss": 0.3852,
       "step": 900
     },
     {
       "epoch": 2.284263959390863,
-      "eval_loss": 0.22227536141872406,
-      "eval_runtime": 70.6197,
-      "eval_samples_per_second": 23.733,
-      "eval_steps_per_second": 5.933,
-      "eval_wer": 0.40875717527699906,
       "step": 900
     },
     {
       "epoch": 2.5380710659898478,
-      "grad_norm": 0.44797080755233765,
-      "learning_rate": 0.00015657754010695187,
-      "loss": 0.3811,
       "step": 1000
     },
     {
       "epoch": 2.5380710659898478,
-      "eval_loss": 0.2219884991645813,
-      "eval_runtime": 70.6408,
-      "eval_samples_per_second": 23.726,
-      "eval_steps_per_second": 5.931,
-      "eval_wer": 0.408022960886397,
       "step": 1000
     },
     {
       "epoch": 2.7918781725888326,
-      "grad_norm": 0.8320724964141846,
-      "learning_rate": 0.00014053475935828875,
-      "loss": 0.3705,
       "step": 1100
     },
     {
       "epoch": 2.7918781725888326,
-      "eval_loss": 0.22171413898468018,
-      "eval_runtime": 69.9602,
-      "eval_samples_per_second": 23.956,
-      "eval_steps_per_second": 5.989,
-      "eval_wer": 0.40975837671872917,
       "step": 1100
     },
     {
       "epoch": 3.045685279187817,
-      "grad_norm": 0.6590794324874878,
-      "learning_rate": 0.00012449197860962566,
-      "loss": 0.3604,
       "step": 1200
     },
     {
       "epoch": 3.045685279187817,
-      "eval_loss": 0.21949037909507751,
-      "eval_runtime": 69.9308,
-      "eval_samples_per_second": 23.967,
-      "eval_steps_per_second": 5.992,
-      "eval_wer": 0.4010812975570685,
       "step": 1200
     },
     {
       "epoch": 3.299492385786802,
-      "grad_norm": 0.6556515693664551,
-      "learning_rate": 0.00010844919786096256,
-      "loss": 0.3593,
       "step": 1300
     },
     {
       "epoch": 3.299492385786802,
-      "eval_loss": 0.21909502148628235,
-      "eval_runtime": 71.1369,
-      "eval_samples_per_second": 23.56,
-      "eval_steps_per_second": 5.89,
-      "eval_wer": 0.3984114270457883,
       "step": 1300
     },
     {
       "epoch": 3.553299492385787,
-      "grad_norm": 0.5768907070159912,
-      "learning_rate": 9.240641711229946e-05,
-      "loss": 0.3595,
       "step": 1400
     },
     {
       "epoch": 3.553299492385787,
-      "eval_loss": 0.2161073535680771,
-      "eval_runtime": 69.8416,
-      "eval_samples_per_second": 23.997,
-      "eval_steps_per_second": 5.999,
-      "eval_wer": 0.4010812975570685,
       "step": 1400
     },
     {
       "epoch": 3.8071065989847717,
-      "grad_norm": 1.000182867050171,
-      "learning_rate": 7.636363636363635e-05,
-      "loss": 0.3594,
       "step": 1500
     },
     {
       "epoch": 3.8071065989847717,
-      "eval_loss": 0.21695125102996826,
-      "eval_runtime": 69.6215,
-      "eval_samples_per_second": 24.073,
-      "eval_steps_per_second": 6.018,
-      "eval_wer": 0.4058203177145908,
       "step": 1500
     },
     {
       "epoch": 4.060913705583756,
-      "grad_norm": 0.5270859003067017,
-      "learning_rate": 6.032085561497326e-05,
-      "loss": 0.3635,
       "step": 1600
     },
     {
       "epoch": 4.060913705583756,
-      "eval_loss": 0.216335266828537,
-      "eval_runtime": 69.5286,
-      "eval_samples_per_second": 24.105,
-      "eval_steps_per_second": 6.026,
-      "eval_wer": 0.407956214123615,
       "step": 1600
     },
     {
       "epoch": 4.314720812182741,
-      "grad_norm": 1.7513196468353271,
-      "learning_rate": 4.427807486631015e-05,
-      "loss": 0.3511,
       "step": 1700
     },
     {
       "epoch": 4.314720812182741,
-      "eval_loss": 0.21683281660079956,
-      "eval_runtime": 70.5268,
-      "eval_samples_per_second": 23.764,
-      "eval_steps_per_second": 5.941,
-      "eval_wer": 0.4115605393138433,
       "step": 1700
     },
     {
       "epoch": 4.568527918781726,
-      "grad_norm": 1.0023202896118164,
-      "learning_rate": 2.8235294117647056e-05,
-      "loss": 0.3455,
       "step": 1800
     },
     {
       "epoch": 4.568527918781726,
-      "eval_loss": 0.21529528498649597,
-      "eval_runtime": 69.8807,
-      "eval_samples_per_second": 23.984,
-      "eval_steps_per_second": 5.996,
-      "eval_wer": 0.40308370044052866,
       "step": 1800
     },
     {
       "epoch": 4.822335025380711,
-      "grad_norm": 2.876286506652832,
-      "learning_rate": 1.2192513368983957e-05,
-      "loss": 0.3603,
       "step": 1900
     },
     {
       "epoch": 4.822335025380711,
-      "eval_loss": 0.2150741070508957,
-      "eval_runtime": 69.8864,
-      "eval_samples_per_second": 23.982,
-      "eval_steps_per_second": 5.995,
-      "eval_wer": 0.4005473234548124,
       "step": 1900
     },
     {
       "epoch": 5.0,
       "step": 1970,
       "total_flos": 1.9392924694598373e+19,
-      "train_loss": 1.2170672131068816,
-      "train_runtime": 4223.7671,
-      "train_samples_per_second": 7.457,
-      "train_steps_per_second": 0.466
     }
   ],
   "logging_steps": 100,

 {
   "best_global_step": 1900,
+  "best_metric": 0.21497154235839844,
+  "best_model_checkpoint": "/scratch/skscla001/experiments/datasets/results/mms-1b-all-bemgen-combined-fusion/checkpoint-1600",
   "epoch": 5.0,
   "eval_steps": 100,
   "global_step": 1970,
   "log_history": [
     {
       "epoch": 0.25380710659898476,
+      "grad_norm": 32.639888763427734,
+      "learning_rate": 0.00028799999999999995,
+      "loss": 7.7249,
       "step": 100
     },
     {
       "epoch": 0.25380710659898476,
+      "eval_loss": 5.611884117126465,
+      "eval_runtime": 69.791,
+      "eval_samples_per_second": 24.015,
+      "eval_steps_per_second": 6.004,
+      "eval_wer": 0.99966626618609,
       "step": 100
     },
     {
       "epoch": 0.5076142131979695,
+      "grad_norm": 11.450201988220215,
       "learning_rate": 0.00028475935828877006,
+      "loss": 4.8515,
       "step": 200
     },
     {
       "epoch": 0.5076142131979695,
+      "eval_loss": 5.008387565612793,
+      "eval_runtime": 70.0202,
+      "eval_samples_per_second": 23.936,
+      "eval_steps_per_second": 5.984,
       "eval_wer": 1.0,
       "step": 200
     },
     {
       "epoch": 0.7614213197969543,
+      "grad_norm": 2.9968459606170654,
       "learning_rate": 0.00026871657754010695,
+      "loss": 4.2325,
       "step": 300
     },
     {
       "epoch": 0.7614213197969543,
+      "eval_loss": 3.5047295093536377,
+      "eval_runtime": 69.8473,
+      "eval_samples_per_second": 23.995,
+      "eval_steps_per_second": 5.999,
+      "eval_wer": 0.999933253237218,
       "step": 300
     },
     {
       "epoch": 1.015228426395939,
+      "grad_norm": 0.4712130129337311,
+      "learning_rate": 0.00025267379679144383,
+      "loss": 1.2178,
       "step": 400
     },
     {
       "epoch": 1.015228426395939,
+      "eval_loss": 0.2545737326145172,
+      "eval_runtime": 70.1278,
+      "eval_samples_per_second": 23.899,
+      "eval_steps_per_second": 5.975,
+      "eval_wer": 0.4574823121078628,
       "step": 400
     },
     {
       "epoch": 1.2690355329949239,
+      "grad_norm": 0.5717469453811646,
+      "learning_rate": 0.00023663101604278074,
+      "loss": 0.4385,
       "step": 500
     },
     {
       "epoch": 1.2690355329949239,
+      "eval_loss": 0.23700203001499176,
+      "eval_runtime": 71.5732,
+      "eval_samples_per_second": 23.417,
+      "eval_steps_per_second": 5.854,
+      "eval_wer": 0.42170604725670807,
       "step": 500
     },
     {
       "epoch": 1.5228426395939088,
+      "grad_norm": 0.5493173003196716,
+      "learning_rate": 0.00022058823529411765,
+      "loss": 0.4282,
       "step": 600
     },
     {
       "epoch": 1.5228426395939088,
+      "eval_loss": 0.23334264755249023,
+      "eval_runtime": 70.7242,
+      "eval_samples_per_second": 23.698,
+      "eval_steps_per_second": 5.924,
+      "eval_wer": 0.42984915231611265,
       "step": 600
     },
     {
       "epoch": 1.7766497461928934,
+      "grad_norm": 0.7042660117149353,
+      "learning_rate": 0.0002045454545454545,
+      "loss": 0.4004,
       "step": 700
     },
     {
       "epoch": 1.7766497461928934,
+      "eval_loss": 0.233428955078125,
+      "eval_runtime": 70.5744,
+      "eval_samples_per_second": 23.748,
+      "eval_steps_per_second": 5.937,
+      "eval_wer": 0.4421305566680016,
       "step": 700
     },
     {
       "epoch": 2.030456852791878,
+      "grad_norm": 0.7014455199241638,
+      "learning_rate": 0.00018850267379679142,
+      "loss": 0.3883,
       "step": 800
     },
     {
       "epoch": 2.030456852791878,
+      "eval_loss": 0.2236906737089157,
+      "eval_runtime": 70.3928,
+      "eval_samples_per_second": 23.809,
+      "eval_steps_per_second": 5.952,
+      "eval_wer": 0.4049526097984248,
       "step": 800
     },
     {
       "epoch": 2.284263959390863,
+      "grad_norm": 0.39537644386291504,
+      "learning_rate": 0.0001724598930481283,
+      "loss": 0.3884,
       "step": 900
     },
     {
       "epoch": 2.284263959390863,
+      "eval_loss": 0.22256948053836823,
+      "eval_runtime": 71.8539,
+      "eval_samples_per_second": 23.325,
+      "eval_steps_per_second": 5.831,
+      "eval_wer": 0.40835669470030705,
       "step": 900
     },
     {
       "epoch": 2.5380710659898478,
+      "grad_norm": 0.5684704780578613,
+      "learning_rate": 0.00015641711229946522,
+      "loss": 0.3827,
       "step": 1000
     },
     {
       "epoch": 2.5380710659898478,
+      "eval_loss": 0.22316201031208038,
+      "eval_runtime": 71.0137,
+      "eval_samples_per_second": 23.601,
+      "eval_steps_per_second": 5.9,
+      "eval_wer": 0.4066212788679749,
       "step": 1000
     },
     {
       "epoch": 2.7918781725888326,
+      "grad_norm": 0.5047805905342102,
+      "learning_rate": 0.00014037433155080213,
+      "loss": 0.3718,
       "step": 1100
     },
     {
       "epoch": 2.7918781725888326,
+      "eval_loss": 0.22224539518356323,
+      "eval_runtime": 70.0209,
+      "eval_samples_per_second": 23.936,
+      "eval_steps_per_second": 5.984,
+      "eval_wer": 0.40421839540782273,
       "step": 1100
     },
     {
       "epoch": 3.045685279187817,
+      "grad_norm": 0.389790803194046,
+      "learning_rate": 0.00012433155080213902,
+      "loss": 0.3619,
       "step": 1200
     },
     {
       "epoch": 3.045685279187817,
+      "eval_loss": 0.21895790100097656,
+      "eval_runtime": 69.1851,
+      "eval_samples_per_second": 24.225,
+      "eval_steps_per_second": 6.056,
+      "eval_wer": 0.39587505006007206,
       "step": 1200
     },
     {
       "epoch": 3.299492385786802,
+      "grad_norm": 0.4273822605609894,
+      "learning_rate": 0.00010828877005347593,
+      "loss": 0.3609,
       "step": 1300
     },
     {
       "epoch": 3.299492385786802,
+      "eval_loss": 0.21885482966899872,
+      "eval_runtime": 72.5472,
+      "eval_samples_per_second": 23.102,
+      "eval_steps_per_second": 5.776,
+      "eval_wer": 0.3921372313442798,
       "step": 1300
     },
     {
       "epoch": 3.553299492385787,
+      "grad_norm": 0.4862494170665741,
+      "learning_rate": 9.224598930481283e-05,
+      "loss": 0.3579,
       "step": 1400
     },
     {
       "epoch": 3.553299492385787,
+      "eval_loss": 0.21627625823020935,
+      "eval_runtime": 71.1133,
+      "eval_samples_per_second": 23.568,
+      "eval_steps_per_second": 5.892,
+      "eval_wer": 0.39774395941796825,
       "step": 1400
     },
     {
       "epoch": 3.8071065989847717,
+      "grad_norm": 0.4581854045391083,
+      "learning_rate": 7.620320855614973e-05,
+      "loss": 0.3602,
       "step": 1500
     },
     {
       "epoch": 3.8071065989847717,
+      "eval_loss": 0.21612538397312164,
+      "eval_runtime": 71.2145,
+      "eval_samples_per_second": 23.535,
+      "eval_steps_per_second": 5.884,
+      "eval_wer": 0.3991456414363903,
       "step": 1500
     },
     {
       "epoch": 4.060913705583756,
+      "grad_norm": 1.5124748945236206,
+      "learning_rate": 6.016042780748663e-05,
+      "loss": 0.3663,
       "step": 1600
     },
     {
       "epoch": 4.060913705583756,
+      "eval_loss": 0.2154930680990219,
+      "eval_runtime": 71.5979,
+      "eval_samples_per_second": 23.409,
+      "eval_steps_per_second": 5.852,
+      "eval_wer": 0.3935389133627019,
       "step": 1600
     },
     {
       "epoch": 4.314720812182741,
+      "grad_norm": 0.6621213555335999,
+      "learning_rate": 4.4117647058823526e-05,
+      "loss": 0.3525,
       "step": 1700
     },
     {
       "epoch": 4.314720812182741,
+      "eval_loss": 0.2160252183675766,
+      "eval_runtime": 73.0283,
+      "eval_samples_per_second": 22.95,
+      "eval_steps_per_second": 5.738,
+      "eval_wer": 0.3961420371112001,
       "step": 1700
     },
     {
       "epoch": 4.568527918781726,
+      "grad_norm": 0.40791934728622437,
+      "learning_rate": 2.8074866310160424e-05,
+      "loss": 0.3435,
       "step": 1800
     },
     {
       "epoch": 4.568527918781726,
+      "eval_loss": 0.21518246829509735,
+      "eval_runtime": 71.6347,
+      "eval_samples_per_second": 23.396,
+      "eval_steps_per_second": 5.849,
+      "eval_wer": 0.3956080630089441,
       "step": 1800
     },
     {
       "epoch": 4.822335025380711,
+      "grad_norm": 0.7308972477912903,
+      "learning_rate": 1.2032085561497326e-05,
+      "loss": 0.3626,
       "step": 1900
     },
     {
       "epoch": 4.822335025380711,
+      "eval_loss": 0.21497154235839844,
+      "eval_runtime": 72.1344,
+      "eval_samples_per_second": 23.234,
+      "eval_steps_per_second": 5.809,
+      "eval_wer": 0.3920037378187158,
       "step": 1900
     },
     {
       "epoch": 5.0,
       "step": 1970,
       "total_flos": 1.9392924694598373e+19,
+      "train_loss": 1.2152001163076023,
+      "train_runtime": 4269.1717,
+      "train_samples_per_second": 7.377,
+      "train_steps_per_second": 0.461
     }
   ],
   "logging_steps": 100,