End of training

Browse files

Files changed (7) hide show

README.md +6 -3
adapter.bem.safetensors +1 -1
all_results.json +9 -9
eval_results.json +5 -5
runs/Aug12_02-58-33_srvrocgpu013.uct.ac.za/events.out.tfevents.1754965037.srvrocgpu013.uct.ac.za.381040.1 +3 -0
train_results.json +4 -4
trainer_state.json +155 -155

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-all-bemgen-combined-fusion
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2151
-- Wer: 0.4005
 ## Model description

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- bemgen
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-all-bemgen-combined-fusion
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the BEMGEN - BEM dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2195
+- Wer: 0.4013
 ## Model description

adapter.bem.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c65d17a6216c261a43a89fb4a5e2c2f7027cf20ea1ba75f86555c44848632f4
 size 8798532

 version https://git-lfs.github.com/spec/v1
+oid sha256:26faad5fc9feb70d3adbdf3b1cf7ed72f27bdcb18da554de3e5f8fc564d08e98
 size 8798532

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 5.0,
-    "eval_loss": 0.21571367979049683,
-    "eval_runtime": 107.5327,
     "eval_samples": 1676,
-    "eval_samples_per_second": 15.586,
-    "eval_steps_per_second": 3.896,
-    "eval_wer": 0.39534107595781603,
     "total_flos": 1.9392924694598373e+19,
-    "train_loss": 1.307294990810646,
-    "train_runtime": 6210.2648,
     "train_samples": 6299,
-    "train_samples_per_second": 5.071,
-    "train_steps_per_second": 0.317
 }

 {
     "epoch": 5.0,
+    "eval_loss": 0.21950095891952515,
+    "eval_runtime": 69.6984,
     "eval_samples": 1676,
+    "eval_samples_per_second": 24.046,
+    "eval_steps_per_second": 6.012,
+    "eval_wer": 0.4012815378454145,
     "total_flos": 1.9392924694598373e+19,
+    "train_loss": 1.2170672131068816,
+    "train_runtime": 4223.7671,
     "train_samples": 6299,
+    "train_samples_per_second": 7.457,
+    "train_steps_per_second": 0.466
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
-    "eval_loss": 0.21571367979049683,
-    "eval_runtime": 107.5327,
     "eval_samples": 1676,
-    "eval_samples_per_second": 15.586,
-    "eval_steps_per_second": 3.896,
-    "eval_wer": 0.39534107595781603
 }

 {
     "epoch": 5.0,
+    "eval_loss": 0.21950095891952515,
+    "eval_runtime": 69.6984,
     "eval_samples": 1676,
+    "eval_samples_per_second": 24.046,
+    "eval_steps_per_second": 6.012,
+    "eval_wer": 0.4012815378454145
 }

runs/Aug12_02-58-33_srvrocgpu013.uct.ac.za/events.out.tfevents.1754965037.srvrocgpu013.uct.ac.za.381040.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a89748381909fe35ad336462b15aa0268aa2eba6b0a6b7ec7174689982db6d3
+size 406

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
     "total_flos": 1.9392924694598373e+19,
-    "train_loss": 1.307294990810646,
-    "train_runtime": 6210.2648,
     "train_samples": 6299,
-    "train_samples_per_second": 5.071,
-    "train_steps_per_second": 0.317
 }

 {
     "epoch": 5.0,
     "total_flos": 1.9392924694598373e+19,
+    "train_loss": 1.2170672131068816,
+    "train_runtime": 4223.7671,
     "train_samples": 6299,
+    "train_samples_per_second": 7.457,
+    "train_steps_per_second": 0.466
 }

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_global_step": 1900,
-  "best_metric": 0.21413084864616394,
-  "best_model_checkpoint": "/scratch/skscla001/experiments/datasets/results/mms-1b-all-bemgen-combined-fusion/checkpoint-1600",
   "epoch": 5.0,
   "eval_steps": 100,
   "global_step": 1970,
@@ -11,316 +11,316 @@
   "log_history": [
     {
       "epoch": 0.25380710659898476,
-      "grad_norm": 32.122833251953125,
       "learning_rate": 0.000285,
-      "loss": 7.7684,
       "step": 100
     },
     {
       "epoch": 0.25380710659898476,
-      "eval_loss": 5.640964031219482,
-      "eval_runtime": 109.1867,
-      "eval_samples_per_second": 15.35,
-      "eval_steps_per_second": 3.837,
-      "eval_wer": 1.4059538112401548,
       "step": 100
     },
     {
       "epoch": 0.5076142131979695,
-      "grad_norm": 12.221145629882812,
       "learning_rate": 0.00028475935828877006,
-      "loss": 4.84,
       "step": 200
     },
     {
       "epoch": 0.5076142131979695,
-      "eval_loss": 5.061452865600586,
-      "eval_runtime": 108.0732,
-      "eval_samples_per_second": 15.508,
-      "eval_steps_per_second": 3.877,
-      "eval_wer": 1.0636096649312508,
       "step": 200
     },
     {
       "epoch": 0.7614213197969543,
-      "grad_norm": 8.020641326904297,
       "learning_rate": 0.00026871657754010695,
-      "loss": 4.3769,
       "step": 300
     },
     {
       "epoch": 0.7614213197969543,
-      "eval_loss": 4.394653797149658,
-      "eval_runtime": 108.1582,
-      "eval_samples_per_second": 15.496,
-      "eval_steps_per_second": 3.874,
-      "eval_wer": 1.1531170738219196,
       "step": 300
     },
     {
       "epoch": 1.015228426395939,
-      "grad_norm": 0.8574035167694092,
-      "learning_rate": 0.00025267379679144383,
-      "loss": 2.759,
       "step": 400
     },
     {
       "epoch": 1.015228426395939,
-      "eval_loss": 0.3453950583934784,
-      "eval_runtime": 107.6705,
-      "eval_samples_per_second": 15.566,
-      "eval_steps_per_second": 3.892,
-      "eval_wer": 0.5700173541583233,
       "step": 400
     },
     {
       "epoch": 1.2690355329949239,
-      "grad_norm": 0.6176797747612,
-      "learning_rate": 0.00023663101604278074,
-      "loss": 0.4928,
       "step": 500
     },
     {
       "epoch": 1.2690355329949239,
-      "eval_loss": 0.25626739859580994,
-      "eval_runtime": 108.7806,
-      "eval_samples_per_second": 15.407,
-      "eval_steps_per_second": 3.852,
-      "eval_wer": 0.45568014951274866,
       "step": 500
     },
     {
       "epoch": 1.5228426395939088,
-      "grad_norm": 1.2089505195617676,
-      "learning_rate": 0.00022058823529411765,
-      "loss": 0.4437,
       "step": 600
     },
     {
       "epoch": 1.5228426395939088,
-      "eval_loss": 0.23927858471870422,
-      "eval_runtime": 107.2813,
-      "eval_samples_per_second": 15.622,
-      "eval_steps_per_second": 3.906,
-      "eval_wer": 0.4425977840074756,
       "step": 600
     },
     {
       "epoch": 1.7766497461928934,
-      "grad_norm": 0.5251367092132568,
-      "learning_rate": 0.0002045454545454545,
-      "loss": 0.4061,
       "step": 700
     },
     {
       "epoch": 1.7766497461928934,
-      "eval_loss": 0.23556636273860931,
-      "eval_runtime": 107.5712,
-      "eval_samples_per_second": 15.58,
-      "eval_steps_per_second": 3.895,
-      "eval_wer": 0.44179682285409155,
       "step": 700
     },
     {
       "epoch": 2.030456852791878,
-      "grad_norm": 0.9855093359947205,
-      "learning_rate": 0.00018850267379679142,
-      "loss": 0.3903,
       "step": 800
     },
     {
       "epoch": 2.030456852791878,
-      "eval_loss": 0.227129265666008,
-      "eval_runtime": 107.653,
-      "eval_samples_per_second": 15.569,
-      "eval_steps_per_second": 3.892,
-      "eval_wer": 0.42417567747964224,
       "step": 800
     },
     {
       "epoch": 2.284263959390863,
-      "grad_norm": 0.7405723333358765,
-      "learning_rate": 0.0001724598930481283,
-      "loss": 0.3924,
       "step": 900
     },
     {
       "epoch": 2.284263959390863,
-      "eval_loss": 0.22408504784107208,
-      "eval_runtime": 110.2112,
-      "eval_samples_per_second": 15.207,
-      "eval_steps_per_second": 3.802,
-      "eval_wer": 0.4186356961687358,
       "step": 900
     },
     {
       "epoch": 2.5380710659898478,
-      "grad_norm": 1.1984844207763672,
-      "learning_rate": 0.00015641711229946522,
-      "loss": 0.3835,
       "step": 1000
     },
     {
       "epoch": 2.5380710659898478,
-      "eval_loss": 0.2239576131105423,
-      "eval_runtime": 108.7325,
-      "eval_samples_per_second": 15.414,
-      "eval_steps_per_second": 3.853,
-      "eval_wer": 0.4171672673875317,
       "step": 1000
     },
     {
       "epoch": 2.7918781725888326,
-      "grad_norm": 0.6451926231384277,
-      "learning_rate": 0.00014037433155080213,
-      "loss": 0.372,
       "step": 1100
     },
     {
       "epoch": 2.7918781725888326,
-      "eval_loss": 0.22267985343933105,
-      "eval_runtime": 107.5115,
-      "eval_samples_per_second": 15.589,
-      "eval_steps_per_second": 3.897,
-      "eval_wer": 0.407956214123615,
       "step": 1100
     },
     {
       "epoch": 3.045685279187817,
-      "grad_norm": 0.40041837096214294,
-      "learning_rate": 0.00012433155080213902,
-      "loss": 0.3645,
       "step": 1200
     },
     {
       "epoch": 3.045685279187817,
-      "eval_loss": 0.2206098586320877,
-      "eval_runtime": 107.6785,
-      "eval_samples_per_second": 15.565,
-      "eval_steps_per_second": 3.891,
-      "eval_wer": 0.4009478040315045,
       "step": 1200
     },
     {
       "epoch": 3.299492385786802,
-      "grad_norm": 3.658419609069824,
-      "learning_rate": 0.00010828877005347593,
-      "loss": 0.3657,
       "step": 1300
     },
     {
       "epoch": 3.299492385786802,
-      "eval_loss": 0.22048015892505646,
-      "eval_runtime": 108.5101,
-      "eval_samples_per_second": 15.446,
-      "eval_steps_per_second": 3.861,
-      "eval_wer": 0.3978774529435322,
       "step": 1300
     },
     {
       "epoch": 3.553299492385787,
-      "grad_norm": 1.8381335735321045,
-      "learning_rate": 9.224598930481283e-05,
-      "loss": 0.3603,
       "step": 1400
     },
     {
       "epoch": 3.553299492385787,
-      "eval_loss": 0.2172713428735733,
-      "eval_runtime": 107.0495,
-      "eval_samples_per_second": 15.656,
-      "eval_steps_per_second": 3.914,
-      "eval_wer": 0.39947937525030036,
       "step": 1400
     },
     {
       "epoch": 3.8071065989847717,
-      "grad_norm": 1.1935131549835205,
-      "learning_rate": 7.620320855614973e-05,
-      "loss": 0.3595,
       "step": 1500
     },
     {
       "epoch": 3.8071065989847717,
-      "eval_loss": 0.21687445044517517,
-      "eval_runtime": 106.8635,
-      "eval_samples_per_second": 15.684,
-      "eval_steps_per_second": 3.921,
-      "eval_wer": 0.3987451608596983,
       "step": 1500
     },
     {
       "epoch": 4.060913705583756,
-      "grad_norm": 0.9769509434700012,
-      "learning_rate": 6.016042780748663e-05,
-      "loss": 0.3641,
       "step": 1600
     },
     {
       "epoch": 4.060913705583756,
-      "eval_loss": 0.2157205492258072,
-      "eval_runtime": 106.6704,
-      "eval_samples_per_second": 15.712,
-      "eval_steps_per_second": 3.928,
-      "eval_wer": 0.39547456948338006,
       "step": 1600
     },
     {
       "epoch": 4.314720812182741,
-      "grad_norm": 0.6243143081665039,
-      "learning_rate": 4.4117647058823526e-05,
-      "loss": 0.3501,
       "step": 1700
     },
     {
       "epoch": 4.314720812182741,
-      "eval_loss": 0.2155493199825287,
-      "eval_runtime": 108.4911,
-      "eval_samples_per_second": 15.448,
-      "eval_steps_per_second": 3.862,
-      "eval_wer": 0.39894540114804433,
       "step": 1700
     },
     {
       "epoch": 4.568527918781726,
-      "grad_norm": 0.5864003896713257,
-      "learning_rate": 2.8074866310160424e-05,
-      "loss": 0.3527,
       "step": 1800
     },
     {
       "epoch": 4.568527918781726,
-      "eval_loss": 0.21467459201812744,
-      "eval_runtime": 107.3959,
-      "eval_samples_per_second": 15.606,
-      "eval_steps_per_second": 3.901,
-      "eval_wer": 0.39714323855293016,
       "step": 1800
     },
     {
       "epoch": 4.822335025380711,
-      "grad_norm": 0.8512787818908691,
-      "learning_rate": 1.2032085561497326e-05,
-      "loss": 0.3607,
       "step": 1900
     },
     {
       "epoch": 4.822335025380711,
-      "eval_loss": 0.21413084864616394,
-      "eval_runtime": 107.1817,
-      "eval_samples_per_second": 15.637,
-      "eval_steps_per_second": 3.909,
-      "eval_wer": 0.39373915365104795,
       "step": 1900
     },
     {
       "epoch": 5.0,
       "step": 1970,
       "total_flos": 1.9392924694598373e+19,
-      "train_loss": 1.307294990810646,
-      "train_runtime": 6210.2648,
-      "train_samples_per_second": 5.071,
-      "train_steps_per_second": 0.317
     }
   ],
   "logging_steps": 100,

 {
   "best_global_step": 1900,
+  "best_metric": 0.2150741070508957,
+  "best_model_checkpoint": "/scratch/skscla001/experiments/datasets/results/mms-1b-all-bemgen-combined-fusion/checkpoint-1200",
   "epoch": 5.0,
   "eval_steps": 100,
   "global_step": 1970,
   "log_history": [
     {
       "epoch": 0.25380710659898476,
+      "grad_norm": 32.2292594909668,
       "learning_rate": 0.000285,
+      "loss": 7.7625,
       "step": 100
     },
     {
       "epoch": 0.25380710659898476,
+      "eval_loss": 5.588669300079346,
+      "eval_runtime": 69.3281,
+      "eval_samples_per_second": 24.175,
+      "eval_steps_per_second": 6.044,
+      "eval_wer": 0.999933253237218,
       "step": 100
     },
     {
       "epoch": 0.5076142131979695,
+      "grad_norm": 10.083724975585938,
       "learning_rate": 0.00028475935828877006,
+      "loss": 4.8937,
       "step": 200
     },
     {
       "epoch": 0.5076142131979695,
+      "eval_loss": 4.956684589385986,
+      "eval_runtime": 68.9661,
+      "eval_samples_per_second": 24.302,
+      "eval_steps_per_second": 6.075,
+      "eval_wer": 1.0,
       "step": 200
     },
     {
       "epoch": 0.7614213197969543,
+      "grad_norm": 5.518433094024658,
       "learning_rate": 0.00026871657754010695,
+      "loss": 4.2312,
       "step": 300
     },
     {
       "epoch": 0.7614213197969543,
+      "eval_loss": 3.7783877849578857,
+      "eval_runtime": 68.6885,
+      "eval_samples_per_second": 24.4,
+      "eval_steps_per_second": 6.1,
+      "eval_wer": 0.99966626618609,
       "step": 300
     },
     {
       "epoch": 1.015228426395939,
+      "grad_norm": 0.7774800062179565,
+      "learning_rate": 0.00025283422459893045,
+      "loss": 1.194,
       "step": 400
     },
     {
       "epoch": 1.015228426395939,
+      "eval_loss": 0.25593841075897217,
+      "eval_runtime": 68.6022,
+      "eval_samples_per_second": 24.431,
+      "eval_steps_per_second": 6.108,
+      "eval_wer": 0.46515818982779333,
       "step": 400
     },
     {
       "epoch": 1.2690355329949239,
+      "grad_norm": 0.8243533372879028,
+      "learning_rate": 0.00023679144385026736,
+      "loss": 0.4372,
       "step": 500
     },
     {
       "epoch": 1.2690355329949239,
+      "eval_loss": 0.2409835159778595,
+      "eval_runtime": 70.2102,
+      "eval_samples_per_second": 23.871,
+      "eval_steps_per_second": 5.968,
+      "eval_wer": 0.4499399279134962,
       "step": 500
     },
     {
       "epoch": 1.5228426395939088,
+      "grad_norm": 0.6686663031578064,
+      "learning_rate": 0.00022074866310160427,
+      "loss": 0.4276,
       "step": 600
     },
     {
       "epoch": 1.5228426395939088,
+      "eval_loss": 0.2348148673772812,
+      "eval_runtime": 69.4735,
+      "eval_samples_per_second": 24.124,
+      "eval_steps_per_second": 6.031,
+      "eval_wer": 0.4280469897209985,
       "step": 600
     },
     {
       "epoch": 1.7766497461928934,
+      "grad_norm": 1.5514487028121948,
+      "learning_rate": 0.00020470588235294116,
+      "loss": 0.4003,
       "step": 700
     },
     {
       "epoch": 1.7766497461928934,
+      "eval_loss": 0.2333621233701706,
+      "eval_runtime": 69.3321,
+      "eval_samples_per_second": 24.174,
+      "eval_steps_per_second": 6.043,
+      "eval_wer": 0.44132959551461753,
       "step": 700
     },
     {
       "epoch": 2.030456852791878,
+      "grad_norm": 4.034536838531494,
+      "learning_rate": 0.00018866310160427807,
+      "loss": 0.3853,
       "step": 800
     },
     {
       "epoch": 2.030456852791878,
+      "eval_loss": 0.22295093536376953,
+      "eval_runtime": 69.6283,
+      "eval_samples_per_second": 24.071,
+      "eval_steps_per_second": 6.018,
+      "eval_wer": 0.4092911493792551,
       "step": 800
     },
     {
       "epoch": 2.284263959390863,
+      "grad_norm": 0.36776381731033325,
+      "learning_rate": 0.00017262032085561496,
+      "loss": 0.3852,
       "step": 900
     },
     {
       "epoch": 2.284263959390863,
+      "eval_loss": 0.22227536141872406,
+      "eval_runtime": 70.6197,
+      "eval_samples_per_second": 23.733,
+      "eval_steps_per_second": 5.933,
+      "eval_wer": 0.40875717527699906,
       "step": 900
     },
     {
       "epoch": 2.5380710659898478,
+      "grad_norm": 0.44797080755233765,
+      "learning_rate": 0.00015657754010695187,
+      "loss": 0.3811,
       "step": 1000
     },
     {
       "epoch": 2.5380710659898478,
+      "eval_loss": 0.2219884991645813,
+      "eval_runtime": 70.6408,
+      "eval_samples_per_second": 23.726,
+      "eval_steps_per_second": 5.931,
+      "eval_wer": 0.408022960886397,
       "step": 1000
     },
     {
       "epoch": 2.7918781725888326,
+      "grad_norm": 0.8320724964141846,
+      "learning_rate": 0.00014053475935828875,
+      "loss": 0.3705,
       "step": 1100
     },
     {
       "epoch": 2.7918781725888326,
+      "eval_loss": 0.22171413898468018,
+      "eval_runtime": 69.9602,
+      "eval_samples_per_second": 23.956,
+      "eval_steps_per_second": 5.989,
+      "eval_wer": 0.40975837671872917,
       "step": 1100
     },
     {
       "epoch": 3.045685279187817,
+      "grad_norm": 0.6590794324874878,
+      "learning_rate": 0.00012449197860962566,
+      "loss": 0.3604,
       "step": 1200
     },
     {
       "epoch": 3.045685279187817,
+      "eval_loss": 0.21949037909507751,
+      "eval_runtime": 69.9308,
+      "eval_samples_per_second": 23.967,
+      "eval_steps_per_second": 5.992,
+      "eval_wer": 0.4010812975570685,
       "step": 1200
     },
     {
       "epoch": 3.299492385786802,
+      "grad_norm": 0.6556515693664551,
+      "learning_rate": 0.00010844919786096256,
+      "loss": 0.3593,
       "step": 1300
     },
     {
       "epoch": 3.299492385786802,
+      "eval_loss": 0.21909502148628235,
+      "eval_runtime": 71.1369,
+      "eval_samples_per_second": 23.56,
+      "eval_steps_per_second": 5.89,
+      "eval_wer": 0.3984114270457883,
       "step": 1300
     },
     {
       "epoch": 3.553299492385787,
+      "grad_norm": 0.5768907070159912,
+      "learning_rate": 9.240641711229946e-05,
+      "loss": 0.3595,
       "step": 1400
     },
     {
       "epoch": 3.553299492385787,
+      "eval_loss": 0.2161073535680771,
+      "eval_runtime": 69.8416,
+      "eval_samples_per_second": 23.997,
+      "eval_steps_per_second": 5.999,
+      "eval_wer": 0.4010812975570685,
       "step": 1400
     },
     {
       "epoch": 3.8071065989847717,
+      "grad_norm": 1.000182867050171,
+      "learning_rate": 7.636363636363635e-05,
+      "loss": 0.3594,
       "step": 1500
     },
     {
       "epoch": 3.8071065989847717,
+      "eval_loss": 0.21695125102996826,
+      "eval_runtime": 69.6215,
+      "eval_samples_per_second": 24.073,
+      "eval_steps_per_second": 6.018,
+      "eval_wer": 0.4058203177145908,
       "step": 1500
     },
     {
       "epoch": 4.060913705583756,
+      "grad_norm": 0.5270859003067017,
+      "learning_rate": 6.032085561497326e-05,
+      "loss": 0.3635,
       "step": 1600
     },
     {
       "epoch": 4.060913705583756,
+      "eval_loss": 0.216335266828537,
+      "eval_runtime": 69.5286,
+      "eval_samples_per_second": 24.105,
+      "eval_steps_per_second": 6.026,
+      "eval_wer": 0.407956214123615,
       "step": 1600
     },
     {
       "epoch": 4.314720812182741,
+      "grad_norm": 1.7513196468353271,
+      "learning_rate": 4.427807486631015e-05,
+      "loss": 0.3511,
       "step": 1700
     },
     {
       "epoch": 4.314720812182741,
+      "eval_loss": 0.21683281660079956,
+      "eval_runtime": 70.5268,
+      "eval_samples_per_second": 23.764,
+      "eval_steps_per_second": 5.941,
+      "eval_wer": 0.4115605393138433,
       "step": 1700
     },
     {
       "epoch": 4.568527918781726,
+      "grad_norm": 1.0023202896118164,
+      "learning_rate": 2.8235294117647056e-05,
+      "loss": 0.3455,
       "step": 1800
     },
     {
       "epoch": 4.568527918781726,
+      "eval_loss": 0.21529528498649597,
+      "eval_runtime": 69.8807,
+      "eval_samples_per_second": 23.984,
+      "eval_steps_per_second": 5.996,
+      "eval_wer": 0.40308370044052866,
       "step": 1800
     },
     {
       "epoch": 4.822335025380711,
+      "grad_norm": 2.876286506652832,
+      "learning_rate": 1.2192513368983957e-05,
+      "loss": 0.3603,
       "step": 1900
     },
     {
       "epoch": 4.822335025380711,
+      "eval_loss": 0.2150741070508957,
+      "eval_runtime": 69.8864,
+      "eval_samples_per_second": 23.982,
+      "eval_steps_per_second": 5.995,
+      "eval_wer": 0.4005473234548124,
       "step": 1900
     },
     {
       "epoch": 5.0,
       "step": 1970,
       "total_flos": 1.9392924694598373e+19,
+      "train_loss": 1.2170672131068816,
+      "train_runtime": 4223.7671,
+      "train_samples_per_second": 7.457,
+      "train_steps_per_second": 0.466
     }
   ],
   "logging_steps": 100,