End of training

Browse files

Files changed (6) hide show

README.md +16 -4
all_results.json +15 -0
eval_results.json +9 -0
runs/Jan05_08-45-15_srvrocgpu011.uct.ac.za/events.out.tfevents.1736074925.srvrocgpu011.uct.ac.za +3 -0
train_results.json +9 -0
trainer_state.json +1026 -0

README.md CHANGED Viewed

@@ -4,11 +4,23 @@ license: apache-2.0
 base_model: openai/whisper-medium
 tags:
 - generated_from_trainer
 metrics:
 - wer
 model-index:
 - name: whisper-medium-swagen-combined-15hrs-model
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -16,10 +28,10 @@ should probably proofread and complete it, then remove this comment. -->
 # whisper-medium-swagen-combined-15hrs-model
-This model is a fine-tuned version of [openai/whisper-medium](https://huggingface.co/openai/whisper-medium) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4299
-- Wer: 0.2526
 ## Model description

 base_model: openai/whisper-medium
 tags:
 - generated_from_trainer
+datasets:
+- swagen
 metrics:
 - wer
 model-index:
 - name: whisper-medium-swagen-combined-15hrs-model
+  results:
+  - task:
+      name: Automatic Speech Recognition
+      type: automatic-speech-recognition
+    dataset:
+      name: swagen
+      type: swagen
+    metrics:
+    - name: Wer
+      type: wer
+      value: 0.27171266233766234
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # whisper-medium-swagen-combined-15hrs-model
+This model is a fine-tuned version of [openai/whisper-medium](https://huggingface.co/openai/whisper-medium) on the swagen dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4103
+- Wer: 0.2717
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 2.4796361381021295,
+    "eval_loss": 0.41031718254089355,
+    "eval_runtime": 563.4746,
+    "eval_samples": 1087,
+    "eval_samples_per_second": 1.929,
+    "eval_steps_per_second": 0.965,
+    "eval_wer": 0.27171266233766234,
+    "total_flos": 2.448227052158976e+19,
+    "train_loss": 1.2735130944252013,
+    "train_runtime": 14573.655,
+    "train_samples": 9674,
+    "train_samples_per_second": 19.914,
+    "train_steps_per_second": 2.489
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.4796361381021295,
+    "eval_loss": 0.41031718254089355,
+    "eval_runtime": 563.4746,
+    "eval_samples": 1087,
+    "eval_samples_per_second": 1.929,
+    "eval_steps_per_second": 0.965,
+    "eval_wer": 0.27171266233766234
+}

runs/Jan05_08-45-15_srvrocgpu011.uct.ac.za/events.out.tfevents.1736074925.srvrocgpu011.uct.ac.za ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2534fe8dfa19182f409e17efc7ad7d391429c159a90ac107e29a5a4c0df88bb4
+size 40

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.4796361381021295,
+    "total_flos": 2.448227052158976e+19,
+    "train_loss": 1.2735130944252013,
+    "train_runtime": 14573.655,
+    "train_samples": 9674,
+    "train_samples_per_second": 19.914,
+    "train_steps_per_second": 2.489
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1026 @@

+{
+  "best_metric": 0.41031718254089355,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/whisper-medium-swagen-combined-15hrs-model/checkpoint-2400",
+  "epoch": 2.4796361381021295,
+  "eval_steps": 200,
+  "global_step": 3000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02067397146991937,
+      "grad_norm": 101.30694580078125,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 10.3278,
+      "step": 25
+    },
+    {
+      "epoch": 0.04134794293983874,
+      "grad_norm": 101.91423034667969,
+      "learning_rate": 9.000000000000001e-07,
+      "loss": 8.3674,
+      "step": 50
+    },
+    {
+      "epoch": 0.062021914409758114,
+      "grad_norm": 75.16177368164062,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 5.6124,
+      "step": 75
+    },
+    {
+      "epoch": 0.08269588587967748,
+      "grad_norm": 90.76732635498047,
+      "learning_rate": 1.9000000000000002e-06,
+      "loss": 4.0776,
+      "step": 100
+    },
+    {
+      "epoch": 0.10336985734959686,
+      "grad_norm": 97.34427642822266,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 3.6242,
+      "step": 125
+    },
+    {
+      "epoch": 0.12404382881951623,
+      "grad_norm": 64.82703399658203,
+      "learning_rate": 2.9e-06,
+      "loss": 2.9814,
+      "step": 150
+    },
+    {
+      "epoch": 0.1447178002894356,
+      "grad_norm": 71.11066436767578,
+      "learning_rate": 3.4000000000000005e-06,
+      "loss": 2.9502,
+      "step": 175
+    },
+    {
+      "epoch": 0.16539177175935496,
+      "grad_norm": 61.207664489746094,
+      "learning_rate": 3.900000000000001e-06,
+      "loss": 2.6268,
+      "step": 200
+    },
+    {
+      "epoch": 0.16539177175935496,
+      "eval_loss": 0.8031158447265625,
+      "eval_runtime": 560.9375,
+      "eval_samples_per_second": 1.938,
+      "eval_steps_per_second": 0.97,
+      "eval_wer": 0.46053165584415584,
+      "step": 200
+    },
+    {
+      "epoch": 0.18606574322927436,
+      "grad_norm": 65.30712890625,
+      "learning_rate": 4.4e-06,
+      "loss": 2.6405,
+      "step": 225
+    },
+    {
+      "epoch": 0.20673971469919372,
+      "grad_norm": 66.03694915771484,
+      "learning_rate": 4.9000000000000005e-06,
+      "loss": 2.2504,
+      "step": 250
+    },
+    {
+      "epoch": 0.2274136861691131,
+      "grad_norm": 53.01826095581055,
+      "learning_rate": 5.400000000000001e-06,
+      "loss": 2.3635,
+      "step": 275
+    },
+    {
+      "epoch": 0.24808765763903246,
+      "grad_norm": 63.38921356201172,
+      "learning_rate": 5.9e-06,
+      "loss": 2.4033,
+      "step": 300
+    },
+    {
+      "epoch": 0.26876162910895185,
+      "grad_norm": 57.252105712890625,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 2.2953,
+      "step": 325
+    },
+    {
+      "epoch": 0.2894356005788712,
+      "grad_norm": 72.04216766357422,
+      "learning_rate": 6.9e-06,
+      "loss": 2.1778,
+      "step": 350
+    },
+    {
+      "epoch": 0.3101095720487906,
+      "grad_norm": 67.5660629272461,
+      "learning_rate": 7.4e-06,
+      "loss": 2.1933,
+      "step": 375
+    },
+    {
+      "epoch": 0.3307835435187099,
+      "grad_norm": 58.30109405517578,
+      "learning_rate": 7.9e-06,
+      "loss": 2.0712,
+      "step": 400
+    },
+    {
+      "epoch": 0.3307835435187099,
+      "eval_loss": 0.614786684513092,
+      "eval_runtime": 564.8568,
+      "eval_samples_per_second": 1.924,
+      "eval_steps_per_second": 0.963,
+      "eval_wer": 0.382913961038961,
+      "step": 400
+    },
+    {
+      "epoch": 0.3514575149886293,
+      "grad_norm": 54.52381134033203,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 1.9964,
+      "step": 425
+    },
+    {
+      "epoch": 0.3721314864585487,
+      "grad_norm": 45.91225814819336,
+      "learning_rate": 8.900000000000001e-06,
+      "loss": 2.0653,
+      "step": 450
+    },
+    {
+      "epoch": 0.39280545792846805,
+      "grad_norm": 46.43616485595703,
+      "learning_rate": 9.4e-06,
+      "loss": 1.8897,
+      "step": 475
+    },
+    {
+      "epoch": 0.41347942939838744,
+      "grad_norm": 49.05242919921875,
+      "learning_rate": 9.9e-06,
+      "loss": 1.7375,
+      "step": 500
+    },
+    {
+      "epoch": 0.4341534008683068,
+      "grad_norm": 35.908485412597656,
+      "learning_rate": 9.994408722393068e-06,
+      "loss": 1.6212,
+      "step": 525
+    },
+    {
+      "epoch": 0.4548273723382262,
+      "grad_norm": 60.85798263549805,
+      "learning_rate": 9.987419625384402e-06,
+      "loss": 1.8667,
+      "step": 550
+    },
+    {
+      "epoch": 0.47550134380814557,
+      "grad_norm": 43.83357238769531,
+      "learning_rate": 9.980430528375734e-06,
+      "loss": 1.7175,
+      "step": 575
+    },
+    {
+      "epoch": 0.4961753152780649,
+      "grad_norm": 46.343505859375,
+      "learning_rate": 9.973441431367069e-06,
+      "loss": 1.7302,
+      "step": 600
+    },
+    {
+      "epoch": 0.4961753152780649,
+      "eval_loss": 0.5561510920524597,
+      "eval_runtime": 570.0484,
+      "eval_samples_per_second": 1.907,
+      "eval_steps_per_second": 0.954,
+      "eval_wer": 0.349025974025974,
+      "step": 600
+    },
+    {
+      "epoch": 0.5168492867479842,
+      "grad_norm": 70.89414978027344,
+      "learning_rate": 9.966452334358401e-06,
+      "loss": 1.6704,
+      "step": 625
+    },
+    {
+      "epoch": 0.5375232582179037,
+      "grad_norm": 41.292442321777344,
+      "learning_rate": 9.959463237349735e-06,
+      "loss": 1.6499,
+      "step": 650
+    },
+    {
+      "epoch": 0.558197229687823,
+      "grad_norm": 58.775917053222656,
+      "learning_rate": 9.952474140341068e-06,
+      "loss": 1.8108,
+      "step": 675
+    },
+    {
+      "epoch": 0.5788712011577424,
+      "grad_norm": 38.21028518676758,
+      "learning_rate": 9.945485043332402e-06,
+      "loss": 1.6487,
+      "step": 700
+    },
+    {
+      "epoch": 0.5995451726276618,
+      "grad_norm": 52.19435119628906,
+      "learning_rate": 9.938495946323736e-06,
+      "loss": 1.6182,
+      "step": 725
+    },
+    {
+      "epoch": 0.6202191440975812,
+      "grad_norm": 53.34971618652344,
+      "learning_rate": 9.931506849315069e-06,
+      "loss": 1.5108,
+      "step": 750
+    },
+    {
+      "epoch": 0.6408931155675005,
+      "grad_norm": 41.846012115478516,
+      "learning_rate": 9.924517752306403e-06,
+      "loss": 1.5143,
+      "step": 775
+    },
+    {
+      "epoch": 0.6615670870374198,
+      "grad_norm": 44.0091438293457,
+      "learning_rate": 9.917528655297737e-06,
+      "loss": 1.5735,
+      "step": 800
+    },
+    {
+      "epoch": 0.6615670870374198,
+      "eval_loss": 0.5102764964103699,
+      "eval_runtime": 561.2293,
+      "eval_samples_per_second": 1.937,
+      "eval_steps_per_second": 0.969,
+      "eval_wer": 0.3105722402597403,
+      "step": 800
+    },
+    {
+      "epoch": 0.6822410585073393,
+      "grad_norm": 48.56166458129883,
+      "learning_rate": 9.91053955828907e-06,
+      "loss": 1.5532,
+      "step": 825
+    },
+    {
+      "epoch": 0.7029150299772586,
+      "grad_norm": 40.50489044189453,
+      "learning_rate": 9.903550461280404e-06,
+      "loss": 1.5039,
+      "step": 850
+    },
+    {
+      "epoch": 0.723589001447178,
+      "grad_norm": 62.77304458618164,
+      "learning_rate": 9.896561364271738e-06,
+      "loss": 1.4893,
+      "step": 875
+    },
+    {
+      "epoch": 0.7442629729170974,
+      "grad_norm": 52.9476432800293,
+      "learning_rate": 9.88957226726307e-06,
+      "loss": 1.4988,
+      "step": 900
+    },
+    {
+      "epoch": 0.7649369443870168,
+      "grad_norm": 40.155426025390625,
+      "learning_rate": 9.882583170254404e-06,
+      "loss": 1.4247,
+      "step": 925
+    },
+    {
+      "epoch": 0.7856109158569361,
+      "grad_norm": 40.80839538574219,
+      "learning_rate": 9.875594073245739e-06,
+      "loss": 1.4519,
+      "step": 950
+    },
+    {
+      "epoch": 0.8062848873268554,
+      "grad_norm": 42.46361541748047,
+      "learning_rate": 9.868604976237071e-06,
+      "loss": 1.4005,
+      "step": 975
+    },
+    {
+      "epoch": 0.8269588587967749,
+      "grad_norm": 30.87221336364746,
+      "learning_rate": 9.861615879228405e-06,
+      "loss": 1.5623,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8269588587967749,
+      "eval_loss": 0.4683079719543457,
+      "eval_runtime": 551.982,
+      "eval_samples_per_second": 1.969,
+      "eval_steps_per_second": 0.986,
+      "eval_wer": 0.2775974025974026,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8476328302666942,
+      "grad_norm": 30.2112979888916,
+      "learning_rate": 9.854626782219738e-06,
+      "loss": 1.5792,
+      "step": 1025
+    },
+    {
+      "epoch": 0.8683068017366136,
+      "grad_norm": 35.51711654663086,
+      "learning_rate": 9.847637685211072e-06,
+      "loss": 1.3541,
+      "step": 1050
+    },
+    {
+      "epoch": 0.888980773206533,
+      "grad_norm": 35.0782356262207,
+      "learning_rate": 9.840648588202404e-06,
+      "loss": 1.4297,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9096547446764524,
+      "grad_norm": 36.1882438659668,
+      "learning_rate": 9.833659491193739e-06,
+      "loss": 1.5218,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9303287161463717,
+      "grad_norm": 48.197357177734375,
+      "learning_rate": 9.826670394185071e-06,
+      "loss": 1.3869,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9510026876162911,
+      "grad_norm": 30.1329288482666,
+      "learning_rate": 9.819681297176405e-06,
+      "loss": 1.4091,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9716766590862105,
+      "grad_norm": 36.65972900390625,
+      "learning_rate": 9.81269220016774e-06,
+      "loss": 1.208,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9923506305561298,
+      "grad_norm": 41.54533386230469,
+      "learning_rate": 9.805703103159072e-06,
+      "loss": 1.2713,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9923506305561298,
+      "eval_loss": 0.44389376044273376,
+      "eval_runtime": 555.064,
+      "eval_samples_per_second": 1.958,
+      "eval_steps_per_second": 0.98,
+      "eval_wer": 0.2687702922077922,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0124043828819516,
+      "grad_norm": 25.689674377441406,
+      "learning_rate": 9.798714006150406e-06,
+      "loss": 0.8989,
+      "step": 1225
+    },
+    {
+      "epoch": 1.033078354351871,
+      "grad_norm": 21.258874893188477,
+      "learning_rate": 9.79172490914174e-06,
+      "loss": 0.717,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0537523258217905,
+      "grad_norm": 26.262178421020508,
+      "learning_rate": 9.784735812133073e-06,
+      "loss": 0.6577,
+      "step": 1275
+    },
+    {
+      "epoch": 1.0744262972917098,
+      "grad_norm": 38.216026306152344,
+      "learning_rate": 9.777746715124407e-06,
+      "loss": 0.7783,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0951002687616291,
+      "grad_norm": 22.054594039916992,
+      "learning_rate": 9.770757618115741e-06,
+      "loss": 0.8445,
+      "step": 1325
+    },
+    {
+      "epoch": 1.1157742402315485,
+      "grad_norm": 28.307518005371094,
+      "learning_rate": 9.763768521107074e-06,
+      "loss": 0.7671,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1364482117014678,
+      "grad_norm": 32.70164489746094,
+      "learning_rate": 9.756779424098408e-06,
+      "loss": 0.7347,
+      "step": 1375
+    },
+    {
+      "epoch": 1.1571221831713872,
+      "grad_norm": 27.47947883605957,
+      "learning_rate": 9.74979032708974e-06,
+      "loss": 0.7209,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1571221831713872,
+      "eval_loss": 0.4601219892501831,
+      "eval_runtime": 556.2377,
+      "eval_samples_per_second": 1.954,
+      "eval_steps_per_second": 0.978,
+      "eval_wer": 0.27323457792207795,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1777961546413067,
+      "grad_norm": 35.48779296875,
+      "learning_rate": 9.742801230081074e-06,
+      "loss": 0.8649,
+      "step": 1425
+    },
+    {
+      "epoch": 1.198470126111226,
+      "grad_norm": 39.03016662597656,
+      "learning_rate": 9.735812133072407e-06,
+      "loss": 0.7049,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2191440975811454,
+      "grad_norm": 32.857749938964844,
+      "learning_rate": 9.728823036063741e-06,
+      "loss": 0.8108,
+      "step": 1475
+    },
+    {
+      "epoch": 1.2398180690510647,
+      "grad_norm": 33.16276550292969,
+      "learning_rate": 9.721833939055075e-06,
+      "loss": 0.7099,
+      "step": 1500
+    },
+    {
+      "epoch": 1.260492040520984,
+      "grad_norm": 33.7196159362793,
+      "learning_rate": 9.714844842046408e-06,
+      "loss": 0.7708,
+      "step": 1525
+    },
+    {
+      "epoch": 1.2811660119909034,
+      "grad_norm": 25.693979263305664,
+      "learning_rate": 9.707855745037742e-06,
+      "loss": 0.8099,
+      "step": 1550
+    },
+    {
+      "epoch": 1.3018399834608227,
+      "grad_norm": 19.993423461914062,
+      "learning_rate": 9.700866648029076e-06,
+      "loss": 0.7314,
+      "step": 1575
+    },
+    {
+      "epoch": 1.3225139549307423,
+      "grad_norm": 38.857879638671875,
+      "learning_rate": 9.693877551020408e-06,
+      "loss": 0.6856,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3225139549307423,
+      "eval_loss": 0.43911561369895935,
+      "eval_runtime": 558.8109,
+      "eval_samples_per_second": 1.945,
+      "eval_steps_per_second": 0.973,
+      "eval_wer": 0.25953733766233766,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3431879264006616,
+      "grad_norm": 34.80131530761719,
+      "learning_rate": 9.686888454011743e-06,
+      "loss": 0.7398,
+      "step": 1625
+    },
+    {
+      "epoch": 1.363861897870581,
+      "grad_norm": 30.94778823852539,
+      "learning_rate": 9.679899357003077e-06,
+      "loss": 0.741,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3845358693405003,
+      "grad_norm": 39.64469909667969,
+      "learning_rate": 9.67291025999441e-06,
+      "loss": 0.7306,
+      "step": 1675
+    },
+    {
+      "epoch": 1.4052098408104197,
+      "grad_norm": 35.8865966796875,
+      "learning_rate": 9.665921162985743e-06,
+      "loss": 0.6787,
+      "step": 1700
+    },
+    {
+      "epoch": 1.425883812280339,
+      "grad_norm": 29.526947021484375,
+      "learning_rate": 9.658932065977078e-06,
+      "loss": 0.6757,
+      "step": 1725
+    },
+    {
+      "epoch": 1.4465577837502583,
+      "grad_norm": 35.52757263183594,
+      "learning_rate": 9.65194296896841e-06,
+      "loss": 0.7509,
+      "step": 1750
+    },
+    {
+      "epoch": 1.467231755220178,
+      "grad_norm": 15.845513343811035,
+      "learning_rate": 9.644953871959744e-06,
+      "loss": 0.7827,
+      "step": 1775
+    },
+    {
+      "epoch": 1.4879057266900972,
+      "grad_norm": 33.226444244384766,
+      "learning_rate": 9.637964774951077e-06,
+      "loss": 0.7661,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4879057266900972,
+      "eval_loss": 0.43962281942367554,
+      "eval_runtime": 565.8494,
+      "eval_samples_per_second": 1.921,
+      "eval_steps_per_second": 0.961,
+      "eval_wer": 0.2754667207792208,
+      "step": 1800
+    },
+    {
+      "epoch": 1.5085796981600166,
+      "grad_norm": 41.39881896972656,
+      "learning_rate": 9.630975677942411e-06,
+      "loss": 0.6939,
+      "step": 1825
+    },
+    {
+      "epoch": 1.529253669629936,
+      "grad_norm": 22.1778564453125,
+      "learning_rate": 9.623986580933743e-06,
+      "loss": 0.7105,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5499276410998553,
+      "grad_norm": 26.528127670288086,
+      "learning_rate": 9.616997483925078e-06,
+      "loss": 0.693,
+      "step": 1875
+    },
+    {
+      "epoch": 1.5706016125697748,
+      "grad_norm": 35.542049407958984,
+      "learning_rate": 9.61000838691641e-06,
+      "loss": 0.7716,
+      "step": 1900
+    },
+    {
+      "epoch": 1.591275584039694,
+      "grad_norm": 22.44879913330078,
+      "learning_rate": 9.603019289907744e-06,
+      "loss": 0.6435,
+      "step": 1925
+    },
+    {
+      "epoch": 1.6119495555096135,
+      "grad_norm": 28.783998489379883,
+      "learning_rate": 9.596030192899078e-06,
+      "loss": 0.6641,
+      "step": 1950
+    },
+    {
+      "epoch": 1.6326235269795326,
+      "grad_norm": 19.634614944458008,
+      "learning_rate": 9.589041095890411e-06,
+      "loss": 0.8506,
+      "step": 1975
+    },
+    {
+      "epoch": 1.6532974984494522,
+      "grad_norm": 39.75117492675781,
+      "learning_rate": 9.582051998881745e-06,
+      "loss": 0.8113,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6532974984494522,
+      "eval_loss": 0.42616990208625793,
+      "eval_runtime": 564.8279,
+      "eval_samples_per_second": 1.924,
+      "eval_steps_per_second": 0.963,
+      "eval_wer": 0.2643060064935065,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6739714699193715,
+      "grad_norm": 38.3372917175293,
+      "learning_rate": 9.57506290187308e-06,
+      "loss": 0.7083,
+      "step": 2025
+    },
+    {
+      "epoch": 1.6946454413892909,
+      "grad_norm": 31.000165939331055,
+      "learning_rate": 9.568073804864413e-06,
+      "loss": 0.8346,
+      "step": 2050
+    },
+    {
+      "epoch": 1.7153194128592104,
+      "grad_norm": 29.758399963378906,
+      "learning_rate": 9.561084707855746e-06,
+      "loss": 0.7429,
+      "step": 2075
+    },
+    {
+      "epoch": 1.7359933843291295,
+      "grad_norm": 30.983566284179688,
+      "learning_rate": 9.55409561084708e-06,
+      "loss": 0.6273,
+      "step": 2100
+    },
+    {
+      "epoch": 1.756667355799049,
+      "grad_norm": 44.77085876464844,
+      "learning_rate": 9.547106513838413e-06,
+      "loss": 0.7398,
+      "step": 2125
+    },
+    {
+      "epoch": 1.7773413272689682,
+      "grad_norm": 19.01654815673828,
+      "learning_rate": 9.540117416829747e-06,
+      "loss": 0.7235,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7980152987388878,
+      "grad_norm": 24.96238136291504,
+      "learning_rate": 9.53312831982108e-06,
+      "loss": 0.7483,
+      "step": 2175
+    },
+    {
+      "epoch": 1.818689270208807,
+      "grad_norm": 31.377376556396484,
+      "learning_rate": 9.526139222812413e-06,
+      "loss": 0.77,
+      "step": 2200
+    },
+    {
+      "epoch": 1.818689270208807,
+      "eval_loss": 0.4175179898738861,
+      "eval_runtime": 569.934,
+      "eval_samples_per_second": 1.907,
+      "eval_steps_per_second": 0.954,
+      "eval_wer": 0.26785714285714285,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8393632416787264,
+      "grad_norm": 29.9045352935791,
+      "learning_rate": 9.519150125803746e-06,
+      "loss": 0.7315,
+      "step": 2225
+    },
+    {
+      "epoch": 1.860037213148646,
+      "grad_norm": 49.298458099365234,
+      "learning_rate": 9.51216102879508e-06,
+      "loss": 0.6964,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8807111846185651,
+      "grad_norm": 25.912410736083984,
+      "learning_rate": 9.505171931786414e-06,
+      "loss": 0.6415,
+      "step": 2275
+    },
+    {
+      "epoch": 1.9013851560884847,
+      "grad_norm": 20.445037841796875,
+      "learning_rate": 9.498182834777747e-06,
+      "loss": 0.5379,
+      "step": 2300
+    },
+    {
+      "epoch": 1.922059127558404,
+      "grad_norm": 26.04856300354004,
+      "learning_rate": 9.49119373776908e-06,
+      "loss": 0.8237,
+      "step": 2325
+    },
+    {
+      "epoch": 1.9427330990283234,
+      "grad_norm": 31.83847999572754,
+      "learning_rate": 9.484204640760415e-06,
+      "loss": 0.7311,
+      "step": 2350
+    },
+    {
+      "epoch": 1.9634070704982427,
+      "grad_norm": 20.37737464904785,
+      "learning_rate": 9.477215543751747e-06,
+      "loss": 0.8047,
+      "step": 2375
+    },
+    {
+      "epoch": 1.984081041968162,
+      "grad_norm": 25.79982566833496,
+      "learning_rate": 9.470226446743082e-06,
+      "loss": 0.6942,
+      "step": 2400
+    },
+    {
+      "epoch": 1.984081041968162,
+      "eval_loss": 0.41031718254089355,
+      "eval_runtime": 570.9309,
+      "eval_samples_per_second": 1.904,
+      "eval_steps_per_second": 0.953,
+      "eval_wer": 0.27171266233766234,
+      "step": 2400
+    },
+    {
+      "epoch": 2.004134794293984,
+      "grad_norm": 5.95644474029541,
+      "learning_rate": 9.463237349734416e-06,
+      "loss": 0.5701,
+      "step": 2425
+    },
+    {
+      "epoch": 2.024808765763903,
+      "grad_norm": 21.82009506225586,
+      "learning_rate": 9.456248252725748e-06,
+      "loss": 0.3277,
+      "step": 2450
+    },
+    {
+      "epoch": 2.0454827372338227,
+      "grad_norm": 16.10843849182129,
+      "learning_rate": 9.449259155717082e-06,
+      "loss": 0.2838,
+      "step": 2475
+    },
+    {
+      "epoch": 2.066156708703742,
+      "grad_norm": 12.50637435913086,
+      "learning_rate": 9.442270058708417e-06,
+      "loss": 0.2812,
+      "step": 2500
+    },
+    {
+      "epoch": 2.0868306801736614,
+      "grad_norm": 21.421022415161133,
+      "learning_rate": 9.435280961699749e-06,
+      "loss": 0.3007,
+      "step": 2525
+    },
+    {
+      "epoch": 2.107504651643581,
+      "grad_norm": 28.00385284423828,
+      "learning_rate": 9.428291864691083e-06,
+      "loss": 0.2837,
+      "step": 2550
+    },
+    {
+      "epoch": 2.1281786231135,
+      "grad_norm": 17.902904510498047,
+      "learning_rate": 9.421302767682416e-06,
+      "loss": 0.2927,
+      "step": 2575
+    },
+    {
+      "epoch": 2.1488525945834196,
+      "grad_norm": 19.412660598754883,
+      "learning_rate": 9.41431367067375e-06,
+      "loss": 0.2814,
+      "step": 2600
+    },
+    {
+      "epoch": 2.1488525945834196,
+      "eval_loss": 0.4295479953289032,
+      "eval_runtime": 572.2047,
+      "eval_samples_per_second": 1.9,
+      "eval_steps_per_second": 0.951,
+      "eval_wer": 0.2616680194805195,
+      "step": 2600
+    },
+    {
+      "epoch": 2.1695265660533387,
+      "grad_norm": 21.472017288208008,
+      "learning_rate": 9.407324573665082e-06,
+      "loss": 0.3163,
+      "step": 2625
+    },
+    {
+      "epoch": 2.1902005375232583,
+      "grad_norm": 25.40437889099121,
+      "learning_rate": 9.400335476656417e-06,
+      "loss": 0.3067,
+      "step": 2650
+    },
+    {
+      "epoch": 2.2108745089931774,
+      "grad_norm": 19.886768341064453,
+      "learning_rate": 9.393346379647749e-06,
+      "loss": 0.2705,
+      "step": 2675
+    },
+    {
+      "epoch": 2.231548480463097,
+      "grad_norm": 18.539291381835938,
+      "learning_rate": 9.386357282639083e-06,
+      "loss": 0.2948,
+      "step": 2700
+    },
+    {
+      "epoch": 2.2522224519330165,
+      "grad_norm": 10.278417587280273,
+      "learning_rate": 9.379368185630417e-06,
+      "loss": 0.2911,
+      "step": 2725
+    },
+    {
+      "epoch": 2.2728964234029356,
+      "grad_norm": 25.13685417175293,
+      "learning_rate": 9.372379088621752e-06,
+      "loss": 0.3339,
+      "step": 2750
+    },
+    {
+      "epoch": 2.293570394872855,
+      "grad_norm": 28.98663902282715,
+      "learning_rate": 9.365389991613084e-06,
+      "loss": 0.3182,
+      "step": 2775
+    },
+    {
+      "epoch": 2.3142443663427743,
+      "grad_norm": 17.335172653198242,
+      "learning_rate": 9.358400894604418e-06,
+      "loss": 0.3171,
+      "step": 2800
+    },
+    {
+      "epoch": 2.3142443663427743,
+      "eval_loss": 0.4301378130912781,
+      "eval_runtime": 557.7802,
+      "eval_samples_per_second": 1.949,
+      "eval_steps_per_second": 0.975,
+      "eval_wer": 0.2432021103896104,
+      "step": 2800
+    },
+    {
+      "epoch": 2.334918337812694,
+      "grad_norm": 22.960308074951172,
+      "learning_rate": 9.351411797595752e-06,
+      "loss": 0.3493,
+      "step": 2825
+    },
+    {
+      "epoch": 2.3555923092826134,
+      "grad_norm": 21.65870475769043,
+      "learning_rate": 9.344422700587085e-06,
+      "loss": 0.3179,
+      "step": 2850
+    },
+    {
+      "epoch": 2.3762662807525325,
+      "grad_norm": 18.237104415893555,
+      "learning_rate": 9.337433603578419e-06,
+      "loss": 0.3325,
+      "step": 2875
+    },
+    {
+      "epoch": 2.396940252222452,
+      "grad_norm": 23.409774780273438,
+      "learning_rate": 9.330444506569753e-06,
+      "loss": 0.3483,
+      "step": 2900
+    },
+    {
+      "epoch": 2.4176142236923712,
+      "grad_norm": 16.235368728637695,
+      "learning_rate": 9.323455409561086e-06,
+      "loss": 0.3094,
+      "step": 2925
+    },
+    {
+      "epoch": 2.438288195162291,
+      "grad_norm": 15.572430610656738,
+      "learning_rate": 9.31646631255242e-06,
+      "loss": 0.3099,
+      "step": 2950
+    },
+    {
+      "epoch": 2.45896216663221,
+      "grad_norm": 16.10034942626953,
+      "learning_rate": 9.309477215543752e-06,
+      "loss": 0.3394,
+      "step": 2975
+    },
+    {
+      "epoch": 2.4796361381021295,
+      "grad_norm": 31.92362403869629,
+      "learning_rate": 9.302488118535085e-06,
+      "loss": 0.3495,
+      "step": 3000
+    },
+    {
+      "epoch": 2.4796361381021295,
+      "eval_loss": 0.42990124225616455,
+      "eval_runtime": 559.9267,
+      "eval_samples_per_second": 1.941,
+      "eval_steps_per_second": 0.972,
+      "eval_wer": 0.252637987012987,
+      "step": 3000
+    },
+    {
+      "epoch": 2.4796361381021295,
+      "step": 3000,
+      "total_flos": 2.448227052158976e+19,
+      "train_loss": 1.2735130944252013,
+      "train_runtime": 14573.655,
+      "train_samples_per_second": 19.914,
+      "train_steps_per_second": 2.489
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 36270,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 3
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.448227052158976e+19,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}