End of training

Browse files

Files changed (6) hide show

README.md +5 -2
adapter.nya.safetensors +3 -0
all_results.json +15 -0
eval_results.json +9 -0
train_results.json +9 -0
trainer_state.json +243 -0

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-nyagen-balanced-model
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.1803
-- Wer: 0.2544
 ## Model description

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- nyagen
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-nyagen-balanced-model
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the NYAGEN - NYA dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.1803
+- Wer: 0.2549
 ## Model description

adapter.nya.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bb14171de66a5e31753888c936ff5d4bf731c422bb11be5f8c96b2f9926be7a
+size 8798532

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 3.314917127071823,
+    "eval_loss": 0.18031810224056244,
+    "eval_runtime": 15.2431,
+    "eval_samples": 169,
+    "eval_samples_per_second": 11.087,
+    "eval_steps_per_second": 2.821,
+    "eval_wer": 0.25486645540968766,
+    "total_flos": 4.522297158190472e+18,
+    "train_loss": 0.9028558111190796,
+    "train_runtime": 1060.5768,
+    "train_samples": 1445,
+    "train_samples_per_second": 40.874,
+    "train_steps_per_second": 10.24
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.314917127071823,
+    "eval_loss": 0.18031810224056244,
+    "eval_runtime": 15.2431,
+    "eval_samples": 169,
+    "eval_samples_per_second": 11.087,
+    "eval_steps_per_second": 2.821,
+    "eval_wer": 0.25486645540968766
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.314917127071823,
+    "total_flos": 4.522297158190472e+18,
+    "train_loss": 0.9028558111190796,
+    "train_runtime": 1060.5768,
+    "train_samples": 1445,
+    "train_samples_per_second": 40.874,
+    "train_steps_per_second": 10.24
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,243 @@

+{
+  "best_metric": 0.17163243889808655,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/mms-1b-nyagen-balanced-model/checkpoint-900",
+  "epoch": 3.314917127071823,
+  "eval_steps": 100,
+  "global_step": 1200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.27624309392265195,
+      "grad_norm": 4.279232025146484,
+      "learning_rate": 0.00028799999999999995,
+      "loss": 7.181,
+      "step": 100
+    },
+    {
+      "epoch": 0.27624309392265195,
+      "eval_loss": 0.6055206656455994,
+      "eval_runtime": 16.1135,
+      "eval_samples_per_second": 10.488,
+      "eval_steps_per_second": 2.669,
+      "eval_wer": 0.5246717971933001,
+      "step": 100
+    },
+    {
+      "epoch": 0.5524861878453039,
+      "grad_norm": 2.128457546234131,
+      "learning_rate": 0.00029735130111524163,
+      "loss": 0.5071,
+      "step": 200
+    },
+    {
+      "epoch": 0.5524861878453039,
+      "eval_loss": 0.24523495137691498,
+      "eval_runtime": 15.4101,
+      "eval_samples_per_second": 10.967,
+      "eval_steps_per_second": 2.79,
+      "eval_wer": 0.3594386600271616,
+      "step": 200
+    },
+    {
+      "epoch": 0.8287292817679558,
+      "grad_norm": 1.3095550537109375,
+      "learning_rate": 0.0002945631970260223,
+      "loss": 0.3791,
+      "step": 300
+    },
+    {
+      "epoch": 0.8287292817679558,
+      "eval_loss": 0.21587276458740234,
+      "eval_runtime": 15.3962,
+      "eval_samples_per_second": 10.977,
+      "eval_steps_per_second": 2.793,
+      "eval_wer": 0.3232231779085559,
+      "step": 300
+    },
+    {
+      "epoch": 1.1049723756906078,
+      "grad_norm": 4.117229461669922,
+      "learning_rate": 0.0002917750929368029,
+      "loss": 0.3464,
+      "step": 400
+    },
+    {
+      "epoch": 1.1049723756906078,
+      "eval_loss": 0.20587413012981415,
+      "eval_runtime": 15.3374,
+      "eval_samples_per_second": 11.019,
+      "eval_steps_per_second": 2.804,
+      "eval_wer": 0.3046627433227705,
+      "step": 400
+    },
+    {
+      "epoch": 1.3812154696132597,
+      "grad_norm": 1.0849329233169556,
+      "learning_rate": 0.0002889869888475836,
+      "loss": 0.3326,
+      "step": 500
+    },
+    {
+      "epoch": 1.3812154696132597,
+      "eval_loss": 0.19188211858272552,
+      "eval_runtime": 15.5114,
+      "eval_samples_per_second": 10.895,
+      "eval_steps_per_second": 2.772,
+      "eval_wer": 0.29425079221367134,
+      "step": 500
+    },
+    {
+      "epoch": 1.6574585635359116,
+      "grad_norm": 1.2119916677474976,
+      "learning_rate": 0.00028619888475836427,
+      "loss": 0.322,
+      "step": 600
+    },
+    {
+      "epoch": 1.6574585635359116,
+      "eval_loss": 0.18680231273174286,
+      "eval_runtime": 15.4576,
+      "eval_samples_per_second": 10.933,
+      "eval_steps_per_second": 2.782,
+      "eval_wer": 0.28610230873698506,
+      "step": 600
+    },
+    {
+      "epoch": 1.9337016574585635,
+      "grad_norm": 1.408340573310852,
+      "learning_rate": 0.00028341078066914494,
+      "loss": 0.3025,
+      "step": 700
+    },
+    {
+      "epoch": 1.9337016574585635,
+      "eval_loss": 0.1849866360425949,
+      "eval_runtime": 15.3489,
+      "eval_samples_per_second": 11.011,
+      "eval_steps_per_second": 2.801,
+      "eval_wer": 0.2901765504753282,
+      "step": 700
+    },
+    {
+      "epoch": 2.2099447513812156,
+      "grad_norm": 0.6426145434379578,
+      "learning_rate": 0.0002806226765799256,
+      "loss": 0.2939,
+      "step": 800
+    },
+    {
+      "epoch": 2.2099447513812156,
+      "eval_loss": 0.17766940593719482,
+      "eval_runtime": 15.4593,
+      "eval_samples_per_second": 10.932,
+      "eval_steps_per_second": 2.781,
+      "eval_wer": 0.2698053417836125,
+      "step": 800
+    },
+    {
+      "epoch": 2.4861878453038675,
+      "grad_norm": 0.5668926239013672,
+      "learning_rate": 0.0002778345724907063,
+      "loss": 0.2971,
+      "step": 900
+    },
+    {
+      "epoch": 2.4861878453038675,
+      "eval_loss": 0.17163243889808655,
+      "eval_runtime": 15.5806,
+      "eval_samples_per_second": 10.847,
+      "eval_steps_per_second": 2.76,
+      "eval_wer": 0.2675418741511996,
+      "step": 900
+    },
+    {
+      "epoch": 2.7624309392265194,
+      "grad_norm": 0.42915207147598267,
+      "learning_rate": 0.00027504646840148696,
+      "loss": 0.2787,
+      "step": 1000
+    },
+    {
+      "epoch": 2.7624309392265194,
+      "eval_loss": 0.17503149807453156,
+      "eval_runtime": 15.5493,
+      "eval_samples_per_second": 10.869,
+      "eval_steps_per_second": 2.765,
+      "eval_wer": 0.27161611588954276,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0386740331491713,
+      "grad_norm": 0.994978129863739,
+      "learning_rate": 0.00027225836431226763,
+      "loss": 0.32,
+      "step": 1100
+    },
+    {
+      "epoch": 3.0386740331491713,
+      "eval_loss": 0.1725001335144043,
+      "eval_runtime": 15.57,
+      "eval_samples_per_second": 10.854,
+      "eval_steps_per_second": 2.762,
+      "eval_wer": 0.27342688999547304,
+      "step": 1100
+    },
+    {
+      "epoch": 3.314917127071823,
+      "grad_norm": 0.6422222852706909,
+      "learning_rate": 0.0002694702602230483,
+      "loss": 0.2738,
+      "step": 1200
+    },
+    {
+      "epoch": 3.314917127071823,
+      "eval_loss": 0.18027880787849426,
+      "eval_runtime": 15.2933,
+      "eval_samples_per_second": 11.051,
+      "eval_steps_per_second": 2.812,
+      "eval_wer": 0.2544137618832051,
+      "step": 1200
+    },
+    {
+      "epoch": 3.314917127071823,
+      "step": 1200,
+      "total_flos": 4.522297158190472e+18,
+      "train_loss": 0.9028558111190796,
+      "train_runtime": 1060.5768,
+      "train_samples_per_second": 40.874,
+      "train_steps_per_second": 10.24
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 10860,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 3
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.522297158190472e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}