Fine-tuned XLSR-53 large model for speech recognition in English

Fine-tuned facebook/wav2vec2-large-xlsr-53 on English using the train and validation splits of Common Voice 6.1. When using this model, make sure that your speech input is sampled at 16kHz.

Downloads last month: 35

Safetensors

Model size

315M params

Tensor type

F32

Inference Providers NEW

Automatic Speech Recognition

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Datasets used to train BeebekBhz/wav2vec2-large-xlsr-english

Evaluation results

Test WER on Common Voice en
self-reported

19.060
Test CER on Common Voice en
self-reported

7.690
Test WER (+LM) on Common Voice en
self-reported

14.810
Test CER (+LM) on Common Voice en
self-reported

6.840
Dev WER on Robust Speech Event - Dev Data
self-reported

27.720
Dev CER on Robust Speech Event - Dev Data
self-reported

11.650
Dev WER (+LM) on Robust Speech Event - Dev Data
self-reported

20.850
Dev CER (+LM) on Robust Speech Event - Dev Data
self-reported

11.010

View on Papers With Code