U-CTC / README.md
mahwizzzz's picture
Update README.md
ba1f89c verified
metadata
license: cc-by-4.0
language:
  - ur
base_model:
  - nvidia/parakeet-ctc-0.6b
pipeline_tag: automatic-speech-recognition

U-CTC

U-CTC is an Urdu automatic speech recognition (ASR) model based on the Parakeet-CTC-0.6B architecture. It has been fine-tuned on ~21 hours of Urdu speech data using the NVIDIA NeMo framework. The model is optimized for CTC-based transcription of spoken Urdu.


Model Summary

  • Model Name: U-CTC
  • Base Architecture: Parakeet-CTC-0.6B
  • Framework: NVIDIA NeMo
  • Language: Urdu
  • Model Type: Conformer Encoder + CTC Decoder
  • Loss Function: CTC Loss
  • Hardware: Trained on NVIDIA RTX 3090

Training Configuration

Setting Value
Epochs 69
Max Steps 14,800
Optimizer AdamW
Learning Rate 0.001
Betas (0.9, 0.98)
Weight Decay 0.001
Scheduler CosineAnnealing
Warmup Steps 15,000
Min LR 0.0001

Dataset

The model was trained and evaluated on a manually curated Urdu speech dataset:

Split Files Duration
Train 9,425 10.87 h
Validation 4,056 5.22 h
Test 4,056 5.22 h
  • Total audio hours: ~21.3 hours
  • Samples skipped due to CTC alignment failure: ~2.57%
  • Average AM sequence length: 50.39
  • Average target sequence length: 30.51
  • AM-to-target length ratio: ~1.83

Performance

  • Best Validation WER: 21.00%

Sample Predictions

Reference Sentence U-CTC Output
پاکستان اور زمبابوے کے درمیان ون ڈے سیریز جمعہ سے شروع ہوگی پاکستان اسزموبے تنا ونڈے سیریز جما کے رو ہوگی
بی بی سی نے بہت دیر کردی یہ چیز دکھانے میں بیسینہ بات اغیر کردی ی ھی اس سکھایں
ٹھنڈی ٹھنڈی ہوا ٹندی ٹھنڈی ہوہا
ایک اینڈ تو ولیمسن سنبھالے ہوئے تھے یہ ک اندوسا تو محالے ہوئے تھے

Comparison with OpenAI Whisper (Base / Medium)