Wolof–French BART Translation Model Card
Résumé rapide :
Ce modèle est une version fine‑tuned de facebook/bart-base
pour la traduction du Wolof vers le Français.
Model Details
Model Description
Ce modèle Seq2Seq basé sur BART a été entraîné avec PyTorch Lightning et Weights & Biases pour optimiser la métrique BLEU sur un corpus Wolof–Français de 35 000 phrases.
- Développé par : Diamweli Mamadou Diadie SANKARE
- LinkedIn: https://sn.linkedin.com/in/diamweli-sankare-713001192
- Type de modèle : Seq2Seq / Transformer (BART)
- Langues : Wolof → Français
- Licence : MIT
- Modèle fine‑tuned depuis :
facebook/bart-base
Usage prévu
- Utilisation directe : Traduction de phrases du Wolof vers le Français
- Cas d’usage en aval : Intégration dans des applications de traduction automatique ou assistée
Bias, Risks, and Limitations
- Le modèle peut produire des traductions inexactes pour des phrases idiomatiques ou des termes peu fréquents.
- Biais possible lié à la distribution des phrases du corpus d’entraînement.
Traduit mieux les phrases courtes essayez avec des phrases de moins de 10 mots
Recommandations :
- Vérifier les traductions critiques manuellement.
- Enrichir le corpus d’entraînement avec des phrases variés et longues pour améliorer la couverture lexicale.
How to Get Started with the Model
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("Diamweli/wolof-bart-finetuned")
model = AutoModelForSeq2SeqLM.from_pretrained("Diamweli/wolof-bart-finetuned")
# Exemple de traduction
text = "Ambedkar mingi judd ci xeetu Dalit, di xeet wu ñu joxul benn cër ci Inde ndax dañu naan kenn du leen laal."
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(
**inputs,
max_new_tokens=100,
num_beams=4,
early_stopping=True,
)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)
# → Traduction en français
Training Details
Données : 35 000 paires de phrases Wolof–Français au format CSV
Framework : PyTorch Lightning, Hugging Face Transformers
Optimisation : Bayesian sweep W&B sur la métrique BLEU
Hyperparamètres clés :
- Learning Rate = 6.59e-5
- Batch size = 64
- Epochs = 5
src_max_len
= 74,tgt_max_len
= 99
Evaluation
- Métrique principale : BLEU
- Jeu de validation : 10 % du corpus initial
Résultats
Metric | Score |
---|---|
BLEU | 4.8945 |
ROUGE-1 | 0.2454 |
ROUGE-2 | 0.0745 |
ROUGE-L | 0.2098 |
ROUGE-Lsum | 0.2097 |
Test Loss | 3.5154 |
Model Card Authors
- Diamweli Mamadou Diadie SANKARE
Contact
Pour toute question, contactez : [email protected]
- Downloads last month
- 22
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support