Wolof–French BART Translation Model Card

Résumé rapide : Ce modèle est une version fine‑tuned de facebook/bart-base pour la traduction du Wolof vers le Français.

Model Details

Model Description

Ce modèle Seq2Seq basé sur BART a été entraîné avec PyTorch Lightning et Weights & Biases pour optimiser la métrique BLEU sur un corpus Wolof–Français de 35 000 phrases.

Usage prévu

  • Utilisation directe : Traduction de phrases du Wolof vers le Français
  • Cas d’usage en aval : Intégration dans des applications de traduction automatique ou assistée

Bias, Risks, and Limitations

  • Le modèle peut produire des traductions inexactes pour des phrases idiomatiques ou des termes peu fréquents.
  • Biais possible lié à la distribution des phrases du corpus d’entraînement.
  • Traduit mieux les phrases courtes essayez avec des phrases de moins de 10 mots

Recommandations :

  • Vérifier les traductions critiques manuellement.
  • Enrichir le corpus d’entraînement avec des phrases variés et longues pour améliorer la couverture lexicale.

How to Get Started with the Model

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("Diamweli/wolof-bart-finetuned")
model     = AutoModelForSeq2SeqLM.from_pretrained("Diamweli/wolof-bart-finetuned")

# Exemple de traduction
text = "Ambedkar mingi judd ci xeetu Dalit, di xeet wu ñu joxul benn cër ci Inde ndax dañu naan kenn du leen laal."
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(
    **inputs,
    max_new_tokens=100,
    num_beams=4,
    early_stopping=True,
)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)
# → Traduction en français

Training Details

  • Données : 35 000 paires de phrases Wolof–Français au format CSV

  • Framework : PyTorch Lightning, Hugging Face Transformers

  • Optimisation : Bayesian sweep W&B sur la métrique BLEU

  • Hyperparamètres clés :

    • Learning Rate = 6.59e-5
    • Batch size = 64
    • Epochs = 5
    • src_max_len = 74, tgt_max_len = 99

Evaluation

  • Métrique principale : BLEU
  • Jeu de validation : 10 % du corpus initial

Résultats

Metric Score
BLEU 4.8945
ROUGE-1 0.2454
ROUGE-2 0.0745
ROUGE-L 0.2098
ROUGE-Lsum 0.2097
Test Loss 3.5154

Model Card Authors

  • Diamweli Mamadou Diadie SANKARE

Contact

Pour toute question, contactez : [email protected]

Downloads last month
22
Safetensors
Model size
112M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support