MARBERT Fine-tuné pour la Classification d'Intention en Darija
Ce dépôt contient le modèle MARBERTv2, fine-tuné pour une tâche de classification de texte afin d'identifier l'intention d'un utilisateur s'exprimant en arabe dialectal marocain (Darija).
Ce modèle a été développé dans le cadre d'un stage de fin d'études en collaboration avec Huawei pour enrichir leur solution de centre de contact intelligent AICC (Artificial Intelligence Contact Center).
📋 Intentions Reconnues
Le modèle est capable de classifier un texte selon l'une des 9 intentions suivantes, typiques d'un contexte de service client :
consulter_solde
: L'utilisateur veut connaître son solde, sa recharge ou ses données restantes.reclamer_facture
: L'utilisateur conteste une facture ou a une question sur son montant.declarer_panne
: L'utilisateur signale un problème technique (panne réseau, connexion lente...).info_forfait
: L'utilisateur demande des informations sur des offres, produits ou abonnements.recuperer_mot_de_passe
: L'utilisateur a oublié un mot de passe ou un code et veut le réinitialiser.salutations
: Salutations et début de conversation.remerciements
: Expressions de gratitude.demander_agent_humain
: L'utilisateur demande explicitement à parler à un conseiller humain.hors_scope
: La demande de l'utilisateur est hors du périmètre du service client.
🚀 Comment Utiliser le Modèle
Vous pouvez utiliser ce modèle directement avec un pipeline text-classification
de la bibliothèque transformers
.
from transformers import pipeline
# Remplacer par le nom de votre modèle sur le Hub
model_name = "mediani/marbert-darija-intent-classification"
# Charger le pipeline de classification de texte
classifier = pipeline("text-classification", model=model_name)
# Exemples de phrases à tester
phrases = [
"bghit na3raf ch7al baqi 3ndi f solde",
"l'internet ma khdamach lia lyoum",
"chno homa les offres li kaynin 3afak ?"
]
# Faire des prédictions
predictions = classifier(phrases)
for phrase, pred in zip(phrases, predictions):
print(f"Phrase: '{phrase}'")
print(f" -> Intention Prédite: {pred['label']} (Confiance: {pred['score']:.4f})")
# Résultat attendu :
# Phrase: 'bghit na3raf ch7al baqi 3ndi f solde'
# -> Intention Prédite: consulter_solde (Confiance: 0.9987)
# Phrase: 'l'internet ma khdamach lia lyoum'
# -> Intention Prédite: declarer_panne (Confiance: 0.9992)
# Phrase: 'chno homa les offres li kaynin 3afak ?'
# -> Intention Prédite: info_forfait (Confiance: 0.9975)
🛠️ Détails de l'Entraînement
Modèle de Base
Le modèle de base est UBC-NLP/MARBERTv2, un Transformer robuste pré-entraîné sur un corpus de 1.2 milliard de tweets en arabe et ses dialectes.
Dataset
Le modèle a été fine-tuné sur un corpus personnalisé de plusieurs milliers de phrases en Darija. Ce dataset a été assemblé via une stratégie hybride :
- Collecte de données depuis Twitter et YouTube.
- Génération de données par des modèles de langage (LLM).
- Collecte manuelle depuis des espaces de service client.
- L'annotation a été réalisée avec l'outil Doccano.
Performances
Sur un ensemble de test interne, le modèle a atteint une performance élevée, démontrant sa capacité à gérer le code-switching et les variations linguistiques de la Darija.
Citation
Si vous utilisez ce modèle dans vos recherches, veuillez s'il vous plaît le citer.
@misc{mediani2025marbertdarija,
author = {Mohammed Mediani},
title = {MARBERT Fine-tuné pour la Classification d'Intention en Darija},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/mediani/marbert-darija-intent-classification}},
}
- Downloads last month
- 6