malhajar (Mohamad Alhajar)

Posts 3

Post

1079

Ton LLM (ou devrais-je dire gml) est impressionnant… jusqu’à ce qu’il te fasse risquer 5 ans de prison pour une erreur de conformité.?

Aujourd’hui, legml.ai publie la première évaluation open‑source des modèles d’IA sur le droit des affaires français.

Et en même temps, le benchmark le plus complet:
"Les Audits Affaires Leadboard"

Pendant que beaucoup se contentent de dire que leur LLM "parle bien français", nous nous sommes questionnés :
• Est‑ce qu’il sait éviter un redressement fiscal ? Connaît‑il les délais URSSAF, les pénalités TVA, ou les règles DORA 2025 ?
• Tu lui ferais confiance pour structurer une clause de cession d’actions ?

Dans 41 % des cas, la réponse est non.

Hallucinations, seuils erronés, articles inventés, procédures fictives.

Quand un modèle se trompe en droit, c’est un risque réel.

C’est pourquoi nous avons construit les‑audits‑affaires, un benchmark qui reflète la complexité concrète des enjeux juridiques et financiers des entreprises françaises.

→ 2 670 cas métiers réalistes : questions posées par des DAF, juristes, comptables, RH, dirigeants.
→ 9 codes juridiques analysés (commercial, fiscal, travail, bancaire, consommation…)
→ 5 dimensions d’évaluation : action, délai, documents, impact financier, risques juridiques.

Mais on ne s’est pas contentés d’un score.

Pour chaque modèle évalué, vous avez accès à un rapport complet à https://lnkd.in/dBqKR7YZ : texte du modèle vs. ground‑truth légal, score détaillé, et justification article par article.

C’est transparent. C’est précis. C’est vérifiable.

Explorez dès maintenant :
• Leaderboard → @les-audites-affaires-leadboard
• Dataset → legmlai/les-audits-affaires
• Eval harness → https://github.com/legml-ai/les-audits-affaires-eval-harness
• Article Huggingface : https://lnkd.in/dTHYKuzr

Envie de confronter votre modèle ? On publie vos résultats