--- license: cc-by-nc-4.0 language: - fr metrics: - accuracy tags: - phishing - fake domaine name - fake site - scam - text-classification library_name: keras --- # More info at : stendhalgpt.fr # Mo# Model Card pour l'identifiant du modèle Le modèle peut détecter les sites de scam/phishing uniquement en se basant sur leur orthographe. ## Détails du modèle Le modèle a été entraîné à partir de 50 000 noms de domaine, ce qui représente moins de 2% du dataset à ma disposition. Il ne fonctionne actuellement qu'avec les domaines en .fr. Cependant, certaines expressions sur-utilisées affectent la détection de sites officiels en raison de la présence d'un grand nombre de sites frauduleux tels que "info-gov.fr" ou "livraison-colis.fr". ### Description du modèle - **Développé par :** Nielzac | Étudiant français - **Partagé par [optionnel] :** Nielzac - **Type de modèle :** Classification - **Nom du modèle :** Talleyrand - **Langue(s) (NLP) :** FR - **Licence :** CC ANC 4.0 ### Sources du modèle [optionnel] 1 : Site frauduleux 0 : Site légitime - **Démo [optionnel] :** antai-gov.fr : [0.99354464] amendes-paris.fr : [0.9942043] le-bousquet.fr : [0.00631859] amendes-gouv.fr : [0.9967435] hotel-de-paris.fr : [0.00752462] colis-livraison.fr : [0.9986418] antai-gov.fr : [0.99354464] cnil-info.fr : [0.8227607] leclerc.fr : [0.02546518] amd.fr : [0.04804057] paris.fr : [0.6099069] ## Utilisations Vous pouvez l'utiliser uniquement à des fins de test. ## Biais, risques et limitations Il a un fort biais en faveur des sites frauduleux, il se peut que vous devriez le combiner avec une liste de noms de domaine déjà vérifiés. ## Comment commencer avec le modèle ```python import keras import tensorflow as tf from sklearn.model_selection import train_test_split from keras_nlp.tokenizers import UnicodeCodepointTokenizer import numpy as np domain_names = [] tokenized_domains_2 = [] for name in domain_names: tokens = tokenizer.tokenize(name) tokenized_domains_2.append(tokens) X_new = keras.utils.data_utils.pad_sequences(tokenized_domains_2, maxlen=26, padding='post') # Faire une prédiction sur les noms de domaines y_pred = model.predict(X_new) # Afficher les prédictions for i in range(len(domain_names)): print('{}: {}'.format(domain_names[i], y_pred[i])) ``` ## Détails de l'entraînement ### Données d'entraînement ``` text,label 19151,soinmiracle.fr,0 45747,alibuyer.cn,1 24797,publii.fr,0 48250,lanmobile.cn,1 26260,ho4people.fr,0 ... 11284,nocturnos.fr,0 44732,buy-bitcoin.africa,1 38158,portailpompiersparis.fr,1 860,rl-lyon.fr,0 15795,voujacna.fr, ## Model Card Contact Contact me at : contact@stendhalgpt.fr or at stendhalgpt.fr