---
license: cc-by-nc-4.0
language:
- fr
metrics:
- accuracy
tags:
- phishing
- fake domaine name
- fake site
- scam
- text-classification
library_name: keras
---

# More info at : stendhalgpt.fr

# Mo# Model Card pour l'identifiant du modèle

Le modèle peut détecter les sites de scam/phishing uniquement en se basant sur leur orthographe.

## Détails du modèle
Le modèle a été entraîné à partir de 50 000 noms de domaine, ce qui représente moins de 2% du dataset à ma disposition. Il ne fonctionne actuellement qu'avec les domaines en .fr. Cependant, certaines expressions sur-utilisées affectent la détection de sites officiels en raison de la présence d'un grand nombre de sites frauduleux tels que "info-gov.fr" ou "livraison-colis.fr".

### Description du modèle

- **Développé par :** Nielzac | Étudiant français
- **Partagé par [optionnel] :** Nielzac
- **Type de modèle :** Classification
- **Nom du modèle :** Talleyrand
- **Langue(s) (NLP) :** FR
- **Licence :** CC ANC 4.0

### Sources du modèle [optionnel]

1 : Site frauduleux
0 : Site légitime

- **Démo [optionnel] :** antai-gov.fr : [0.99354464]
amendes-paris.fr : [0.9942043]
le-bousquet.fr : [0.00631859]
amendes-gouv.fr : [0.9967435]
hotel-de-paris.fr : [0.00752462]
colis-livraison.fr : [0.9986418]
antai-gov.fr : [0.99354464]
cnil-info.fr : [0.8227607]
leclerc.fr : [0.02546518]
amd.fr : [0.04804057]
paris.fr : [0.6099069]

## Utilisations

Vous pouvez l'utiliser uniquement à des fins de test.

## Biais, risques et limitations

Il a un fort biais en faveur des sites frauduleux, il se peut que vous devriez le combiner avec une liste de noms de domaine déjà vérifiés.

## Comment commencer avec le modèle

```python
import keras  
import tensorflow as tf  
from sklearn.model_selection import train_test_split  
from keras_nlp.tokenizers import UnicodeCodepointTokenizer  
import numpy  as np  

domain_names = []  
  
tokenized_domains_2 = []  
for name in domain_names:  
    tokens = tokenizer.tokenize(name)  
    tokenized_domains_2.append(tokens)  

X_new = keras.utils.data_utils.pad_sequences(tokenized_domains_2, maxlen=26, padding='post')  

# Faire une prédiction sur les noms de domaines  
y_pred = model.predict(X_new)  

# Afficher les prédictions  
for i in range(len(domain_names)):  
    print('{}: {}'.format(domain_names[i], y_pred[i]))  
```

## Détails de l'entraînement

### Données d'entraînement

```
text,label 
19151,soinmiracle.fr,0
45747,alibuyer.cn,1
24797,publii.fr,0
48250,lanmobile.cn,1
26260,ho4people.fr,0
...
11284,nocturnos.fr,0
44732,buy-bitcoin.africa,1
38158,portailpompiersparis.fr,1
860,rl-lyon.fr,0
15795,voujacna.fr,


## Model Card Contact

Contact me at : contact@stendhalgpt.fr or at stendhalgpt.fr