🧒 SLM-Tiny-Stories — Générateur d’histoires pour enfants
Un petit modèle de langage (SLM) en français entraîné sur le dataset TinyStories-French, conçu pour générer de courtes histoires à partir d’un contexte vide ou d’un prompt initial.
🧰 Fonctionnalités
- Tokenizer caractère par caractère ou mot par mot
- Base GPT-like avec PyTorch
- Adapté aux ressources modestes (entraîne sur une seule GPU)
- Génération simple avec beam sampling ou greedy decoding
- Support du padding et training par batch avec
DataLoader
📦 Structure du projet
/
├── train.py # Script principal d'entraînement
├── generate.py # Script pour générer une histoire
├── tokenizer.py # Fonctions pour créer et charger un tokenizer
├── build_tokenizer.py # Génère tokenizer JSON depuis un dataset
├── dataloader.py # Dataset TinyLLMDataset
├── model.py # Architecture MiniGPT
└── checkpoints/ # Dossier des checkpoints sauvegardés
🚀 Entraînement
1. Créer un tokenizer
python build_tokenizer.py
🚀 Entraînement
2. Entraîner le modèle
python train.py
3. Les hypers paramètres
block_size = 128
batch_size = 32
learning_rate = 1e-3
embed_dim = 128
n_heads = 16
n_layers = 16
4. Exemple de génération
Êtes-vous prêts?" Les enfants dirent, "Oui, maîtresse. Nous sommes prêts." Ils suivirent la maîtresse jusqu'à la première cage. Ils virent un grand lion. Il avait une crinière et des dents acérées. Il rugissait fort. Les enfants avaient peur. Ils se cachèrent derrière la maîtresse. La maîtresse dit, "Ne vous inquiétez pas, les enfants. Le lion ne peut pas vous faire de mal. Il est derrière les barreaux. Il vous dit juste bonjour. Pouvez-vous dire bonjour au lion?" Lily était courageuse. Elle s'avança et dit, "Bonjour, lion. Tu es très grand et fort. Mais je n'ai pas peur de toi. J'ai un chien à la maison. C'est mon ami. Il aboie et remue la queue. As-tu un ami, lion?" Le lion regarda Lily
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support