SmolLM3 pretraining datasets - a HuggingFaceTB Collection

HuggingFaceTB 's Collections

SmolLM3 pretraining datasets

SmolLM3 evaluation datasets

Dolma LongAttn Graded

Reasoning datasets

SmolLM2

SmolVLM2 📺 Smallest video LM ever 🤏🏻

📚 LLM pretraining datasets

SmolVLM

🧩 SmolLM2 Intermediate Checkpoints

The Ultimate Collection of Code Classifiers

SmolVLM 256M & 500M

💻 Local SmolLMs

Instruct datasets

🌌 Cosmopedia

Find textbooks in FineWeb with a classifier

FineWeb clustering & synthetic generations

Other: Stanford, OpenStax, khanAcademy, wikihow...

FW generation prompts

Wikipedia Science topics

Wikipedia textbooks

SFT Experiments

Decay mixture experiments

SmolLM3 pretraining datasets

updated Aug 12

datasets used in SmolLM3 pretraining