📚 Humanities - Dataset (Pre-training)
En création pour Vera 1.0 & Vera-Nano 1.0...
Viewer • Updated • 20k • 28Note Un corpus de 10 000 textes en français explorant les grandes traditions religieuses, leurs origines, figures clés et pratiques, destiné à enrichir les modèles en compréhension des discours religieux.
Dorian2B/french-geography-10K
Viewer • Updated • 19k • 26Note Corpus synthétique de 10 000 échantillons couvrant les notions fondamentales de géographie physique et humaine, destiné au pré-entraînement de modèles francophones.
Dorian2B/french-literature-10K
Viewer • Updated • 19k • 24Note Ce corpus offre une exploration riche, structurée et contextuelle des grandes œuvres, courants et thématiques de la littérature française, de l’Humanisme à la période contemporaine.
Dorian2B/french-philosophy-10K
Viewer • Updated • 20k • 16Note Jeu de données de 10 000 échantillons synthétiques centrés sur les grands courants et auteurs de la philosophie française et occidentale, pour affiner le raisonnement conceptuel des LLM.
Dorian2B/french-history-5K
Viewer • Updated • 10k • 21Note Corpus de 5 000 textes historiques français couvrant des périodes et événements majeurs, pour renforcer la connaissance historique des modèles.