andrewzh2
/

Absolute_Zero_Reasoner-Base-7b

Safetensors

qwen2

Model card Files Files and versions Community

Create README.md

by ox-ox - opened May 8

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

+79

-0

Files changed (1) hide show

README.md +79 -0

README.md ADDED Viewed

	@@ -0,0 +1,79 @@

+---
+license: mit # Ou autre licence si spécifiée par le dépôt/papier
+tags:
+- qwen2
+- code-reasoning
+- math-reasoning
+- reinforcement-learning
+- self-play
+- absolute-zero
+- rlvr
+- azr
+---
+# Absolute_Zero_Reasoner-Base-7b
+Ce modèle est une instance de l'**Absolute Zero Reasoner (AZR)**, basé sur le modèle **Qwen2.5-7B**, entraîné selon le paradigme **Absolute Zero** décrit dans le papier suivant :
+**Absolute Zero: Reinforced Self-play Reasoning with Zero Data**
+*Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, and Gao Huang*
+*arXiv:2505.03335 [cs.LG]*
+[[Papier ArXiv](https://arxiv.org/abs/2505.03335)] [[Code](URL_DU_CODE_SI_DISPONIBLE)] [[Projet](URL_DU_PROJET_SI_DISPONIBLE)]
+## Résumé du Papier (Adapté)
+L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a montré des promesses pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs) en apprenant directement à partir de récompenses basées sur les résultats. Les travaux récents en RLVR dans le cadre "zéro" évitent la supervision pour l'étiquetage du processus de raisonnement, mais dépendent toujours de collections de questions-réponses organisées manuellement pour l'entraînement. La rareté d'exemples de haute qualité produits par l'homme soulève des inquiétudes quant à la scalabilité à long terme de la dépendance à la supervision humaine.
+Pour répondre à ces préoccupations, nous proposons un nouveau paradigme RLVR appelé **Absolute Zero**, dans lequel un seul modèle apprend à proposer des tâches qui maximisent sa propre progression d'apprentissage et améliore son raisonnement en les résolvant, **sans dépendre d'aucune donnée externe**.
+Sous ce paradigme, nous introduisons l'**Absolute Zero Reasoner (AZR)**, un système qui fait évoluer de manière autonome son curriculum d'entraînement et sa capacité de raisonnement en utilisant un exécuteur de code pour à la fois valider les tâches de raisonnement de code proposées et vérifier les réponses, servant de source unifiée de récompense vérifiable pour guider un apprentissage ouvert mais ancré.
+## Description du Modèle
+`Absolute_Zero_Reasoner-Base-7b` est une version du modèle Qwen2.5-7B entraînée avec l'approche AZR.
+* **Paradigme d'Entraînement :** Absolute Zero (Auto-génération de tâches et résolution par auto-jeu).
+* **Données d'Entraînement :** **AUCUNE donnée externe.** Le modèle génère ses propres tâches de raisonnement basées sur du code (déduction, abduction, induction) et apprend à partir des résultats vérifiés par un exécuteur de code Python.
+* **Algorithme RL :** Task-Relative REINFORCE++ (TRR++).
+* **Modèle de Base :** Qwen2.5-7B.
+## Performance
+Bien qu'entraîné entièrement sans données externes spécifiques au domaine, AZR (dans ses différentes tailles et variantes de base) a démontré :
+* Des performances globales **état de l'art (SOTA)** sur les tâches de codage et de raisonnement mathématique, surpassant les modèles existants en configuration "zéro" qui reposent sur des dizaines de milliers d'exemples organisés par des humains dans le domaine (voir Table 1 du papier). La version 7B-Coder, en particulier, a montré des gains significatifs.
+* Une **forte généralisation inter-domaines** (les améliorations sur les tâches de code transfèrent bien aux mathématiques, et vice-versa, mieux que les approches RLVR standard). La version 7B-Base a gagné +10.9 points en maths et la version 7B-Coder +15.2 points (Table 1).
+* Les **gains de performance augmentent avec la taille** du modèle de base (Figure 6b du papier).
+* Des **comportements émergents** tels que la planification intermédiaire via des commentaires dans le code généré (Figure 19 du papier).
+*Consultez le papier [arXiv:2505.03335](https://arxiv.org/abs/2505.03335) pour les résultats détaillés, notamment les scores spécifiques du modèle 7B.*
+## Comment Utiliser
+Ce modèle est un checkpoint résultant d'un entraînement par auto-jeu RL selon le paradigme Absolute Zero. Son utilisation directe avec des pipelines `transformers` standards peut ne pas capturer le processus complet d'auto-jeu (proposition + résolution).
+Il est principalement destiné à :
+* La **recherche** sur l'IA auto-améliorante et l'apprentissage sans données externes.
+* Servir de **point de départ** pour un entraînement AZR ultérieur ou une analyse des capacités de raisonnement émergentes.
+* Être utilisé dans le cadre du **code source officiel AZR** (si disponible) qui implémente la boucle d'auto-jeu.
+```python
+# Exemple de chargement de base (peut nécessiter le code AZR pour une utilisation complète)
+from transformers import AutoModelForCausalLM, AutoTokenizer
+model_name = "andrewzh2/Absolute_Zero_Reasoner-Base-7b" # Assurez-vous que le nom est correct
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_name)
+# L'utilisation pour l'inférence nécessiterait de connaître le format de prompt
+# spécifique utilisé pendant l'entraînement AZR (voir Figures 33-39 dans le papier)
+# et potentiellement la logique de l'environnement (code executor).
+Usage PrévuRecherche fondamentale en IA et raisonnement.Tâches de raisonnement générales, en particulier en codage et mathématiques, dans le contexte du framework AZR.Limitations et BiaisCe modèle partage les limitations standards des LLMs (erreurs factuelles potentielles, reflets des biais des données de pré-entraînement du modèle de base Qwen2.5-7B).Le papier mentionne l'émergence de raisonnements potentiellement préoccupants ("uh-oh moment") avec la variante Llama3.1-8B, soulignant le besoin de recherches futures sur la sécurité dans les systèmes auto-améliorants (voir Figure 32 du papier). Ce comportement n'a pas été explicitement rapporté pour les modèles Qwen, mais la prudence est de mise.Les performances sont optimales pour les tâches de raisonnement basées sur le code, car c'était l'environnement d'entraînement. La généralisation à d'autres domaines est observée mais peut varier.Ne pas utiliser pour des applications critiques sans supervision humaine adéquate.CitationSi vous utilisez ce modèle ou l'approche Absolute Zero dans vos recherches, merci de citer le papier original :@misc{zhao2025absolute,
+      title={Absolute Zero: Reinforced Self-play Reasoning with Zero Data},
+      author={Andrew Zhao and Yiran Wu and Yang Yue and Tong Wu and Quentin Xu and Yang Yue and Matthieu Lin and Shenzhi Wang and Qingyun Wu and Zilong Zheng and Gao Huang},
+      year={2025},
+      eprint={2505.03335},
+      archivePrefix={arXiv},
+      primaryClass={cs.LG}
+}