📝 Cool LLM papers - a anakin87 Collection

anakin87 's Collections

Qwen Scheduler GRPO

Gemma Neogenesis 💎🌍🇮🇹

📝 Cool LLM papers

🇮🇹 Italian Merges

📝 Cool LLM papers

updated Apr 25

Starting from 2024-11-15

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Paper • 2504.13837 • Published Apr 18 • 134
Understanding R1-Zero-Like Training: A Critical Perspective

Paper • 2503.20783 • Published Mar 26 • 57
Inference-Time Scaling for Generalist Reward Modeling

Paper • 2504.02495 • Published Apr 3 • 57
Large Language Diffusion Models

Paper • 2502.09992 • Published Feb 14 • 123
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

Paper • 2502.02737 • Published Feb 4 • 242
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

Paper • 2501.18511 • Published Jan 30 • 20
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 374
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Paper • 2412.11605 • Published Dec 16, 2024 • 18
Running

584

584

Scaling test-time compute

📈

Implement test-time compute scaling for math problems
Reverse Thinking Makes LLMs Stronger Reasoners

Paper • 2411.19865 • Published Nov 29, 2024 • 23
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Paper • 2411.15124 • Published Nov 22, 2024 • 66
Scaling Laws for Precision

Paper • 2411.04330 • Published Nov 7, 2024 • 8
LoRA vs Full Fine-tuning: An Illusion of Equivalence

Paper • 2410.21228 • Published Oct 28, 2024 • 2
Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback

Paper • 2406.09279 • Published Jun 13, 2024 • 3
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

Paper • 2404.14367 • Published Apr 22, 2024 • 1
Direct Language Model Alignment from Online AI Feedback

Paper • 2402.04792 • Published Feb 7, 2024 • 34
Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

Paper • 2404.10719 • Published Apr 16, 2024 • 6