Accelerating RL for LLM Reasoning with Optimal Advantage Reg - a Cornell-AGI Collection

Cornell-AGI 's Collections

Accelerating RL for LLM Reasoning with Optimal Advantage Reg

Regressing the Relative Future: Efficient Policy Optimizatio

REBEL: Reinforcement Learning via Regressing Relative Reward

Accelerating RL for LLM Reasoning with Optimal Advantage Reg

updated 14 days ago