R1-Reward - a yifanzhang114 Collection

yifanzhang114 's Collections

MM-RLHF

SliME

R1-Reward

updated May 6

Training Multimodal Reward Model Through Stable Reinforcement Learning

yifanzhang114/R1-Reward-RL

Viewer • Updated Jun 9 • 17.3k • 238 • 3
yifanzhang114/R1-Reward

8B • Updated May 9 • 82 • 6
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

Paper • 2505.02835 • Published May 5 • 27