Reward Bench - a allenai Collection

allenai 's Collections

MolmoAct Data Mixture

IFBench

OLMo 2

olmOCR

OLMoE (January 2025)

PixMo

Tulu 3 Datasets

Molmo

OLMoE (November 2024)

Tulu V2.5 Suite

Paloma

SciRIFF

AI2 Safety Toolkit

Zebra Logic Bench

OLMo 2 Preview Post-trained Models

ACE

Reward Bench

updated Apr 30

Datasets, spaces, and models for the reward model benchmark!

Running

393

393

Reward Bench Leaderboard

📐

Display and analyze reward model evaluation results
allenai/reward-bench

Viewer • Updated Sep 9, 2024 • 8.11k • 8.8k • 98
allenai/preference-test-sets

Viewer • Updated Mar 14, 2024 • 43.2k • 1.19k • 26
allenai/reward-bench-results

Updated May 7 • 1.18k • 3
RewardBench: Evaluating Reward Models for Language Modeling

Paper • 2403.13787 • Published Mar 20, 2024 • 23