prometheus-eval

university

AI & ML interests

None defined yet.

Recent Activity

seungone authored a paper 7 days ago

Measuring Sycophancy of Language Models in Multi-turn Dialogues

seungone authored a paper 7 days ago

Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

seungone authored a paper 7 days ago

OptimalThinkingBench: Evaluating Over and Underthinking in LLMs

View all activity

prometheus-eval 's datasets 25

prometheus-eval/nature_papers_1202

Viewer • Updated Dec 2, 2025 • 31.6k • 1.08k

prometheus-eval/nature_crawled_papers_1202

Viewer • Updated Dec 2, 2025 • 992

prometheus-eval/nature_papers_1125

Updated Nov 25, 2025 • 773

prometheus-eval/nature_crawled_papers_1125

Viewer • Updated Nov 25, 2025 • 6.2k • 46

prometheus-eval/figure_workspace

Preview • Updated Nov 24, 2025 • 2

prometheus-eval/pdf_workspace

Viewer • Updated Nov 23, 2025 • 1k • 161

prometheus-eval/nature_crawled

Preview • Updated Nov 23, 2025

prometheus-eval/nature_papers_1121

Viewer • Updated Nov 21, 2025 • 2.81k • 2

prometheus-eval/nature_papers_1120

Viewer • Updated Nov 21, 2025 • 2.81k

prometheus-eval/bon_n8_setting_mmlu_pro_econ_eng_law_200

Viewer • Updated Jul 29, 2025 • 9.6k • 7

prometheus-eval/bon_setting_mmlu_pro_econ_eng_law_200

Viewer • Updated Jul 29, 2025 • 76.8k • 7

prometheus-eval/BiGGen-Bench

Viewer • Updated Apr 3, 2025 • 765 • 109 • 16

prometheus-eval/filtered_bon_setting_deepseek_distill_7b

Viewer • Updated Mar 7, 2025 • 7.23k • 7

prometheus-eval/filtered_bon_setting_64

Viewer • Updated Mar 2, 2025 • 305k • 35

prometheus-eval/outcome_meta_evaluation

Viewer • Updated Jan 27, 2025 • 18.1k • 24 • 2

prometheus-eval/outcome_meta_evaluation_heuristic

Viewer • Updated Jan 18, 2025 • 18.1k • 9

prometheus-eval/MMQA

Viewer • Updated Nov 18, 2024 • 330 • 43 • 3

prometheus-eval/MM-Eval

Viewer • Updated Oct 26, 2024 • 11.1k • 94 • 5

prometheus-eval/BiGGen-Bench-Results

Viewer • Updated Aug 12, 2024 • 76.6k • 292 • 11

prometheus-eval/Preference-Collection

Viewer • Updated May 3, 2024 • 200k • 88 • 37

prometheus-eval/Preference-Bench

Viewer • Updated Apr 6, 2024 • 2k • 23 • 2

prometheus-eval/Feedback-Bench

Viewer • Updated Apr 6, 2024 • 1k • 50 • 4

prometheus-eval/Perception-Bench

Viewer • Updated Jan 15, 2024 • 500 • 89 • 4

prometheus-eval/Perception-Collection

Viewer • Updated Jan 15, 2024 • 150k • 136 • 8

prometheus-eval/Feedback-Collection

Viewer • Updated Oct 14, 2023 • 100k • 1.1k • 116