Benchmark - a JuanRafap Collection

JuanRafap 's Collections

Bim

Dataset

Agent

Library

Models

Benchmark

updated 1 day ago

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

Paper • 2505.13227 • Published May 19 • 46
facebook/natural_reasoning

Viewer • Updated Feb 21 • 1.15M • 1.56k • 516
nvidia/OpenMathReasoning

Viewer • Updated May 27 • 5.68M • 9.13k • 328
Search Arena: Analyzing Search-Augmented LLMs

Paper • 2506.05334 • Published Jun 5 • 17
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

Paper • 2506.07977 • Published Jun 9 • 41
google/frames-benchmark

Viewer • Updated Oct 15, 2024 • 824 • 2.5k • 221
LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?

Paper • 2506.11928 • Published Jun 13 • 24
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

Paper • 2506.15569 • Published Jun 18 • 13
MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

Paper • 2506.14028 • Published Jun 16 • 92
DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

Paper • 2506.11763 • Published Jun 13 • 69
VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

Paper • 2506.09049 • Published Jun 10 • 36
yandex/alchemist

Viewer • Updated Jun 6 • 3.35k • 303 • 44
Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers

Paper • 2507.02694 • Published Jul 3 • 18
REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once

Paper • 2507.10541 • Published Jul 14 • 29
HuggingFaceTB/SmolLM3-3B-Base

Text Generation • 3B • Updated 10 days ago • 11.9k • 117
AgentsNet: Coordination and Collaborative Reasoning in Multi-Agent LLMs

Paper • 2507.08616 • Published Jul 11 • 13
The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations

Paper • 2507.13302 • Published Jul 17 • 4
SWE-Perf/SWE-Perf

Viewer • Updated 20 days ago • 140 • 975 • 6
AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

Paper • 2507.13300 • Published Jul 17 • 16
DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering

Paper • 2507.11527 • Published Jul 15 • 31
Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

Paper • 2507.10787 • Published Jul 14 • 11
WideSearch: Benchmarking Agentic Broad Info-Seeking

Paper • 2508.07999 • Published 13 days ago • 104
MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

Paper • 2508.13186 • Published 10 days ago • 16