LLM evals and benchmark datasets
updated
Viewer
•
Updated
•
8.11k
•
10.3k
•
100
Viewer
•
Updated
•
164
•
82.9k
•
344
Viewer
•
Updated
•
541
•
34.6k
•
101
Viewer
•
Updated
•
7.79k
•
201k
•
222
Viewer
•
Updated
•
81.4k
•
116k
•
72
Viewer
•
Updated
•
12.1k
•
55.1k
•
389
Viewer
•
Updated
•
231k
•
266k
•
570
Viewer
•
Updated
•
1.63k
•
51.5k
•
264
Viewer
•
Updated
•
17.6k
•
427k
•
921
Viewer
•
Updated
•
60k
•
164k
•
149
Updated
•
12.2k
•
60
HuggingFaceH4/mt_bench_prompts
Viewer
•
Updated
•
80
•
3.58k
•
19
Viewer
•
Updated
•
34.6k
•
1.31k
•
114
Viewer
•
Updated
•
95.4k
•
2.87k
•
88
Viewer
•
Updated
•
3.31k
•
138
•
11
Viewer
•
Updated
•
393k
•
13.3k
•
501