LLM evals and benchmark datasets
updated
Viewer
•
Updated
•
8.11k
•
7.71k
•
83
Viewer
•
Updated
•
164
•
73.1k
•
264
Viewer
•
Updated
•
541
•
10.4k
•
50
Viewer
•
Updated
•
7.79k
•
205k
•
165
Updated
•
113k
•
59
Viewer
•
Updated
•
12.1k
•
41.8k
•
312
Viewer
•
Updated
•
231k
•
110k
•
373
Viewer
•
Updated
•
1.63k
•
29.1k
•
216
Viewer
•
Updated
•
17.6k
•
212k
•
509
Viewer
•
Updated
•
60k
•
170k
•
105
Updated
•
34.1k
•
53
HuggingFaceH4/mt_bench_prompts
Viewer
•
Updated
•
80
•
156
•
16
Viewer
•
Updated
•
34.6k
•
1.43k
•
108
Viewer
•
Updated
•
95.4k
•
2.33k
•
36