Spaces:
Running
Running
title: DOoM Leaderboard | |
emoji: 🔢 | |
colorFrom: indigo | |
colorTo: purple | |
sdk: gradio | |
sdk_version: "4.20.0" | |
app_file: app.py | |
pinned: false | |
hf_oauth: true | |
app_file: app.py | |
# DeathMath Leaderboard | |
DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке. | |
## Текущий лидерборд | |
Последнее обновление: 2025-04-20 20:46:25 | |
| Модель | Общий балл | Математика | Физика | Токены | Время оценки | | |
|--------|------------|------------|---------|---------|--------------| | |
| o3 | 0.621 | 0.868 | 0.373 | 1,251,746 | 4609.1s | | |
| o3-mini-high | 0.601 | 0.847 | 0.355 | 2,455,126 | 4015.4s | | |
| o4-mini-high | 0.591 | 0.863 | 0.318 | 1,898,964 | 4623.6s | | |
| Gemini 2.5 Pro Preview | 0.586 | 0.800 | 0.373 | 1,394,299 | 4533.2s | | |
| Gemini 2.0 Flash | 0.422 | 0.553 | 0.291 | 731,337 | 857.6s | | |
| gpt-4.1 | 0.386 | 0.563 | 0.209 | 405,803 | 1918.8s | | |
| Claude 3.7 Sonnet | 0.368 | 0.526 | 0.209 | 398,016 | 1095.8s | | |
| Claude 3.5 Sonnet | 0.339 | 0.432 | 0.245 | 222,241 | 670.5s | | |
| Gemma 3 27B | 0.321 | 0.468 | 0.173 | 357,617 | 2030.3s | | |
| Gemma 3 12B | 0.298 | 0.442 | 0.155 | 441,055 | 3916.3s | | |
| Qwen2.5 72B Instruct | 0.278 | 0.384 | 0.173 | 366,729 | 2460.1s | | |
| gpt-4o | 0.262 | 0.405 | 0.118 | 468,809 | 1078.4s | | |
| DeepSeek V3 0324 | 0.132 | 0.174 | 0.091 | 359,162 | 4257.7s | | |
| Gemma 3 4B | 0.124 | 0.221 | 0.027 | 572,095 | 1682.7s | | |
## Как принять участие в бенчмарке | |
Для участия в бенчмарке DeathMath: | |
1. Клонируйте репозиторий и запустите тесты вашей модели | |
2. Загрузите результаты через [HuggingFace Space](https://huggingface.co/spaces/Vikhrmodels/DeathMath-leaderboard) | |
3. Дождитесь проверки и добавления результатов в лидерборд | |
## Формат результатов | |
Результаты должны быть в формате JSON со следующей структурой: | |
```json | |
{ | |
"score": 0.586, | |
"math_score": 0.8, | |
"physics_score": 0.373, | |
"total_tokens": 1394299, | |
"evaluation_time": 4533.2, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
} | |
``` | |
## Лицензия | |
Бенчмарк распространяется под лицензией Apache 2.0 | |