Spaces:
Running
Running
File size: 2,606 Bytes
a359f3e 6043b47 a359f3e 6043b47 a359f3e 72b1880 a359f3e 6043b47 6ee7257 2d440ee 6ee7257 2d440ee 6ee7257 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 |
---
title: DOoM Leaderboard
emoji: 🔢
colorFrom: indigo
colorTo: purple
sdk: gradio
sdk_version: "4.20.0"
app_file: app.py
pinned: false
hf_oauth: true
---
app_file: app.py
# DeathMath Leaderboard
DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке.
## Текущий лидерборд
Последнее обновление: 2025-04-20 20:46:25
| Модель | Общий балл | Математика | Физика | Токены | Время оценки |
|--------|------------|------------|---------|---------|--------------|
| o3 | 0.621 | 0.868 | 0.373 | 1,251,746 | 4609.1s |
| o3-mini-high | 0.601 | 0.847 | 0.355 | 2,455,126 | 4015.4s |
| o4-mini-high | 0.591 | 0.863 | 0.318 | 1,898,964 | 4623.6s |
| Gemini 2.5 Pro Preview | 0.586 | 0.800 | 0.373 | 1,394,299 | 4533.2s |
| Gemini 2.0 Flash | 0.422 | 0.553 | 0.291 | 731,337 | 857.6s |
| gpt-4.1 | 0.386 | 0.563 | 0.209 | 405,803 | 1918.8s |
| Claude 3.7 Sonnet | 0.368 | 0.526 | 0.209 | 398,016 | 1095.8s |
| Claude 3.5 Sonnet | 0.339 | 0.432 | 0.245 | 222,241 | 670.5s |
| Gemma 3 27B | 0.321 | 0.468 | 0.173 | 357,617 | 2030.3s |
| Gemma 3 12B | 0.298 | 0.442 | 0.155 | 441,055 | 3916.3s |
| Qwen2.5 72B Instruct | 0.278 | 0.384 | 0.173 | 366,729 | 2460.1s |
| gpt-4o | 0.262 | 0.405 | 0.118 | 468,809 | 1078.4s |
| DeepSeek V3 0324 | 0.132 | 0.174 | 0.091 | 359,162 | 4257.7s |
| Gemma 3 4B | 0.124 | 0.221 | 0.027 | 572,095 | 1682.7s |
## Как принять участие в бенчмарке
Для участия в бенчмарке DeathMath:
1. Клонируйте репозиторий и запустите тесты вашей модели
2. Загрузите результаты через [HuggingFace Space](https://huggingface.co/spaces/Vikhrmodels/DeathMath-leaderboard)
3. Дождитесь проверки и добавления результатов в лидерборд
## Формат результатов
Результаты должны быть в формате JSON со следующей структурой:
```json
{
"score": 0.586,
"math_score": 0.8,
"physics_score": 0.373,
"total_tokens": 1394299,
"evaluation_time": 4533.2,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
}
```
## Лицензия
Бенчмарк распространяется под лицензией Apache 2.0
|