File size: 2,606 Bytes
a359f3e
6043b47
 
 
 
a359f3e
6043b47
a359f3e
 
72b1880
a359f3e
6043b47
6ee7257
 
 
 
 
 
2d440ee
6ee7257
 
 
2d440ee
6ee7257
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
---
title: DOoM Leaderboard
emoji: 🔢
colorFrom: indigo
colorTo: purple
sdk: gradio
sdk_version: "4.20.0"
app_file: app.py
pinned: false
hf_oauth: true
---
app_file: app.py
# DeathMath Leaderboard

DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке.

## Текущий лидерборд

Последнее обновление: 2025-04-20 20:46:25

| Модель | Общий балл | Математика | Физика | Токены | Время оценки |
|--------|------------|------------|---------|---------|--------------|
| o3 | 0.621 | 0.868 | 0.373 | 1,251,746 | 4609.1s |
| o3-mini-high | 0.601 | 0.847 | 0.355 | 2,455,126 | 4015.4s |
| o4-mini-high | 0.591 | 0.863 | 0.318 | 1,898,964 | 4623.6s |
| Gemini 2.5 Pro Preview | 0.586 | 0.800 | 0.373 | 1,394,299 | 4533.2s |
| Gemini 2.0 Flash | 0.422 | 0.553 | 0.291 | 731,337 | 857.6s |
| gpt-4.1 | 0.386 | 0.563 | 0.209 | 405,803 | 1918.8s |
| Claude 3.7 Sonnet | 0.368 | 0.526 | 0.209 | 398,016 | 1095.8s |
| Claude 3.5 Sonnet | 0.339 | 0.432 | 0.245 | 222,241 | 670.5s |
| Gemma 3 27B | 0.321 | 0.468 | 0.173 | 357,617 | 2030.3s |
| Gemma 3 12B | 0.298 | 0.442 | 0.155 | 441,055 | 3916.3s |
| Qwen2.5 72B Instruct | 0.278 | 0.384 | 0.173 | 366,729 | 2460.1s |
| gpt-4o | 0.262 | 0.405 | 0.118 | 468,809 | 1078.4s |
| DeepSeek V3 0324 | 0.132 | 0.174 | 0.091 | 359,162 | 4257.7s |
| Gemma 3 4B | 0.124 | 0.221 | 0.027 | 572,095 | 1682.7s |

## Как принять участие в бенчмарке

Для участия в бенчмарке DeathMath:

1. Клонируйте репозиторий и запустите тесты вашей модели
2. Загрузите результаты через [HuggingFace Space](https://huggingface.co/spaces/Vikhrmodels/DeathMath-leaderboard)
3. Дождитесь проверки и добавления результатов в лидерборд

## Формат результатов

Результаты должны быть в формате JSON со следующей структурой:
```json
{
  "score": 0.586,
  "math_score": 0.8,
  "physics_score": 0.373,
  "total_tokens": 1394299,
  "evaluation_time": 4533.2,
  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
}
```

## Лицензия

Бенчмарк распространяется под лицензией Apache 2.0