# DeathMath Leaderboard DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке. ## Текущий лидерборд Последнее обновление: 2025-04-20 16:33:11 | Модель | Общий балл | Математика | Физика | Токены | Время оценки | |--------|------------|------------|---------|---------|--------------| | o3-mini-high | 0.601 | 0.847 | 0.355 | 2,455,126 | 4015.4s | | o4-mini-high | 0.591 | 0.863 | 0.318 | 1,898,964 | 4623.6s | | Gemini 2.5 Pro Preview | 0.586 | 0.800 | 0.373 | 1,394,299 | 4533.2s | | Gemini 2.0 Flash | 0.422 | 0.553 | 0.291 | 731,337 | 857.6s | | gpt-4.1 | 0.386 | 0.563 | 0.209 | 405,803 | 1918.8s | | Claude 3.7 Sonnet | 0.368 | 0.526 | 0.209 | 398,016 | 1095.8s | | Claude 3.5 Sonnet | 0.339 | 0.432 | 0.245 | 222,241 | 670.5s | | Gemma 3 27B | 0.321 | 0.468 | 0.173 | 357,617 | 2030.3s | | Gemma 3 12B | 0.298 | 0.442 | 0.155 | 441,055 | 3916.3s | | Qwen2.5 72B Instruct | 0.278 | 0.384 | 0.173 | 366,729 | 2460.1s | | gpt-4o | 0.262 | 0.405 | 0.118 | 468,809 | 1078.4s | | GigaChat-2-Max | 0.250 | 0.326 | 0.173 | 220,487 | 1006.2s | | GigaChat-2-Pro | 0.209 | 0.326 | 0.091 | 212,196 | 1002.6s | | GigaChat-Max | 0.139 | 0.179 | 0.100 | 201,090 | 978.8s | | DeepSeek V3 0324 | 0.132 | 0.174 | 0.091 | 359,162 | 4257.7s | | Gemma 3 4B | 0.124 | 0.221 | 0.027 | 572,095 | 1682.7s | | GigaChat-2 | 0.094 | 0.142 | 0.045 | 299,747 | 834.7s | ## Как принять участие в бенчмарке Для участия в бенчмарке DeathMath: 1. Клонируйте репозиторий и запустите тесты вашей модели 2. Загрузите результаты через [HuggingFace Space](https://huggingface.co/spaces/Vikhrmodels/DeathMath-leaderboard) 3. Дождитесь проверки и добавления результатов в лидерборд ## Формат результатов Результаты должны быть в формате JSON со следующей структурой: ```json { "score": 0.586, "math_score": 0.8, "physics_score": 0.373, "total_tokens": 1394299, "evaluation_time": 4533.2, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." } ``` ## Лицензия Бенчмарк распространяется под лицензией Apache 2.0