Spaces:
Running
Running
from src.display.utils import ModelType | |
TITLE = """<h1 style="text-align:left;float:left; id="space-title">DeathMath Leaderboard</h1> <h3 style="text-align:left;float:left;"> Оценка моделей на сложных математических и физических задачах </h3>""" | |
INTRODUCTION_TEXT = """ | |
# DeathMath Benchmark | |
DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке. | |
## Что оценивает бенчмарк? | |
- **RussianMath Score**: Оценка способности решать математические задачи на русском языке | |
- **RussianPhysics Score**: Оценка способности решать задачи по физике на русском языке | |
- **Combined Score**: Общая оценка (среднее математики и физики) | |
""" | |
# Определяем переменную icons для использования в EVALUATION_QUEUE_TEXT | |
icons = """ | |
- 🟢 pretrained model: базовые модели | |
- 🟩 continuously pretrained model: модели с продолженным предобучением | |
- 🔶 fine-tuned model: дообученные модели на специфических данных | |
- 💬 chat model: модели для диалогов (RLHF, DPO, IFT) | |
- 🤝 merged model: объединенные модели | |
""" | |
LLM_BENCHMARKS_TEXT = """ | |
## Как запустить бенчмарк DeathMath | |
Для оценки вашей модели на бенчмарке DeathMath вам нужно: | |
### Установка | |
Клонируйте репозиторий DeathMath и установите необходимые зависимости: | |
```bash | |
git clone https://github.com/DeathMath/benchmark.git | |
cd DeathMath | |
pip install -r requirements.txt | |
``` | |
### Запуск | |
Для запуска оценки используйте скрипт runner.py: | |
```bash | |
python runner.py --config configs/run.yaml --model your_model_name_or_path | |
``` | |
### Формат результатов | |
После выполнения оценки, результаты будут сохранены в директории `results/`. Вам нужно будет подготовить JSON файл с результатами в следующем формате: | |
```json | |
{ | |
"score": 0.586, | |
"math_score": 0.8, | |
"physics_score": 0.373, | |
"total_tokens": 1394299, | |
"evaluation_time": 4533.2, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
} | |
``` | |
### Загрузка результатов | |
Загрузите полученный JSON файл через вкладку "Submit Model" на этом лидерборде. | |
### Политика против читерства | |
При обнаружении попыток манипуляции результатами или модификации выходного файла, мы оставляем за собой право удалить ваш результат из лидерборда. | |
""" | |
FAQ_TEXT = """ | |
## Часто задаваемые вопросы | |
### Общие вопросы | |
**Q: Какие типы моделей поддерживаются?** | |
A: Мы поддерживаем любые языковые модели, которые можно запустить локально или через API, и которые могут решать задачи на русском языке. | |
**Q: Как оцениваются модели в бенчмарке?** | |
A: Модели оцениваются по способности решать математические и физические задачи на русском языке. Оценки выставляются на основе правильности решений. | |
### Отправка результатов | |
**Q: Как отправить результаты моей модели?** | |
A: Запустите оценку, подготовьте JSON файл с результатами и загрузите его через вкладку "Submit Model". | |
**Q: Могу ли я обновить результаты моей модели?** | |
A: Да, вы можете отправить новые результаты той же модели, если, например, вы улучшили ее работу. | |
### Технические вопросы | |
**Q: Что делать, если возникли проблемы с запуском оценки?** | |
A: Проверьте правильность установки всех зависимостей и конфигурации. Если проблема не решается, создайте issue в репозитории проекта. | |
**Q: Как проверяются результаты на достоверность?** | |
A: Мы анализируем распределение результатов и подозрительные результаты могут быть проверены дополнительно. | |
""" | |
EVALUATION_QUEUE_TEXT = f""" | |
# Evaluation Queue for the 🤗 Open LLM Leaderboard | |
Models added here will be automatically evaluated on the 🤗 cluster. | |
## Don't forget to read the FAQ and the About tabs for more information! | |
## First steps before submitting a model | |
### 1) Make sure you can load your model and tokenizer using AutoClasses: | |
```python | |
from transformers import AutoConfig, AutoModel, AutoTokenizer | |
config = AutoConfig.from_pretrained("your model name", revision=revision) | |
model = AutoModel.from_pretrained("your model name", revision=revision) | |
tokenizer = AutoTokenizer.from_pretrained("your model name", revision=revision) | |
``` | |
If this step fails, follow the error messages to debug your model before submitting it. It's likely your model has been improperly uploaded. | |
Note: make sure your model is public! | |
Note: if your model needs `use_remote_code=True`, we do not support this option yet but we are working on adding it, stay posted! | |
### 2) Convert your model weights to [safetensors](https://huggingface.co/docs/safetensors/index) | |
It's a new format for storing weights which is safer and faster to load and use. It will also allow us to add the number of parameters of your model to the `Extended Viewer`! | |
### 3) Make sure your model has an open license! | |
This is a leaderboard for Open LLMs, and we'd love for as many people as possible to know they can use your model 🤗 | |
### 4) Fill up your model card | |
When we add extra information about models to the leaderboard, it will be automatically taken from the model card | |
### 5) Select the correct precision | |
Not all models are converted properly from `float16` to `bfloat16`, and selecting the wrong precision can sometimes cause evaluation error (as loading a `bf16` model in `fp16` can sometimes generate NaNs, depending on the weight range). | |
<b>Note:</b> Please be advised that when submitting, git <b>branches</b> and <b>tags</b> will be strictly tied to the <b>specific commit</b> present at the time of submission. This ensures revision consistency. | |
## Model types | |
{icons} | |
""" | |
CITATION_BUTTON_LABEL = "Цитирование бенчмарка DeathMath" | |
CITATION_BUTTON_TEXT = r""" | |
@misc{deathmathbenchmark, | |
title = {DeathMath: A Benchmark for Mathematical and Physics Problem Solving in Russian}, | |
year = {2025}, | |
publisher = {DeathMath Team}, | |
howpublished = {\url{https://huggingface.co/spaces/DeathMath/leaderboard}} | |
} | |
""" | |