Spaces:

Vikhrmodels
/

DOoM-lb

Running

App Files Files Community

Anonumous commited on 14 days ago

Commit

9bc963b

1 Parent(s): 145f674

Refactor file submission logic and enhance error handling in submit_file function; update leaderboard and README generation

Browse files

Files changed (1) hide show

app.py +233 -95

app.py CHANGED Viewed

@@ -20,31 +20,73 @@ def handle_file_upload(file):
     with open(file.name, "r") as f:
         v = json.load(f)
     return v, file_path
 def submit_file(v, file_path, mn, profile: gr.OAuthProfile | None):
     if profile is None:
-        return "Hub Login Required"
-    new_file = v['results']
-    new_file['model'] = profile.username + "/" + mn
-    new_file['moviesmc'] = new_file['moviemc']["acc,none"]
-    new_file['musicmc'] = new_file['musicmc']["acc,none"]
-    new_file['booksmc'] = new_file['bookmc']["acc,none"]
-    new_file['mmluproru'] = new_file['mmluproru']["acc,none"]
-    new_file['lawmc'] = new_file['lawmc']["acc,none"]
-    new_file['model_dtype'] = v['config']["model_dtype"]
-    new_file['ppl'] = 0
-    new_file.pop('moviemc')
-    new_file.pop('bookmc')
-    buf = BytesIO()
-    buf.write(json.dumps(new_file).encode('utf-8'))
-    API.upload_file(
-        path_or_fileobj=buf,
-        path_in_repo="model_data/external/" + profile.username+mn + ".json",
-        repo_id="Vikhrmodels/s-openbench-eval",
-        repo_type="dataset",
-    )
-    os.environ[RESET_JUDGEMENT_ENV] = "1"
-    return "Success!"
 from src.display.about import (
     INTRODUCTION_TEXT,
@@ -198,88 +240,183 @@ def build_demo():
 def update_board():
     need_reset = os.environ.get(RESET_JUDGEMENT_ENV)
-    logging.info("Updating the judgement: %s", need_reset)
     if need_reset != "1":
-        # return
-        pass
     os.environ[RESET_JUDGEMENT_ENV] = "0"
-    # `shutil.rmtree("./m_data")` is a Python command that removes a directory and all its contents
-    # recursively. In this specific context, it is used to delete the directory named "m_data" along
-    # with all its files and subdirectories. This command helps in cleaning up the existing data in
-    # the "m_data" directory before downloading new dataset files into it.
-    # shutil.rmtree("./m_data")
-    # shutil.rmtree("./data")
-    download_dataset("Vikhrmodels/s-openbench-eval", "m_data")
-    data_list = [{"musicmc": 0.3021276595744681, "lawmc": 0.2800829875518672, "model": "apsys/saiga_3_8b", "moviesmc": 0.3472222222222222, "booksmc": 0.2800829875518672, "model_dtype": "torch.float16", "ppl": 0, 'mmluproru':0}]
-    for file in glob.glob("./m_data/model_data/external/*.json"):
-        with open(file) as f:
             try:
-                data = json.load(f)
-                data_list.append(data)
             except Exception as e:
-                pass # data was badly formatted, should not fail
-    print("DATALIST,", data_list)
-    if len(data_list)>1:
-        data_list.pop(0)
-    if len(data_list)>4:
-        with open("genned.json", "w") as f:
-            json.dump(data_list, f)
-        API.upload_file(
                 path_or_fileobj="genned.json",
                 path_in_repo="leaderboard.json",
-                repo_id="Vikhrmodels/s-shlepa-metainfo",
                 repo_type="dataset",
         )
-    restart_space()
-    # gen_judgement_file = os.path.join(HF_HOME, "src/gen/gen_judgement.py")
-    # subprocess.run(["python3", gen_judgement_file], check=True)
 def update_board_():
-    need_reset = os.environ.get(RESET_JUDGEMENT_ENV)
-    logging.info("Updating the judgement: %s", need_reset)
-    if need_reset != "1":
-        # return
-        pass
-    os.environ[RESET_JUDGEMENT_ENV] = "0"
-    # `shutil.rmtree("./m_data")` is a Python command that removes a directory and all its contents
-    # recursively. In this specific context, it is used to delete the directory named "m_data" along
-    # with all its files and subdirectories. This command helps in cleaning up the existing data in
-    # the "m_data" directory before downloading new dataset files into it.
-    # shutil.rmtree("./m_data")
-    # shutil.rmtree("./data")
-    download_dataset("Vikhrmodels/s-openbench-eval", "m_data")
-    data_list = [{"musicmc": 0.3021276595744681, "lawmc": 0.2800829875518672, "model": "apsys/saiga_3_8b", "moviesmc": 0.3472222222222222, "booksmc": 0.2800829875518672, "model_dtype": "torch.float16", "ppl": 0, 'mmluproru':0}]
-    for file in glob.glob("./m_data/model_data/external/*.json"):
-        with open(file) as f:
-            try:
-                data = json.load(f)
-                data_list.append(data)
-            except Exception as e:
-                pass # data was badly formatted, should not fail
-    print("DATALIST,", data_list)
-    if len(data_list)>1:
-        data_list.pop(0)
-    if len(data_list)>4:
-        with open("genned.json", "w") as f:
-            json.dump(data_list, f)
-        API.upload_file(
-                path_or_fileobj="genned.json",
-                path_in_repo="leaderboard.json",
-                repo_id="Vikhrmodels/s-shlepa-metainfo",
-                repo_type="dataset",
-        )
 if __name__ == "__main__":
     os.environ[RESET_JUDGEMENT_ENV] = "1"
@@ -290,4 +427,5 @@ if __name__ == "__main__":
     scheduler.start()
     demo_app = build_demo()
-    demo_app.launch(debug=True,share=True)

     with open(file.name, "r") as f:
         v = json.load(f)
     return v, file_path
 def submit_file(v, file_path, mn, profile: gr.OAuthProfile | None):
+    """
+    Обрабатывает загрузку файлов с результатами пользовательских моделей
+    Args:
+        v: Загруженные данные результатов из JSON
+        file_path: Путь к загруженному файлу
+        mn: Имя модели, указанное пользователем
+        profile: Профиль пользователя HuggingFace
+    Returns:
+        str: Сообщение об успехе или ошибке
+    """
     if profile is None:
+        return "Hub Login Required: Войдите в HuggingFace, чтобы загрузить результаты"
+    try:
+        # Проверяем наличие обязательных полей
+        required_fields = ["score", "math_score", "physics_score"]
+        for field in required_fields:
+            if field not in v:
+                return f"Error: Отсутствует обязательное поле '{field}' в JSON файле"
+        # Создаем новый объект для сохранения в базе данных
+        new_file = {
+            "model_name": profile.username + "/" + mn,
+            "score": float(v["score"]),
+            "math_score": float(v["math_score"]),
+            "physics_score": float(v["physics_score"]),
+            "total_tokens": int(v.get("total_tokens", 0)),
+            "evaluation_time": float(v.get("evaluation_time", 0.0)),
+            "system_prompt": v.get("system_prompt", "Вы - полезный помощник по математике и физике. Ответьте на русском языке.")
+        }
+        # Проверка значений на корректность
+        if not (0 <= new_file["score"] <= 1 and
+                0 <= new_file["math_score"] <= 1 and
+                0 <= new_file["physics_score"] <= 1):
+            return "Error: Все значения оценок должны быть в диапазоне от 0 до 1"
+        # Создаем уникальное имя файла на основе username и имени модели
+        safe_filename = profile.username + "_" + mn.replace("/", "_").replace(" ", "_") + ".json"
+        # Создаем JSON в памяти и загружаем его в репозиторий
+        buf = BytesIO()
+        buf.write(json.dumps(new_file, ensure_ascii=False).encode('utf-8'))
+        # Загружаем файл в репозиторий
+        API.upload_file(
+            path_or_fileobj=buf,
+            path_in_repo="model_data/external/" + safe_filename,
+            repo_id="Vikhrmodels/DeathMath-leaderboard-data",
+            repo_type="dataset",
+        )
+        # Устанавливаем флаг для обновления лидерборда
+        os.environ[RESET_JUDGEMENT_ENV] = "1"
+        # Логируем успешную загрузку
+        logging.info(f"Successfully uploaded model results: {new_file['model_name']}")
+        return f"Success! Результаты модели '{mn}' успешно отправлены в лидерборд DeathMath."
+    except Exception as e:
+        logging.error(f"Error submitting file: {e}")
+        return f"Error: Произошла ошибка при отправке файла: {str(e)}"
 from src.display.about import (
     INTRODUCTION_TEXT,
 def update_board():
     need_reset = os.environ.get(RESET_JUDGEMENT_ENV)
+    logging.info("Updating the leaderboard: %s", need_reset)
     if need_reset != "1":
+        return
     os.environ[RESET_JUDGEMENT_ENV] = "0"
+    try:
+        # Загружаем актуальные данные из репозитория
+        download_dataset("Vikhrmodels/DeathMath-leaderboard-data", "m_data")
+        logging.info("Successfully downloaded model evaluation data")
+        # Собираем данные из всех файлов моделей
+        data_list = []
+        seen_models = set()  # Для отслеживания дубликатов
+        for file in glob.glob("./m_data/model_data/external/*.json"):
             try:
+                with open(file) as f:
+                    data = json.load(f)
+                    # Проверяем наличие необходимых полей
+                    model_name = data.get("model_name", "")
+                    if not model_name:
+                        logging.error(f"Failed to parse {file}: 'model_name' not found")
+                        continue
+                    # Предотвращаем дублирование моделей
+                    model_base_name = model_name.split("/")[-1].split("_v")[0]
+                    if model_base_name in seen_models:
+                        logging.info(f"Skipping duplicate model: {model_name}")
+                        continue
+                    seen_models.add(model_base_name)
+                    # Добавляем модель в список
+                    data_list.append({
+                        "model_name": model_name,
+                        "score": float(data.get("score", 0.0)),
+                        "math_score": float(data.get("math_score", 0.0)),
+                        "physics_score": float(data.get("physics_score", 0.0)),
+                        "total_tokens": int(data.get("total_tokens", 0)),
+                        "evaluation_time": float(data.get("evaluation_time", 0.0)),
+                        "system_prompt": data.get("system_prompt",
+                            "Вы - полезный помощник по математике и физике. Ответьте на русском языке.")
+                    })
             except Exception as e:
+                logging.error(f"Failed to process file {file}: {e}")
+                continue
+        # Если есть данные, сортируем их по общему баллу и сохраняем
+        if data_list:
+            # Сортируем по общему баллу
+            data_list.sort(key=lambda x: x["score"], reverse=True)
+            # Сохраняем обновленный лидерборд
+            with open("genned.json", "w", encoding="utf-8") as f:
+                json.dump(data_list, f, ensure_ascii=False, indent=2)
+            # Загружаем обновленный лидерборд в репозиторий
+            API.upload_file(
                 path_or_fileobj="genned.json",
                 path_in_repo="leaderboard.json",
+                repo_id="Vikhrmodels/DeathMath-leaderboard-metainfo",
                 repo_type="dataset",
+            )
+            logging.info(f"Updated leaderboard with {len(data_list)} models")
+            # Генерируем README с таблицей лидерборда
+            update_readme(data_list)
+    except Exception as e:
+        logging.error(f"Error updating leaderboard: {e}")
+def update_readme(data_list):
+    """
+    Генерирует README.md с таблицей лидерборда
+    """
+    try:
+        import pandas as pd
+        from datetime import datetime
+        # Создаем DataFrame для удобного форматирования таблицы
+        df = pd.DataFrame(data_list)
+        # Форматируем числовые колонки
+        for col in ["score", "math_score", "physics_score"]:
+            if col in df.columns:
+                df[col] = df[col].apply(lambda x: f"{x:.3f}")
+        if "total_tokens" in df.columns:
+            df["total_tokens"] = df["total_tokens"].apply(lambda x: f"{int(x):,}")
+        if "evaluation_time" in df.columns:
+            df["evaluation_time"] = df["evaluation_time"].apply(lambda x: f"{x:.1f}s")
+        # Создаем содержимое README
+        current_date = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+        readme_content = f"""---
+title: DeathMath Leaderboard
+emoji: 🔢
+colorFrom: indigo
+colorTo: purple
+sdk: gradio
+sdk_version: "4.20.0"
+app_file: app.py
+pinned: false
+hf_oauth: true
+---
+# DeathMath Leaderboard
+DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке.
+## Текущий лидерборд
+Последнее обновление: {current_date}
+| Модель | Общий балл | Математика | Физика | Токены | Время оценки |
+|--------|------------|------------|---------|---------|--------------|
+"""
+        # Добавляем строки таблицы
+        for _, row in df.iterrows():
+            model_name = row.get("model_name", "")
+            readme_content += f"| {model_name} | {row.get('score', 'N/A')} | {row.get('math_score', 'N/A')} | {row.get('physics_score', 'N/A')} | {row.get('total_tokens', 'N/A')} | {row.get('evaluation_time', 'N/A')} |\n"
+        readme_content += """
+## Как принять участие в бенчмарке
+Для участия в бенчмарке DeathMath:
+1. Клонируйте репозиторий и запустите тесты вашей модели
+2. Загрузите результаты через [HuggingFace Space](https://huggingface.co/spaces/Vikhrmodels/DeathMath-leaderboard)
+3. Дождитесь проверки и добавления результатов в лидерборд
+## Формат результатов
+Результаты должны быть в формате JSON со следующей структурой:
+```json
+{
+  "score": 0.586,
+  "math_score": 0.8,
+  "physics_score": 0.373,
+  "total_tokens": 1394299,
+  "evaluation_time": 4533.2,
+  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
+}
+```
+## Лицензия
+Бенчмарк распространяется под лицензией Apache 2.0
+"""
+        # Сохраняем README
+        with open("README.md", "w", encoding="utf-8") as f:
+            f.write(readme_content)
+        # Загружаем README в репозиторий
+        API.upload_file(
+            path_or_fileobj="README.md",
+            path_in_repo="README.md",
+            repo_id="Vikhrmodels/DeathMath-leaderboard-metainfo",
+            repo_type="dataset",
         )
+        logging.info("Updated README with leaderboard table")
+    except Exception as e:
+        logging.error(f"Failed to update README: {e}")
+# Просто вызываем основную функцию update_board
 def update_board_():
+    update_board()
 if __name__ == "__main__":
     os.environ[RESET_JUDGEMENT_ENV] = "1"
     scheduler.start()
     demo_app = build_demo()
+    # Исправляем параметры запуска для совместимости с WebhookServer
+    demo_app.launch(debug=True)