Spaces:

Vikhrmodels
/

DOoM-lb

Running

App Files Files Community

Anonumous commited on 13 days ago

Commit

406ade6

1 Parent(s): 9bc963b

Enhance download_openbench and build_leadearboard_df functions with improved error handling and logging; standardize model data processing and add fallback example models

Browse files

Files changed (1) hide show

src/leaderboard/build_leaderboard.py +117 -61

src/leaderboard/build_leaderboard.py CHANGED Viewed

@@ -63,14 +63,17 @@ def download_dataset(repo_id, local_dir, repo_type="dataset", max_attempts=3, ba
 def download_openbench():
-    # Download previous autogenerated leaderboard files
     try:
         download_dataset(METAINFO_REPO, DATA_PATH)
         logging.info("Successfully downloaded leaderboard metainfo data")
     except Exception as e:
         logging.error(f"Failed to download leaderboard metainfo: {e}")
-    # Download model evaluation results
     try:
         download_dataset(RESULTS_REPO, "m_data")
         logging.info("Successfully downloaded model evaluation results")
@@ -79,81 +82,134 @@ def download_openbench():
 def build_leadearboard_df():
     results = []
-    # Загружаем базовые модели из локального файла
     try:
-        with open("d:/python_projects/DeathMath/results/leaderboard_results.json", "r", encoding="utf-8") as f:
-            data = json.load(f)
-            # Извлекаем только комбинированные результаты
-            for key, value in data.items():
-                if "_Combined_" in key:
-                    result = {
-                        "model": value["model_name"],
-                        "score": value["score"],
-                        "math_score": value["math_score"],
-                        "physics_score": value["physics_score"],
-                        "total_tokens": value["total_tokens"],
-                        "evaluation_time": value["evaluation_time"],
-                        "system_prompt": value["system_prompt"]
-                    }
-                    results.append(result)
-        logging.info(f"Loaded {len(results)} models from local results file")
-    except Exception as e:
-        logging.error(f"Failed to load local model results: {e}")
-    # Попытка загрузить сохраненные данные лидерборда
-    try:
-        leaderboard_path = f"{os.path.abspath(DATA_PATH)}/leaderboard.json"
         if os.path.exists(leaderboard_path):
             with open(leaderboard_path, "r", encoding="utf-8") as eval_file:
                 saved_data = json.load(eval_file)
-                logging.info(f"Loaded {len(saved_data)} models from saved leaderboard data")
-                # Добавляем модели, которых ещё нет в результатах
-                existing_models = [r["model"] for r in results]
-                for item in saved_data:
-                    if item["model"] not in existing_models:
-                        results.append(item)
     except Exception as e:
         logging.error(f"Failed to load saved leaderboard data: {e}")
-    # Загружаем модели из директории внешних моделей
     try:
-        for file in os.listdir("./m_data/model_data/external/"):
-            if file.endswith(".json"):
-                with open(os.path.join("./m_data/model_data/external/", file), "r") as f:
                     try:
-                        data = json.load(f)
-                        # Проверяем, нет ли уже этой модели в результатах
-                        if data["model_name"] not in [r["model"] for r in results]:
-                            result = {
-                                "model": data["model_name"],
-                                "score": data["score"],
-                                "math_score": data["math_score"],
-                                "physics_score": data["physics_score"],
-                                "total_tokens": data["total_tokens"],
-                                "evaluation_time": data["evaluation_time"],
                                 "system_prompt": data.get("system_prompt", "Вы - полезный помощник по математике и физике. Ответьте на русском языке.")
                             }
-                            results.append(result)
                     except Exception as e:
-                        logging.error(f"Failed to parse {file}: {e}")
     except Exception as e:
         logging.error(f"Failed to process external model data: {e}")
     # Создаем DataFrame и сортируем по общему баллу
-    if results:
-        df = pd.DataFrame(results)
-        df.sort_values(by='score', ascending=False, inplace=True)
-        # Округляем числовые столбцы для красивого отображения
-        numeric_cols = df.select_dtypes(include=['number']).columns
         df[numeric_cols] = df[numeric_cols].round(3)
-        return df
-    else:
-        # Если нет результатов, возвращаем пустой DataFrame с нужными столбцами
-        return pd.DataFrame(columns=['model', 'score', 'math_score', 'physics_score',
-                                     'total_tokens', 'evaluation_time', 'system_prompt'])

 def download_openbench():
+    """
+    Скачивает необходимые данные для лидерборда из репозиториев HuggingFace
+    """
+    # Скачиваем метаданные лидерборда
     try:
         download_dataset(METAINFO_REPO, DATA_PATH)
         logging.info("Successfully downloaded leaderboard metainfo data")
     except Exception as e:
         logging.error(f"Failed to download leaderboard metainfo: {e}")
+    # Скачиваем результаты моделей
     try:
         download_dataset(RESULTS_REPO, "m_data")
         logging.info("Successfully downloaded model evaluation results")
 def build_leadearboard_df():
+    """
+    Функция для сбора данных лидерборда из всех доступных источников.
+    Гарантирует, что в лидерборде будет только одна запись для каждой модели (с наивысшим score).
+    """
     results = []
+    best_model_results = {}  # Словарь для отслеживания лучших результатов моделей
+    # 1. Пытаемся загрузить данные из метаинформации лидерборда
     try:
+        leaderboard_path = os.path.join(DATA_PATH, "leaderboard.json")
         if os.path.exists(leaderboard_path):
             with open(leaderboard_path, "r", encoding="utf-8") as eval_file:
                 saved_data = json.load(eval_file)
+                if saved_data:
+                    logging.info(f"Loaded {len(saved_data)} models from saved leaderboard data")
+                    # Обрабатываем каждую модель, сохраняя только лучший результат
+                    for item in saved_data:
+                        try:
+                            # Получаем имя модели, проверяя разные возможные ключи
+                            model_name = item.get("model_name", item.get("model", ""))
+                            if not model_name:
+                                continue
+                            # Стандартизируем данные
+                            model_data = {
+                                "model": model_name,
+                                "score": float(item.get("score", 0.0)),
+                                "math_score": float(item.get("math_score", 0.0)),
+                                "physics_score": float(item.get("physics_score", 0.0)),
+                                "total_tokens": int(item.get("total_tokens", 0)),
+                                "evaluation_time": float(item.get("evaluation_time", 0.0)),
+                                "system_prompt": item.get("system_prompt", "Вы - полезный помощник по математике и физике. Ответьте на русском языке.")
+                            }
+                            # Определяем, является ли это лучшим результатом для данной модели
+                            model_base_name = model_name.split("/")[-1].split("_v")[0]
+                            if model_base_name in best_model_results:
+                                if model_data["score"] > best_model_results[model_base_name]["score"]:
+                                    best_model_results[model_base_name] = model_data
+                            else:
+                                best_model_results[model_base_name] = model_data
+                        except KeyError as e:
+                            # Логируем ошибку, но продолжаем обработку других моделей
+                            logging.error(f"Failed to process model data: {e}")
     except Exception as e:
         logging.error(f"Failed to load saved leaderboard data: {e}")
+    # 2. Загружаем модели из директории внешних моделей
     try:
+        external_dir = "./m_data/model_data/external/"
+        if os.path.exists(external_dir):
+            for file in os.listdir(external_dir):
+                if file.endswith(".json"):
                     try:
+                        with open(os.path.join(external_dir, file), "r", encoding="utf-8") as f:
+                            data = json.load(f)
+                            # Проверяем наличие необходимых полей
+                            model_name = data.get("model_name", data.get("model", ""))
+                            if not model_name:
+                                logging.error(f"Failed to parse {file}: 'model_name' not found")
+                                continue
+                            score = data.get("score", None)
+                            if score is None:
+                                logging.error(f"Failed to parse {file}: 'score' not found")
+                                continue
+                            # Стандартизируем данные
+                            model_data = {
+                                "model": model_name,
+                                "score": float(score),
+                                "math_score": float(data.get("math_score", 0.0)),
+                                "physics_score": float(data.get("physics_score", 0.0)),
+                                "total_tokens": int(data.get("total_tokens", 0)),
+                                "evaluation_time": float(data.get("evaluation_time", 0.0)),
                                 "system_prompt": data.get("system_prompt", "Вы - полезный помощник по математике и физике. Ответьте на русском языке.")
                             }
+                            # Определяем, является ли это лучшим результатом для данной модели
+                            model_base_name = model_name.split("/")[-1].split("_v")[0]
+                            if model_base_name in best_model_results:
+                                if model_data["score"] > best_model_results[model_base_name]["score"]:
+                                    best_model_results[model_base_name] = model_data
+                            else:
+                                best_model_results[model_base_name] = model_data
                     except Exception as e:
+                        logging.error(f"Failed to parse {file}: {str(e)}")
+                        continue
     except Exception as e:
         logging.error(f"Failed to process external model data: {e}")
+    # 3. Собираем все лучшие результаты
+    results = list(best_model_results.values())
+    # 4. Добавляем базовые модели по умолчанию, если список пуст
+    if not results:
+        # Добавляем несколько моделей-заглушек для отображения интерфейса
+        results = [
+            {
+                "model": "example/model-1",
+                "score": 0.7,
+                "math_score": 0.8,
+                "physics_score": 0.6,
+                "total_tokens": 1000000,
+                "evaluation_time": 3600.0,
+                "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
+            },
+            {
+                "model": "example/model-2",
+                "score": 0.6,
+                "math_score": 0.7,
+                "physics_score": 0.5,
+                "total_tokens": 800000,
+                "evaluation_time": 3000.0,
+                "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
+            }
+        ]
+        logging.warning("No model data found, using example models")
     # Создаем DataFrame и сортируем по общему баллу
+    df = pd.DataFrame(results)
+    df.sort_values(by='score', ascending=False, inplace=True)
+    # Округляем числовые столбцы для красивого отображения
+    numeric_cols = df.select_dtypes(include=['number']).columns
+    if not numeric_cols.empty:
         df[numeric_cols] = df[numeric_cols].round(3)
+    return df