Spaces:

lcipolina
/

LLM_OpenSpiel_Arena

Sleeping

App Files Files Community

lcipolina commited on Mar 13

Commit

9449bbc

verified ·

1 Parent(s): ccd246f

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -14

app.py CHANGED Viewed

@@ -33,7 +33,7 @@ def extract_agent_info(filename: str):
     return agent_type, model_name
 def get_available_games() -> List[str]:
-    """Extracts all unique game names from all SQLite databases and includes 'Total Performance'."""
     db_files = find_or_download_db()
     game_names = set()
@@ -49,7 +49,7 @@ def get_available_games() -> List[str]:
             conn.close()
     game_list = sorted(game_names) if game_names else ["No Games Found"]
-    game_list.insert(0, "Total Performance")  # Ensure 'Total Performance' is always first
     return game_list
 def extract_leaderboard_stats(game_name: str) -> pd.DataFrame:
@@ -66,19 +66,25 @@ def extract_leaderboard_stats(game_name: str) -> pd.DataFrame:
             conn.close()
             continue
-        if game_name == "Total Performance":
-            query = "SELECT game_name, COUNT(DISTINCT episode) AS games_played, " \
                     "SUM(reward) AS total_rewards " \
-                    "FROM game_results WHERE game_name = ? GROUP BY game_name"
-            df = pd.read_sql_query(query, conn, params=(game_name,))
         else:
             query = "SELECT COUNT(DISTINCT episode) AS games_played, " \
                     "SUM(reward) AS total_rewards " \
                     "FROM game_results WHERE game_name = ?"
             df = pd.read_sql_query(query, conn, params=(game_name,))
-        # Ensure rewards are correctly summed per agent, not duplicated
-        df["total_rewards"] = df["total_rewards"].fillna(0).astype(float) / 2
         # Fetch average generation time from moves table
         gen_time_query = """
@@ -90,15 +96,15 @@ def extract_leaderboard_stats(game_name: str) -> pd.DataFrame:
         vs_random_query = """
             SELECT COUNT(DISTINCT gr.episode) FROM game_results gr
             JOIN moves m ON gr.game_name = m.game_name AND gr.episode = m.episode
-            WHERE gr.game_name = ? AND m.opponent = 'random_None' AND gr.reward > 0
         """
         total_vs_random_query = """
             SELECT COUNT(DISTINCT gr.episode) FROM game_results gr
             JOIN moves m ON gr.game_name = m.game_name AND gr.episode = m.episode
-            WHERE gr.game_name = ? AND m.opponent = 'random_None'
         """
-        wins_vs_random = conn.execute(vs_random_query, (game_name,)).fetchone()[0] or 0
-        total_vs_random = conn.execute(total_vs_random_query, (game_name,)).fetchone()[0] or 0
         vs_random_rate = (wins_vs_random / total_vs_random * 100) if total_vs_random > 0 else 0
         df.insert(0, "agent_name", model_name)  # Ensure agent_name is the first column
@@ -119,7 +125,7 @@ def extract_leaderboard_stats(game_name: str) -> pd.DataFrame:
 def generate_leaderboard_json():
     """Generate a JSON file containing leaderboard stats."""
     available_games = get_available_games()
-    leaderboard = extract_leaderboard_stats("Total Performance").to_dict(orient="records")
     json_file = "results/leaderboard_stats.json"
     with open(json_file, "w", encoding="utf-8") as f:
         json.dump({"timestamp": datetime.utcnow().isoformat(), "leaderboard": leaderboard}, f, indent=4)
@@ -129,7 +135,7 @@ with gr.Blocks() as interface:
     with gr.Tab("Leaderboard"):
         gr.Markdown("# LLM Model Leaderboard\nTrack performance across different games!")
         available_games = get_available_games()
-        leaderboard_game_dropdown = gr.Dropdown(available_games, label="Select Game", value="Total Performance")
         leaderboard_table = gr.Dataframe(headers=["agent_name", "# games", "total rewards", "avg_generation_time (sec)", "win-rate", "vs_random"])
         generate_button = gr.Button("Generate Leaderboard JSON")
         download_component = gr.File(label="Download Leaderboard JSON")

     return agent_type, model_name
 def get_available_games() -> List[str]:
+    """Extracts all unique game names from all SQLite databases and includes 'Aggregated Performance'."""
     db_files = find_or_download_db()
     game_names = set()
             conn.close()
     game_list = sorted(game_names) if game_names else ["No Games Found"]
+    game_list.insert(0, "Aggregated Performance")  # Ensure 'Aggregated Performance' is always first
     return game_list
 def extract_leaderboard_stats(game_name: str) -> pd.DataFrame:
             conn.close()
             continue
+        if game_name == "Aggregated Performance":
+            query = "SELECT COUNT(DISTINCT episode) AS games_played, " \
                     "SUM(reward) AS total_rewards " \
+                    "FROM game_results"
+            df = pd.read_sql_query(query, conn)
         else:
             query = "SELECT COUNT(DISTINCT episode) AS games_played, " \
                     "SUM(reward) AS total_rewards " \
                     "FROM game_results WHERE game_name = ?"
             df = pd.read_sql_query(query, conn, params=(game_name,))
+        # Detect duplicate reward entries by counting unique episodes per agent
+        unique_episodes_query = """
+            SELECT COUNT(DISTINCT episode) FROM game_results WHERE game_name = ?
+        """
+        unique_episodes = conn.execute(unique_episodes_query, (game_name,)).fetchone()[0] or 1
+        # Adjust total_rewards only if the count of unique episodes suggests duplication
+        df["total_rewards"] = df["total_rewards"].fillna(0).astype(float) / unique_episodes
         # Fetch average generation time from moves table
         gen_time_query = """
         vs_random_query = """
             SELECT COUNT(DISTINCT gr.episode) FROM game_results gr
             JOIN moves m ON gr.game_name = m.game_name AND gr.episode = m.episode
+            WHERE m.opponent = 'random_None' AND gr.reward > 0
         """
         total_vs_random_query = """
             SELECT COUNT(DISTINCT gr.episode) FROM game_results gr
             JOIN moves m ON gr.game_name = m.game_name AND gr.episode = m.episode
+            WHERE m.opponent = 'random_None'
         """
+        wins_vs_random = conn.execute(vs_random_query).fetchone()[0] or 0
+        total_vs_random = conn.execute(total_vs_random_query).fetchone()[0] or 0
         vs_random_rate = (wins_vs_random / total_vs_random * 100) if total_vs_random > 0 else 0
         df.insert(0, "agent_name", model_name)  # Ensure agent_name is the first column
 def generate_leaderboard_json():
     """Generate a JSON file containing leaderboard stats."""
     available_games = get_available_games()
+    leaderboard = extract_leaderboard_stats("Aggregated Performance").to_dict(orient="records")
     json_file = "results/leaderboard_stats.json"
     with open(json_file, "w", encoding="utf-8") as f:
         json.dump({"timestamp": datetime.utcnow().isoformat(), "leaderboard": leaderboard}, f, indent=4)
     with gr.Tab("Leaderboard"):
         gr.Markdown("# LLM Model Leaderboard\nTrack performance across different games!")
         available_games = get_available_games()
+        leaderboard_game_dropdown = gr.Dropdown(available_games, label="Select Game", value="Aggregated Performance")
         leaderboard_table = gr.Dataframe(headers=["agent_name", "# games", "total rewards", "avg_generation_time (sec)", "win-rate", "vs_random"])
         generate_button = gr.Button("Generate Leaderboard JSON")
         download_component = gr.File(label="Download Leaderboard JSON")