Spaces:

openeurollm
/

LLM-leaderboard

Running

App Files Files Community

geoalgo commited on 20 days ago

Commit

0548301

1 Parent(s): eef3091

change tab order

Browse files

Files changed (1) hide show

main.py +44 -36

main.py CHANGED Viewed

@@ -55,6 +55,7 @@ df_mah_pivot.reset_index(drop=False, inplace=True)
 df_eval = pd.read_csv("multilingual_results.csv")
 def map_task_to_group(task: str) -> str | None:
     if task == "xcopa":
         return "XCOPA"
@@ -70,6 +71,7 @@ def map_task_to_group(task: str) -> str | None:
         return "Global MMLU"
     return None
 df_eval["group"] = df_eval.task.apply(map_task_to_group)
 df_eval_grouped = df_eval[df_eval["group"].notna()].copy()
 df_eval_grouped["Model"] = df_eval_grouped.model_name.apply(lambda s: s.split("/")[-1])
@@ -88,12 +90,14 @@ group_nshot = (
     .to_dict()
 )
 def display_name(group: str) -> str:
     label = group_nshot.get(group, "unknown")
     if label == "mixed" or label == "unknown" or label == "unknown":
         return f"{group} [mixed]" if label == "mixed" else f"{group} [unknown]"
     return f"{group} [{label}]"
 # Build a renamed version for display, preserving Model and Average columns
 display_columns_map = {
     col: display_name(col)
@@ -133,6 +137,46 @@ with gr.Blocks() as demo:
                 ),
             )
         with gr.Tab("Instruction-tuning 🎯󠁧󠁢󠁥🏴󠁧󠁢󠁥󠁮󠁧󠁿"):
             gr.Markdown(
                 """
@@ -195,42 +239,6 @@ with gr.Blocks() as demo:
                 ),
             )
-        with gr.Tab("Multilingual evaluations 🌍"):
-            gr.Markdown(
-                """
-            Aggregated multilingual performance by task group (mean across languages when applicable).
-            """
-            )
-            # Order columns: Model, groups..., Average
-            raw_group_columns = [
-                col
-                for col in [
-                    "INCLUDE",
-                    "Belebele",
-                    "Global MMLU",
-                    "XCOPA",
-                    "XStoryCloze",
-                    "XWinograd",
-                ]
-                if col in df_multilingual_pivot.columns
-            ]
-            display_group_columns = [display_columns_map[col] for col in raw_group_columns]
-            ordered_columns = ["Model", *display_group_columns, "Average ⬆️"]
-            df_multilingual_display = df_multilingual_display_all.loc[:, ordered_columns]
-            Leaderboard(
-                value=df_multilingual_display.round(2),
-                select_columns=SelectColumns(
-                    default_selection=list(df_multilingual_display.columns),
-                    cant_deselect=["Model"],
-                    label="Select Columns to Display:",
-                ),
-                search_columns=SearchColumns(
-                    primary_column="Model",
-                    label="Filter a model",
-                    secondary_columns=[],
-                ),
-            )
 if __name__ == "__main__":
     demo.launch()

 df_eval = pd.read_csv("multilingual_results.csv")
 def map_task_to_group(task: str) -> str | None:
     if task == "xcopa":
         return "XCOPA"
         return "Global MMLU"
     return None
 df_eval["group"] = df_eval.task.apply(map_task_to_group)
 df_eval_grouped = df_eval[df_eval["group"].notna()].copy()
 df_eval_grouped["Model"] = df_eval_grouped.model_name.apply(lambda s: s.split("/")[-1])
     .to_dict()
 )
 def display_name(group: str) -> str:
     label = group_nshot.get(group, "unknown")
     if label == "mixed" or label == "unknown" or label == "unknown":
         return f"{group} [mixed]" if label == "mixed" else f"{group} [unknown]"
     return f"{group} [{label}]"
 # Build a renamed version for display, preserving Model and Average columns
 display_columns_map = {
     col: display_name(col)
                 ),
             )
+        with gr.Tab("Multilingual evaluations 🌍"):
+            gr.Markdown(
+                """
+            Aggregated multilingual performance by task group (mean across languages when applicable).
+            """
+            )
+            # Order columns: Model, groups..., Average
+            raw_group_columns = [
+                col
+                for col in [
+                    "INCLUDE",
+                    "Belebele",
+                    "Global MMLU",
+                    "XCOPA",
+                    "XStoryCloze",
+                    "XWinograd",
+                ]
+                if col in df_multilingual_pivot.columns
+            ]
+            display_group_columns = [
+                display_columns_map[col] for col in raw_group_columns
+            ]
+            ordered_columns = ["Model", *display_group_columns, "Average ⬆️"]
+            df_multilingual_display = df_multilingual_display_all.loc[
+                :, ordered_columns
+            ]
+            Leaderboard(
+                value=df_multilingual_display.round(2),
+                select_columns=SelectColumns(
+                    default_selection=list(df_multilingual_display.columns),
+                    cant_deselect=["Model"],
+                    label="Select Columns to Display:",
+                ),
+                search_columns=SearchColumns(
+                    primary_column="Model",
+                    label="Filter a model",
+                    secondary_columns=[],
+                ),
+            )
         with gr.Tab("Instruction-tuning 🎯󠁧󠁢󠁥🏴󠁧󠁢󠁥󠁮󠁧󠁿"):
             gr.Markdown(
                 """
                 ),
             )
 if __name__ == "__main__":
     demo.launch()