Spaces:

Eurolingua
/

european-llm-leaderboard

Running

ajude commited on Oct 30, 2024

Commit

1c5b4ad

1 Parent(s): 07a2d86

fix(leaderboard):

1. Fixed the issue when adding markdown as the data type of the model_name column, the text is getting overflown into the next column.
2. Removed the dependency where the model type is determined based on a symbol.

Files changed (2) hide show

app.py +24 -26
core.py +70 -3

app.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import gradio as gr
 import core as core
-from style import CSS, LANG_SYMBOLS, MT_BENCH_LANG_SYMBOLS, T_SYMBOLS, TITLE
-from gradio_rangeslider import RangeSlider
 demo = gr.Blocks(css=CSS)
 with demo:
@@ -100,9 +100,8 @@ with demo:
                     inputs=[],
                     outputs=shown_tasks,
                 )
-            # TODO When adding markdown as the data type of the model_name column, the text is getting overflown into the next column.
-            # leaderboard_table = gr.Dataframe(datatype=['str', 'markdown'])
-            leaderboard_table = gr.Dataframe(datatype=["str", "markdown"], column_widths=[None, "30%"], wrap=False)
         with gr.TabItem(
                 "🏅 LLM accuracy benchmark (Zero-Shot)",
@@ -188,8 +187,7 @@ with demo:
                     inputs=[],
                     outputs=shown_tasks_zero_shot,
                 )
-            leaderboard_table_zero_shot = gr.Dataframe(datatype=["str", "markdown"], column_widths=[None, "30%"],
-                                                       wrap=False)
         with gr.TabItem(
                 "🌐 LLM translation benchmark",
@@ -276,7 +274,7 @@ with demo:
                     outputs=shown_tasks_misc,
                 )
-            leaderboard_table_misc = gr.Dataframe(datatype=["str", "markdown"], column_widths=[None, "30%"], wrap=False)
         with gr.TabItem(
                 "🌐 LLM MT-Bench benchmark",
@@ -319,8 +317,7 @@ with demo:
                         outputs=langs_bar_mtbench,
                     )
-            leaderboard_table_mtbench = gr.Dataframe(datatype=["str", "markdown"], column_widths=[None, "60%"],
-                                                     wrap=False)
         for comp, fn in [
             (search_bar, "submit"),
@@ -331,7 +328,7 @@ with demo:
         ]:
             getattr(comp, fn)(
                 core.update_df,
-                [shown_tasks, search_bar, langs_bar, model_types, model_sizes, gr.State(value=True)],
                 # [shown_tasks, search_bar, langs_bar, model_types, gr.State(value=True)],
                 leaderboard_table,
             )
@@ -345,8 +342,8 @@ with demo:
         ]:
             getattr(comp, fn)(
                 core.update_df,
-                [shown_tasks_zero_shot, search_bar_zero_shot, langs_bar_zero_shot, model_types_zero_shot,
-                 model_sizes_zero_shot, gr.State(value=False)],
                 leaderboard_table_zero_shot,
             )
@@ -359,8 +356,8 @@ with demo:
         ]:
             getattr(comp, fn)(
                 core.update_df,
-                [shown_tasks_misc, search_bar_misc, langs_bar_misc, model_types_misc, model_sizes_misc,
-                 gr.State(value=False)],
                 leaderboard_table_misc,
             )
@@ -370,41 +367,42 @@ with demo:
         ]:
             getattr(comp, fn)(
                 core.update_df,
-                [gr.State(value=core.get_available_task_groups(core.get_selected_task_type(2), False)),
-                 search_bar_mtbench, langs_bar_mtbench, gr.State(value=[T_SYMBOLS["chat"]]), gr.State(value=False)],
-                # TODO
                 leaderboard_table_mtbench,
             )
     gr.Blocks.load(
         block=demo,
         fn=core.update_df,
-        inputs=[shown_tasks, search_bar, langs_bar, model_types, model_sizes, gr.State(value=True)],
-        # inputs=[shown_tasks, search_bar, langs_bar, model_types, gr.State(value=True)],
         outputs=leaderboard_table,
     )
     gr.Blocks.load(
         block=demo,
         fn=core.update_df,
-        inputs=[shown_tasks_zero_shot, search_bar_zero_shot, langs_bar_zero_shot, model_types_zero_shot,
-                model_sizes_zero_shot, gr.State(value=False)],
         outputs=leaderboard_table_zero_shot,
     )
     gr.Blocks.load(
         block=demo,
         fn=core.update_df,
-        inputs=[shown_tasks_misc, search_bar_misc, langs_bar_misc, model_types_misc, model_sizes_misc,
-                gr.State(value=False)],
         outputs=leaderboard_table_misc,
     )
     gr.Blocks.load(
         block=demo,
         fn=core.update_df,
-        inputs=[gr.State(value=core.get_available_task_groups(core.get_selected_task_type(2), False)),
-                search_bar_mtbench, langs_bar_mtbench, gr.State(value=[T_SYMBOLS["chat"]]), gr.State(value=False)],
         outputs=leaderboard_table_mtbench,
     )

 import gradio as gr
+from gradio_rangeslider import RangeSlider
 import core as core
+from style import CSS, LANG_SYMBOLS, T_SYMBOLS, TITLE
 demo = gr.Blocks(css=CSS)
 with demo:
                     inputs=[],
                     outputs=shown_tasks,
                 )
+            leaderboard_table = gr.Dataframe(datatype=["str", "markdown", "number"])
         with gr.TabItem(
                 "🏅 LLM accuracy benchmark (Zero-Shot)",
                     inputs=[],
                     outputs=shown_tasks_zero_shot,
                 )
+            leaderboard_table_zero_shot = gr.Dataframe(datatype=["str", "markdown", "number"])
         with gr.TabItem(
                 "🌐 LLM translation benchmark",
                     outputs=shown_tasks_misc,
                 )
+            leaderboard_table_misc = gr.Dataframe(datatype=["str", "markdown", "number"])
         with gr.TabItem(
                 "🌐 LLM MT-Bench benchmark",
                         outputs=langs_bar_mtbench,
                     )
+            leaderboard_table_mtbench = gr.Dataframe(datatype=["str", "markdown", "number"])
         for comp, fn in [
             (search_bar, "submit"),
         ]:
             getattr(comp, fn)(
                 core.update_df,
+                [gr.State(value=0), shown_tasks, search_bar, langs_bar, model_sizes, gr.State(value=True), model_types],
                 # [shown_tasks, search_bar, langs_bar, model_types, gr.State(value=True)],
                 leaderboard_table,
             )
         ]:
             getattr(comp, fn)(
                 core.update_df,
+                [gr.State(value=1), shown_tasks_zero_shot, search_bar_zero_shot, langs_bar_zero_shot,
+                 model_sizes_zero_shot, gr.State(value=False), model_types_zero_shot],
                 leaderboard_table_zero_shot,
             )
         ]:
             getattr(comp, fn)(
                 core.update_df,
+                [gr.State(value=2), shown_tasks_misc, search_bar_misc, langs_bar_misc, model_sizes_misc,
+                 gr.State(value=False), model_types_misc],
                 leaderboard_table_misc,
             )
         ]:
             getattr(comp, fn)(
                 core.update_df,
+                [gr.State(value=3),
+                 gr.State(value=core.get_available_task_groups(core.get_selected_task_type(2), False)),
+                 search_bar_mtbench, langs_bar_mtbench, gr.State(value=False)],
                 leaderboard_table_mtbench,
             )
     gr.Blocks.load(
         block=demo,
         fn=core.update_df,
+        inputs=[gr.State(value=0), shown_tasks, search_bar, langs_bar, model_sizes, gr.State(value=True), model_types],
         outputs=leaderboard_table,
     )
     gr.Blocks.load(
         block=demo,
         fn=core.update_df,
+        inputs=[gr.State(value=1), shown_tasks_zero_shot, search_bar_zero_shot, langs_bar_zero_shot,
+                model_sizes_zero_shot, gr.State(value=False), model_types_zero_shot],
         outputs=leaderboard_table_zero_shot,
     )
     gr.Blocks.load(
         block=demo,
         fn=core.update_df,
+        inputs=[gr.State(value=2), shown_tasks_misc, search_bar_misc, langs_bar_misc, model_sizes_misc,
+                gr.State(value=False), model_types_misc],
         outputs=leaderboard_table_misc,
     )
+    # We do not have a checkbox for model_type in mt_bench, hence there is no model_types variable
     gr.Blocks.load(
         block=demo,
         fn=core.update_df,
+        inputs=[gr.State(value=3),
+                gr.State(value=core.get_available_task_groups(core.get_selected_task_type(2), False)),
+                search_bar_mtbench, langs_bar_mtbench, gr.State(value=False)],
         outputs=leaderboard_table_mtbench,
     )

core.py CHANGED Viewed

@@ -1,19 +1,21 @@
 import itertools
 import os
 import numpy as np
 import pandas as pd
 from datasets import load_dataset
-from utils import add_model_hyperlink
 import style
 ZERO_SHOT_ONLY = ["BELEBELE", "MT-Bench"]
 FEW_SHOT_ONLY = ["GSM8K", "TruthfulQA"]
 def init():
-    global repo_id, config_name, split_name, hidden_df, task_group_names_list, task_group_type_dict, task_groups_shots_dict, languages_list, model_type_dict, mt_bench_language_list, model_link_dict, model_size_dict
     repo_id = os.getenv("OGX_LEADERBOARD_DATASET_NAME")
     config_name = os.getenv("OGX_LEADERBOARD_DATASET_CONFIG")
@@ -114,18 +116,23 @@ def select_shots(df: pd.DataFrame, fewshot: bool = False):
 def update_df(
         tasks: list[str],
         model_query: str,
         langs: list[str],
-        model_types: list[str],
         model_sizes: list[str],
         fewshot: bool = False,
         format: bool = True,
 ) -> pd.DataFrame:
     """Return a filtered dataframe according to selected models, tasks and
     languages. The format flag controls whether the output dataframe should
     be formatted to tw significant figures.
     """
     # keep only selected shots
     df = select_shots(hidden_df, fewshot)
@@ -147,6 +154,66 @@ def update_df(
         return sort_cols(df, fewshot)
 def get_selected_task_type(task_type_id):
     task_types = {0: "accuracy", 1: "misc", 2: "mtbench_score", 3: "accuracy"}
     selected_task_type = task_types[task_type_id]

 import itertools
 import os
+import gradio as gr
 import numpy as np
 import pandas as pd
 from datasets import load_dataset
 import style
+from style import T_SYMBOLS, MT_BENCH_LANG_SYMBOLS, LANG_SYMBOLS
+from utils import add_model_hyperlink
 ZERO_SHOT_ONLY = ["BELEBELE", "MT-Bench"]
 FEW_SHOT_ONLY = ["GSM8K", "TruthfulQA"]
 def init():
+    global repo_id, config_name, split_name, hidden_df, task_group_names_list, task_group_type_dict, task_groups_shots_dict, languages_list, model_type_df, model_type_dict, mt_bench_language_list, model_link_dict, model_size_dict
     repo_id = os.getenv("OGX_LEADERBOARD_DATASET_NAME")
     config_name = os.getenv("OGX_LEADERBOARD_DATASET_CONFIG")
 def update_df(
+        current_selected_tab: int,
         tasks: list[str],
         model_query: str,
         langs: list[str],
         model_sizes: list[str],
         fewshot: bool = False,
+        model_types: list[str] = None,
         format: bool = True,
 ) -> pd.DataFrame:
     """Return a filtered dataframe according to selected models, tasks and
     languages. The format flag controls whether the output dataframe should
     be formatted to tw significant figures.
     """
+    if current_selected_tab == 3:
+        model_types = [T_SYMBOLS["chat"]]
     # keep only selected shots
     df = select_shots(hidden_df, fewshot)
         return sort_cols(df, fewshot)
+def update_task_groups_and_fewshot(current_selected_tab: int, model_types, langs_bar,
+                                   is_fewshot_current: bool = False, ):
+    selected_task_type = get_selected_task_type(current_selected_tab)
+    available_tasks = get_available_task_groups(selected_task_type, is_fewshot_current)
+    new_selected_tasks = available_tasks.copy()
+    tasks_checkbox_group_update = gr.CheckboxGroup(
+        choices=available_tasks,
+        value=new_selected_tasks,
+    )
+    if current_selected_tab == 0:
+        is_fewshot_new = is_fewshot_current
+        fewshot_available = True
+    elif current_selected_tab == 1:
+        is_fewshot_new = False
+        fewshot_available = False
+    elif current_selected_tab == 2:
+        is_fewshot_new = False
+        fewshot_available = False
+    else:
+        raise ValueError(f"Unknown tab id {current_selected_tab}")
+    fewshot_radio_update = gr.Radio(
+        value=is_fewshot_new,
+        interactive=fewshot_available,
+    )
+    if current_selected_tab == 2:
+        model_types = gr.CheckboxGroup(
+            value=[T_SYMBOLS['chat']],
+            interactive=False
+        )
+        langs_bar = gr.CheckboxGroup(
+            choices=[(MT_BENCH_LANG_SYMBOLS.get(l, l), l) for l in mt_bench_language_list],
+            value=mt_bench_language_list,
+            interactive=True,
+        )
+    else:
+        model_types = gr.CheckboxGroup(
+            label="Select model type",
+            choices=[
+                (
+                    f"Pretrained {T_SYMBOLS['pretrained']}",
+                    T_SYMBOLS["pretrained"],
+                ),
+                (f"Chat {T_SYMBOLS['chat']}", T_SYMBOLS["chat"]),
+            ],
+            value=list(T_SYMBOLS.values()),
+            interactive=True
+        )
+        langs_bar = gr.CheckboxGroup(
+            choices=[(LANG_SYMBOLS.get(l, l), l) for l in languages_list],
+            value=languages_list,
+            interactive=True,
+        )
+    return [tasks_checkbox_group_update, current_selected_tab, model_types, langs_bar]
 def get_selected_task_type(task_type_id):
     task_types = {0: "accuracy", 1: "misc", 2: "mtbench_score", 3: "accuracy"}
     selected_task_type = task_types[task_type_id]