leaderboard

Running on CPU Upgrade

nan commited on May 12

Commit

9400714

•

1 Parent(s): d491ab8

feat: add is_anonymous field

Files changed (4) hide show

app.py CHANGED Viewed

@@ -315,7 +315,7 @@ with demo:
                 with gr.Row():
                     file_output = gr.File()
                 with gr.Row():
-                    submit_anonymous = gr.Checkbox(
                         label="Nope. I want to submit anonymously 🥷",
                         value=False,
                         info="Do you want to shown on the leaderboard by default?")
@@ -336,7 +336,7 @@ with demo:
                         model_name,
                         model_url,
                         benchmark_version,
-                        submit_anonymous
                     ],
                     submission_result,
                     show_progress="hidden"

                 with gr.Row():
                     file_output = gr.File()
                 with gr.Row():
+                    is_anonymous = gr.Checkbox(
                         label="Nope. I want to submit anonymously 🥷",
                         value=False,
                         info="Do you want to shown on the leaderboard by default?")
                         model_name,
                         model_url,
                         benchmark_version,
+                        is_anonymous
                     ],
                     submission_result,
                     show_progress="hidden"

src/display/utils.py CHANGED Viewed

@@ -27,6 +27,7 @@ COL_NAME_RERANKING_MODEL_LINK = "Reranking Model LINK"
 COL_NAME_RANK = "Rank 🏆"
 COL_NAME_REVISION = "Revision"
 COL_NAME_TIMESTAMP = "Submission Date"
 def get_default_auto_eval_column_dict():
@@ -56,8 +57,12 @@ def get_default_auto_eval_column_dict():
     auto_eval_column_dict.append(
         ["reranking_model_link", ColumnContent, ColumnContent(COL_NAME_RERANKING_MODEL, "markdown", False, hidden=True, never_hidden=False)]
     )
     return auto_eval_column_dict
 def make_autoevalcolumn(cls_name="BenchmarksQA", benchmarks=BenchmarksQA):
     auto_eval_column_dict = get_default_auto_eval_column_dict()
     ## Leaderboard columns

 COL_NAME_RANK = "Rank 🏆"
 COL_NAME_REVISION = "Revision"
 COL_NAME_TIMESTAMP = "Submission Date"
+COL_NAME_IS_ANONYMOUS = "Anonymous Submission"
 def get_default_auto_eval_column_dict():
     auto_eval_column_dict.append(
         ["reranking_model_link", ColumnContent, ColumnContent(COL_NAME_RERANKING_MODEL, "markdown", False, hidden=True, never_hidden=False)]
     )
+    auto_eval_column_dict.append(
+        ["is_anonymous", ColumnContent, ColumnContent(COL_NAME_IS_ANONYMOUS, "bool", False, hidden=True)]
+    )
     return auto_eval_column_dict
 def make_autoevalcolumn(cls_name="BenchmarksQA", benchmarks=BenchmarksQA):
     auto_eval_column_dict = get_default_auto_eval_column_dict()
     ## Leaderboard columns

src/read_evals.py CHANGED Viewed

@@ -40,6 +40,7 @@ class EvalResult:
     metric: str
     timestamp: str = ""  # submission timestamp
     revision: str = ""
 @dataclass
@@ -55,6 +56,7 @@ class FullEvalResult:
     results: List[EvalResult]  # results on all the EvalResults over different tasks and metrics.
     timestamp: str = ""
     revision: str = ""
     @classmethod
     def init_from_json_file(cls, json_filepath):
@@ -87,7 +89,8 @@ class FullEvalResult:
                 task=config["task"],
                 metric=config["metric"],
                 timestamp=config.get("timestamp", "2024-05-12T12:24:02Z"),
-                revision=config.get("revision", "3a2ba9dcad796a48a02ca1147557724e")
             )
             result_list.append(eval_result)
         return cls(
@@ -98,7 +101,8 @@ class FullEvalResult:
             reranking_model_link=reranking_model_link,
             results=result_list,
             timestamp=result_list[0].timestamp,
-            revision=result_list[0].revision
         )
     def to_dict(self, task='qa', metric='ndcg_at_3') -> List:

     metric: str
     timestamp: str = ""  # submission timestamp
     revision: str = ""
+    is_anonymous: bool = False
 @dataclass
     results: List[EvalResult]  # results on all the EvalResults over different tasks and metrics.
     timestamp: str = ""
     revision: str = ""
+    is_anonymous: bool = False
     @classmethod
     def init_from_json_file(cls, json_filepath):
                 task=config["task"],
                 metric=config["metric"],
                 timestamp=config.get("timestamp", "2024-05-12T12:24:02Z"),
+                revision=config.get("revision", "3a2ba9dcad796a48a02ca1147557724e"),
+                is_anonymous=config.get("is_anonymous", False)
             )
             result_list.append(eval_result)
         return cls(
             reranking_model_link=reranking_model_link,
             results=result_list,
             timestamp=result_list[0].timestamp,
+            revision=result_list[0].revision,
+            is_anonymous=result_list[0].is_anonymous
         )
     def to_dict(self, task='qa', metric='ndcg_at_3') -> List:

src/utils.py CHANGED Viewed

@@ -59,7 +59,7 @@ def get_default_cols(task: str, columns: list = [], add_fix_cols: bool = True) -
     for col_name, col_type in zip(cols_list, types_list):
         if col_name not in benchmark_list:
             continue
-        if columns and col_name not in columns:
             continue
         cols.append(col_name)
         types.append(col_type)
@@ -178,7 +178,7 @@ def get_iso_format_timestamp():
     return iso_format_timestamp, filename_friendly_timestamp
-def submit_results(filepath: str, model: str, model_url: str, version: str = "AIR-Bench_24.04", anonymous=False):
     if not filepath.endswith(".zip"):
         return styled_error(f"file uploading aborted. wrong file type: {filepath}")
@@ -218,7 +218,7 @@ def submit_results(filepath: str, model: str, model_url: str, version: str = "AI
         "model_name": f"{model}",
         "model_url": f"{model_url}",
         "version": f"{version}",
-        "anonymous": f"{anonymous}",
         "revision": f"{revision}",
         "timestamp": f"{timestamp_config}"
     }

     for col_name, col_type in zip(cols_list, types_list):
         if col_name not in benchmark_list:
             continue
+        if len(columns) > 0 and col_name not in columns:
             continue
         cols.append(col_name)
         types.append(col_type)
     return iso_format_timestamp, filename_friendly_timestamp
+def submit_results(filepath: str, model: str, model_url: str, version: str = "AIR-Bench_24.04", is_anonymous=False):
     if not filepath.endswith(".zip"):
         return styled_error(f"file uploading aborted. wrong file type: {filepath}")
         "model_name": f"{model}",
         "model_url": f"{model_url}",
         "version": f"{version}",
+        "is_anonymous": f"{is_anonymous}",
         "revision": f"{revision}",
         "timestamp": f"{timestamp_config}"
     }