Spaces:

atlasia
/

Open-Arabic-Dialect-Identification-Leaderboard

Running

App Files Files Community

BounharAbdelaziz commited on Dec 22, 2024

Commit

be25a4c

verified ·

1 Parent(s): 3cfe38b

implemented multilingual, eval from link and csv

Browse files

Files changed (6) hide show

.gitattributes +1 -0
app.py +205 -0
darija_leaderboard_binary.json +3 -0
darija_leaderboard_multilingual.json +1378 -0
open_arabic_lid_arena.png +3 -0
utils.py +488 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+open_arabic_lid_arena.png filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,205 @@

+import os
+import pandas as pd
+from utils import (
+    update_leaderboard_multilingual,
+    handle_evaluation,
+    process_results_file,
+    create_html_image,
+)
+from datasets import load_dataset
+import gradio as gr
+if __name__ == "__main__":
+    # Evaluation dataset path
+    DATA_PATH = "atlasia/No-Arabic-Dialect-Left-Behind-Filtered-Balanced"
+    # All Metrics
+    metrics = [
+        'f1_score',
+        'precision',
+        'recall',
+        'specificity',
+        'false_positive_rate',
+        'false_negative_rate',
+        'negative_predictive_value',
+        'n_test_samples',
+    ]
+    # Default metrics to display
+    default_metrics = [
+        'f1_score',
+        'precision',
+        'recall',
+        'false_positive_rate',
+        'false_negative_rate'
+    ]
+    # default language to display
+    default_languages = [
+        'Morocco',
+        'MSA',
+        'Egypt',
+        'Algeria',
+        'Tunisia',
+        'Levantine',
+    ]
+    # Load test dataset
+    test_dataset = load_dataset(DATA_PATH, split='test')
+    # Supported dialects
+    supported_dialects = list(test_dataset.unique("dialect")) + ['All']
+    with gr.Blocks() as app:
+        base_path = os.path.dirname(__file__)
+        local_image_path = os.path.join(base_path, 'open_arabic_lid_arena.png')
+        gr.HTML(create_html_image(local_image_path))
+        gr.Markdown("# 🏅 Open Arabic Dialect Identification Leaderboard")
+        # Multilingual model leaderboard
+        with gr.Tab("Multilingual model leaderboard"):
+            gr.Markdown("""
+                        Complete leaderboard across multiple arabic dialects.
+                        Compare the performance of different models across various metrics such as FNR, FPR, and other clasical metrics.
+                        """
+            )
+            with gr.Row():
+                with gr.Column(scale=1):
+                    gr.Markdown("### Select country to display")
+                    country_selector = gr.Dropdown(
+                        choices=supported_dialects,
+                        value='Morocco', # Default to Morocco of course
+                        label="Country"
+                    )
+                with gr.Column(scale=2):
+                    gr.Markdown("### Select metrics to display")
+                    metric_checkboxes = gr.CheckboxGroup(
+                        choices=metrics,
+                        value=default_metrics,
+                        label="Metrics"
+                    )
+            with gr.Row():
+                leaderboard_table = gr.DataFrame(
+                    interactive=False
+                )
+            gr.Markdown("</br>")
+            gr.Markdown("## Contribute to the Leaderboard")
+            gr.Markdown("""
+                        We welcome contributions from the community!
+                        If you have a model that you would like to see on the leaderboard, please use the 'Evaluate a model' or 'Upload your results' tabs to submit your model's performance.
+                        Let's work together to improve Arabic dialect identification! 🚀
+                        """)
+        # Binary model leaderboard
+        with gr.Tab("One-vs-All leaderboard"):
+            gr.Markdown("""
+                        A kind of one-vs-all approach for evaluating LID models across multiple arabic dialects.
+                        Computes the `false_positive_rate` of different models for a given target language.
+                        This should help you understand how well a model can identify a specific dialect by
+                        showing how often it misclassifies other dialects as the target dialect.
+                        """
+            )
+            with gr.Column(scale=1):
+                gr.Markdown("### Select target language")
+                target_language_selector = gr.Dropdown(
+                    choices=supported_dialects,
+                    value='Morocco', # Default to Morocco of course
+                    label="Target Language"
+                )
+            with gr.Column(scale=2):
+                gr.Markdown("### Select Languages to display")
+                languages_checkboxes = gr.CheckboxGroup(
+                    choices=supported_dialects,
+                    value=default_languages,
+                    label="Languages"
+                )
+            with gr.Row():
+                binary_leaderboard_table = gr.DataFrame(
+                    interactive=False
+                )
+        with gr.Tab("Evaluate a model"):
+            gr.Markdown("Suggest a model to evaluate 🤗 (Supports only **Fasttext** models as SfayaLID, GlotLID, OpenLID, etc.)")
+            gr.Markdown("For other models, you are welcome to **submit your results** through the upload section.")
+            model_path = gr.Textbox(label="Model Path", placeholder='path/to/model')
+            model_path_bin = gr.Textbox(label=".bin filename", placeholder='model.bin')
+            gr.Markdown("### **⚠️ To ensure correct results, tick this when the model's labels are the iso_codes**")
+            use_mapping = gr.Checkbox(label="Does not map to country")
+            eval_button = gr.Button("Evaluate", value=False)  # Initially disabled
+            eval_button.click(handle_evaluation, inputs=[model_path, model_path_bin, use_mapping], outputs=[leaderboard_table])
+        with gr.Tab("Upload your results"):
+            # Define a code block to display
+            code_snippet = """
+            ```python
+            # Load your model
+            model = ... # Load your model here
+            # Load evaluation benchmark
+            eval_dataset = load_dataset("atlasia/No-Arabic-Dialect-Left-Behind-Filtered-Balanced", split='test').to_pandas() # do not change this line :)
+            # Predict labels using your model
+            eval_dataset['preds'] = eval_dataset['text'].apply(lambda text: predict_label(text, model)) # predict_label is a function that you need to define for your model
+            # now drop the columns that are not needed, i.e. 'text', 'metadata' and 'dataset_source'
+            df_eval = df_eval.drop(columns=['text', 'metadata', 'dataset_source'])
+            df_eval.to_csv('your_model_name.csv')
+            # submit your results: 'your_model_name.csv' to the leaderboard
+            ```
+            """
+            gr.Markdown("## Upload your results to the leaderboard 🚀")
+            gr.Markdown("### Submission guidelines: Run the test dataset on your model and save the results in a CSV file. Bellow a code snippet to help you with that.")
+            gr.Markdown(code_snippet)
+            uploaded_model_name = gr.Textbox(label="Model name", placeholder='Your model/team name')
+            file = gr.File(label="Upload your results")
+            upload_button = gr.Button("Upload")
+            upload_button.click(process_results_file, inputs=[file, uploaded_model_name], outputs=[leaderboard_table])
+        # Update multilangual table when any input changes
+        country_selector.change(
+            update_leaderboard_multilingual,
+            inputs=[country_selector, metric_checkboxes],
+            outputs=leaderboard_table
+        )
+        metric_checkboxes.change(
+            update_leaderboard_multilingual,
+            inputs=[country_selector, metric_checkboxes],
+            outputs=leaderboard_table
+        )
+        # Update binary table when any input changes
+        target_language_selector.change(
+            update_leaderboard_multilingual,
+            inputs=[country_selector, metric_checkboxes],
+            outputs=leaderboard_table
+        )
+        languages_checkboxes.change(
+            update_leaderboard_multilingual,
+            inputs=[country_selector, metric_checkboxes],
+            outputs=leaderboard_table
+        )
+        # Define load event to run at startup
+        app.load(
+            update_leaderboard_multilingual,
+            inputs=[country_selector, metric_checkboxes],
+            outputs=leaderboard_table
+        )
+    app.launch(allowed_paths=[base_path])

darija_leaderboard_binary.json ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ [
2	+
3	+ ]

darija_leaderboard_multilingual.json ADDED Viewed

	@@ -0,0 +1,1378 @@

+[
+    {
+        "MSA": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.9749,
+                "precision": 0.9908,
+                "recall": 0.9594,
+                "specificity": 0.9942,
+                "false_positive_rate": 0.0058,
+                "false_negative_rate": 0.0406,
+                "negative_predictive_value": 0.974,
+                "n_test_samples": 54390
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.9554,
+                "precision": 0.9252,
+                "recall": 0.9876,
+                "specificity": 0.9478,
+                "false_positive_rate": 0.0522,
+                "false_negative_rate": 0.0124,
+                "negative_predictive_value": 0.9915,
+                "n_test_samples": 54390
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.9264,
+                "precision": 0.9359,
+                "recall": 0.9172,
+                "specificity": 0.9589,
+                "false_positive_rate": 0.0411,
+                "false_negative_rate": 0.0828,
+                "negative_predictive_value": 0.9465,
+                "n_test_samples": 54390
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.6047,
+                "n_test_samples": 54390
+            }
+        }
+    },
+    {
+        "Pakistan": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.9963,
+                "precision": 0.9999,
+                "recall": 0.9927,
+                "specificity": 0.9999,
+                "false_positive_rate": 0.0001,
+                "false_negative_rate": 0.0073,
+                "negative_predictive_value": 0.9958,
+                "n_test_samples": 50000
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.999,
+                "precision": 0.9989,
+                "recall": 0.9991,
+                "specificity": 0.9994,
+                "false_positive_rate": 0.0006,
+                "false_negative_rate": 0.0009,
+                "negative_predictive_value": 0.9995,
+                "n_test_samples": 50000
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.9927,
+                "precision": 0.9928,
+                "recall": 0.9925,
+                "specificity": 0.9959,
+                "false_positive_rate": 0.0041,
+                "false_negative_rate": 0.0075,
+                "negative_predictive_value": 0.9957,
+                "n_test_samples": 50000
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.6366,
+                "n_test_samples": 50000
+            }
+        }
+    },
+    {
+        "Morocco": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.8789,
+                "precision": 0.8624,
+                "recall": 0.8961,
+                "specificity": 0.9771,
+                "false_positive_rate": 0.0229,
+                "false_negative_rate": 0.1039,
+                "negative_predictive_value": 0.9832,
+                "n_test_samples": 19005
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.7172,
+                "precision": 0.9038,
+                "recall": 0.5945,
+                "specificity": 0.9899,
+                "false_positive_rate": 0.0101,
+                "false_negative_rate": 0.4055,
+                "negative_predictive_value": 0.9384,
+                "n_test_samples": 19005
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.6146,
+                "precision": 0.7279,
+                "recall": 0.5318,
+                "specificity": 0.9681,
+                "false_positive_rate": 0.0319,
+                "false_negative_rate": 0.4682,
+                "negative_predictive_value": 0.9281,
+                "n_test_samples": 19005
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.8986,
+                "precision": 0.9166,
+                "recall": 0.8812,
+                "specificity": 0.9871,
+                "false_positive_rate": 0.0129,
+                "false_negative_rate": 0.1188,
+                "negative_predictive_value": 0.9811,
+                "n_test_samples": 19005
+            }
+        }
+    },
+    {
+        "Egypt": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.5929,
+                "precision": 0.5835,
+                "recall": 0.6025,
+                "specificity": 0.993,
+                "false_positive_rate": 0.007,
+                "false_negative_rate": 0.3975,
+                "negative_predictive_value": 0.9935,
+                "n_test_samples": 2204
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.6028,
+                "precision": 0.4837,
+                "recall": 0.7999,
+                "specificity": 0.9861,
+                "false_positive_rate": 0.0139,
+                "false_negative_rate": 0.2001,
+                "negative_predictive_value": 0.9967,
+                "n_test_samples": 2204
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.4094,
+                "precision": 0.2663,
+                "recall": 0.8843,
+                "specificity": 0.9603,
+                "false_positive_rate": 0.0397,
+                "false_negative_rate": 0.1157,
+                "negative_predictive_value": 0.998,
+                "n_test_samples": 2204
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.984,
+                "n_test_samples": 2204
+            }
+        }
+    },
+    {
+        "Palestine": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.2511,
+                "precision": 0.3352,
+                "recall": 0.2007,
+                "specificity": 0.9957,
+                "false_positive_rate": 0.0043,
+                "false_negative_rate": 0.7993,
+                "negative_predictive_value": 0.9914,
+                "n_test_samples": 1465
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9894,
+                "n_test_samples": 1465
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9894,
+                "n_test_samples": 1465
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9894,
+                "n_test_samples": 1465
+            }
+        }
+    },
+    {
+        "Levantine": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.1723,
+                "precision": 0.1386,
+                "recall": 0.2275,
+                "specificity": 0.9854,
+                "false_positive_rate": 0.0146,
+                "false_negative_rate": 0.7725,
+                "negative_predictive_value": 0.992,
+                "n_test_samples": 1402
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.1171,
+                "precision": 0.073,
+                "recall": 0.2953,
+                "specificity": 0.9614,
+                "false_positive_rate": 0.0386,
+                "false_negative_rate": 0.7047,
+                "negative_predictive_value": 0.9925,
+                "n_test_samples": 1402
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.1029,
+                "precision": 0.0645,
+                "recall": 0.2532,
+                "specificity": 0.9622,
+                "false_positive_rate": 0.0378,
+                "false_negative_rate": 0.7468,
+                "negative_predictive_value": 0.9921,
+                "n_test_samples": 1402
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9898,
+                "n_test_samples": 1402
+            }
+        }
+    },
+    {
+        "Saudi": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.4382,
+                "precision": 0.3474,
+                "recall": 0.5932,
+                "specificity": 0.9887,
+                "false_positive_rate": 0.0113,
+                "false_negative_rate": 0.4068,
+                "negative_predictive_value": 0.9958,
+                "n_test_samples": 1384
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.3893,
+                "precision": 0.2692,
+                "recall": 0.703,
+                "specificity": 0.9806,
+                "false_positive_rate": 0.0194,
+                "false_negative_rate": 0.297,
+                "negative_predictive_value": 0.9969,
+                "n_test_samples": 1384
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.3436,
+                "precision": 0.2381,
+                "recall": 0.6171,
+                "specificity": 0.9799,
+                "false_positive_rate": 0.0201,
+                "false_negative_rate": 0.3829,
+                "negative_predictive_value": 0.996,
+                "n_test_samples": 1384
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9899,
+                "n_test_samples": 1384
+            }
+        }
+    },
+    {
+        "Jordan": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.2726,
+                "precision": 0.4203,
+                "recall": 0.2017,
+                "specificity": 0.9972,
+                "false_positive_rate": 0.0028,
+                "false_negative_rate": 0.7983,
+                "negative_predictive_value": 0.992,
+                "n_test_samples": 1373
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.99,
+                "n_test_samples": 1373
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.99,
+                "n_test_samples": 1373
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.99,
+                "n_test_samples": 1373
+            }
+        }
+    },
+    {
+        "Algeria": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.5221,
+                "precision": 0.5849,
+                "recall": 0.4714,
+                "specificity": 0.9974,
+                "false_positive_rate": 0.0026,
+                "false_negative_rate": 0.5286,
+                "negative_predictive_value": 0.9959,
+                "n_test_samples": 1067
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.1235,
+                "precision": 0.2751,
+                "recall": 0.0797,
+                "specificity": 0.9984,
+                "false_positive_rate": 0.0016,
+                "false_negative_rate": 0.9203,
+                "negative_predictive_value": 0.9928,
+                "n_test_samples": 1067
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9922,
+                "n_test_samples": 1067
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9922,
+                "n_test_samples": 1067
+            }
+        }
+    },
+    {
+        "UAE": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.3452,
+                "precision": 0.4207,
+                "recall": 0.2926,
+                "specificity": 0.9971,
+                "false_positive_rate": 0.0029,
+                "false_negative_rate": 0.7074,
+                "negative_predictive_value": 0.9948,
+                "n_test_samples": 998
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9927,
+                "n_test_samples": 998
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9927,
+                "n_test_samples": 998
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9927,
+                "n_test_samples": 998
+            }
+        }
+    },
+    {
+        "Mauritania": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.5343,
+                "precision": 0.944,
+                "recall": 0.3726,
+                "specificity": 0.9998,
+                "false_positive_rate": 0.0002,
+                "false_negative_rate": 0.6274,
+                "negative_predictive_value": 0.9957,
+                "n_test_samples": 950
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9931,
+                "n_test_samples": 950
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9931,
+                "n_test_samples": 950
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9931,
+                "n_test_samples": 950
+            }
+        }
+    },
+    {
+        "Yemen": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.223,
+                "precision": 0.5619,
+                "recall": 0.1391,
+                "specificity": 0.9993,
+                "false_positive_rate": 0.0007,
+                "false_negative_rate": 0.8609,
+                "negative_predictive_value": 0.9943,
+                "n_test_samples": 913
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9934,
+                "n_test_samples": 913
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9934,
+                "n_test_samples": 913
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9934,
+                "n_test_samples": 913
+            }
+        }
+    },
+    {
+        "Syria": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.1965,
+                "precision": 0.2126,
+                "recall": 0.1827,
+                "specificity": 0.9971,
+                "false_positive_rate": 0.0029,
+                "false_negative_rate": 0.8173,
+                "negative_predictive_value": 0.9965,
+                "n_test_samples": 591
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9957,
+                "n_test_samples": 591
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9957,
+                "n_test_samples": 591
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9957,
+                "n_test_samples": 591
+            }
+        }
+    },
+    {
+        "Lebanon": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.2699,
+                "precision": 0.2133,
+                "recall": 0.3675,
+                "specificity": 0.9967,
+                "false_positive_rate": 0.0033,
+                "false_negative_rate": 0.6325,
+                "negative_predictive_value": 0.9985,
+                "n_test_samples": 332
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9976,
+                "n_test_samples": 332
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9976,
+                "n_test_samples": 332
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9976,
+                "n_test_samples": 332
+            }
+        }
+    },
+    {
+        "Qatar": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.3145,
+                "precision": 0.2315,
+                "recall": 0.4905,
+                "specificity": 0.9975,
+                "false_positive_rate": 0.0025,
+                "false_negative_rate": 0.5095,
+                "negative_predictive_value": 0.9992,
+                "n_test_samples": 210
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9985,
+                "n_test_samples": 210
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9985,
+                "n_test_samples": 210
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9985,
+                "n_test_samples": 210
+            }
+        }
+    },
+    {
+        "Iraq": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.4075,
+                "precision": 0.3884,
+                "recall": 0.4286,
+                "specificity": 0.999,
+                "false_positive_rate": 0.001,
+                "false_negative_rate": 0.5714,
+                "negative_predictive_value": 0.9992,
+                "n_test_samples": 203
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0098,
+                "precision": 1.0,
+                "recall": 0.0049,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.9951,
+                "negative_predictive_value": 0.9985,
+                "n_test_samples": 203
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9985,
+                "n_test_samples": 203
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9985,
+                "n_test_samples": 203
+            }
+        }
+    },
+    {
+        "Libya": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.357,
+                "precision": 0.2621,
+                "recall": 0.5596,
+                "specificity": 0.9978,
+                "false_positive_rate": 0.0022,
+                "false_negative_rate": 0.4404,
+                "negative_predictive_value": 0.9994,
+                "n_test_samples": 193
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9986,
+                "n_test_samples": 193
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9986,
+                "n_test_samples": 193
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9986,
+                "n_test_samples": 193
+            }
+        }
+    },
+    {
+        "Tunisia": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.1851,
+                "precision": 0.1089,
+                "recall": 0.6158,
+                "specificity": 0.993,
+                "false_positive_rate": 0.007,
+                "false_negative_rate": 0.3842,
+                "negative_predictive_value": 0.9995,
+                "n_test_samples": 190
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.1143,
+                "precision": 0.0624,
+                "recall": 0.6737,
+                "specificity": 0.986,
+                "false_positive_rate": 0.014,
+                "false_negative_rate": 0.3263,
+                "negative_predictive_value": 0.9995,
+                "n_test_samples": 190
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.1045,
+                "precision": 0.0564,
+                "recall": 0.7053,
+                "specificity": 0.9837,
+                "false_positive_rate": 0.0163,
+                "false_negative_rate": 0.2947,
+                "negative_predictive_value": 0.9996,
+                "n_test_samples": 190
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9986,
+                "n_test_samples": 190
+            }
+        }
+    },
+    {
+        "Oman": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.1969,
+                "precision": 0.1391,
+                "recall": 0.3368,
+                "specificity": 0.9971,
+                "false_positive_rate": 0.0029,
+                "false_negative_rate": 0.6632,
+                "negative_predictive_value": 0.9991,
+                "n_test_samples": 190
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9986,
+                "n_test_samples": 190
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9986,
+                "n_test_samples": 190
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9986,
+                "n_test_samples": 190
+            }
+        }
+    },
+    {
+        "Kuwait": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.29,
+                "precision": 0.2091,
+                "recall": 0.4728,
+                "specificity": 0.9976,
+                "false_positive_rate": 0.0024,
+                "false_negative_rate": 0.5272,
+                "negative_predictive_value": 0.9993,
+                "n_test_samples": 184
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9987,
+                "n_test_samples": 184
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9987,
+                "n_test_samples": 184
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9987,
+                "n_test_samples": 184
+            }
+        }
+    },
+    {
+        "Bahrain": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.2045,
+                "precision": 0.2069,
+                "recall": 0.2022,
+                "specificity": 0.999,
+                "false_positive_rate": 0.001,
+                "false_negative_rate": 0.7978,
+                "negative_predictive_value": 0.999,
+                "n_test_samples": 178
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9987,
+                "n_test_samples": 178
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9987,
+                "n_test_samples": 178
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9987,
+                "n_test_samples": 178
+            }
+        }
+    },
+    {
+        "Sudan": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.395,
+                "precision": 0.3198,
+                "recall": 0.5163,
+                "specificity": 0.9988,
+                "false_positive_rate": 0.0012,
+                "false_negative_rate": 0.4837,
+                "negative_predictive_value": 0.9995,
+                "n_test_samples": 153
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9989,
+                "n_test_samples": 153
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9989,
+                "n_test_samples": 153
+            },
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 1.0,
+                "negative_predictive_value": 0.9989,
+                "n_test_samples": 153
+            }
+        }
+    },
+    {
+        "Turkey": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9999,
+                "false_positive_rate": 0.0001,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Turkmenistan": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Uzbekistan": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9999,
+                "false_positive_rate": 0.0001,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Acehnese": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Nigeria": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Mesopotamia": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9993,
+                "false_positive_rate": 0.0007,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9983,
+                "false_positive_rate": 0.0017,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9989,
+                "false_positive_rate": 0.0011,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Afghanistan": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9998,
+                "false_positive_rate": 0.0002,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9999,
+                "false_positive_rate": 0.0001,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9995,
+                "false_positive_rate": 0.0005,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Kurdistan": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9997,
+                "false_positive_rate": 0.0003,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9999,
+                "false_positive_rate": 0.0001,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Kashmir": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9999,
+                "false_positive_rate": 0.0001,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9993,
+                "false_positive_rate": 0.0007,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Iran": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9994,
+                "false_positive_rate": 0.0006,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9999,
+                "false_positive_rate": 0.0001,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Indonesia": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9999,
+                "false_positive_rate": 0.0001,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Guinea": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Chad": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Azerbaijan": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9997,
+                "false_positive_rate": 0.0003,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 0.9999,
+                "false_positive_rate": 0.0001,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Malaysia": {
+            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Uighur (China)": {
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            },
+            "laurievb/OpenLID/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    },
+    {
+        "Balochistan": {
+            "cis-lmu/glotlid/model.bin": {
+                "f1_score": 0.0,
+                "precision": 0.0,
+                "recall": 0.0,
+                "specificity": 1.0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "negative_predictive_value": 1.0,
+                "n_test_samples": 0
+            }
+        }
+    }
+]

open_arabic_lid_arena.png ADDED Viewed

Git LFS Details

SHA256: ac613af0af6725fc8f1170b075c354ca0a032ef4e0eeca62b9a4f512b32e4697
Pointer size: 132 Bytes
Size of remote file: 1.75 MB

utils.py ADDED Viewed

	@@ -0,0 +1,488 @@

+import base64
+from fasttext import load_model
+from huggingface_hub import hf_hub_download
+import os
+import json
+import pandas as pd
+from sklearn.metrics import precision_score, recall_score, f1_score, confusion_matrix, balanced_accuracy_score, matthews_corrcoef
+import numpy as np
+from datasets import load_dataset
+import fasttext
+# Constants
+MODEL_REPO = "atlasia/Sfaya-Moroccan-Darija-vs-All"
+BIN_FILENAME = "model_multi_v3_2fpr.bin"
+BINARY_LEADERBOARD_FILE = "darija_leaderboard_binary.json"
+MULTILINGUAL_LEADERBOARD_FILE = "darija_leaderboard_multilingual.json"
+DATA_PATH = "atlasia/No-Arabic-Dialect-Left-Behind-Filtered-Balanced"
+target_label = "Morocco"
+is_binary = False
+metrics = [
+    'f1_score',
+    'precision',
+    'recall',
+    'specificity',
+    'false_positive_rate',
+    'false_negative_rate',
+    'negative_predictive_value',
+    'n_test_samples',
+]
+default_metrics = [
+    'f1_score',
+    'precision',
+    'recall',
+    'false_positive_rate',
+    'false_negative_rate'
+]
+language_mapping_dict = {
+    'ace_Arab': 'Acehnese',
+    'acm_Arab': 'Mesopotamia',  # 'Gilit Mesopotamian'
+    'aeb_Arab': 'Tunisia',
+    'ajp_Arab': 'Levantine',  # 'South Levantine'
+    'apc_Arab': 'Levantine',
+    'arb_Arab': 'MSA',
+    'arq_Arab': 'Algeria',
+    'ars_Arab': 'Saudi',  # Najdi is primarily Saudi Arabian
+    'ary_Arab': 'Morocco',
+    'arz_Arab': 'Egypt',
+    'ayp_Arab': 'Mesopotamia',  # 'North Mesopotamian'
+    'azb_Arab': 'Azerbaijan',  # South Azerbaijani pertains to this region
+    'bcc_Arab': 'Balochistan',  # Southern Balochi is from Balochistan
+    'bjn_Arab': 'Indonesia',  # Banjar is spoken in Indonesia
+    'brh_Arab': 'Pakistan',  # Brahui is spoken in Pakistan
+    'ckb_Arab': 'Kurdistan',  # Central Kurdish is mainly in Iraq
+    'fuv_Arab': 'Nigeria', # Hausa States Fulfulde
+    'glk_Arab': 'Iran',  # Gilaki is spoken in Iran
+    'hac_Arab': 'Iran',  # Gurani is also primarily spoken in Iran
+    'kas_Arab': 'Kashmir',
+    'knc_Arab': 'Nigeria',  # Central Kanuri is in Nigeria
+    'lki_Arab': 'Iran',  # Laki is from Iran
+    'lrc_Arab': 'Iran',  # Northern Luri is from Iran
+    'min_Arab': 'Indonesia',  # Minangkabau is spoken in Indonesia
+    'mzn_Arab': 'Iran',  # Mazanderani is spoken in Iran
+    'ota_Arab': 'Turkey',  # Ottoman Turkish
+    'pbt_Arab': 'Afghanistan',  # Southern Pashto
+    'pnb_Arab': 'Pakistan',  # Western Panjabi
+    'sdh_Arab': 'Iraq',  # Southern Kurdish
+    'shu_Arab': 'Chad',  # Chadian Arabic
+    'skr_Arab': 'Pakistan',  # Saraiki
+    'snd_Arab': 'Pakistan',  # Sindhi
+    'sus_Arab': 'Guinea',  # Susu
+    'tuk_Arab': 'Turkmenistan',  # Turkmen
+    'uig_Arab': 'Uighur (China)',  # Uighur
+    'urd_Arab': 'Pakistan',  # Urdu
+    'uzs_Arab': 'Uzbekistan',  # Southern Uzbek
+    'zsm_Arab': 'Malaysia'  # Standard Malay
+}
+def predict_label(text, model, language_mapping_dict, use_mapping=False):
+    # Remove any newline characters and strip whitespace
+    text = str(text).strip().replace('\n', ' ')
+    if text == '':
+        return 'Other'
+    try:
+        # Get top prediction
+        prediction = model.predict(text, 1)
+        # Extract label and remove __label__ prefix
+        label = prediction[0][0].replace('__label__', '')
+        # Extract confidence score
+        confidence = prediction[1][0]
+        # map label to language using language_mapping_dict
+        if use_mapping:
+            label = language_mapping_dict.get(label, 'Other')
+        return label
+    except Exception as e:
+        print(f"Error processing text: {text}")
+        print(f"Exception: {e}")
+        return {'prediction_label': 'Error', 'prediction_confidence': 0.0}
+def compute_classification_metrics(test_dataset):
+    """
+    Compute comprehensive classification metrics for each class.
+    Args:
+        data (pd.DataFrame): DataFrame containing 'dialect' as true labels and 'preds' as predicted labels.
+    Returns:
+        pd.DataFrame: DataFrame with detailed metrics for each class.
+    """
+    # transform the dataset into a DataFrame
+    data = pd.DataFrame(test_dataset)
+    # Extract true labels and predictions
+    true_labels = list(data['dialect'])
+    predicted_labels = list(data['preds'])
+    # Handle all unique labels
+    labels = sorted(list(set(true_labels + predicted_labels)))
+    label_to_index = {label: index for index, label in enumerate(labels)}
+    # Convert labels to indices
+    true_indices = [label_to_index[label] for label in true_labels]
+    pred_indices = [label_to_index[label] for label in predicted_labels]
+    # Compute basic metrics
+    f1_scores = f1_score(true_indices, pred_indices, average=None, labels=range(len(labels)))
+    precision_scores = precision_score(true_indices, pred_indices, average=None, labels=range(len(labels)))
+    recall_scores = recall_score(true_indices, pred_indices, average=None, labels=range(len(labels)))
+    # Compute confusion matrix
+    conf_mat = confusion_matrix(true_indices, pred_indices, labels=range(len(labels)))
+    # Calculate various metrics per class
+    FP = conf_mat.sum(axis=0) - np.diag(conf_mat)  # False Positives
+    FN = conf_mat.sum(axis=1) - np.diag(conf_mat)  # False Negatives
+    TP = np.diag(conf_mat)                         # True Positives
+    TN = conf_mat.sum() - (FP + FN + TP)          # True Negatives
+    # Calculate sample counts per class
+    samples_per_class = np.bincount(true_indices, minlength=len(labels))
+    # Calculate additional metrics
+    with np.errstate(divide='ignore', invalid='ignore'):
+        fp_rate = FP / (FP + TN)  # False Positive Rate
+        fn_rate = FN / (FN + TP)  # False Negative Rate
+        specificity = TN / (TN + FP)  # True Negative Rate
+        npv = TN / (TN + FN)  # Negative Predictive Value
+        # Replace NaN/inf with 0
+        metrics = [fp_rate, fn_rate, specificity, npv]
+        metrics = [np.nan_to_num(m, nan=0.0, posinf=0.0, neginf=0.0) for m in metrics]
+        fp_rate, fn_rate, specificity, npv = metrics
+    # Calculate overall metrics
+    balanced_acc = balanced_accuracy_score(true_indices, pred_indices)
+    mcc = matthews_corrcoef(true_indices, pred_indices)
+    # Compile results into a DataFrame
+    result_df = pd.DataFrame({
+        'country': labels,
+        'samples': samples_per_class,
+        'f1_score': f1_scores,
+        'precision': precision_scores,
+        'recall': recall_scores,
+        'specificity': specificity,
+        'false_positive_rate': fp_rate,
+        'false_negative_rate': fn_rate,
+        'true_positives': TP,
+        'false_positives': FP,
+        'true_negatives': TN,
+        'false_negatives': FN,
+        'negative_predictive_value': npv
+    })
+    # Sort by number of samples (descending)
+    result_df = result_df.sort_values('samples', ascending=False)
+    # Calculate and add summary metrics
+    summary_metrics = {
+        'macro_f1': f1_score(true_indices, pred_indices, average='macro'),
+        'weighted_f1': f1_score(true_indices, pred_indices, average='weighted'),
+        'micro_f1': f1_score(true_indices, pred_indices, average='micro'),
+        'balanced_accuracy': balanced_acc,
+        'matthews_correlation': mcc
+    }
+    # Format all numeric columns to 4 decimal places
+    numeric_cols = result_df.select_dtypes(include=[np.number]).columns
+    result_df[numeric_cols] = result_df[numeric_cols].round(4)
+    print(f'result_df: {result_df}')
+    return result_df, summary_metrics
+def make_binary(dialect, target):
+    if dialect != target:
+        return 'Other'
+    return target
+def run_eval_one_vs_all(model, data_test, TARGET_LANG='Morocco', language_mapping_dict=None, use_mapping=False):
+    # Predict labels using the model
+    print(f"[INFO] Running predictions...")
+    data_test['preds'] = data_test['text'].apply(lambda text: predict_label(text, model, language_mapping_dict, use_mapping=use_mapping))
+    # map to binary
+    df_test_preds = data_test.copy()
+    df_test_preds.loc[df_test_preds['dialect'] == TARGET_LANG, 'dialect'] = TARGET_LANG
+    df_test_preds.loc[df_test_preds['dialect'] != TARGET_LANG, 'dialect'] = 'Other'
+    # compute the fpr per dialect
+    dialect_counts = data_test.groupby('dialect')['dialect'].count().reset_index(name='size')
+    result_df = pd.merge(dialect_counts, data_test, on='dialect')
+    result_df = result_df.groupby(['dialect', 'size', 'preds'])['preds'].count()/result_df.groupby(['dialect', 'size'])['preds'].count()
+    result_df.sort_index(ascending=False, level='size', inplace=True)
+    # group by dialect and get the false positive rate
+    out = result_df.copy()
+    out.name = 'false_positive_rate'
+    out = out.reset_index()
+    out = out[out['preds']==TARGET_LANG].drop(columns=['preds', 'size'])
+    return out
+def update_darija_binary_leaderboard(result_df, model_name, BINARY_LEADERBOARD_FILE="darija_leaderboard_binary.json"):
+    try:
+        with open(BINARY_LEADERBOARD_FILE, "r") as f:
+            data = json.load(f)
+    except FileNotFoundError:
+        data = []
+    # Process the results for each dialect/country
+    for _, row in result_df.iterrows():
+        country = row['dialect']
+        # skip 'Other' class, it is considered as the null space
+        if country == 'Other':
+            continue
+        # Find existing country entry or create new one
+        country_entry = next((item for item in data if country in item), None)
+        if country_entry is None:
+            country_entry = {country: {}}
+            data.append(country_entry)
+        # Update the model metrics directly under the model name
+        if country not in country_entry:
+            country_entry[country] = {}
+        country_entry[country][model_name] = float(row['false_positive_rate'])
+        if country_entry[country].get("n_test_samples") is None:
+            country_entry[country]["n_test_samples"] = int(row['size'])
+    # Save updated leaderboard data
+    with open(MULTILINGUAL_LEADERBOARD_FILE, "w") as f:
+        json.dump(data, f, indent=4)
+def handle_evaluation(model_path, model_path_bin, use_mapping=False):
+    # run the evaluation
+    result_df, _ = run_eval(model_path, model_path_bin, language_mapping_dict, use_mapping=use_mapping)
+    # set the model name
+    model_name = model_path + '/' + model_path_bin
+    # update the leaderboard
+    update_darija_multilingual_leaderboard(result_df, model_name, MULTILINGUAL_LEADERBOARD_FILE)
+    # update the leaderboard table
+    df = load_leaderboard_multilingual()
+    return create_leaderboard_display_multilingual(df, 'Morocco', default_metrics)
+def run_eval(model_path, model_path_bin, language_mapping_dict=None, use_mapping=False):
+    """Run evaluation on a dataset and compute metrics.
+    Args:
+        model: The model to evaluate.
+        DATA_PATH (str): Path to the dataset.
+        is_binary (bool): If True, evaluate as binary classification.
+                          If False, evaluate as multi-class classification.
+        target_label (str): The target class label in binary mode.
+    Returns:
+        pd.DataFrame: A DataFrame containing evaluation metrics.
+    """
+    # download model and get the model path
+    model_path = hf_hub_download(repo_id=model_path, filename=model_path_bin, cache_dir=None)
+    # Load the trained model
+    print(f"[INFO] Loading model from Path: {model_path}, using version {model_path_bin}...")
+    model = fasttext.load_model(model_path)
+    # Load the evaluation dataset
+    print(f"[INFO] Loading evaluation dataset from Path: atlasia/No-Arabic-Dialect-Left-Behind-Filtered-Balanced...")
+    eval_dataset = load_dataset("atlasia/No-Arabic-Dialect-Left-Behind-Filtered-Balanced", split='test')
+    # Transform to pandas DataFrame
+    print(f"[INFO] Converting evaluation dataset to Pandas DataFrame...")
+    df_eval = pd.DataFrame(eval_dataset)
+    # Predict labels using the model
+    print(f"[INFO] Running predictions...")
+    df_eval['preds'] = df_eval['text'].apply(lambda text: predict_label(text, model, language_mapping_dict, use_mapping=use_mapping))
+    # now drop the columns that are not needed, i.e. 'text'
+    df_eval = df_eval.drop(columns=['text', 'metadata', 'dataset_source'])
+    # Compute evaluation metrics
+    print(f"[INFO] Computing metrics...")
+    result_df, _ = compute_classification_metrics(df_eval)
+    # update_darija_multilingual_leaderboard(result_df, model_path, MULTILINGUAL_LEADERBOARD_FILE)
+    return result_df, df_eval
+def process_results_file(file, uploaded_model_name, base_path_save="./atlasia/submissions/"):
+    try:
+        if file is None:
+            return "Please upload a file."
+        # Clean the model name to be safe for file paths
+        uploaded_model_name = uploaded_model_name.strip().replace(" ", "_")
+        print(f"[INFO] uploaded_model_name: {uploaded_model_name}")
+        # Create the directory for saving submissions
+        path_saving = os.path.join(base_path_save, uploaded_model_name)
+        os.makedirs(path_saving, exist_ok=True)
+        # Define the full path to save the file
+        saved_file_path = os.path.join(path_saving, 'submission.csv')
+        # Read the uploaded file as DataFrame
+        print(f"[INFO] Loading results...")
+        df_eval = pd.read_csv(file.name)
+        # Save the DataFrame
+        print(f"[INFO] Saving the file locally in: {saved_file_path}")
+        df_eval.to_csv(saved_file_path, index=False)
+    except Exception as e:
+        return f"Error processing file: {str(e)}"
+    # Compute evaluation metrics
+    print(f"[INFO] Computing metrics...")
+    result_df, _ = compute_classification_metrics(df_eval)
+    # Update the leaderboards
+    update_darija_multilingual_leaderboard(result_df, uploaded_model_name, MULTILINGUAL_LEADERBOARD_FILE)
+    # result_df_binary = run_eval_one_vs_all(model, data_test, TARGET_LANG='Morocco', language_mapping_dict=None, use_mapping=False)
+    # update_darija_binary_leaderboard(result_df, uploaded_model_name, BINARY_LEADERBOARD_FILE)
+    # update the leaderboard table
+    df = load_leaderboard_multilingual()
+    return create_leaderboard_display_multilingual(df, 'Morocco', default_metrics)
+def update_darija_multilingual_leaderboard(result_df, model_name, MULTILINGUAL_LEADERBOARD_FILE="darija_leaderboard_multilingual.json"):
+    # Load leaderboard data
+    current_dir = os.path.dirname(os.path.abspath(__file__))
+    MULTILINGUAL_LEADERBOARD_FILE = os.path.join(current_dir, MULTILINGUAL_LEADERBOARD_FILE)
+    try:
+        with open(MULTILINGUAL_LEADERBOARD_FILE, "r") as f:
+            data = json.load(f)
+    except FileNotFoundError:
+        data = []
+    # Process the results for each dialect/country
+    for _, row in result_df.iterrows():
+        country = row['country']
+        # skip 'Other' class, it is considered as the null space
+        if country == 'Other':
+            continue
+        # Create metrics dictionary directly
+        metrics = {
+            'f1_score': float(row['f1_score']),
+            'precision': float(row['precision']),
+            'recall': float(row['recall']),
+            'specificity': float(row['specificity']),
+            'false_positive_rate': float(row['false_positive_rate']),
+            'false_negative_rate': float(row['false_negative_rate']),
+            'negative_predictive_value': float(row['negative_predictive_value']),
+            'n_test_samples': int(row['samples'])
+        }
+        # Find existing country entry or create new one
+        country_entry = next((item for item in data if country in item), None)
+        if country_entry is None:
+            country_entry = {country: {}}
+            data.append(country_entry)
+        # Update the model metrics directly under the model name
+        if country not in country_entry:
+            country_entry[country] = {}
+        country_entry[country][model_name] = metrics
+    # Save updated leaderboard data
+    with open(MULTILINGUAL_LEADERBOARD_FILE, "w") as f:
+        json.dump(data, f, indent=4)
+def load_leaderboard_multilingual(MULTILINGUAL_LEADERBOARD_FILE="darija_leaderboard_multilingual.json"):
+    current_dir = os.path.dirname(os.path.abspath(__file__))
+    MULTILINGUAL_LEADERBOARD_FILE = os.path.join(current_dir, MULTILINGUAL_LEADERBOARD_FILE)
+    with open(MULTILINGUAL_LEADERBOARD_FILE, "r") as f:
+        data = json.load(f)
+    # Initialize lists to store the flattened data
+    rows = []
+    # Process each country's data
+    for country_data in data:
+        for country, models in country_data.items():
+            for model_name, metrics in models.items():
+                row = {
+                    'country': country,
+                    'model': model_name,
+                }
+                # Add all metrics to the row
+                row.update(metrics)
+                rows.append(row)
+    # Convert to DataFrame
+    df = pd.DataFrame(rows)
+    return df
+def create_leaderboard_display_multilingual(df, selected_country, selected_metrics):
+    # Filter by country if specified
+    if selected_country and selected_country.upper() != 'ALL':
+        print(f"Filtering leaderboard by country: {selected_country}")
+        df = df[df['country'] == selected_country]
+        df = df.drop(columns=['country'])
+        # Select only the chosen metrics (plus 'model' column)
+        columns_to_show = ['model'] + [metric for metric in selected_metrics if metric in df.columns]
+    else:
+        # Select all metrics (plus 'country' and 'model' columns), if no country is selected or 'All' is selected for ease of comparison
+        columns_to_show = ['model', 'country'] + selected_metrics
+    # Sort by first selected metric by default
+    if selected_metrics:
+        df = df.sort_values(by=selected_metrics[0], ascending=False)
+    df = df[columns_to_show]
+    # Format numeric columns to 4 decimal places
+    numeric_cols = df.select_dtypes(include=['float64']).columns
+    df[numeric_cols] = df[numeric_cols].round(4)
+    return df
+def update_leaderboard_multilingual(country, selected_metrics):
+    if not selected_metrics:  # If no metrics selected, show all
+        selected_metrics = metrics
+    df = load_leaderboard_multilingual()
+    display_df = create_leaderboard_display_multilingual(df, country, selected_metrics)
+    return display_df
+def encode_image_to_base64(image_path):
+    with open(image_path, "rb") as image_file:
+        encoded_string = base64.b64encode(image_file.read()).decode()
+    return encoded_string
+def create_html_image(image_path):
+    # Get base64 string of image
+    img_base64 = encode_image_to_base64(image_path)
+    # Create HTML string with embedded image and centering styles
+    html_string = f"""
+    <div style="display: flex; justify-content: center; align-items: center; width: 100%; text-align: center;">
+        <div style="max-width: 800px; margin: auto;">
+            <img src="data:image/jpeg;base64,{img_base64}"
+                 style="max-width: 75%; height: auto; display: block; margin: 0 auto; margin-top: 50px;"
+                 alt="Displayed Image">
+        </div>
+    </div>
+    """
+    return html_string