Spaces:

fair-forward
/

evals-for-every-language

Running

davidpomerenke commited on 4 days ago

Commit

1e8952a

verified ·

1 Parent(s): 6f68367

Upload from GitHub Actions: Display N/A scores as such

Files changed (4) hide show

.github/workflows/nightly-evals.yml CHANGED Viewed

@@ -39,7 +39,7 @@ jobs:
           git config --local --unset-all http.https://github.com/.extraheader
           git remote set-url origin https://${GH_PAT}@github.com/datenlabor-bmz/ai-language-monitor.git
           git add results.json models.json languages.json
-          git commit -m "Update evaluation results [skip ci]" || echo "No changes to commit"
           git push origin HEAD:main
       - name: Upload to Hugging Face

           git config --local --unset-all http.https://github.com/.extraheader
           git remote set-url origin https://${GH_PAT}@github.com/datenlabor-bmz/ai-language-monitor.git
           git add results.json models.json languages.json
+          git commit -m "Update evaluation results" || echo "No changes to commit"
           git push origin HEAD:main
       - name: Upload to Hugging Face

evals/backend.py CHANGED Viewed

@@ -31,8 +31,8 @@ def make_model_table(df, models):
     )
     df["task_metric"] = df["task"] + "_" + df["metric"]
     df = df.drop(columns=["task", "metric"])
-    df = df.pivot(index="model", columns="task_metric", values="score").fillna(0)
-    df["average"] = df[task_metrics].mean(axis=1)
     df = df.sort_values(by="average", ascending=False).reset_index()
     df = pd.merge(df, models, left_on="model", right_on="id", how="left")
     df["rank"] = df.index + 1
@@ -65,10 +65,9 @@ def make_language_table(df, languages):
     df = df.drop(columns=["task", "metric"])
     df = (
         df.pivot(index="bcp_47", columns="task_metric", values="score")
-        .fillna(0)
         .reset_index()
     )
-    df["average"] = df[task_metrics].mean(axis=1)
     df = pd.merge(languages, df, on="bcp_47", how="outer")
     df = df.sort_values(by="speakers", ascending=False)
     df = df[

     )
     df["task_metric"] = df["task"] + "_" + df["metric"]
     df = df.drop(columns=["task", "metric"])
+    df = df.pivot(index="model", columns="task_metric", values="score")
+    df["average"] = df[task_metrics].mean(axis=1, skipna=False)
     df = df.sort_values(by="average", ascending=False).reset_index()
     df = pd.merge(df, models, left_on="model", right_on="id", how="left")
     df["rank"] = df.index + 1
     df = df.drop(columns=["task", "metric"])
     df = (
         df.pivot(index="bcp_47", columns="task_metric", values="score")
         .reset_index()
     )
+    df["average"] = df[task_metrics].mean(axis=1, skipna=False)
     df = pd.merge(languages, df, on="bcp_47", how="outer")
     df = df.sort_values(by="speakers", ascending=False)
     df = df[

frontend/src/components/HistoryPlot.js CHANGED Viewed

@@ -4,6 +4,7 @@ import * as Plot from '@observablehq/plot'
 const HistoryPlot = ({ data }) => {
   const containerRef = useRef()
   const models = [...data.model_table] // sort copy, not in place
     .sort((a, b) => new Date(a.creation_date) - new Date(b.creation_date))
     .reduce((acc, curr) => {
       const last = acc[acc.length - 1]?.maxAverage || 0

 const HistoryPlot = ({ data }) => {
   const containerRef = useRef()
   const models = [...data.model_table] // sort copy, not in place
+    .filter(d => d.average !== null)
     .sort((a, b) => new Date(a.creation_date) - new Date(b.creation_date))
     .reduce((acc, curr) => {
       const last = acc[acc.length - 1]?.maxAverage || 0

frontend/src/components/ScoreField.js CHANGED Viewed

@@ -1,8 +1,11 @@
 const ScoreField = (score, minScore, maxScore) => {
   // Calculate percentage based on the provided min and max scores
   // This normalizes the score to a 0-100 range for visualization
   const normalizedScore = Math.min(Math.max(score, minScore), maxScore)
-  const percentage =
     ((normalizedScore - minScore) / (maxScore - minScore)) * 100
   // Continuous color gradient from red to green based on score
@@ -15,7 +18,8 @@ const ScoreField = (score, minScore, maxScore) => {
   // Use a low opacity for subtlety (0.1-0.2 range)
   const opacity = 0.1 + (percentage / 100) * 0.1
-  const barColor = `rgba(${red}, ${green}, 0, ${opacity.toFixed(2)})`
   return (
     <div
@@ -45,7 +49,7 @@ const ScoreField = (score, minScore, maxScore) => {
           zIndex: 1
         }}
       >
-        {(score * 100).toFixed(1)}%
       </span>
     </div>
   )

 const ScoreField = (score, minScore, maxScore) => {
+  let percentage = 100
+  let barColor = "rgba(210, 106, 255, 0.1)" // light violet for missing data
+  if (score !== null) {
   // Calculate percentage based on the provided min and max scores
   // This normalizes the score to a 0-100 range for visualization
   const normalizedScore = Math.min(Math.max(score, minScore), maxScore)
+  percentage =
     ((normalizedScore - minScore) / (maxScore - minScore)) * 100
   // Continuous color gradient from red to green based on score
   // Use a low opacity for subtlety (0.1-0.2 range)
   const opacity = 0.1 + (percentage / 100) * 0.1
+  barColor = `rgba(${red}, ${green}, 0, ${opacity.toFixed(2)})`
+  }
   return (
     <div
           zIndex: 1
         }}
       >
+        {score !== null ? (score * 100).toFixed(1)+"%" : '–'}
       </span>
     </div>
   )