Spaces:

orionweller
/

retrieval-prompting

Sleeping

orionweller commited on Sep 9, 2024

Commit

5dfae9b

1 Parent(s): e001df1

try to fix ndcg bug

Files changed (1) hide show

app.py CHANGED Viewed

@@ -213,15 +213,13 @@ def evaluate(qrels, results, k_values):
     metrics = {}
     for k in k_values:
-        metrics[f"NDCG@{k}"] = round(np.mean([query_scores[f"ndcg_cut_{k}"] for query_scores in scores.values()]), 3)
-        metrics[f"Recall@{k}"] = round(np.mean([query_scores[f"recall_{k}"] for query_scores in scores.values()]), 3)
         logger.info(f"NDCG@{k}: mean={metrics[f'NDCG@{k}']}, min={min(ndcg_scores)}, max={max(ndcg_scores)}")
         logger.info(f"Recall@{k}: mean={metrics[f'Recall@{k}']}, min={min(recall_scores)}, max={max(recall_scores)}")
-    # Add these lines
-    logger.info(f"Number of queries evaluated: {len(scores)}")
-    logger.info(f"Sample evaluation score: {list(scores.items())[0]}")
     return metrics
 @spaces.GPU

     metrics = {}
     for k in k_values:
+        ndcg_scores = [query_scores[f"ndcg_cut_{k}"] for query_scores in scores.values()]
+        recall_scores = [query_scores[f"recall_{k}"] for query_scores in scores.values()]
+        metrics[f"NDCG@{k}"] = round(np.mean(ndcg_scores), 3)
+        metrics[f"Recall@{k}"] = round(np.mean(recall_scores), 3)
         logger.info(f"NDCG@{k}: mean={metrics[f'NDCG@{k}']}, min={min(ndcg_scores)}, max={max(ndcg_scores)}")
         logger.info(f"Recall@{k}: mean={metrics[f'Recall@{k}']}, min={min(recall_scores)}, max={max(recall_scores)}")
     return metrics
 @spaces.GPU