Omartificial-Intelligence-Space
/

inference-free-splade-distilbert-base-Arabic-cased-nq

@@ -102,27 +102,62 @@ pip install -U sentence-transformers
 Then you can load this model and run inference.
 ```python
 from sentence_transformers import SparseEncoder
-# Download from the 🤗 Hub
-model = SparseEncoder("Omartificial-Intelligence-Space/inference-free-splade-distilbert-base-Arabic-cased-nq")
-# Run inference
-queries = [
-    "\u0643\u0645 \u0643\u0627\u0646 \u0639\u0645\u0631 \u0645\u064a\u0633\u064a \u0639\u0646\u062f\u0645\u0627 \u0628\u062f\u0623 \u062d\u064a\u0627\u062a\u0647 \u0627\u0644\u0645\u0647\u0646\u064a\u0629",
-]
-documents = [
-    'ليونيل ميسي ولد وترعرع في وسط الأرجنتين، تم تشخيص ميسي بضعف هرمون النمو في طفولته. في سن 13 عاما، انتقل إلى إسبانيا للانضمام إلى برشلونة، التي وافقت على دفع تكاليف علاجه الطبي. بعد التقدم السريع من خلال أكاديمية شباب برشلونة، ظهر ميسي لأول مرة في التنافسية في سن 17 عاما في أكتوبر 2004. على الرغم من كونها عرضة للإصابة خلال مسيرته المبكرة، فقد أسس نفسه كلاعبًا أساسيًا للنادي في غضون السنوات الثلاث التالية، حيث أنهى 2007 كنهائي لكل من جائزة كرة الذهب و لاعب العالم للفيفا للعام، وهو إنجاز كرره في العام التالي. جاءت أول حملة غير منقطعة له في موسم 2008-2009, حيث ساعد برشلونة على تحقيق أول ثلاثية في كرة القدم الإسبانية. في سن 22 عاما، فاز ميسي بجائزة كرة الذهب و لاعب العالم للفيفا بالعام عن طريق حافة التصويت.',
-    'علم روسيا هناك تفسيرات مختلفة لما تعنيه الألوان على العلم الروسي. الأكثر شعبية هي كما يلي: اللون الأبيض يرمز إلى النبلاء والصراحة، والأزرق للاولاء والصدق والعفاف والعفاف، والأحمر للشجاعة والكرم والحب. [1]',
-    'جمهورية تكساس جمهورية تكساس (بالإسبانية:RepÃoblica de Tejas) كانت دولة مستقلة ذات سيادة في أمريكا الشمالية كانت موجودة من 2 مارس 1836 إلى 19 فبراير 1846. تحدها المكسيك من الغرب والجنوب الغربي، وخليج المكسيك من الجنوب الشرقي، ولايتين أمريكيتين لويزيانا وأركنساس من الشرق والشمال الشرقي، وأراضي الولايات المتحدة التي تشمل أجزاء من ولايات أوكلاهوما وأكنساس وكولورادو ووايومنغ الحالية في الولايات المتحدة من الشمال. كان مواطنو الجمهورية يعرفون باسم تكسيين.',
-]
-query_embeddings = model.encode_query(queries)
-document_embeddings = model.encode_document(documents)
-print(query_embeddings.shape, document_embeddings.shape)
-# [1, 119547] [3, 119547]
-# Get the similarity scores for the embeddings
-similarities = model.similarity(query_embeddings, document_embeddings)
-print(similarities)
-# tensor([[6.5963, 0.2351, 1.0142]])
 ```
 <!--

 Then you can load this model and run inference.
 ```python
 from sentence_transformers import SparseEncoder
+import numpy as np
+def retrieve_top_k(model, queries, documents, top_k=3):
+    """
+    Given a SparseEncoder model, a list of queries and documents,
+    returns for each query the top_k documents ranked by SPLADE score.
+    """
+    # 1) Encode all queries and documents
+    query_embeddings    = model.encode_query(queries)       # shape: [n_queries, vocab_size]
+    document_embeddings = model.encode_document(documents)  # shape: [n_docs,    vocab_size]
+    # 2) Compute pairwise similarity
+    #    result shape: [n_queries, n_docs]
+    sims = model.similarity(query_embeddings, document_embeddings).cpu().numpy()
+    # 3) For each query, pick top_k documents
+    all_results = []
+    for qi, query in enumerate(queries):
+        scores = sims[qi]
+        topk_idx = np.argsort(-scores)[:top_k]
+        results = [(idx, float(scores[idx]), documents[idx]) for idx in topk_idx]
+        all_results.append((query, results))
+    return all_results
+if __name__ == "__main__":
+    # Load the SPLADE‐DistilBERT Arabic model
+    model_name = "Omartificial-Intelligence-Space/inference-free-splade-distilbert-base-Arabic-cased-nq"
+    print(f"Loading sparse model {model_name} …")
+    model = SparseEncoder(model_name)
+    # Example documents (could be paragraphs from your corpus)
+    documents = [
+        "ليونيل ميسي ولد وترعرع في وسط الأرجنتين، وتم تشخيصه بضعف هرمون النمو في طفولته.",
+        "علم روسيا هناك تفسيرات مختلفة لما تعنيه الألوان: الأبيض للنبلاء، الأزرق للصدق، الأحمر للشجاعة.",
+        "كانت جم��ورية تكساس دولة مستقلة في أمريكا الشمالية من 1836 إلى 1846.",
+        "تقع مكة المكرمة في غرب المملكة العربية السعودية، وهي أقدس مدن الإسلام.",
+        "برج خليفة في دبي هو أطول بناء من صنع الإنسان في العالم بارتفاع 828 متراً."
+    ]
+    # Example queries
+    queries = [
+        "من هو ليونيل ميسي؟",
+        "ما معنى ألوان علم روسيا؟",
+        "ما هي جمهورية تكساس؟",
+        "أين تقع مكة المكرمة؟",
+        "ما هو أطول مبنى في العالم؟"
+    ]
+    # Retrieve top-3 docs per query
+    results = retrieve_top_k(model, queries, documents, top_k=2)
+    # Print nicely
+    for query, hits in results:
+        print(f"\nQuery: {query}")
+        for rank, (doc_idx, score, doc_text) in enumerate(hits, start=1):
+            print(f"  {rank}. (score={score:.4f}) {doc_text}")
 ```
 <!--