SentenceTransformer based on NAMAA-Space/AraModernBert-Base-STS

This is a sentence-transformers model finetuned from NAMAA-Space/AraModernBert-Base-STS. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: NAMAA-Space/AraModernBert-Base-STS
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: ModernBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("yoriis/NAMAA-retriever-cosine-1")
# Run inference
sentences = [
    'ما هي القرنية؟',
    'أما فيما يرجع لحقيقة سكان أفريقيا الشمالية الأولين فقد اجمع المؤرخون على بكرة أبيهم ان العنصر الاول الذي سكن هذه البلاد يتألف من البربر، وفي أصل هذه الكلمة يقول عبد الرحمان بن خلدون: (( ان العرب لما وفدوا على هذه البلاد وسمعوا لهجة أهلها الغريبة صاحوا قائلين ماهذه البربرة، فسموا بالبربر)) ويعتقد الم البارتيني انها مأخوذة من كلمة ((بارباري)) اللاتينية التي كان الرومان يطلقونها على كافة الشعوب القديمة باستثناء اليونان والرومان.',
    'بريتني جين سبيرز  (ولدت في 2 ديسمبر 1981)، هي مغنية أمريكية وكاتبة كلمات وممثلة من أصول بريطانية. ولدت في ميسيسبي, وترعرعت في لويزيانا, بريتني بدأت الغناء منذ أن كانت طفلة، ممثلة رئيسية في المسرحيات المدرسية وفي التلفاز قبل أن وقعت عقدا مع جافا في 1997. أول ألبومين لها "بيبي ون مور تايم" و "أوبس!...آي ديد إت أقين" أخذا نجاحاً هائلاً في أنحاء العالم وجعلا سبيرز أعلى مغنية في سن المراهقة مبيعا في التاريخ. مع لقبها الخاص "أميرة البوب"، وصفت سبيرز بأنها واحدة من اللذين أنعشوا وأعادوا موسيقى بوب المراهقين إلى الواجهة، في أواخر التسعينات وبداية الألفية الثالثة.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 47,178 training samples
  • Columns: sentence_0, sentence_1, and label
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 label
    type string string float
    details
    • min: 6 tokens
    • mean: 9.82 tokens
    • max: 27 tokens
    • min: 15 tokens
    • mean: 127.42 tokens
    • max: 512 tokens
    • min: 0.0
    • mean: 0.34
    • max: 1.0
  • Samples:
    sentence_0 sentence_1 label
    ما هي العاطفة في التعريف العام؟ يقع خليج العقبة إلى الشرق من شبه جزيرة سيناء وإلى الغرب من شبه الجزيرة العربية على إمتداد تلاقي الصفيحتين التكتونيتين العربية والافريقية لينتهي شمالا إلى وادي عربة؛ الحد الشرقي لصحراء النقب في فلسطين، ويعتبر مضيق تيران الحد الجنوبي للخليج. يبلغ طول خليج العقبة من مضيق تيران جنوبا إلى وادي عربه شمالا (160) كم أما عرضه فيصل إلى 24كم. واعمق نقطة في الخليج (1,850) متر تحت سطح البحر. 0.0
    متى وقعت الثورة الفرنسية ؟ في مارس من عام 2010، صنفته مجلة فرانس فوتبول على قمة قائمة أغنى لاعبي كرة القدم في العالم، بتسعة وعشرون مليون جنيه إسترليني في الجمع بين الإيرادات الآتية من الرواتب، المكافآت والأرباح خارج الملعب،[327] في سبتمبر من عام 2014 أعلن موقع سبوكس الألماني بأن ثروة ميسي تقدر بنحو 130 مليون يورو،[328] وفي تقرير مالي حديث ذكرت مجلة فرانس فوتبول التي تصدر في فرنسا أن ميسي هو أعلى لاعبي كرة القدم دخلاً خلال سنة 2015، إذ بلغ مجموع دخل اللاعب خلال تلك السنة 74 مليون يورو، وهذا الدخل عبارة عن مجموع راتب اللاعب مع نادي برشلونة والمكافئات وعقود الدعاية قبل خصم الضرائب والإلتزمات الاجتماعية.[329] 0.0
    ما هي العملة الرسمية في أوكرانية؟ التبشير بالإنجيل (باللاتينية الكنسية: evangelium، من اليونانية العامية: εὐαγγελιστής، المكونة من εὐ التي تعني "خير" وαγγελιστής التي تعني "رسالة") هو مصطلح مسيحي يقصد به نشر الإنجيل وتعاليم يسوع بين مجموعة من البشر لدعوتهم إلى التحول إلى المسيحيةوتعرف الكنيسة الكاثوليكية التبشير بأنه: "عمل رعوي موجه إلى الذين لا يعرفون رسالة المسيح".[1] طبقًا لوصايا العهد الجديد فإن المسيح قد أوصى تلاميذه ومن خلالهم جميع المسيحيين أن ينشروا الديانة إلى كافة أصقاع الأرض، وهي كانت من كلمات المسيح الأخيرة "ما يجعلها تكتسب أهمية كبيرة". الكنيسة تعتبر التبشير "حق إلهي" وتصرّح: "من واجبها ومن حقها البديهي أن تبشر العالم أجمع بالإنجيل، باستقلالية تامة عن أي سلطة ونفوذ بشري، مهما كان، وأن تستخدم لذلك الأسلوب المناسب لكل مجتمع".[2] التعليم المسيحي للكنيسة الكاثوليكية ينصّ: "ما من أحد أعطى نفسه الإيمان كما لم يعط أحد نفسه الحياة. فقد تقبل المؤمن الإيمان من غيره، وهو من واجبه أن ينقله لغيره".[3] أيًا كان فإن الدعوة المسيحية لا تتم إلا بناءً على دعوة إلهية مسبقة: "أما الذين قبلوه، أي الذين آمنوا باسمه، فقد منحهم ا... 0.0
  • Loss: CosineSimilarityLoss with these parameters:
    {
        "loss_fct": "torch.nn.modules.loss.MSELoss"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • fp16: True
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss
0.0424 500 0.0411
0.0848 1000 0.0347
0.1272 1500 0.04
0.1696 2000 0.0323
0.2120 2500 0.0332
0.2543 3000 0.0323
0.2967 3500 0.0295
0.3391 4000 0.0332
0.3815 4500 0.0292
0.4239 5000 0.0297
0.4663 5500 0.0271
0.5087 6000 0.0283
0.5511 6500 0.0258
0.5935 7000 0.0293
0.6359 7500 0.0239
0.6783 8000 0.0239
0.7206 8500 0.0299
0.7630 9000 0.0252
0.8054 9500 0.029
0.8478 10000 0.0253
0.8902 10500 0.0304
0.9326 11000 0.0254
0.9750 11500 0.0235
1.0174 12000 0.0194
1.0598 12500 0.0095
1.1022 13000 0.0079
1.1446 13500 0.0099
1.1869 14000 0.0096
1.2293 14500 0.0099
1.2717 15000 0.0101
1.3141 15500 0.0096
1.3565 16000 0.0088
1.3989 16500 0.0106
1.4413 17000 0.0098
1.4837 17500 0.0126
1.5261 18000 0.0105
1.5685 18500 0.0109
1.6109 19000 0.0118
1.6532 19500 0.0096
1.6956 20000 0.0082
1.7380 20500 0.0106
1.7804 21000 0.0107
1.8228 21500 0.009
1.8652 22000 0.0104
1.9076 22500 0.0104
1.9500 23000 0.0114
1.9924 23500 0.0088
2.0348 24000 0.0037
2.0772 24500 0.0035
2.1195 25000 0.0031
2.1619 25500 0.0037
2.2043 26000 0.0037
2.2467 26500 0.0033
2.2891 27000 0.0034
2.3315 27500 0.0045
2.3739 28000 0.0034
2.4163 28500 0.0032
2.4587 29000 0.0033
2.5011 29500 0.0041
2.5435 30000 0.0036
2.5858 30500 0.0036
2.6282 31000 0.0034
2.6706 31500 0.0038
2.7130 32000 0.0029
2.7554 32500 0.0036
2.7978 33000 0.0029
2.8402 33500 0.0036
2.8826 34000 0.0034
2.9250 34500 0.0032
2.9674 35000 0.0031

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 4.1.0
  • Transformers: 4.54.0
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.9.0
  • Datasets: 4.0.0
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
Downloads last month
1
Safetensors
Model size
149M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for yoriis/NAMAA-retriever-cosine-1

Finetuned
(6)
this model
Finetunes
3 models