SentenceTransformer based on intfloat/multilingual-e5-base

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-base
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("m-rudko-pn/e5-base-ukr-wikipedia")
# Run inference
sentences = [
    'Уварівська базиліка',
    'Уварівська базиліка — одна з найбільших у Криму. Була споруджена наприкінці V ст. — початку VI ст., згодом неодноразово перебудовувалась. Капітальна перебудову базиліки проводили в X ст... Після цього базиліка проіснувала ще три століття. Історики й археологи вважають, що Уварівська базиліка була головним храмом міста, присвяченим апостолам Петру та Павлу, про який згадується в письмових джерелах. У 1853 році її було розкопано графом О. С. Уваровим, засновником Московського археологічного товариства.',
    'Харківський національний університет імені Василя Назаровича Каразіна — університет у місті Харків. З 2009 до 2014 року мав статус автономного дослідницького університету. Заснований 17 листопада 1804 року з ініціативи видатного просвітника Василя Каразіна за кошти місцевої громади, а урочисто відкритий 29 січня (17) 1805 року. Після Львівського національного університету імені Івана Франка — другий за віком найстаріший університет України. За час свого існування Харківський університет декілька разів змінював офіційну назву. Заклад було засновано під назвою Імператорського Харківського університету, яку він зберігав до 1917 року. За радянських часів університет носив назви: Вільна академія теоретичних знань (1920—1921), Харківський інститут народної освіти (1921—1932), Харківський державний університет імені О. М. Горького (1932—1990-ті). Від 1999 р. університет має сучасну назву — Харківський національний університет імені В. Н. Каразіна.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 79,912 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 3 tokens
    • mean: 7.31 tokens
    • max: 113 tokens
    • min: 5 tokens
    • mean: 258.54 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    Культ Прозерпіна була офіційно додана до римської релігії в 205 до н. е., разом із приєднанням Церери до обряду римських богів, коли римляни набирали армію з богів для боротьби проти Карфагену наприкінці Другої Пунічної війни. Цей культ був створений на півдні Італії і, ймовірно, що базувався на грецькому святі Тесмофорії, таємничому віросповіданні, що вшановував Деметру та Персефону як «Матір та Діву». Воно прибуло разом із грецькими жрицями, яким було надано римське громадянство, тому вони могли молитися богам «з іноземними та додатковими знаннями, але з місцевим та громадянським наміром». Новий культ був встановлений в раніше античному храмі Церери, Лібера та Лібери, Авентин був заступником всіх плебеїв; з кінця III ст. до н. е., храм Деметри у Енні, на Сицилії, був визнаний найстарішим та найвладнішим центром культу Церери, а Ліберу вважали Прозерпіною, романським прототипом дочки Деметри Персефони. Зв'язок між цими культами простежується у пошуку Деметри Персефони, після її зґвалтування...
    Шостий хрестовий похід ==Шостий хрестовий похід== Фрідріх зробив останні зусилля, щоб помиритися з Григорієм. Це не мало ефекту, і Фрідріх відплив із Бріндізі в червні 1228 року. Після зупинки на Кіпрі Фрідріх II прибув до Акри 7 вересня 1228 року і був тепло прийнятий військовими орденами, незважаючи на його відлучення. Армія Фрідріха була невеликою, в основному німцями, сицилійцями та англійцями. [143] З війська, яке він надіслав у 1227 році, більшість повернулася додому. Він не міг ні дозволити собі, ні здійснити подовжену кампанію у Святій Землі, враховуючи триваючу Війну Ключів з Римом. Шостий хрестовий похід був би походом переговорів. [144] Після вирішення міжусобної боротьби в Сирії позиція аль-Каміля була сильнішою, ніж роком раніше, коли він зробив свою первісну пропозицію Фрідріху. З невідомих причин обидві сторони дійшли згоди. Яффський договір був укладений 18 лютого 1229 року, коли аль-Каміль здав Єрусалим, за винятком деяких мусульманських святих місць, і погодився на десятирічне перемир'я. [1...
    Чисельність Через відсутність сучасних переписів населення України з 2001 року населення міста до російського вторгнення в Україну оцінювалося як приблизне до 70 000 осіб.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 9,990 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 3 tokens
    • mean: 7.33 tokens
    • max: 138 tokens
    • min: 8 tokens
    • mean: 264.53 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    Економіка та промисловість У вересні 2016 року Ірпінському регіоні діяли 125 підприємств, загальний фонд оплати праці яких складав 79,4 млн грн. Чисельність працюючих на підприємствах регіону 16 203 особи. Виробництво промислової продукції здійснюють 28 промислових підприємств. Переважає недержавний сектор, частка якого у загальному обсязі промислового виробництва становить близько 95 %. Обсяги реалізованої продукції за даними промислових підприємств основного кола за перше півріччя 2016 року склали 1354518,6 тис. грн. Станом на 1 липня 2016 року у місті Ірпені та селищах Ворзель, Гостомель, Коцюбинське було 8920 малих та середнього підприємців, на яких працювало 9200 осіб. Вагомою складовою економіки регіону є будівництво. Основними компаніями будівельної галузі регіону на даний час є наступні компанії: * Товариство «Відважних», яке звело 16 житлових комплексів, у яких уже проживає 10 тисяч мешканців. Серед них — ЖК «Новатор», «Варшавський Двір», «Rich Tawn, Буча», «Буча Квартал», «Центральний», «Парковий», «Лі...
    Виробничий процес Виробничий процес складається з наступних основних стадій: # «Приготування ячмінного солоду, або солодження ячменю». Ячмінь ретельно перебирають, очищають і сушать. Потім його замочують і розсипають шаром в 5—7 см на підлозі солодовні для проростання протягом 7—10 днів. Пророщене зерно (солод) надходить на сушку. Якщо зерно не пророщені, то отримане віскі називається зерновим (grain). У чистому вигляді він в продаж майже не надходить, а застосовується для купажу. В Шотландії випускають усього 4 марки чистого зернового віскі в пляшках: Glen Wolf, Black Barrel, Glen Clyde і Invergordon. # «Сушка солоду». У Шотландії солод сушать гарячим димом від згорання торфу, деревного вугілля і букових стружок, отримуючи таким чином «копчене зерно». У результаті готовий продукт має характерний димний йодисто-торф'яний аромат, який відрізняє шотландське віскі від усіх інших. В Ірландії та інших країнах дим для сушіння солоду не використовується. # «Отримання сусла». Солод подрібнюють, отримуючи борошн...
    Праджня (мудрість): медитація віпасана Праджня означає мудрість, що базується на усвідомленні причинно-наслідкового ланцюга, Чотирьох благородних істин та Трьох ознак існування. Праджня є мудрістю, яка спроможна усунути причини страждання та привести до бодгі. Кажуть, що це основний спосіб досягнути нірвани через осягання правдивої природи всіх речей: дукхи (незадовільності, страждання), анітьї (непостійності) та анатману (не-Я). Праджня є також шостою з шести параміт Махаяни. Спочатку праджня осягається на концептуальному рівні через слухання проповідей (розмов про дгарму), читання, вивчення, деколи через повторення вголос буддистських текстів та участь у бесідах. Коли досягнуто концептуальне розуміння, його застосовують до щоденного життя щоб кожен буддист міг перевірити правдивість вчень Будди на практиці. Між іншим, теоретично можна досягнути нірвани на будь-якому рівні практики, чи то глибоко медитуючи, слухаючи проповідь, здійснюючи щоденні справи чи будь-яку іншу діяльність.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 48
  • gradient_accumulation_steps: 10
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • num_train_epochs: 12
  • warmup_steps: 100
  • bf16: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 48
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 10
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 12
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 100
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss
0.2402 40 23.7841 0.3889
0.4805 80 8.9544 0.1751
0.7207 120 6.5047 0.1493
0.9610 160 5.6953 0.1384
1.1982 200 5.0065 0.1316
1.4384 240 4.9253 0.1283
1.6787 280 4.8296 0.1242
1.9189 320 4.8713 0.1189
2.1562 360 4.3173 0.1187
2.3964 400 4.2299 0.1176
2.6366 440 4.1011 0.1146
2.8769 480 4.017 0.1149
3.1141 520 3.8744 0.1143
3.3544 560 3.6343 0.1137
3.5946 600 3.6414 0.1106
3.8348 640 3.7575 0.1097
4.0721 680 3.4976 0.1090
4.3123 720 3.2275 0.1101
4.5526 760 3.4188 0.1081
4.7928 800 3.3474 0.1085
5.0300 840 3.2909 0.1069
5.2703 880 3.1049 0.1077
5.5105 920 3.127 0.1072
5.7508 960 3.1406 0.1052
5.9910 1000 3.1197 0.1054
6.2282 1040 2.8499 0.1062
6.4685 1080 2.8775 0.1063
6.7087 1120 2.9769 0.1049
6.9489 1160 2.8667 0.1054
7.1862 1200 2.7214 0.1048
7.4264 1240 2.7586 0.1056
7.6667 1280 2.6802 0.1060
7.9069 1320 2.7345 0.1048
8.1441 1360 2.6684 0.1048
8.3844 1400 2.5718 0.1055
8.6246 1440 2.571 0.1053
8.8649 1480 2.5737 0.1048
9.1021 1520 2.5684 0.1056
9.3423 1560 2.5226 0.1047
9.5826 1600 2.4952 0.1043
9.8228 1640 2.4996 0.1047
10.0601 1680 2.4942 0.1043
10.3003 1720 2.4692 0.1044
10.5405 1760 2.344 0.1042
10.7808 1800 2.4791 0.1047
11.0180 1840 2.4376 0.1049
11.2583 1880 2.3913 0.1044
11.4985 1920 2.4054 0.1048
11.7387 1960 2.4165 0.1046
11.9790 2000 2.4008 0.1044

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 4.1.0
  • Transformers: 4.52.4
  • PyTorch: 2.7.1+cu126
  • Accelerate: 1.7.0
  • Datasets: 3.6.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
12
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for m-rudko-pn/e5-base-ukr-wikipedia

Finetuned
(76)
this model