SentenceTransformer based on intfloat/multilingual-e5-base
This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: intfloat/multilingual-e5-base
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("m-rudko-pn/e5-base-ukr-wikipedia")
# Run inference
sentences = [
'Уварівська базиліка',
'Уварівська базиліка — одна з найбільших у Криму. Була споруджена наприкінці V ст. — початку VI ст., згодом неодноразово перебудовувалась. Капітальна перебудову базиліки проводили в X ст... Після цього базиліка проіснувала ще три століття. Історики й археологи вважають, що Уварівська базиліка була головним храмом міста, присвяченим апостолам Петру та Павлу, про який згадується в письмових джерелах. У 1853 році її було розкопано графом О. С. Уваровим, засновником Московського археологічного товариства.',
'Харківський національний університет імені Василя Назаровича Каразіна — університет у місті Харків. З 2009 до 2014 року мав статус автономного дослідницького університету. Заснований 17 листопада 1804 року з ініціативи видатного просвітника Василя Каразіна за кошти місцевої громади, а урочисто відкритий 29 січня (17) 1805 року. Після Львівського національного університету імені Івана Франка — другий за віком найстаріший університет України. За час свого існування Харківський університет декілька разів змінював офіційну назву. Заклад було засновано під назвою Імператорського Харківського університету, яку він зберігав до 1917 року. За радянських часів університет носив назви: Вільна академія теоретичних знань (1920—1921), Харківський інститут народної освіти (1921—1932), Харківський державний університет імені О. М. Горького (1932—1990-ті). Від 1999 р. університет має сучасну назву — Харківський національний університет імені В. Н. Каразіна.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 79,912 training samples
- Columns:
anchor
andpositive
- Approximate statistics based on the first 1000 samples:
anchor positive type string string details - min: 3 tokens
- mean: 7.31 tokens
- max: 113 tokens
- min: 5 tokens
- mean: 258.54 tokens
- max: 512 tokens
- Samples:
anchor positive Культ
Прозерпіна була офіційно додана до римської релігії в 205 до н. е., разом із приєднанням Церери до обряду римських богів, коли римляни набирали армію з богів для боротьби проти Карфагену наприкінці Другої Пунічної війни. Цей культ був створений на півдні Італії і, ймовірно, що базувався на грецькому святі Тесмофорії, таємничому віросповіданні, що вшановував Деметру та Персефону як «Матір та Діву». Воно прибуло разом із грецькими жрицями, яким було надано римське громадянство, тому вони могли молитися богам «з іноземними та додатковими знаннями, але з місцевим та громадянським наміром». Новий культ був встановлений в раніше античному храмі Церери, Лібера та Лібери, Авентин був заступником всіх плебеїв; з кінця III ст. до н. е., храм Деметри у Енні, на Сицилії, був визнаний найстарішим та найвладнішим центром культу Церери, а Ліберу вважали Прозерпіною, романським прототипом дочки Деметри Персефони. Зв'язок між цими культами простежується у пошуку Деметри Персефони, після її зґвалтування...
Шостий хрестовий похід
==Шостий хрестовий похід== Фрідріх зробив останні зусилля, щоб помиритися з Григорієм. Це не мало ефекту, і Фрідріх відплив із Бріндізі в червні 1228 року. Після зупинки на Кіпрі Фрідріх II прибув до Акри 7 вересня 1228 року і був тепло прийнятий військовими орденами, незважаючи на його відлучення. Армія Фрідріха була невеликою, в основному німцями, сицилійцями та англійцями. [143] З війська, яке він надіслав у 1227 році, більшість повернулася додому. Він не міг ні дозволити собі, ні здійснити подовжену кампанію у Святій Землі, враховуючи триваючу Війну Ключів з Римом. Шостий хрестовий похід був би походом переговорів. [144] Після вирішення міжусобної боротьби в Сирії позиція аль-Каміля була сильнішою, ніж роком раніше, коли він зробив свою первісну пропозицію Фрідріху. З невідомих причин обидві сторони дійшли згоди. Яффський договір був укладений 18 лютого 1229 року, коли аль-Каміль здав Єрусалим, за винятком деяких мусульманських святих місць, і погодився на десятирічне перемир'я. [1...
Чисельність
Через відсутність сучасних переписів населення України з 2001 року населення міста до російського вторгнення в Україну оцінювалося як приблизне до 70 000 осіб.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
Unnamed Dataset
- Size: 9,990 evaluation samples
- Columns:
anchor
andpositive
- Approximate statistics based on the first 1000 samples:
anchor positive type string string details - min: 3 tokens
- mean: 7.33 tokens
- max: 138 tokens
- min: 8 tokens
- mean: 264.53 tokens
- max: 512 tokens
- Samples:
anchor positive Економіка та промисловість
У вересні 2016 року Ірпінському регіоні діяли 125 підприємств, загальний фонд оплати праці яких складав 79,4 млн грн. Чисельність працюючих на підприємствах регіону 16 203 особи. Виробництво промислової продукції здійснюють 28 промислових підприємств. Переважає недержавний сектор, частка якого у загальному обсязі промислового виробництва становить близько 95 %. Обсяги реалізованої продукції за даними промислових підприємств основного кола за перше півріччя 2016 року склали 1354518,6 тис. грн. Станом на 1 липня 2016 року у місті Ірпені та селищах Ворзель, Гостомель, Коцюбинське було 8920 малих та середнього підприємців, на яких працювало 9200 осіб. Вагомою складовою економіки регіону є будівництво. Основними компаніями будівельної галузі регіону на даний час є наступні компанії: * Товариство «Відважних», яке звело 16 житлових комплексів, у яких уже проживає 10 тисяч мешканців. Серед них — ЖК «Новатор», «Варшавський Двір», «Rich Tawn, Буча», «Буча Квартал», «Центральний», «Парковий», «Лі...
Виробничий процес
Виробничий процес складається з наступних основних стадій: # «Приготування ячмінного солоду, або солодження ячменю». Ячмінь ретельно перебирають, очищають і сушать. Потім його замочують і розсипають шаром в 5—7 см на підлозі солодовні для проростання протягом 7—10 днів. Пророщене зерно (солод) надходить на сушку. Якщо зерно не пророщені, то отримане віскі називається зерновим (grain). У чистому вигляді він в продаж майже не надходить, а застосовується для купажу. В Шотландії випускають усього 4 марки чистого зернового віскі в пляшках: Glen Wolf, Black Barrel, Glen Clyde і Invergordon. # «Сушка солоду». У Шотландії солод сушать гарячим димом від згорання торфу, деревного вугілля і букових стружок, отримуючи таким чином «копчене зерно». У результаті готовий продукт має характерний димний йодисто-торф'яний аромат, який відрізняє шотландське віскі від усіх інших. В Ірландії та інших країнах дим для сушіння солоду не використовується. # «Отримання сусла». Солод подрібнюють, отримуючи борошн...
Праджня (мудрість): медитація віпасана
Праджня означає мудрість, що базується на усвідомленні причинно-наслідкового ланцюга, Чотирьох благородних істин та Трьох ознак існування. Праджня є мудрістю, яка спроможна усунути причини страждання та привести до бодгі. Кажуть, що це основний спосіб досягнути нірвани через осягання правдивої природи всіх речей: дукхи (незадовільності, страждання), анітьї (непостійності) та анатману (не-Я). Праджня є також шостою з шести параміт Махаяни. Спочатку праджня осягається на концептуальному рівні через слухання проповідей (розмов про дгарму), читання, вивчення, деколи через повторення вголос буддистських текстів та участь у бесідах. Коли досягнуто концептуальне розуміння, його застосовують до щоденного життя щоб кожен буддист міг перевірити правдивість вчень Будди на практиці. Між іншим, теоретично можна досягнути нірвани на будь-якому рівні практики, чи то глибоко медитуючи, слухаючи проповідь, здійснюючи щоденні справи чи будь-яку іншу діяльність.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 48gradient_accumulation_steps
: 10learning_rate
: 2e-05weight_decay
: 0.01num_train_epochs
: 12warmup_steps
: 100bf16
: True
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 48per_device_eval_batch_size
: 8per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 10eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.01adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 12max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 100log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | Validation Loss |
---|---|---|---|
0.2402 | 40 | 23.7841 | 0.3889 |
0.4805 | 80 | 8.9544 | 0.1751 |
0.7207 | 120 | 6.5047 | 0.1493 |
0.9610 | 160 | 5.6953 | 0.1384 |
1.1982 | 200 | 5.0065 | 0.1316 |
1.4384 | 240 | 4.9253 | 0.1283 |
1.6787 | 280 | 4.8296 | 0.1242 |
1.9189 | 320 | 4.8713 | 0.1189 |
2.1562 | 360 | 4.3173 | 0.1187 |
2.3964 | 400 | 4.2299 | 0.1176 |
2.6366 | 440 | 4.1011 | 0.1146 |
2.8769 | 480 | 4.017 | 0.1149 |
3.1141 | 520 | 3.8744 | 0.1143 |
3.3544 | 560 | 3.6343 | 0.1137 |
3.5946 | 600 | 3.6414 | 0.1106 |
3.8348 | 640 | 3.7575 | 0.1097 |
4.0721 | 680 | 3.4976 | 0.1090 |
4.3123 | 720 | 3.2275 | 0.1101 |
4.5526 | 760 | 3.4188 | 0.1081 |
4.7928 | 800 | 3.3474 | 0.1085 |
5.0300 | 840 | 3.2909 | 0.1069 |
5.2703 | 880 | 3.1049 | 0.1077 |
5.5105 | 920 | 3.127 | 0.1072 |
5.7508 | 960 | 3.1406 | 0.1052 |
5.9910 | 1000 | 3.1197 | 0.1054 |
6.2282 | 1040 | 2.8499 | 0.1062 |
6.4685 | 1080 | 2.8775 | 0.1063 |
6.7087 | 1120 | 2.9769 | 0.1049 |
6.9489 | 1160 | 2.8667 | 0.1054 |
7.1862 | 1200 | 2.7214 | 0.1048 |
7.4264 | 1240 | 2.7586 | 0.1056 |
7.6667 | 1280 | 2.6802 | 0.1060 |
7.9069 | 1320 | 2.7345 | 0.1048 |
8.1441 | 1360 | 2.6684 | 0.1048 |
8.3844 | 1400 | 2.5718 | 0.1055 |
8.6246 | 1440 | 2.571 | 0.1053 |
8.8649 | 1480 | 2.5737 | 0.1048 |
9.1021 | 1520 | 2.5684 | 0.1056 |
9.3423 | 1560 | 2.5226 | 0.1047 |
9.5826 | 1600 | 2.4952 | 0.1043 |
9.8228 | 1640 | 2.4996 | 0.1047 |
10.0601 | 1680 | 2.4942 | 0.1043 |
10.3003 | 1720 | 2.4692 | 0.1044 |
10.5405 | 1760 | 2.344 | 0.1042 |
10.7808 | 1800 | 2.4791 | 0.1047 |
11.0180 | 1840 | 2.4376 | 0.1049 |
11.2583 | 1880 | 2.3913 | 0.1044 |
11.4985 | 1920 | 2.4054 | 0.1048 |
11.7387 | 1960 | 2.4165 | 0.1046 |
11.9790 | 2000 | 2.4008 | 0.1044 |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 4.1.0
- Transformers: 4.52.4
- PyTorch: 2.7.1+cu126
- Accelerate: 1.7.0
- Datasets: 3.6.0
- Tokenizers: 0.21.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 12
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for m-rudko-pn/e5-base-ukr-wikipedia
Base model
intfloat/multilingual-e5-base