metadata
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:1868
- loss:MatryoshkaLoss
- loss:MultipleNegativesRankingLoss
base_model: DeepPavlov/rubert-base-cased
widget:
- source_sentence: >-
Со стороны мочевыделительной системы: очень редко — гематурия. При приеме
розувастатина может наблюдаться протеинурия. Изменения содержания белка в
моче (от отсутствия или до наличия следовых количеств до уровня ++ и выше)
наблюдаются менее чем у 1% пациентов, принимающих розувастатин в дозе 10 и
20 мг, и примерно у 3%, принимающих препарат в дозе 40 мг. Незначительное
изменение количества белка в моче, выраженное в изменении от нулевого
уровня или наличия следов до уровня +, наблюдалось при приеме препарата в
дозе 20 мг. В большинстве случаев протеинурия уменьшалась и самостоятельно
проходила в процессе лечения. При анализе данных клинических исследований
не выявлена причинная связь между протеинурией и острыми или
прогрессирующими заболеваниями почек.
sentences:
- Лираглутид снижает чувство голода?
- >-
При терапии розувастатином может происходить изменение содержания белка
в моче?
- >-
При данном заболевании обязательно полностью отказаться от любых
молочных продуктов?
- source_sentence: >-
Сердце — полый мышечный орган, нагнетающий кровь в артерии большого и
малого кругов кровообращения и принимающий кровь. Располагается в грудной
полости в составе органов среднего средостения; по форме сердце напоминает
конус. Продольная ось сердца направлена косо — справа налево, сверху вниз
и сзади наперед; оно на две трети располагается в левой половине грудной
полости. Верхушка сердца обращена вниз, влево и вперед, проецируется на
пятый межреберный промежуток на пересечении со средней ключичной линией, а
более широкое основание сердца вправо, кверху и кзади.
sentences:
- Пневмосклероз является результатом воспалительных процессов в лёгких?
- Сердце относистся к органам среднего средостения?
- Препарат содержит как минимум 2 компонента в своём составе?
- source_sentence: >-
В просвете желудочно-кишечного тракта Полифепан связывает и выводит из
организма патогенные бактерии и бактериальные токсины, лекарственные
препараты, яды, соли тяжелых металлов, алкоголь, аллергены. Препарат
сорбирует также избыток некоторых продуктов обмена веществ, в том числе
билирубина, холестерина, мочевины, метаболитов, ответственных за развитие
эндогенного токсикоза. Полифепан не токсичен, не всасывается, полностью
выводится из кишечника в течение 24 часов.
sentences:
- Полифепан накапливается в печени?
- Пространство между фолликулами заполнено соединительной тканью?
- >-
Никотинамид и никотиновая кислота это одно и то же вещество в составе
витамина PP?
- source_sentence: >-
Дизентерия (бактериальная дизентерия, шигеллез) — инфекционная болезнь с
фекально-оральным механизмом передачи, вызывается бактериями рода шигелл.
Протекает с преимущественным поражением слизистой оболочки дистального
отдела толстой кишки.
sentences:
- Дизентерия поражает слизистую толстой кишки?
- Действие препарата сопровождается увеличением плацентарного кровотока?
- У пациентки есть покраснение кожи, не так ли?
- source_sentence: >-
Цитогенетические методы предназначены для изучения структуры хромосомного
набора или отдельных хромосом. Объектом цитогенетических наблюдений могут
быть делящиеся соматические, мейотические и интерфазные клетки. Чаще
исследования выполняются на соматических клетках: наиболее удобный объект
- культура лимфоцитов периферической крови, но также и культура клеток из
кусочков кожи (фибробласты), костного мозга, эмбриональных тканей,
хориона, клеток амниотической жидкости.
sentences:
- Эти методы направлены на выявление биохимического фенотипа организма?
- Чаще всего кариесом болеют дети?
- Употребление настоя шиповника способствует накоплению желчи в организме?
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- cosine_accuracy@1
- cosine_accuracy@3
- cosine_accuracy@5
- cosine_accuracy@10
- cosine_precision@1
- cosine_precision@3
- cosine_precision@5
- cosine_precision@10
- cosine_recall@1
- cosine_recall@3
- cosine_recall@5
- cosine_recall@10
- cosine_ndcg@10
- cosine_mrr@10
- cosine_map@100
model-index:
- name: SentenceTransformer based on DeepPavlov/rubert-base-cased
results:
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 768
type: dim_768
metrics:
- type: cosine_accuracy@1
value: 0.5817307692307693
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.7259615384615384
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 0.7740384615384616
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 0.875
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.5817307692307693
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.24198717948717946
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.1548076923076923
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.0875
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.5817307692307693
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.7259615384615384
name: Cosine Recall@3
- type: cosine_recall@5
value: 0.7740384615384616
name: Cosine Recall@5
- type: cosine_recall@10
value: 0.875
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.7200530410927323
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.6719665750915751
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.6754048050639677
name: Cosine Map@100
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 512
type: dim_512
metrics:
- type: cosine_accuracy@1
value: 0.5721153846153846
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.7355769230769231
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 0.7596153846153846
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 0.8317307692307693
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.5721153846153846
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.24519230769230765
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.15192307692307694
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.0831730769230769
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.5721153846153846
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.7355769230769231
name: Cosine Recall@3
- type: cosine_recall@5
value: 0.7596153846153846
name: Cosine Recall@5
- type: cosine_recall@10
value: 0.8317307692307693
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.701821707456295
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.6606074481074481
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.6675407569867158
name: Cosine Map@100
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 256
type: dim_256
metrics:
- type: cosine_accuracy@1
value: 0.5721153846153846
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.7163461538461539
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 0.7836538461538461
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 0.8317307692307693
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.5721153846153846
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.23878205128205127
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.15673076923076923
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.08317307692307695
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.5721153846153846
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.7163461538461539
name: Cosine Recall@3
- type: cosine_recall@5
value: 0.7836538461538461
name: Cosine Recall@5
- type: cosine_recall@10
value: 0.8317307692307693
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.7000658577657531
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.6580567002442002
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.6629028163149585
name: Cosine Map@100
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 128
type: dim_128
metrics:
- type: cosine_accuracy@1
value: 0.5576923076923077
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.6923076923076923
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 0.75
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 0.8028846153846154
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.5576923076923077
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.23076923076923078
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.15000000000000002
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.08028846153846156
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.5576923076923077
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.6923076923076923
name: Cosine Recall@3
- type: cosine_recall@5
value: 0.75
name: Cosine Recall@5
- type: cosine_recall@10
value: 0.8028846153846154
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.6777503243215046
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.6380036630036631
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.6446313276596947
name: Cosine Map@100
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 64
type: dim_64
metrics:
- type: cosine_accuracy@1
value: 0.5
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.6442307692307693
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 0.6778846153846154
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 0.7451923076923077
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.5
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.21474358974358973
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.1355769230769231
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.07451923076923077
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.5
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.6442307692307693
name: Cosine Recall@3
- type: cosine_recall@5
value: 0.6778846153846154
name: Cosine Recall@5
- type: cosine_recall@10
value: 0.7451923076923077
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.6196112065986056
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.5798782814407815
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.5874155939066236
name: Cosine Map@100
SentenceTransformer based on DeepPavlov/rubert-base-cased
This is a sentence-transformers model finetuned from DeepPavlov/rubert-base-cased on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: DeepPavlov/rubert-base-cased
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
- json
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("TrungKiencding/Med-Bert-Matryoshka-v1")
# Run inference
sentences = [
'Цитогенетические методы предназначены для изучения структуры хромосомного набора или отдельных хромосом. Объектом цитогенетических наблюдений могут быть делящиеся соматические, мейотические и интерфазные клетки. Чаще исследования выполняются на соматических клетках: наиболее удобный объект - культура лимфоцитов периферической крови, но также и культура клеток из кусочков кожи (фибробласты), костного мозга, эмбриональных тканей, хориона, клеток амниотической жидкости.',
'Эти методы направлены на выявление биохимического фенотипа организма?',
'Употребление настоя шиповника способствует накоплению желчи в организме?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Information Retrieval
- Datasets:
dim_768
,dim_512
,dim_256
,dim_128
anddim_64
- Evaluated with
InformationRetrievalEvaluator
Metric | dim_768 | dim_512 | dim_256 | dim_128 | dim_64 |
---|---|---|---|---|---|
cosine_accuracy@1 | 0.5817 | 0.5721 | 0.5721 | 0.5577 | 0.5 |
cosine_accuracy@3 | 0.726 | 0.7356 | 0.7163 | 0.6923 | 0.6442 |
cosine_accuracy@5 | 0.774 | 0.7596 | 0.7837 | 0.75 | 0.6779 |
cosine_accuracy@10 | 0.875 | 0.8317 | 0.8317 | 0.8029 | 0.7452 |
cosine_precision@1 | 0.5817 | 0.5721 | 0.5721 | 0.5577 | 0.5 |
cosine_precision@3 | 0.242 | 0.2452 | 0.2388 | 0.2308 | 0.2147 |
cosine_precision@5 | 0.1548 | 0.1519 | 0.1567 | 0.15 | 0.1356 |
cosine_precision@10 | 0.0875 | 0.0832 | 0.0832 | 0.0803 | 0.0745 |
cosine_recall@1 | 0.5817 | 0.5721 | 0.5721 | 0.5577 | 0.5 |
cosine_recall@3 | 0.726 | 0.7356 | 0.7163 | 0.6923 | 0.6442 |
cosine_recall@5 | 0.774 | 0.7596 | 0.7837 | 0.75 | 0.6779 |
cosine_recall@10 | 0.875 | 0.8317 | 0.8317 | 0.8029 | 0.7452 |
cosine_ndcg@10 | 0.7201 | 0.7018 | 0.7001 | 0.6778 | 0.6196 |
cosine_mrr@10 | 0.672 | 0.6606 | 0.6581 | 0.638 | 0.5799 |
cosine_map@100 | 0.6754 | 0.6675 | 0.6629 | 0.6446 | 0.5874 |
Training Details
Training Dataset
json
- Dataset: json
- Size: 1,868 training samples
- Columns:
positive
andanchor
- Approximate statistics based on the first 1000 samples:
positive anchor type string string details - min: 12 tokens
- mean: 98.34 tokens
- max: 438 tokens
- min: 7 tokens
- mean: 14.68 tokens
- max: 43 tokens
- Samples:
positive anchor Фебуксостат является производным 2-арилтиазола и представляет собой сильный селективный непуриновый ингибитор ксантиноксидазы (константа ингибирования in vitro составляет менее 1 нМ). Фермент ксантиноксидаза катализирует 2 стадии пуринового обмена: окисление гипоксантина до ксантина, а затем окисление ксантина до мочевой кислоты.
Окисление гипоксантина до ксантина и окисление ксантина до мочевой кислоты это стадии пуринового обмена?
Ключевую роль в патогенезе рассеянного склероза играют сенсибилизированные лимфоциты, проникающие в ткань головного и спинного мозга и вызывающие в белом веществе воспалительный процесс с разрушением миелиновой оболочки (демиелинизацией). Клинические проявления связаны с замедлением или блокадой проведения по демиелинизированным нервным волокнам, степень которых возрастает под влиянием продуктов воспаления. В последующем в очаге поражения происходит разрастание глии с формированием склеротических бляшек, а демиелинизированные волокна, лишенные трофической поддержки со стороны миелиновой оболочки, подвергаются вторичной дегенерации.
Демиелинизация нервных волокон является причиной рассеянного склероза?
Оптимизация корригирующей и поддерживающей интенсивной терапии и расширение объема хирургических вмешательств привели к увеличению продолжительности пребывания больных в отделениях интенсивной терапии, что также является мощным фактором риска возникновения грибковой инфекции. Особое значение имеет использование антибактериальных препаратов широкого спектра действия, которые снижают степень бактериальной колонизации желудочно-кишечного тракта, тем самым способствуя размножению грибковой микрофлоры.
Появление грибковой инфекции может быть связано с долгим пребыванием в палате интенсивной терапии?
- Loss:
MatryoshkaLoss
with these parameters:{ "loss": "MultipleNegativesRankingLoss", "matryoshka_dims": [ 768, 512, 256, 128, 64 ], "matryoshka_weights": [ 1, 1, 1, 1, 1 ], "n_dims_per_step": -1 }
Evaluation Dataset
json
- Dataset: json
- Size: 208 evaluation samples
- Columns:
positive
andanchor
- Approximate statistics based on the first 208 samples:
positive anchor type string string details - min: 17 tokens
- mean: 98.76 tokens
- max: 216 tokens
- min: 7 tokens
- mean: 14.25 tokens
- max: 49 tokens
- Samples:
positive anchor Альгоменорея представляет собой циклический патологический процесс: в дни менструации появляются выраженные боли внизу живота, которые могут сопровождаться резкой общей слабостью, тошнотой, рвотой, головной болью, головокружением, отсутствием аппетита, повышением температуры тела до 37–38 °С с ознобом, сухостью во рту или слюнотечением, вздутием живота, ощущением «ватных» ног, обмороками и другими эмоциональными и вегетативными расстройствами. Иногда ведущим симптомом может быть одна из перечисленных жалоб, беспокоящих больную больше, чем боль. Сильные боли истощают нервную систему, способствуют развитию астенического состояния, снижают память и работоспособность.
Описанный процесс может случаться у мужчин?
Участвует в реализации положительной и отрицательной обратной связи в гипоталамо-гипофизарно-яичниковой системе, оказывает стабилизирующее действие на гонадотропную функцию гипофиза и гипоталамический центр, не оказывая эстрогенного действия на органы-мишени. Усиливает сокращения матки, повышает плацентарный кровоток, способствует увеличению концентрации в крови бета- липопротеинов, повышению чувствительности тканей к действию инсулина и утилизации глюкозы.
Действие препарата сопровождается увеличением плацентарного кровотока?
Термодинамическое равновесие – это устойчивое состояние системы, при котором интенсивные параметры одинаковы во всех частях системы.
Смещенная пропорция интенсивных параметров различных частей системы говорит о её термодинамическом равновесии?
- Loss:
MatryoshkaLoss
with these parameters:{ "loss": "MultipleNegativesRankingLoss", "matryoshka_dims": [ 768, 512, 256, 128, 64 ], "matryoshka_weights": [ 1, 1, 1, 1, 1 ], "n_dims_per_step": -1 }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: epochper_device_train_batch_size
: 16per_device_eval_batch_size
: 16gradient_accumulation_steps
: 16learning_rate
: 2e-05num_train_epochs
: 30lr_scheduler_type
: cosinewarmup_ratio
: 0.1bf16
: Trueload_best_model_at_end
: Trueoptim
: adamw_torch_fusedbatch_sampler
: no_duplicates
Framework Versions
- Python: 3.11.11
- Sentence Transformers: 3.4.1
- Transformers: 4.51.1
- PyTorch: 2.5.1+cu124
- Accelerate: 1.3.0
- Datasets: 3.5.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MatryoshkaLoss
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}