SentenceTransformer based on DeepPavlov/rubert-base-cased

This is a sentence-transformers model finetuned from DeepPavlov/rubert-base-cased on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: DeepPavlov/rubert-base-cased
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("TrungKiencding/Med-Bert-Matryoshka-v1")
# Run inference
sentences = [
    'Цитогенетические методы предназначены для изучения структуры хромосомного набора или отдельных хромосом. Объектом цитогенетических наблюдений могут быть делящиеся соматические, мейотические и интерфазные клетки. Чаще исследования выполняются на соматических клетках: наиболее удобный объект - культура лимфоцитов периферической крови, но также и культура клеток из кусочков кожи (фибробласты), костного мозга, эмбриональных тканей, хориона, клеток амниотической жидкости.',
    'Эти методы направлены на выявление биохимического фенотипа организма?',
    'Употребление настоя шиповника способствует накоплению желчи в организме?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_768 dim_512 dim_256 dim_128 dim_64
cosine_accuracy@1 0.5817 0.5721 0.5721 0.5577 0.5
cosine_accuracy@3 0.726 0.7356 0.7163 0.6923 0.6442
cosine_accuracy@5 0.774 0.7596 0.7837 0.75 0.6779
cosine_accuracy@10 0.875 0.8317 0.8317 0.8029 0.7452
cosine_precision@1 0.5817 0.5721 0.5721 0.5577 0.5
cosine_precision@3 0.242 0.2452 0.2388 0.2308 0.2147
cosine_precision@5 0.1548 0.1519 0.1567 0.15 0.1356
cosine_precision@10 0.0875 0.0832 0.0832 0.0803 0.0745
cosine_recall@1 0.5817 0.5721 0.5721 0.5577 0.5
cosine_recall@3 0.726 0.7356 0.7163 0.6923 0.6442
cosine_recall@5 0.774 0.7596 0.7837 0.75 0.6779
cosine_recall@10 0.875 0.8317 0.8317 0.8029 0.7452
cosine_ndcg@10 0.7201 0.7018 0.7001 0.6778 0.6196
cosine_mrr@10 0.672 0.6606 0.6581 0.638 0.5799
cosine_map@100 0.6754 0.6675 0.6629 0.6446 0.5874

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 1,868 training samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 12 tokens
    • mean: 98.34 tokens
    • max: 438 tokens
    • min: 7 tokens
    • mean: 14.68 tokens
    • max: 43 tokens
  • Samples:
    positive anchor
    Фебуксостат является производным 2-арилтиазола и представляет собой сильный селективный непуриновый ингибитор ксантиноксидазы (константа ингибирования in vitro составляет менее 1 нМ). Фермент ксантиноксидаза катализирует 2 стадии пуринового обмена: окисление гипоксантина до ксантина, а затем окисление ксантина до мочевой кислоты. Окисление гипоксантина до ксантина и окисление ксантина до мочевой кислоты это стадии пуринового обмена?
    Ключевую роль в патогенезе рассеянного склероза играют сенсибилизированные лимфоциты, проникающие в ткань головного и спинного мозга и вызывающие в белом веществе воспалительный процесс с разрушением миелиновой оболочки (демиелинизацией). Клинические проявления связаны с замедлением или блокадой проведения по демиелинизированным нервным волокнам, степень которых возрастает под влиянием продуктов воспаления. В последующем в очаге поражения происходит разрастание глии с формированием склеротических бляшек, а демиелинизированные волокна, лишенные трофической поддержки со стороны миелиновой оболочки, подвергаются вторичной дегенерации. Демиелинизация нервных волокон является причиной рассеянного склероза?
    Оптимизация корригирующей и поддерживающей интенсивной терапии и расширение объема хирургических вмешательств привели к увеличению продолжительности пребывания больных в отделениях интенсивной терапии, что также является мощным фактором риска возникновения грибковой инфекции. Особое значение имеет использование антибактериальных препаратов широкого спектра действия, которые снижают степень бактериальной колонизации желудочно-кишечного тракта, тем самым способствуя размножению грибковой микрофлоры. Появление грибковой инфекции может быть связано с долгим пребыванием в палате интенсивной терапии?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

json

  • Dataset: json
  • Size: 208 evaluation samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 208 samples:
    positive anchor
    type string string
    details
    • min: 17 tokens
    • mean: 98.76 tokens
    • max: 216 tokens
    • min: 7 tokens
    • mean: 14.25 tokens
    • max: 49 tokens
  • Samples:
    positive anchor
    Альгоменорея представляет собой циклический патологический процесс: в дни менструации появляются выраженные боли внизу живота, которые могут сопровождаться резкой общей слабостью, тошнотой, рвотой, головной болью, головокружением, отсутствием аппетита, повышением температуры тела до 37–38 °С с ознобом, сухостью во рту или слюнотечением, вздутием живота, ощущением «ватных» ног, обмороками и другими эмоциональными и вегетативными расстройствами. Иногда ведущим симптомом может быть одна из перечисленных жалоб, беспокоящих больную больше, чем боль. Сильные боли истощают нервную систему, способствуют развитию астенического состояния, снижают память и работоспособность. Описанный процесс может случаться у мужчин?
    Участвует в реализации положительной и отрицательной обратной связи в гипоталамо-гипофизарно-яичниковой системе, оказывает стабилизирующее действие на гонадотропную функцию гипофиза и гипоталамический центр, не оказывая эстрогенного действия на органы-мишени. Усиливает сокращения матки, повышает плацентарный кровоток, способствует увеличению концентрации в крови бета- липопротеинов, повышению чувствительности тканей к действию инсулина и утилизации глюкозы. Действие препарата сопровождается увеличением плацентарного кровотока?
    Термодинамическое равновесие – это устойчивое состояние системы, при котором интенсивные параметры одинаковы во всех частях системы. Смещенная пропорция интенсивных параметров различных частей системы говорит о её термодинамическом равновесии?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • gradient_accumulation_steps: 16
  • learning_rate: 2e-05
  • num_train_epochs: 30
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • bf16: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.51.1
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.5.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
83
Safetensors
Model size
178M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for TrungKiencding/Med-Bert-Matryoshka-v1

Finetuned
(45)
this model

Evaluation results