TrungKiencding's picture
Update README.md
03d3724 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:1868
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
base_model: DeepPavlov/rubert-base-cased
widget:
  - source_sentence: >-
      Со стороны мочевыделительной системы: очень редко — гематурия. При приеме
      розувастатина может наблюдаться протеинурия. Изменения содержания белка в
      моче (от отсутствия или до наличия следовых количеств до уровня ++ и выше)
      наблюдаются менее чем у 1% пациентов, принимающих розувастатин в дозе 10 и
      20 мг, и примерно у 3%, принимающих препарат в дозе 40 мг. Незначительное
      изменение количества белка в моче, выраженное в изменении от нулевого
      уровня или наличия следов до уровня +, наблюдалось при приеме препарата в
      дозе 20 мг. В большинстве случаев протеинурия уменьшалась и самостоятельно
      проходила в процессе лечения. При анализе данных клинических исследований
      не выявлена причинная связь между протеинурией и острыми или
      прогрессирующими заболеваниями почек.
    sentences:
      - Лираглутид снижает чувство голода?
      - >-
        При терапии розувастатином может происходить изменение содержания белка
        в моче?
      - >-
        При данном заболевании обязательно полностью отказаться от любых
        молочных продуктов?
  - source_sentence: >-
      Сердце — полый мышечный орган, нагнетающий кровь в артерии большого и
      малого кругов кровообращения и принимающий кровь. Располагается в грудной
      полости в составе органов среднего средостения; по форме сердце напоминает
      конус. Продольная ось сердца направлена косо — справа налево, сверху вниз
      и сзади наперед; оно на две трети располагается в левой половине грудной
      полости. Верхушка сердца обращена вниз, влево и вперед, проецируется на
      пятый межреберный промежуток на пересечении со средней ключичной линией, а
      более широкое основание сердца вправо, кверху и кзади.
    sentences:
      - Пневмосклероз является результатом воспалительных процессов в лёгких?
      - Сердце относистся к органам среднего средостения?
      - Препарат содержит как минимум 2 компонента в своём составе?
  - source_sentence: >-
      В просвете желудочно-кишечного тракта Полифепан связывает и выводит из
      организма патогенные бактерии и бактериальные токсины, лекарственные
      препараты, яды, соли тяжелых металлов, алкоголь, аллергены. Препарат
      сорбирует также избыток некоторых продуктов обмена веществ, в том числе
      билирубина, холестерина, мочевины, метаболитов, ответственных за развитие
      эндогенного токсикоза. Полифепан не токсичен, не всасывается, полностью
      выводится из кишечника в течение 24 часов.
    sentences:
      - Полифепан накапливается в печени?
      - Пространство между фолликулами заполнено соединительной тканью?
      - >-
        Никотинамид и никотиновая кислота это одно и то же вещество в составе
        витамина PP?
  - source_sentence: >-
      Дизентерия (бактериальная дизентерия, шигеллез) — инфекционная болезнь с
      фекально-оральным механизмом передачи, вызывается бактериями рода шигелл.
      Протекает с преимущественным поражением слизистой оболочки дистального
      отдела толстой кишки.
    sentences:
      - Дизентерия поражает слизистую толстой кишки?
      - Действие препарата сопровождается увеличением плацентарного кровотока?
      - У пациентки есть покраснение кожи, не так ли?
  - source_sentence: >-
      Цитогенетические методы предназначены для изучения структуры хромосомного
      набора или отдельных хромосом. Объектом цитогенетических наблюдений могут
      быть делящиеся соматические, мейотические и интерфазные клетки. Чаще
      исследования выполняются на соматических клетках: наиболее удобный объект
      - культура лимфоцитов периферической крови, но также и культура клеток из
      кусочков кожи (фибробласты), костного мозга, эмбриональных тканей,
      хориона, клеток амниотической жидкости.
    sentences:
      - Эти методы направлены на выявление биохимического фенотипа организма?
      - Чаще всего кариесом болеют дети?
      - Употребление настоя шиповника способствует накоплению желчи в организме?
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@3
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@10
  - cosine_mrr@10
  - cosine_map@100
model-index:
  - name: SentenceTransformer based on DeepPavlov/rubert-base-cased
    results:
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 768
          type: dim_768
        metrics:
          - type: cosine_accuracy@1
            value: 0.5817307692307693
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.7259615384615384
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.7740384615384616
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.875
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.5817307692307693
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.24198717948717946
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.1548076923076923
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.0875
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.5817307692307693
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.7259615384615384
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.7740384615384616
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.875
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.7200530410927323
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.6719665750915751
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.6754048050639677
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 512
          type: dim_512
        metrics:
          - type: cosine_accuracy@1
            value: 0.5721153846153846
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.7355769230769231
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.7596153846153846
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.8317307692307693
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.5721153846153846
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.24519230769230765
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.15192307692307694
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.0831730769230769
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.5721153846153846
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.7355769230769231
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.7596153846153846
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.8317307692307693
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.701821707456295
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.6606074481074481
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.6675407569867158
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 256
          type: dim_256
        metrics:
          - type: cosine_accuracy@1
            value: 0.5721153846153846
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.7163461538461539
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.7836538461538461
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.8317307692307693
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.5721153846153846
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.23878205128205127
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.15673076923076923
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.08317307692307695
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.5721153846153846
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.7163461538461539
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.7836538461538461
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.8317307692307693
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.7000658577657531
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.6580567002442002
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.6629028163149585
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 128
          type: dim_128
        metrics:
          - type: cosine_accuracy@1
            value: 0.5576923076923077
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.6923076923076923
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.75
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.8028846153846154
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.5576923076923077
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.23076923076923078
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.15000000000000002
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.08028846153846156
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.5576923076923077
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.6923076923076923
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.75
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.8028846153846154
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.6777503243215046
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.6380036630036631
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.6446313276596947
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 64
          type: dim_64
        metrics:
          - type: cosine_accuracy@1
            value: 0.5
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.6442307692307693
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.6778846153846154
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.7451923076923077
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.5
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.21474358974358973
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.1355769230769231
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.07451923076923077
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.5
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.6442307692307693
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.6778846153846154
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.7451923076923077
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.6196112065986056
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.5798782814407815
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.5874155939066236
            name: Cosine Map@100

SentenceTransformer based on DeepPavlov/rubert-base-cased

This is a sentence-transformers model finetuned from DeepPavlov/rubert-base-cased on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: DeepPavlov/rubert-base-cased
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("TrungKiencding/Med-Bert-Matryoshka-v1")
# Run inference
sentences = [
    'Цитогенетические методы предназначены для изучения структуры хромосомного набора или отдельных хромосом. Объектом цитогенетических наблюдений могут быть делящиеся соматические, мейотические и интерфазные клетки. Чаще исследования выполняются на соматических клетках: наиболее удобный объект - культура лимфоцитов периферической крови, но также и культура клеток из кусочков кожи (фибробласты), костного мозга, эмбриональных тканей, хориона, клеток амниотической жидкости.',
    'Эти методы направлены на выявление биохимического фенотипа организма?',
    'Употребление настоя шиповника способствует накоплению желчи в организме?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_768 dim_512 dim_256 dim_128 dim_64
cosine_accuracy@1 0.5817 0.5721 0.5721 0.5577 0.5
cosine_accuracy@3 0.726 0.7356 0.7163 0.6923 0.6442
cosine_accuracy@5 0.774 0.7596 0.7837 0.75 0.6779
cosine_accuracy@10 0.875 0.8317 0.8317 0.8029 0.7452
cosine_precision@1 0.5817 0.5721 0.5721 0.5577 0.5
cosine_precision@3 0.242 0.2452 0.2388 0.2308 0.2147
cosine_precision@5 0.1548 0.1519 0.1567 0.15 0.1356
cosine_precision@10 0.0875 0.0832 0.0832 0.0803 0.0745
cosine_recall@1 0.5817 0.5721 0.5721 0.5577 0.5
cosine_recall@3 0.726 0.7356 0.7163 0.6923 0.6442
cosine_recall@5 0.774 0.7596 0.7837 0.75 0.6779
cosine_recall@10 0.875 0.8317 0.8317 0.8029 0.7452
cosine_ndcg@10 0.7201 0.7018 0.7001 0.6778 0.6196
cosine_mrr@10 0.672 0.6606 0.6581 0.638 0.5799
cosine_map@100 0.6754 0.6675 0.6629 0.6446 0.5874

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 1,868 training samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 12 tokens
    • mean: 98.34 tokens
    • max: 438 tokens
    • min: 7 tokens
    • mean: 14.68 tokens
    • max: 43 tokens
  • Samples:
    positive anchor
    Фебуксостат является производным 2-арилтиазола и представляет собой сильный селективный непуриновый ингибитор ксантиноксидазы (константа ингибирования in vitro составляет менее 1 нМ). Фермент ксантиноксидаза катализирует 2 стадии пуринового обмена: окисление гипоксантина до ксантина, а затем окисление ксантина до мочевой кислоты. Окисление гипоксантина до ксантина и окисление ксантина до мочевой кислоты это стадии пуринового обмена?
    Ключевую роль в патогенезе рассеянного склероза играют сенсибилизированные лимфоциты, проникающие в ткань головного и спинного мозга и вызывающие в белом веществе воспалительный процесс с разрушением миелиновой оболочки (демиелинизацией). Клинические проявления связаны с замедлением или блокадой проведения по демиелинизированным нервным волокнам, степень которых возрастает под влиянием продуктов воспаления. В последующем в очаге поражения происходит разрастание глии с формированием склеротических бляшек, а демиелинизированные волокна, лишенные трофической поддержки со стороны миелиновой оболочки, подвергаются вторичной дегенерации. Демиелинизация нервных волокон является причиной рассеянного склероза?
    Оптимизация корригирующей и поддерживающей интенсивной терапии и расширение объема хирургических вмешательств привели к увеличению продолжительности пребывания больных в отделениях интенсивной терапии, что также является мощным фактором риска возникновения грибковой инфекции. Особое значение имеет использование антибактериальных препаратов широкого спектра действия, которые снижают степень бактериальной колонизации желудочно-кишечного тракта, тем самым способствуя размножению грибковой микрофлоры. Появление грибковой инфекции может быть связано с долгим пребыванием в палате интенсивной терапии?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

json

  • Dataset: json
  • Size: 208 evaluation samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 208 samples:
    positive anchor
    type string string
    details
    • min: 17 tokens
    • mean: 98.76 tokens
    • max: 216 tokens
    • min: 7 tokens
    • mean: 14.25 tokens
    • max: 49 tokens
  • Samples:
    positive anchor
    Альгоменорея представляет собой циклический патологический процесс: в дни менструации появляются выраженные боли внизу живота, которые могут сопровождаться резкой общей слабостью, тошнотой, рвотой, головной болью, головокружением, отсутствием аппетита, повышением температуры тела до 37–38 °С с ознобом, сухостью во рту или слюнотечением, вздутием живота, ощущением «ватных» ног, обмороками и другими эмоциональными и вегетативными расстройствами. Иногда ведущим симптомом может быть одна из перечисленных жалоб, беспокоящих больную больше, чем боль. Сильные боли истощают нервную систему, способствуют развитию астенического состояния, снижают память и работоспособность. Описанный процесс может случаться у мужчин?
    Участвует в реализации положительной и отрицательной обратной связи в гипоталамо-гипофизарно-яичниковой системе, оказывает стабилизирующее действие на гонадотропную функцию гипофиза и гипоталамический центр, не оказывая эстрогенного действия на органы-мишени. Усиливает сокращения матки, повышает плацентарный кровоток, способствует увеличению концентрации в крови бета- липопротеинов, повышению чувствительности тканей к действию инсулина и утилизации глюкозы. Действие препарата сопровождается увеличением плацентарного кровотока?
    Термодинамическое равновесие – это устойчивое состояние системы, при котором интенсивные параметры одинаковы во всех частях системы. Смещенная пропорция интенсивных параметров различных частей системы говорит о её термодинамическом равновесии?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • gradient_accumulation_steps: 16
  • learning_rate: 2e-05
  • num_train_epochs: 30
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • bf16: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.51.1
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.5.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}