lora-mrayumi-base / README.md
nskwal's picture
Add new SentenceTransformer model
0f12a6d verified
metadata
language:
  - pt
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:39782226
  - loss:MultipleNegativesRankingLoss
base_model: intfloat/multilingual-e5-base
widget:
  - source_sentence: Como o Brasil reagiu a epidemia de AIDS no fim do século XX?
    sentences:
      - >-
        O valor para a emissão deste visto pode chegar até US$ 1,8 milhão.
        Devido a crise, o aumento do preço chegou a 80% em relação a anos
        anteriores. É importante frisar que o portador deste visto precisa gerar
        pelo menos dez empregos no país por dois anos a partir da data de
        emissão. Para realizar a solicitação, é necessário fazer um investimento
        em um negócio já existente em uma empresa que é licenciada pelo governo
        americano e que faz parte da captação desta ação ou montar um novo
        negócio, algo que irá requerer maior burocracia e tempo. Após realizar
        todos os trâmites, o requerente poderá fazer a solicitação do Green
        Card, que poderá levar até dois anos para ficar pronto. Trabalho O visto
        HB-1 é destinado para todos aqueles profissionais que possuem formação
        acadêmica ou uma experiência de trabalho que equivalha a um curso
        bacharelado. Este último funciona caso o solicitante não tenha um
        diploma e tenha trabalhado por três anos equivalentes a um ano de estudo
        de bacharelado. Além de cumprir estes requisitos, o solicitante do visto
        deverá ter fluência em inglês e possuir um representante empregador. O
        visto só é emitido caso a empresa comprove que não exista nenhum outro
        americano capaz de cumprir a determinada função.
      - >-
        Horário de funcionamento: terça a sábado, 10h às 13h e das 14h30 às
        18h30. 3. Parque Nacional da Peneda-Gerês Ivy Land Composto pela Serra
        da Peneda e a Serra da Gerês, esse é o único parque nacional de
        Portugal. Paraíso para os amantes da natureza, a área possui alguns
        mirantes de onde é possível admirar toda a região. O destaque fica para
        a Pedra Bela, com 830 metros de altura. Entre mais de 100 aldeias, suas
        principais atrações são a Ponte Misarela, o Santuário Nossa Senhora da
        Peneda, o Castro Laboreiro e a Cascata do Arado. Endereço: R. Conde Dom
        Henrique, Guimarães. Horário de funcionamento: todos os dias das 10h às
        18h. 4. Sé de Braga Jorge Santos A igreja, cuja construção começou em
        1509, foi fundada antes mesmo da fundação de Portugal (1910). Entre suas
        várias riquezas culturais está o túmulo de madeira, em talhe
        gótico-flamengo, pertencente ao Infante Dom Afonso, filho do rei Dom
        João I e de Dona Filipa de Lencastre. No local também se encontra o
        Tesouro-Museu da Sé de Braga, fundado em 1930, onde está uma relíquia
        levada por Pedro Álvares Cabral: a cruz da primeira missa celebrada no
        Brasil. Endereço: R. Dom Paio Mendes. Valor de entrada: gratuito.
        Horário de funcionamento: todos os dias das 8h30 às 18h30. 5. Jardim de
        Santa Bárbara World Photoshoot
      - >-
        Assim, o financiamento para o programa de aids brasileiro fazia parte
        tanto dos planos estratégicos do Banco Mundial quanto do planejamento
        dos formuladores da política nacional de aids. A execução do Projeto
        AIDS I provocou mudanças tanto nas respostas governamentais quanto nas
        não-governamentais frente à epidemia do HIV/aids no Brasil. Entre essas,
        Galvão (2000) destaca o aumento dos recursos financeiros disponíveis no
        País para desencadear ações frente à epidemia; o crescimento do número
        dessas ações; o papel de liderança desempenhado pelo Programa Nacional
        de DST e Aids em nível regional; e a maior visibilidade do programa
        brasileiro de aids, tanto regional, quanto nacional e
        internacionalmente. Quanto às ações do Banco Mundial, o empréstimo
        destinado às ações para conter a epidemia de HIV/aids em função do
        volume financeiro envolvido, oferece ao Programa brasileiro de aids
        condições sem precedentes dentro do que vinha sendo feito no país. Para
        alguns países, inclusive o Brasil, os empréstimos do Banco Mundial
        tornaram-se uma das maiores fontes de recursos para as atividades em
        HIV/aids, e propiciaram a projeção das políticas brasileiras como das
        mais abrangentes já implementadas (Galvão, 2000).
  - source_sentence: Quais são os biomas do Brasil?
    sentences:
      - >-
        Biomas - Atlas Socioeconômico do Rio Grande do Sul Meio ambiente Voltar
        Imprimir RSS Biomas O RS possui dois importantes biomas: Mata Atlântica
        e Pampa Os biomas são definidos pelo IBGE como “um conjunto de vida
        (vegetal e animal) constituído pelo agrupamento de tipos de vegetação
        contíguos e identificáveis em escala regional, com condições
        geoclimáticas similares e história compartilhada de mudanças, o que
        resulta em uma diversidade biológica própria.” Segundo o Mapa dos Biomas
        do Brasil, elaborado pelo IBGE e pelo Ministério do Meio Ambiente, o
        país possui 5 grandes biomas. O de maior extensão é o da Amazônia que
        abrange 49,29% do território brasileiro e uma área aproximada de
        4.196.943 km². O menor bioma é o do Pantanal com uma área aproximada de
        150.355 km² ou 1,76% do território do Brasil. No RS, em função da
        diversidade de clima, solos e relevo há a formação de distintos
        ecossistemas derivados de dois grandes biomas: a Mata Atlântica e o
        Pampa.
      - >-
        Os Campos caracterizam-se pela presença de uma vegetação rasteira
        (gramíneas) e pequenos arbustos distantes uns dos outros. Podemos
        encontrar esta formação vegetal em várias regiões do Brasil (sul do Mato
        Grosso do Sul, nordeste do Paraná, sul de Minas Gerais e norte do
        Maranhão), porém é no sul do Rio Grande do Sul, região conhecida como
        Pampas Gaúchos, que encontramos em maior extensão. Características
        principais dos Campos: - vegetação formada por gramíneas e arbustos e
        árvores de pequeno porte. - não dependem de grande quantidade de chuvas.
        - sua extensão atingem os territórios da Argentina e Paraguai. A região
        dos Campos, principalmente no Rio Grande do Sul, é muito utilizada para
        a pastagem de gado. A pecuária é uma das principais atividades econômica
        nesta região. Pantanal Extensão aproximada: 150.355 quilômetros
        quadrados O bioma Pantanal cobre 25% de Mato Grosso do Sul e 7% de Mato
        Grosso e seus limites coincidem com os da Planície do Pantanal, mais
        conhecida como Pantanal mato-grossense. O Pantanal é um bioma
        praticamente exclusivo do Brasil, pois apenas uma pequena faixa dele
        adentra outros países (o Paraguai e a Bolívia).
      - >-
        Resíduos biológicos – gaze, algodão, luva, máscara e ponta de sucção são
        considerados materiais desse grupo. Para estes, o ideal é sempre ter uma
        lixeira por perto, nunca deixando faltar sacos de lixo, que devem ser
        proporcionais a demanda de trabalho do consultório. O ideal é que sempre
        ocorra o recolhimento diário, nunca deixando os detritos acumularem.
        Isso serve para evitar maiores complicações, como uma contaminação por
        exemplo. Resíduos perfurocortantes – essa classe de resíduos deve ser
        condicionada em caixas de papelão bastante resistentes. Resíduos
        perfurocortantes englobam materiais como seringas, lâminas, agulhas,
        ampolas, vidros e tesouras. A importância de serem descartados em
        ambientes resistentes se deve ao fato de serem bastante perigosos e
        cortantes. Assim, é ideal que eles fiquem isolados para que ninguém se
        lesione ao manuseá-los futuramente. Também é interessante sinalizar que
        os materiais presentes naquela caixa são perfurocortantes, geralmente
        utilizando um adesivo de cor chamativa.
  - source_sentence: Quais os tipos de denominação (DO) que os vinhos podem receber?
    sentences:
      - >-
        O Brasil conta com seis ecossistemas diferentes, composto por espécies
        animais e vegetais variadas. A diversidade e os contrastes presentes em
        cada região são o que tornam nosso País único. Os principais
        ecossistemas brasileiros são a Amazônia, a Caatinga, o Cerrado, o
        Pantanal, a Mata Atlântica e os Pampas. A seguir, detalharemos cada um
        desses biomas. Amazônia A maior floresta tropical do mundo está presente
        em nosso País! Distribuindo-se entre Peru, Colômbia, Venezuela, Equador,
        Suriname, Guiana e Guiana Francesa, uma grande porção da Floresta
        Amazônica se localiza no Norte do Brasil, com uma grande diversidade de
        plantas e animais, além de abrigar comunidades de povos originários
        brasileiros . A bacia amazônica é a maior bacia hidrográfica do mundo,
        detendo, aproximadamente, 20% de toda a água doce disponível. Com clima
        quente e úmido, o bioma Amazônia ocupa 49% do território nacional. A
        temperatura anual média chega a 26 °C, e a pluviosidade é de 2.300 mm,
        podendo chegar, em alguns locais, a 3.500 mm. No que diz respeito à
        vegetação, esta se divide em mata de terra firme em porções mais
        elevadas do território, mata de várzea (inundada em parte do ano) e
        igapó, quase sempre inundada.
      - >-
        Os olhos verdes são mais comuns em pessoas de origem celta ou germânica,
        mas podem aparecer em quaisquer etnias. Em regiões da Ásia, por exemplo,
        existem aldeões do noroeste da China famosos por terem olhos verdes e
        azuis, além de cabelos claros. Da mesma forma, é possível encontrar
        negros com olhos claros. 9. Não surge no nascimento Unsplash Logo após o
        nascimento, os olhos dos bebês são escuros, cinzas ou azuis. Só a partir
        daí, as células melanócitas começam a liberar a melanina pelo corpo, que
        distribui o pigmento marrom para os olhos. Como o tom esverdeado é
        resultado da mistura de outros tons, é preciso esperar o equilíbrio da
        distribuição de melanina para o desenvolvimento da cor. 10. Olhos verdes
        só estão completos após um ano Unsplash Ainda que comece logo depois do
        nascimento, o processo só fica realmente completo após cerca de um ano
        depois do período. Por causa disso, então, durante os primeiros meses de
        vida ainda não é possível determinar qual será a verdadeira cor da
        criança. Interessante, não? Você imaginava que havia tanto mistério por
        trás de um belo par de olhos verdes? Continua após a publicidade
      - >-
        "Reboque de barcos rabelos pelas margens do rio Douro em meados dos anos
        30 (arq. priv.) Descarga das pipas de um barco rabelo no Porto (arq.
        priv.) Cartaz publicitário de marca de vinho do Porto de 1950 (col.
        priv.) Vindimas no Douro na década de 70 mantendo ainda as antigas
        tradições (arq. priv.) Cachos de uvas maduras numa vinha do Douro (arq.
        priv.) Em 1995, a região Demarcada do Douro viu alterado o seu quadro
        institucional. Passou a estar dotada de um organismo interprofissional,
        - a Comissão Interprofissional da Região Demarcada do Douro (CIRDD), no
        qual tinham assento, em situação de absoluta paridade, os representantes
        da lavoura e do comércio, com o objectivo comum de disciplinar e
        controlar a produção e comercialização dos vinhos da região com direito
        a denominação de origem. As alterações introduzidas respeitaram,
        contudo, as especificidades históricas, culturais e sociais da região,
        seguindo as linhas orientadoras da lei - quadro das regiões demarcados
        vitivinícolas. Duas secções especializadas compunham o Conselho Geral da
        CIRDD determinando as regras aplicáveis a cada uma das denominações: uma
        relativa à denominação de origem \""Porto\"" e outra aos restantes
        vinhos de qualidade (\""VQPRD\"") da região."
  - source_sentence: calorias e carboidratos em taco bell
    sentences:
      - >-
        Uma fístula é uma abertura ou canal anormal que une duas ou mais
        estruturas ou espaços dentro do corpo. Por exemplo, uma fístula pode se
        desenvolver entre dois órgãos do corpo, como o intestino e a bexiga, ou
        entre o intestino e a pele. Uma fístula cancerosa é rara. Ela se
        desenvolve por causa do câncer ou de seu tratamento. Se for causado por
        tratamento de câncer, geralmente é um efeito colateral tardio e pode
        levar muitos meses ou anos para se desenvolver. Asistulas são mais
        comuns na região pélvica. As fístulas são um efeito colateral raro do
        tratamento do câncer. Eles também podem se desenvolver como resultado do
        crescimento do câncer. Os sintomas de uma fístula dependem de sua
        localização no corpo. Os sintomas comuns incluem: 1 vazamento de urina
        pela vagina ou passagem nas costas.
      - >-
        Os clientes que pedem burritos recheados grelhados devem consumir pelo
        menos 830 calorias nas versões de frango do item do cardápio e mais de
        40 gramas de gordura, 96 gramas de carboidratos, 2.200 mg de sódio e 85
        mg de colesterol. No entanto, o Taco Bell oferece um menu específico
        dedicado a itens que contêm apenas ingredientes frescos.
      - >-
        Calorias em Spag com base nas calorias, gorduras, proteínas,
        carboidratos e outras informações nutricionais enviadas para Spag.
        Calorias em Spag com base nas calorias, gorduras, proteínas,
        carboidratos e outras informações nutricionais enviadas para Spag.
  - source_sentence: para que serve a azitromicina
    sentences:
      - >-
        Média móvel simples (SMA) explicada. Uma média móvel simples (SMA) é o
        tipo mais simples de média móvel na análise forex (DUH!). Basicamente,
        uma média móvel simples é calculada somando os últimos preços de
        fechamento de â € ¢ dividindo esse número por X.
      - >-
        A azitromicina também pode ser usada para tratar várias outras infecções
        bacterianas mais incomuns. A azitromicina não é eficaz contra nenhuma
        infecção causada por um vírus, como gripe, gastroenterite ou resfriado
        comum.
      - >-
        Infecções bacterianas. A azitromicina é mais comumente usada para tratar
        as seguintes infecções: 1 Infecções respiratórias, como bronquite. 2
        Infecções de ouvido (otite média). 3 infecções sinusais (sinusite). 4
        Pneumonia. 5 Infecções da garganta (amigdalite / faringite). 6 Infecções
        da pele, como celulite, foliculite ou impetigo.
pipeline_tag: sentence-similarity
library_name: sentence-transformers

test

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base on the quati and msmarco datasets. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-base
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Datasets:
    • quati
    • msmarco
  • Language: pt

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: PeftModelForFeatureExtraction 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("nskwal/lora-mrayumi-base")
# Run inference
sentences = [
    'para que serve a azitromicina',
    'Infecções bacterianas. A azitromicina é mais comumente usada para tratar as seguintes infecções: 1 Infecções respiratórias, como bronquite. 2 Infecções de ouvido (otite média). 3 infecções sinusais (sinusite). 4 Pneumonia. 5 Infecções da garganta (amigdalite / faringite). 6 Infecções da pele, como celulite, foliculite ou impetigo.',
    'A azitromicina também pode ser usada para tratar várias outras infecções bacterianas mais incomuns. A azitromicina não é eficaz contra nenhuma infecção causada por um vírus, como gripe, gastroenterite ou resfriado comum.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Datasets

quati

  • Dataset: quati
  • Size: 1,415 training samples
  • Columns: query and passage
  • Approximate statistics based on the first 1000 samples:
    query passage
    type string string
    details
    • min: 8 tokens
    • mean: 12.57 tokens
    • max: 21 tokens
    • min: 65 tokens
    • mean: 267.65 tokens
    • max: 412 tokens
  • Samples:
    query passage
    "O que são os celulares ""mid-range""?" Câmeras traseiras: 64 MP quad-pixel + 12 MP (ultra-wide) + 5 MP (macro) + 5 MP (sensor de profundidade) Filma em: 4K Câmera frontal: 32 MP Bateria: 4.500 mAh com carregamento turbo de 25W Tem conexão 3G e 4G Pontos positivos: Tela grande com resolução Full HD 128 GB de armazenamento é um bom espaço Câmera de 64 MP que filma em 4K Câmera frontal também filma em 4K Processador potente para uso no dia a dia Pontos negativos: Bateria com tamanho abaixo dos concorrentes Sem proteção contra água Melhor Preço Conclusões Como dito no começo da matéria o mercado de celulares está crescendo exponencialmente e isso faz com que estejam disponíveis vários modelos no mercado, para os mais diferentes gostos. Nem todo mundo precisa ou está disposto a pagar pelos melhores celulares e é onde entram os modelos citados nesta lista: Um bom celular por um preço mediano. Para um uso comum estes modelos atendem muito bem. Se você sentiu falta de alguma opção nesta lista deixe ai nos comentários. Vale lembrar ...
    "O que são os celulares ""mid-range""?" Smartphone Motorola Moto G8 Plus Imagem Celular Intermediário Detalhes Smartphone Xiaomi Redmi Note 8 Pro Melhor celular intermediário, processador rápido Smartphone Xiaomi Redmi Note 8 Melhor celular intermediário custo benefício, câmera quádrupla Smartphone Motorola One Action Sensor exclusivo para vídeo Smartphone Huawei P30 Lite Diversas tecnologias diferenciadas Smartphone Samsung Galaxy A50 Câmera frontal de 25 MP Smartphone Samsung Galaxy A30s Leitor de impressão digital embutido na tela Smartphone Motorola Moto G8 Plus Design moderno e bonito Hoje em dia os smartphones são verdadeiros aliados. Apenas com eles é possível executar uma grande quantidade de tarefas como ligações, mensagens, acesso a e-mail e redes sociais e muito mais. Mas para conseguir isso é importante ter em mãos um aparelho que reúna componentes de qualidade, tal como, boa câmera, ótimo espaço de armazenamento e processador ágil. Pensando nisso, selecionamos os modelos de celular intermediário que englobam as ...
    "O que são os celulares ""mid-range""?" Os monócitos, eosinófilos, basófilos e seus progenitores circulam no sangue em pequenas quantidades, no entanto, essas células são muitas vezes combinados em um grupo que é designado como MXD ou MID. Este grupo pode ser expressa como uma percentagem do número total de leucócitos (MXD%), ou um número absoluto (MXD #, # MID). Estes tipos de células do sangue e as células brancas do sangue e são funções importantes (a luta contra parasitas, bactérias, reacções alérgicas, etc.). Absoluta e percentagem deste valor aumenta se o aumento do número de um dos tipos de células na sua composição. Para determinar a natureza da alteração geralmente é estudar a percentagem de cada tipo de célula (monócitos, eosinófilos, basófilos e os seus precursores). Requisitos: eosinófilos reduzidos e aumento no sangue # MID (MID, MXD #) 0,2-0,8 x 109 / l MID% (MXD%) 5 - 10% O número de granulócitos (GRA, GRAN) Granulócitos - são leucócitos que contêm grânulos (leucócitos granulares). Granulócitos 3 tipos de célu...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

msmarco

  • Dataset: msmarco
  • Size: 39,780,811 training samples
  • Columns: query, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    query positive negative
    type string string string
    details
    • min: 4 tokens
    • mean: 11.4 tokens
    • max: 32 tokens
    • min: 14 tokens
    • mean: 102.05 tokens
    • max: 401 tokens
    • min: 30 tokens
    • mean: 91.92 tokens
    • max: 470 tokens
  • Samples:
    query positive negative
    é um pouco de cafeína ok durante a gravidez Não sabemos muito sobre os efeitos da cafeína durante a gravidez sobre você e seu bebê. Portanto, é melhor limitar a quantidade que você recebe a cada dia. Se você estiver grávida, limite a cafeína a 200 miligramas por dia. Isso é aproximadamente a quantidade em 1 x 8 onças de café ou uma xícara de 12 onças de café. Em geral, é seguro para mulheres grávidas comer chocolate porque estudos demonstraram alguns benefícios de comer chocolate durante a gravidez. No entanto, as mulheres grávidas devem garantir que a ingestão de cafeína seja inferior a 200 mg por dia.
    que fruta é nativa da Austrália Passiflora herbertiana. Um raro maracujá nativo da Austrália. Os frutos são de casca verde, polpa branca, com uma classificação comestível desconhecida. Algumas fontes listam as frutas como comestíveis, doces e saborosas, enquanto outras listam as frutas como sendo amargas e não comestíveis.assiflora herbertiana. Um raro maracujá nativo da Austrália. Os frutos são de casca verde, polpa branca, com uma classificação comestível desconhecida. Algumas fontes listam as frutas como comestíveis, doces e saborosas, enquanto outras listam as frutas como amargas e não comestíveis. A noz de cola é o fruto da árvore da cola, um gênero (Cola) de árvores que são nativas das florestas tropicais da África.
    quão grande é o exército canadense As Forças Armadas canadenses. 1 A primeira missão de manutenção da paz canadense em grande escala começou no Egito em 24 de novembro de 1956. 2 Há aproximadamente 65.000 membros da Força Regular e 25.000 membros reservistas nas forças armadas canadenses. 3 No Canadá, o dia 9 de agosto é designado como Dia Nacional dos Pacificadores. O Canadian Physician Health Institute (CPHI) é um programa nacional criado em 2012 como uma colaboração entre a Canadian Medical Association (CMA), a Canadian Medical Foundation (CMF) e as Provincial and Territorial Medical Associations (PTMAs).
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • gradient_accumulation_steps: 2
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.05
  • bf16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 7
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss
0.0051 100 7.0257
0.0103 200 6.9039
0.0154 300 6.5928
0.0206 400 6.0736
0.0257 500 5.331
0.0309 600 4.397
0.0360 700 3.3011
0.0412 800 1.7923
0.0463 900 1.1336
0.0515 1000 0.9559
0.0566 1100 0.859
0.0618 1200 0.8004
0.0669 1300 0.7798
0.0721 1400 0.7595
0.0772 1500 0.7516
0.0824 1600 0.7402
0.0875 1700 0.732
0.0927 1800 0.7194
0.0978 1900 0.7097
0.1030 2000 0.7133
0.1081 2100 0.7004
0.1133 2200 0.7002
0.1184 2300 0.6985
0.1236 2400 0.6884
0.1287 2500 0.6832
0.1339 2600 0.6755
0.1390 2700 0.6636
0.1441 2800 0.6532
0.1493 2900 0.6496
0.1544 3000 0.6495
0.1596 3100 0.6349
0.1647 3200 0.6413
0.1699 3300 0.6421
0.1750 3400 0.6351
0.1802 3500 0.6326
0.1853 3600 0.6326
0.1905 3700 0.6279
0.1956 3800 0.6273
0.2008 3900 0.6286
0.2059 4000 0.6282
0.2111 4100 0.631
0.2162 4200 0.619
0.2214 4300 0.6293
0.2265 4400 0.6206
0.2317 4500 0.6231
0.2368 4600 0.6217
0.2420 4700 0.6178
0.2471 4800 0.6202
0.2523 4900 0.6158
0.2574 5000 0.6213
0.2626 5100 0.6213
0.2677 5200 0.6177
0.2729 5300 0.6146
0.2780 5400 0.6178
0.2831 5500 0.6185
0.2883 5600 0.6174
0.2934 5700 0.6195
0.2986 5800 0.6177
0.3037 5900 0.6243
0.3089 6000 0.6191
0.3140 6100 0.6235
0.3192 6200 0.6249
0.3243 6300 0.6183
0.3295 6400 0.6239
0.3346 6500 0.6252
0.3398 6600 0.6263
0.3449 6700 0.6256
0.3501 6800 0.6236
0.3552 6900 0.6164
0.3604 7000 0.6297
0.3655 7100 0.6355
0.3707 7200 0.629
0.3758 7300 0.6286
0.3810 7400 0.621
0.3861 7500 0.621
0.3913 7600 0.6284
0.3964 7700 0.6306
0.4016 7800 0.631
0.4067 7900 0.6385
0.4119 8000 0.6379
0.4170 8100 0.6336
0.4221 8200 0.6414
0.4273 8300 0.6405
0.4324 8400 0.6417
0.4376 8500 0.6451
0.4427 8600 0.6464
0.4479 8700 0.6476
0.4530 8800 0.6417
0.4582 8900 0.6449
0.4633 9000 0.6562
0.4685 9100 0.6557
0.4736 9200 0.6507
0.4788 9300 0.6582
0.4839 9400 0.6538
0.4891 9500 0.6593
0.4942 9600 0.6653
0.4994 9700 0.6653
0.5045 9800 0.6636
0.5097 9900 0.6842
0.5148 10000 0.6844
0.5200 10100 0.6791
0.5251 10200 0.6925
0.5303 10300 0.6851
0.5354 10400 0.689
0.5406 10500 0.7075
0.5457 10600 0.7163
0.5509 10700 0.7009
0.5560 10800 0.7088
0.5611 10900 0.7139
0.5663 11000 0.7279
0.5714 11100 0.716
0.5766 11200 0.7356
0.5817 11300 0.7485
0.5869 11400 0.7563
0.5920 11500 0.7626
0.5972 11600 0.7682
0.6023 11700 0.7912
0.6075 11800 0.7981
0.6126 11900 0.7949
0.6178 12000 0.8044
0.6229 12100 0.819
0.6281 12200 0.8234
0.6332 12300 0.8317
0.6384 12400 0.8501
0.6435 12500 0.8525
0.6487 12600 0.8663
0.6538 12700 0.8856
0.6590 12800 0.8842
0.6641 12900 0.9103
0.6693 13000 0.9503
0.6744 13100 0.9667
0.6796 13200 0.9829
0.6847 13300 0.9859
0.6899 13400 1.0027
0.6950 13500 1.0592
0.7001 13600 1.0708
0.7053 13700 1.1194
0.7104 13800 1.1756
0.7156 13900 1.2475
0.7207 14000 1.3632
0.7259 14100 1.4693
0.7310 14200 1.6161
0.7362 14300 1.8805
0.7413 14400 2.1287
0.7465 14500 2.4615
0.7516 14600 2.7019
0.7568 14700 2.8188
0.7619 14800 2.8304
0.7671 14900 2.8225
0.7722 15000 2.8204
0.7774 15100 2.8899
0.7825 15200 3.1325
0.7877 15300 3.1975
0.7928 15400 3.1277
0.7980 15500 3.0691
0.8031 15600 2.9684
0.8083 15700 2.9182
0.8134 15800 2.8516
0.8186 15900 2.8063
0.8237 16000 2.8108
0.8289 16100 2.807
0.8340 16200 2.7552
0.8391 16300 2.7632
0.8443 16400 2.7403
0.8494 16500 2.7234
0.8546 16600 2.7339
0.8597 16700 2.7318
0.8649 16800 2.7038
0.8700 16900 2.7033
0.8752 17000 2.6798
0.8803 17100 2.6885
0.8855 17200 2.6815
0.8906 17300 2.6582
0.8958 17400 2.6478
0.9009 17500 2.6672
0.9061 17600 2.7163
0.9112 17700 2.7185
0.9164 17800 2.7094
0.9215 17900 2.6716
0.9267 18000 2.6439
0.9318 18100 2.6538
0.9370 18200 2.6555
0.9421 18300 2.648
0.9473 18400 2.6736
0.9524 18500 2.6839
0.9576 18600 2.6716
0.9627 18700 2.6777
0.9678 18800 2.6732
0.9730 18900 2.6791
0.9781 19000 2.6842
0.9833 19100 2.681
0.9884 19200 2.6771
0.9936 19300 2.6802
0.9987 19400 2.677

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 4.1.0
  • Transformers: 4.51.3
  • PyTorch: 2.6.0+cu126
  • Accelerate: 1.6.0
  • Datasets: 3.5.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}