Add new SentenceTransformer model
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +731 -0
- adapter_config.json +34 -0
- adapter_model.safetensors +3 -0
- config_sentence_transformers.json +10 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +62 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,731 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language:
|
3 |
+
- pt
|
4 |
+
tags:
|
5 |
+
- sentence-transformers
|
6 |
+
- sentence-similarity
|
7 |
+
- feature-extraction
|
8 |
+
- generated_from_trainer
|
9 |
+
- dataset_size:39782226
|
10 |
+
- loss:MultipleNegativesRankingLoss
|
11 |
+
base_model: intfloat/multilingual-e5-base
|
12 |
+
widget:
|
13 |
+
- source_sentence: Como o Brasil reagiu a epidemia de AIDS no fim do século XX?
|
14 |
+
sentences:
|
15 |
+
- O valor para a emissão deste visto pode chegar até US$ 1,8 milhão. Devido a crise,
|
16 |
+
o aumento do preço chegou a 80% em relação a anos anteriores. É importante frisar
|
17 |
+
que o portador deste visto precisa gerar pelo menos dez empregos no país por dois
|
18 |
+
anos a partir da data de emissão. Para realizar a solicitação, é necessário fazer
|
19 |
+
um investimento em um negócio já existente em uma empresa que é licenciada pelo
|
20 |
+
governo americano e que faz parte da captação desta ação ou montar um novo negócio,
|
21 |
+
algo que irá requerer maior burocracia e tempo. Após realizar todos os trâmites,
|
22 |
+
o requerente poderá fazer a solicitação do Green Card, que poderá levar até dois
|
23 |
+
anos para ficar pronto. Trabalho O visto HB-1 é destinado para todos aqueles profissionais
|
24 |
+
que possuem formação acadêmica ou uma experiência de trabalho que equivalha a
|
25 |
+
um curso bacharelado. Este último funciona caso o solicitante não tenha um diploma
|
26 |
+
e tenha trabalhado por três anos equivalentes a um ano de estudo de bacharelado.
|
27 |
+
Além de cumprir estes requisitos, o solicitante do visto deverá ter fluência em
|
28 |
+
inglês e possuir um representante empregador. O visto só é emitido caso a empresa
|
29 |
+
comprove que não exista nenhum outro americano capaz de cumprir a determinada
|
30 |
+
função.
|
31 |
+
- 'Horário de funcionamento: terça a sábado, 10h às 13h e das 14h30 às 18h30. 3.
|
32 |
+
Parque Nacional da Peneda-Gerês Ivy Land Composto pela Serra da Peneda e a Serra
|
33 |
+
da Gerês, esse é o único parque nacional de Portugal. Paraíso para os amantes
|
34 |
+
da natureza, a área possui alguns mirantes de onde é possível admirar toda a região.
|
35 |
+
O destaque fica para a Pedra Bela, com 830 metros de altura. Entre mais de 100
|
36 |
+
aldeias, suas principais atrações são a Ponte Misarela, o Santuário Nossa Senhora
|
37 |
+
da Peneda, o Castro Laboreiro e a Cascata do Arado. Endereço: R. Conde Dom Henrique,
|
38 |
+
Guimarães. Horário de funcionamento: todos os dias das 10h às 18h. 4. Sé de Braga
|
39 |
+
Jorge Santos A igreja, cuja construção começou em 1509, foi fundada antes mesmo
|
40 |
+
da fundação de Portugal (1910). Entre suas várias riquezas culturais está o túmulo
|
41 |
+
de madeira, em talhe gótico-flamengo, pertencente ao Infante Dom Afonso, filho
|
42 |
+
do rei Dom João I e de Dona Filipa de Lencastre. No local também se encontra o
|
43 |
+
Tesouro-Museu da Sé de Braga, fundado em 1930, onde está uma relíquia levada por
|
44 |
+
Pedro Álvares Cabral: a cruz da primeira missa celebrada no Brasil. Endereço:
|
45 |
+
R. Dom Paio Mendes. Valor de entrada: gratuito. Horário de funcionamento: todos
|
46 |
+
os dias das 8h30 às 18h30. 5. Jardim de Santa Bárbara World Photoshoot'
|
47 |
+
- Assim, o financiamento para o programa de aids brasileiro fazia parte tanto dos
|
48 |
+
planos estratégicos do Banco Mundial quanto do planejamento dos formuladores da
|
49 |
+
política nacional de aids. A execução do Projeto AIDS I provocou mudanças tanto
|
50 |
+
nas respostas governamentais quanto nas não-governamentais frente à epidemia do
|
51 |
+
HIV/aids no Brasil. Entre essas, Galvão (2000) destaca o aumento dos recursos
|
52 |
+
financeiros disponíveis no País para desencadear ações frente à epidemia; o crescimento
|
53 |
+
do número dessas ações; o papel de liderança desempenhado pelo Programa Nacional
|
54 |
+
de DST e Aids em nível regional; e a maior visibilidade do programa brasileiro
|
55 |
+
de aids, tanto regional, quanto nacional e internacionalmente. Quanto às ações
|
56 |
+
do Banco Mundial, o empréstimo destinado às ações para conter a epidemia de HIV/aids
|
57 |
+
em função do volume financeiro envolvido, oferece ao Programa brasileiro de aids
|
58 |
+
condições sem precedentes dentro do que vinha sendo feito no país. Para alguns
|
59 |
+
países, inclusive o Brasil, os empréstimos do Banco Mundial tornaram-se uma das
|
60 |
+
maiores fontes de recursos para as atividades em HIV/aids, e propiciaram a projeção
|
61 |
+
das políticas brasileiras como das mais abrangentes já implementadas (Galvão,
|
62 |
+
2000).
|
63 |
+
- source_sentence: Quais são os biomas do Brasil?
|
64 |
+
sentences:
|
65 |
+
- 'Biomas - Atlas Socioeconômico do Rio Grande do Sul Meio ambiente Voltar Imprimir
|
66 |
+
RSS Biomas O RS possui dois importantes biomas: Mata Atlântica e Pampa Os biomas
|
67 |
+
são definidos pelo IBGE como “um conjunto de vida (vegetal e animal) constituído
|
68 |
+
pelo agrupamento de tipos de vegetação contíguos e identificáveis em escala regional,
|
69 |
+
com condições geoclimáticas similares e história compartilhada de mudanças, o
|
70 |
+
que resulta em uma diversidade biológica própria.” Segundo o Mapa dos Biomas do
|
71 |
+
Brasil, elaborado pelo IBGE e pelo Ministério do Meio Ambiente, o país possui
|
72 |
+
5 grandes biomas. O de maior extensão é o da Amazônia que abrange 49,29% do território
|
73 |
+
brasileiro e uma área aproximada de 4.196.943 km². O menor bioma é o do Pantanal
|
74 |
+
com uma área aproximada de 150.355 km² ou 1,76% do território do Brasil. No RS,
|
75 |
+
em função da diversidade de clima, solos e relevo há a formação de distintos ecossistemas
|
76 |
+
derivados de dois grandes biomas: a Mata Atlântica e o Pampa.'
|
77 |
+
- 'Os Campos caracterizam-se pela presença de uma vegetação rasteira (gramíneas)
|
78 |
+
e pequenos arbustos distantes uns dos outros. Podemos encontrar esta formação
|
79 |
+
vegetal em várias regiões do Brasil (sul do Mato Grosso do Sul, nordeste do Paraná,
|
80 |
+
sul de Minas Gerais e norte do Maranhão), porém é no sul do Rio Grande do Sul,
|
81 |
+
região conhecida como Pampas Gaúchos, que encontramos em maior extensão. Características
|
82 |
+
principais dos Campos: - vegetação formada por gramíneas e arbustos e árvores
|
83 |
+
de pequeno porte. - não dependem de grande quantidade de chuvas. - sua extensão
|
84 |
+
atingem os territórios da Argentina e Paraguai. A região dos Campos, principalmente
|
85 |
+
no Rio Grande do Sul, é muito utilizada para a pastagem de gado. A pecuária é
|
86 |
+
uma das principais atividades econômica nesta região. Pantanal Extensão aproximada:
|
87 |
+
150.355 quilômetros quadrados O bioma Pantanal cobre 25% de Mato Grosso do Sul
|
88 |
+
e 7% de Mato Grosso e seus limites coincidem com os da Planície do Pantanal, mais
|
89 |
+
conhecida como Pantanal mato-grossense. O Pantanal é um bioma praticamente exclusivo
|
90 |
+
do Brasil, pois apenas uma pequena faixa dele adentra outros países (o Paraguai
|
91 |
+
e a Bolívia).'
|
92 |
+
- Resíduos biológicos – gaze, algodão, luva, máscara e ponta de sucção são considerados
|
93 |
+
materiais desse grupo. Para estes, o ideal é sempre ter uma lixeira por perto,
|
94 |
+
nunca deixando faltar sacos de lixo, que devem ser proporcionais a demanda de
|
95 |
+
trabalho do consultório. O ideal é que sempre ocorra o recolhimento diário, nunca
|
96 |
+
deixando os detritos acumularem. Isso serve para evitar maiores complicações,
|
97 |
+
como uma contaminação por exemplo. Resíduos perfurocortantes – essa classe de
|
98 |
+
resíduos deve ser condicionada em caixas de papelão bastante resistentes. Resíduos
|
99 |
+
perfurocortantes englobam materiais como seringas, lâminas, agulhas, ampolas,
|
100 |
+
vidros e tesouras. A importância de serem descartados em ambientes resistentes
|
101 |
+
se deve ao fato de serem bastante perigosos e cortantes. Assim, é ideal que eles
|
102 |
+
fiquem isolados para que ninguém se lesione ao manuseá-los futuramente. Também
|
103 |
+
é interessante sinalizar que os materiais presentes naquela caixa são perfurocortantes,
|
104 |
+
geralmente utilizando um adesivo de cor chamativa.
|
105 |
+
- source_sentence: Quais os tipos de denominação (DO) que os vinhos podem receber?
|
106 |
+
sentences:
|
107 |
+
- O Brasil conta com seis ecossistemas diferentes, composto por espécies animais
|
108 |
+
e vegetais variadas. A diversidade e os contrastes presentes em cada região são
|
109 |
+
o que tornam nosso País único. Os principais ecossistemas brasileiros são a Amazônia,
|
110 |
+
a Caatinga, o Cerrado, o Pantanal, a Mata Atlântica e os Pampas. A seguir, detalharemos
|
111 |
+
cada um desses biomas. Amazônia A maior floresta tropical do mundo está presente
|
112 |
+
em nosso País! Distribuindo-se entre Peru, Colômbia, Venezuela, Equador, Suriname,
|
113 |
+
Guiana e Guiana Francesa, uma grande porção da Floresta Amazônica se localiza
|
114 |
+
no Norte do Brasil, com uma grande diversidade de plantas e animais, além de abrigar
|
115 |
+
comunidades de povos originários brasileiros . A bacia amazônica é a maior bacia
|
116 |
+
hidrográfica do mundo, detendo, aproximadamente, 20% de toda a água doce disponível.
|
117 |
+
Com clima quente e úmido, o bioma Amazônia ocupa 49% do território nacional. A
|
118 |
+
temperatura anual média chega a 26 °C, e a pluviosidade é de 2.300 mm, podendo
|
119 |
+
chegar, em alguns locais, a 3.500 mm. No que diz respeito à vegetação, esta se
|
120 |
+
divide em mata de terra firme em porções mais elevadas do território, mata de
|
121 |
+
várzea (inundada em parte do ano) e igapó, quase sempre inundada.
|
122 |
+
- Os olhos verdes são mais comuns em pessoas de origem celta ou germânica, mas podem
|
123 |
+
aparecer em quaisquer etnias. Em regiões da Ásia, por exemplo, existem aldeões
|
124 |
+
do noroeste da China famosos por terem olhos verdes e azuis, além de cabelos claros.
|
125 |
+
Da mesma forma, é possível encontrar negros com olhos claros. 9. Não surge no
|
126 |
+
nascimento Unsplash Logo após o nascimento, os olhos dos bebês são escuros, cinzas
|
127 |
+
ou azuis. Só a partir daí, as células melanócitas começam a liberar a melanina
|
128 |
+
pelo corpo, que distribui o pigmento marrom para os olhos. Como o tom esverdeado
|
129 |
+
é resultado da mistura de outros tons, é preciso esperar o equilíbrio da distribuição
|
130 |
+
de melanina para o desenvolvimento da cor. 10. Olhos verdes só estão completos
|
131 |
+
após um ano Unsplash Ainda que comece logo depois do nascimento, o processo só
|
132 |
+
fica realmente completo após cerca de um ano depois do período. Por causa disso,
|
133 |
+
então, durante os primeiros meses de vida ainda não é possível determinar qual
|
134 |
+
será a verdadeira cor da criança. Interessante, não? Você imaginava que havia
|
135 |
+
tanto mistério por trás de um belo par de olhos verdes? Continua após a publicidade
|
136 |
+
- '"Reboque de barcos rabelos pelas margens do rio Douro em meados dos anos 30 (arq.
|
137 |
+
priv.) Descarga das pipas de um barco rabelo no Porto (arq. priv.) Cartaz publicitário
|
138 |
+
de marca de vinho do Porto de 1950 (col. priv.) Vindimas no Douro na década de
|
139 |
+
70 mantendo ainda as antigas tradições (arq. priv.) Cachos de uvas maduras numa
|
140 |
+
vinha do Douro (arq. priv.) Em 1995, a região Demarcada do Douro viu alterado
|
141 |
+
o seu quadro institucional. Passou a estar dotada de um organismo interprofissional,
|
142 |
+
- a Comissão Interprofissional da Região Demarcada do Douro (CIRDD), no qual tinham
|
143 |
+
assento, em situação de absoluta paridade, os representantes da lavoura e do comércio,
|
144 |
+
com o objectivo comum de disciplinar e controlar a produção e comercialização
|
145 |
+
dos vinhos da região com direito a denominação de origem. As alterações introduzidas
|
146 |
+
respeitaram, contudo, as especificidades históricas, culturais e sociais da região,
|
147 |
+
seguindo as linhas orientadoras da lei - quadro das regiões demarcados vitivinícolas.
|
148 |
+
Duas secções especializadas compunham o Conselho Geral da CIRDD determinando as
|
149 |
+
regras aplicáveis a cada uma das denominações: uma relativa à denominação de origem
|
150 |
+
\""Porto\"" e outra aos restantes vinhos de qualidade (\""VQPRD\"") da região."'
|
151 |
+
- source_sentence: calorias e carboidratos em taco bell
|
152 |
+
sentences:
|
153 |
+
- 'Uma fístula é uma abertura ou canal anormal que une duas ou mais estruturas ou
|
154 |
+
espaços dentro do corpo. Por exemplo, uma fístula pode se desenvolver entre dois
|
155 |
+
órgãos do corpo, como o intestino e a bexiga, ou entre o intestino e a pele. Uma
|
156 |
+
fístula cancerosa é rara. Ela se desenvolve por causa do câncer ou de seu tratamento.
|
157 |
+
Se for causado por tratamento de câncer, geralmente é um efeito colateral tardio
|
158 |
+
e pode levar muitos meses ou anos para se desenvolver. Asistulas são mais comuns
|
159 |
+
na região pélvica. As fístulas são um efeito colateral raro do tratamento do câncer.
|
160 |
+
Eles também podem se desenvolver como resultado do crescimento do câncer. Os sintomas
|
161 |
+
de uma fístula dependem de sua localização no corpo. Os sintomas comuns incluem:
|
162 |
+
1 vazamento de urina pela vagina ou passagem nas costas.'
|
163 |
+
- Os clientes que pedem burritos recheados grelhados devem consumir pelo menos 830
|
164 |
+
calorias nas versões de frango do item do cardápio e mais de 40 gramas de gordura,
|
165 |
+
96 gramas de carboidratos, 2.200 mg de sódio e 85 mg de colesterol. No entanto,
|
166 |
+
o Taco Bell oferece um menu específico dedicado a itens que contêm apenas ingredientes
|
167 |
+
frescos.
|
168 |
+
- Calorias em Spag com base nas calorias, gorduras, proteínas, carboidratos e outras
|
169 |
+
informações nutricionais enviadas para Spag. Calorias em Spag com base nas calorias,
|
170 |
+
gorduras, proteínas, carboidratos e outras informações nutricionais enviadas para
|
171 |
+
Spag.
|
172 |
+
- source_sentence: para que serve a azitromicina
|
173 |
+
sentences:
|
174 |
+
- Média móvel simples (SMA) explicada. Uma média móvel simples (SMA) é o tipo mais
|
175 |
+
simples de média móvel na análise forex (DUH!). Basicamente, uma média móvel simples
|
176 |
+
é calculada somando os últimos preços de fechamento de â € ¢ dividindo esse número
|
177 |
+
por X.
|
178 |
+
- A azitromicina também pode ser usada para tratar várias outras infecções bacterianas
|
179 |
+
mais incomuns. A azitromicina não é eficaz contra nenhuma infecção causada por
|
180 |
+
um vírus, como gripe, gastroenterite ou resfriado comum.
|
181 |
+
- 'Infecções bacterianas. A azitromicina é mais comumente usada para tratar as seguintes
|
182 |
+
infecções: 1 Infecções respiratórias, como bronquite. 2 Infecções de ouvido (otite
|
183 |
+
média). 3 infecções sinusais (sinusite). 4 Pneumonia. 5 Infecções da garganta
|
184 |
+
(amigdalite / faringite). 6 Infecções da pele, como celulite, foliculite ou impetigo.'
|
185 |
+
pipeline_tag: sentence-similarity
|
186 |
+
library_name: sentence-transformers
|
187 |
+
---
|
188 |
+
|
189 |
+
# test
|
190 |
+
|
191 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) on the quati and msmarco datasets. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
192 |
+
|
193 |
+
## Model Details
|
194 |
+
|
195 |
+
### Model Description
|
196 |
+
- **Model Type:** Sentence Transformer
|
197 |
+
- **Base model:** [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) <!-- at revision 835193815a3936a24a0ee7dc9e3d48c1fbb19c55 -->
|
198 |
+
- **Maximum Sequence Length:** 512 tokens
|
199 |
+
- **Output Dimensionality:** 768 dimensions
|
200 |
+
- **Similarity Function:** Cosine Similarity
|
201 |
+
- **Training Datasets:**
|
202 |
+
- quati
|
203 |
+
- msmarco
|
204 |
+
- **Language:** pt
|
205 |
+
<!-- - **License:** Unknown -->
|
206 |
+
|
207 |
+
### Model Sources
|
208 |
+
|
209 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
210 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
211 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
212 |
+
|
213 |
+
### Full Model Architecture
|
214 |
+
|
215 |
+
```
|
216 |
+
SentenceTransformer(
|
217 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: PeftModelForFeatureExtraction
|
218 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
219 |
+
(2): Normalize()
|
220 |
+
)
|
221 |
+
```
|
222 |
+
|
223 |
+
## Usage
|
224 |
+
|
225 |
+
### Direct Usage (Sentence Transformers)
|
226 |
+
|
227 |
+
First install the Sentence Transformers library:
|
228 |
+
|
229 |
+
```bash
|
230 |
+
pip install -U sentence-transformers
|
231 |
+
```
|
232 |
+
|
233 |
+
Then you can load this model and run inference.
|
234 |
+
```python
|
235 |
+
from sentence_transformers import SentenceTransformer
|
236 |
+
|
237 |
+
# Download from the 🤗 Hub
|
238 |
+
model = SentenceTransformer("nskwal/lora-mrayumi-base")
|
239 |
+
# Run inference
|
240 |
+
sentences = [
|
241 |
+
'para que serve a azitromicina',
|
242 |
+
'Infecções bacterianas. A azitromicina é mais comumente usada para tratar as seguintes infecções: 1 Infecções respiratórias, como bronquite. 2 Infecções de ouvido (otite média). 3 infecções sinusais (sinusite). 4 Pneumonia. 5 Infecções da garganta (amigdalite / faringite). 6 Infecções da pele, como celulite, foliculite ou impetigo.',
|
243 |
+
'A azitromicina também pode ser usada para tratar várias outras infecções bacterianas mais incomuns. A azitromicina não é eficaz contra nenhuma infecção causada por um vírus, como gripe, gastroenterite ou resfriado comum.',
|
244 |
+
]
|
245 |
+
embeddings = model.encode(sentences)
|
246 |
+
print(embeddings.shape)
|
247 |
+
# [3, 768]
|
248 |
+
|
249 |
+
# Get the similarity scores for the embeddings
|
250 |
+
similarities = model.similarity(embeddings, embeddings)
|
251 |
+
print(similarities.shape)
|
252 |
+
# [3, 3]
|
253 |
+
```
|
254 |
+
|
255 |
+
<!--
|
256 |
+
### Direct Usage (Transformers)
|
257 |
+
|
258 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
259 |
+
|
260 |
+
</details>
|
261 |
+
-->
|
262 |
+
|
263 |
+
<!--
|
264 |
+
### Downstream Usage (Sentence Transformers)
|
265 |
+
|
266 |
+
You can finetune this model on your own dataset.
|
267 |
+
|
268 |
+
<details><summary>Click to expand</summary>
|
269 |
+
|
270 |
+
</details>
|
271 |
+
-->
|
272 |
+
|
273 |
+
<!--
|
274 |
+
### Out-of-Scope Use
|
275 |
+
|
276 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
277 |
+
-->
|
278 |
+
|
279 |
+
<!--
|
280 |
+
## Bias, Risks and Limitations
|
281 |
+
|
282 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
283 |
+
-->
|
284 |
+
|
285 |
+
<!--
|
286 |
+
### Recommendations
|
287 |
+
|
288 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
289 |
+
-->
|
290 |
+
|
291 |
+
## Training Details
|
292 |
+
|
293 |
+
### Training Datasets
|
294 |
+
|
295 |
+
#### quati
|
296 |
+
|
297 |
+
* Dataset: quati
|
298 |
+
* Size: 1,415 training samples
|
299 |
+
* Columns: <code>query</code> and <code>passage</code>
|
300 |
+
* Approximate statistics based on the first 1000 samples:
|
301 |
+
| | query | passage |
|
302 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
303 |
+
| type | string | string |
|
304 |
+
| details | <ul><li>min: 8 tokens</li><li>mean: 12.57 tokens</li><li>max: 21 tokens</li></ul> | <ul><li>min: 65 tokens</li><li>mean: 267.65 tokens</li><li>max: 412 tokens</li></ul> |
|
305 |
+
* Samples:
|
306 |
+
| query | passage |
|
307 |
+
|:-----------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
308 |
+
| <code>"O que são os celulares ""mid-range""?"</code> | <code>Câmeras traseiras: 64 MP quad-pixel + 12 MP (ultra-wide) + 5 MP (macro) + 5 MP (sensor de profundidade) Filma em: 4K Câmera frontal: 32 MP Bateria: 4.500 mAh com carregamento turbo de 25W Tem conexão 3G e 4G Pontos positivos: Tela grande com resolução Full HD 128 GB de armazenamento é um bom espaço Câmera de 64 MP que filma em 4K Câmera frontal também filma em 4K Processador potente para uso no dia a dia Pontos negativos: Bateria com tamanho abaixo dos concorrentes Sem proteção contra água Melhor Preço Conclusões Como dito no começo da matéria o mercado de celulares está crescendo exponencialmente e isso faz com que estejam disponíveis vários modelos no mercado, para os mais diferentes gostos. Nem todo mundo precisa ou está disposto a pagar pelos melhores celulares e é onde entram os modelos citados nesta lista: Um bom celular por um preço mediano. Para um uso comum estes modelos atendem muito bem. Se você sentiu falta de alguma opção nesta lista deixe ai nos comentários. Vale lembrar ...</code> |
|
309 |
+
| <code>"O que são os celulares ""mid-range""?"</code> | <code>Smartphone Motorola Moto G8 Plus Imagem Celular Intermediário Detalhes Smartphone Xiaomi Redmi Note 8 Pro Melhor celular intermediário, processador rápido Smartphone Xiaomi Redmi Note 8 Melhor celular intermediário custo benefício, câmera quádrupla Smartphone Motorola One Action Sensor exclusivo para vídeo Smartphone Huawei P30 Lite Diversas tecnologias diferenciadas Smartphone Samsung Galaxy A50 Câmera frontal de 25 MP Smartphone Samsung Galaxy A30s Leitor de impressão digital embutido na tela Smartphone Motorola Moto G8 Plus Design moderno e bonito Hoje em dia os smartphones são verdadeiros aliados. Apenas com eles é possível executar uma grande quantidade de tarefas como ligações, mensagens, acesso a e-mail e redes sociais e muito mais. Mas para conseguir isso é importante ter em mãos um aparelho que reúna componentes de qualidade, tal como, boa câmera, ótimo espaço de armazenamento e processador ágil. Pensando nisso, selecionamos os modelos de celular intermediário que englobam as ...</code> |
|
310 |
+
| <code>"O que são os celulares ""mid-range""?"</code> | <code>Os monócitos, eosinófilos, basófilos e seus progenitores circulam no sangue em pequenas quantidades, no entanto, essas células são muitas vezes combinados em um grupo que é designado como MXD ou MID. Este grupo pode ser expressa como uma percentagem do número total de leucócitos (MXD%), ou um número absoluto (MXD #, # MID). Estes tipos de células do sangue e as células brancas do sangue e são funções importantes (a luta contra parasitas, bactérias, reacções alérgicas, etc.). Absoluta e percentagem deste valor aumenta se o aumento do número de um dos tipos de células na sua composição. Para determinar a natureza da alteração geralmente é estudar a percentagem de cada tipo de célula (monócitos, eosinófilos, basófilos e os seus precursores). Requisitos: eosinófilos reduzidos e aumento no sangue # MID (MID, MXD #) 0,2-0,8 x 109 / l MID% (MXD%) 5 - 10% O número de granulócitos (GRA, GRAN) Granulócitos - são leucócitos que contêm grânulos (leucócitos granulares). Granulócitos 3 tipos de célu...</code> |
|
311 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
312 |
+
```json
|
313 |
+
{
|
314 |
+
"scale": 20.0,
|
315 |
+
"similarity_fct": "cos_sim"
|
316 |
+
}
|
317 |
+
```
|
318 |
+
|
319 |
+
#### msmarco
|
320 |
+
|
321 |
+
* Dataset: msmarco
|
322 |
+
* Size: 39,780,811 training samples
|
323 |
+
* Columns: <code>query</code>, <code>positive</code>, and <code>negative</code>
|
324 |
+
* Approximate statistics based on the first 1000 samples:
|
325 |
+
| | query | positive | negative |
|
326 |
+
|:--------|:---------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
327 |
+
| type | string | string | string |
|
328 |
+
| details | <ul><li>min: 4 tokens</li><li>mean: 11.4 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 14 tokens</li><li>mean: 102.05 tokens</li><li>max: 401 tokens</li></ul> | <ul><li>min: 30 tokens</li><li>mean: 91.92 tokens</li><li>max: 470 tokens</li></ul> |
|
329 |
+
* Samples:
|
330 |
+
| query | positive | negative |
|
331 |
+
|:---------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
332 |
+
| <code>é um pouco de cafeína ok durante a gravidez</code> | <code>Não sabemos muito sobre os efeitos da cafeína durante a gravidez sobre você e seu bebê. Portanto, é melhor limitar a quantidade que você recebe a cada dia. Se você estiver grávida, limite a cafeína a 200 miligramas por dia. Isso é aproximadamente a quantidade em 1 x 8 onças de café ou uma xícara de 12 onças de café.</code> | <code>Em geral, é seguro para mulheres grávidas comer chocolate porque estudos demonstraram alguns benefícios de comer chocolate durante a gravidez. No entanto, as mulheres grávidas devem garantir que a ingestão de cafeína seja inferior a 200 mg por dia.</code> |
|
333 |
+
| <code>que fruta é nativa da Austrália</code> | <code>Passiflora herbertiana. Um raro maracujá nativo da Austrália. Os frutos são de casca verde, polpa branca, com uma classificação comestível desconhecida. Algumas fontes listam as frutas como comestíveis, doces e saborosas, enquanto outras listam as frutas como sendo amargas e não comestíveis.assiflora herbertiana. Um raro maracujá nativo da Austrália. Os frutos são de casca verde, polpa branca, com uma classificação comestível desconhecida. Algumas fontes listam as frutas como comestíveis, doces e saborosas, enquanto outras listam as frutas como amargas e não comestíveis.</code> | <code>A noz de cola é o fruto da árvore da cola, um gênero (Cola) de árvores que são nativas das florestas tropicais da África.</code> |
|
334 |
+
| <code>quão grande é o exército canadense</code> | <code>As Forças Armadas canadenses. 1 A primeira missão de manutenção da paz canadense em grande escala começou no Egito em 24 de novembro de 1956. 2 Há aproximadamente 65.000 membros da Força Regular e 25.000 membros reservistas nas forças armadas canadenses. 3 No Canadá, o dia 9 de agosto é designado como Dia Nacional dos Pacificadores.</code> | <code>O Canadian Physician Health Institute (CPHI) é um programa nacional criado em 2012 como uma colaboração entre a Canadian Medical Association (CMA), a Canadian Medical Foundation (CMF) e as Provincial and Territorial Medical Associations (PTMAs).</code> |
|
335 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
336 |
+
```json
|
337 |
+
{
|
338 |
+
"scale": 20.0,
|
339 |
+
"similarity_fct": "cos_sim"
|
340 |
+
}
|
341 |
+
```
|
342 |
+
|
343 |
+
### Training Hyperparameters
|
344 |
+
#### Non-Default Hyperparameters
|
345 |
+
|
346 |
+
- `per_device_train_batch_size`: 128
|
347 |
+
- `per_device_eval_batch_size`: 128
|
348 |
+
- `gradient_accumulation_steps`: 2
|
349 |
+
- `learning_rate`: 2e-05
|
350 |
+
- `num_train_epochs`: 1
|
351 |
+
- `warmup_ratio`: 0.05
|
352 |
+
- `bf16`: True
|
353 |
+
- `batch_sampler`: no_duplicates
|
354 |
+
|
355 |
+
#### All Hyperparameters
|
356 |
+
<details><summary>Click to expand</summary>
|
357 |
+
|
358 |
+
- `overwrite_output_dir`: False
|
359 |
+
- `do_predict`: False
|
360 |
+
- `eval_strategy`: no
|
361 |
+
- `prediction_loss_only`: True
|
362 |
+
- `per_device_train_batch_size`: 128
|
363 |
+
- `per_device_eval_batch_size`: 128
|
364 |
+
- `per_gpu_train_batch_size`: None
|
365 |
+
- `per_gpu_eval_batch_size`: None
|
366 |
+
- `gradient_accumulation_steps`: 2
|
367 |
+
- `eval_accumulation_steps`: None
|
368 |
+
- `torch_empty_cache_steps`: None
|
369 |
+
- `learning_rate`: 2e-05
|
370 |
+
- `weight_decay`: 0.0
|
371 |
+
- `adam_beta1`: 0.9
|
372 |
+
- `adam_beta2`: 0.999
|
373 |
+
- `adam_epsilon`: 1e-08
|
374 |
+
- `max_grad_norm`: 1.0
|
375 |
+
- `num_train_epochs`: 1
|
376 |
+
- `max_steps`: -1
|
377 |
+
- `lr_scheduler_type`: linear
|
378 |
+
- `lr_scheduler_kwargs`: {}
|
379 |
+
- `warmup_ratio`: 0.05
|
380 |
+
- `warmup_steps`: 0
|
381 |
+
- `log_level`: passive
|
382 |
+
- `log_level_replica`: warning
|
383 |
+
- `log_on_each_node`: True
|
384 |
+
- `logging_nan_inf_filter`: True
|
385 |
+
- `save_safetensors`: True
|
386 |
+
- `save_on_each_node`: False
|
387 |
+
- `save_only_model`: False
|
388 |
+
- `restore_callback_states_from_checkpoint`: False
|
389 |
+
- `no_cuda`: False
|
390 |
+
- `use_cpu`: False
|
391 |
+
- `use_mps_device`: False
|
392 |
+
- `seed`: 42
|
393 |
+
- `data_seed`: None
|
394 |
+
- `jit_mode_eval`: False
|
395 |
+
- `use_ipex`: False
|
396 |
+
- `bf16`: True
|
397 |
+
- `fp16`: False
|
398 |
+
- `fp16_opt_level`: O1
|
399 |
+
- `half_precision_backend`: auto
|
400 |
+
- `bf16_full_eval`: False
|
401 |
+
- `fp16_full_eval`: False
|
402 |
+
- `tf32`: None
|
403 |
+
- `local_rank`: 7
|
404 |
+
- `ddp_backend`: None
|
405 |
+
- `tpu_num_cores`: None
|
406 |
+
- `tpu_metrics_debug`: False
|
407 |
+
- `debug`: []
|
408 |
+
- `dataloader_drop_last`: True
|
409 |
+
- `dataloader_num_workers`: 0
|
410 |
+
- `dataloader_prefetch_factor`: None
|
411 |
+
- `past_index`: -1
|
412 |
+
- `disable_tqdm`: False
|
413 |
+
- `remove_unused_columns`: True
|
414 |
+
- `label_names`: None
|
415 |
+
- `load_best_model_at_end`: False
|
416 |
+
- `ignore_data_skip`: False
|
417 |
+
- `fsdp`: []
|
418 |
+
- `fsdp_min_num_params`: 0
|
419 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
420 |
+
- `tp_size`: 0
|
421 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
422 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
423 |
+
- `deepspeed`: None
|
424 |
+
- `label_smoothing_factor`: 0.0
|
425 |
+
- `optim`: adamw_torch
|
426 |
+
- `optim_args`: None
|
427 |
+
- `adafactor`: False
|
428 |
+
- `group_by_length`: False
|
429 |
+
- `length_column_name`: length
|
430 |
+
- `ddp_find_unused_parameters`: None
|
431 |
+
- `ddp_bucket_cap_mb`: None
|
432 |
+
- `ddp_broadcast_buffers`: False
|
433 |
+
- `dataloader_pin_memory`: True
|
434 |
+
- `dataloader_persistent_workers`: False
|
435 |
+
- `skip_memory_metrics`: True
|
436 |
+
- `use_legacy_prediction_loop`: False
|
437 |
+
- `push_to_hub`: False
|
438 |
+
- `resume_from_checkpoint`: None
|
439 |
+
- `hub_model_id`: None
|
440 |
+
- `hub_strategy`: every_save
|
441 |
+
- `hub_private_repo`: None
|
442 |
+
- `hub_always_push`: False
|
443 |
+
- `gradient_checkpointing`: False
|
444 |
+
- `gradient_checkpointing_kwargs`: None
|
445 |
+
- `include_inputs_for_metrics`: False
|
446 |
+
- `include_for_metrics`: []
|
447 |
+
- `eval_do_concat_batches`: True
|
448 |
+
- `fp16_backend`: auto
|
449 |
+
- `push_to_hub_model_id`: None
|
450 |
+
- `push_to_hub_organization`: None
|
451 |
+
- `mp_parameters`:
|
452 |
+
- `auto_find_batch_size`: False
|
453 |
+
- `full_determinism`: False
|
454 |
+
- `torchdynamo`: None
|
455 |
+
- `ray_scope`: last
|
456 |
+
- `ddp_timeout`: 1800
|
457 |
+
- `torch_compile`: False
|
458 |
+
- `torch_compile_backend`: None
|
459 |
+
- `torch_compile_mode`: None
|
460 |
+
- `include_tokens_per_second`: False
|
461 |
+
- `include_num_input_tokens_seen`: False
|
462 |
+
- `neftune_noise_alpha`: None
|
463 |
+
- `optim_target_modules`: None
|
464 |
+
- `batch_eval_metrics`: False
|
465 |
+
- `eval_on_start`: False
|
466 |
+
- `use_liger_kernel`: False
|
467 |
+
- `eval_use_gather_object`: False
|
468 |
+
- `average_tokens_across_devices`: False
|
469 |
+
- `prompts`: None
|
470 |
+
- `batch_sampler`: no_duplicates
|
471 |
+
- `multi_dataset_batch_sampler`: proportional
|
472 |
+
|
473 |
+
</details>
|
474 |
+
|
475 |
+
### Training Logs
|
476 |
+
<details><summary>Click to expand</summary>
|
477 |
+
|
478 |
+
| Epoch | Step | Training Loss |
|
479 |
+
|:------:|:-----:|:-------------:|
|
480 |
+
| 0.0051 | 100 | 7.0257 |
|
481 |
+
| 0.0103 | 200 | 6.9039 |
|
482 |
+
| 0.0154 | 300 | 6.5928 |
|
483 |
+
| 0.0206 | 400 | 6.0736 |
|
484 |
+
| 0.0257 | 500 | 5.331 |
|
485 |
+
| 0.0309 | 600 | 4.397 |
|
486 |
+
| 0.0360 | 700 | 3.3011 |
|
487 |
+
| 0.0412 | 800 | 1.7923 |
|
488 |
+
| 0.0463 | 900 | 1.1336 |
|
489 |
+
| 0.0515 | 1000 | 0.9559 |
|
490 |
+
| 0.0566 | 1100 | 0.859 |
|
491 |
+
| 0.0618 | 1200 | 0.8004 |
|
492 |
+
| 0.0669 | 1300 | 0.7798 |
|
493 |
+
| 0.0721 | 1400 | 0.7595 |
|
494 |
+
| 0.0772 | 1500 | 0.7516 |
|
495 |
+
| 0.0824 | 1600 | 0.7402 |
|
496 |
+
| 0.0875 | 1700 | 0.732 |
|
497 |
+
| 0.0927 | 1800 | 0.7194 |
|
498 |
+
| 0.0978 | 1900 | 0.7097 |
|
499 |
+
| 0.1030 | 2000 | 0.7133 |
|
500 |
+
| 0.1081 | 2100 | 0.7004 |
|
501 |
+
| 0.1133 | 2200 | 0.7002 |
|
502 |
+
| 0.1184 | 2300 | 0.6985 |
|
503 |
+
| 0.1236 | 2400 | 0.6884 |
|
504 |
+
| 0.1287 | 2500 | 0.6832 |
|
505 |
+
| 0.1339 | 2600 | 0.6755 |
|
506 |
+
| 0.1390 | 2700 | 0.6636 |
|
507 |
+
| 0.1441 | 2800 | 0.6532 |
|
508 |
+
| 0.1493 | 2900 | 0.6496 |
|
509 |
+
| 0.1544 | 3000 | 0.6495 |
|
510 |
+
| 0.1596 | 3100 | 0.6349 |
|
511 |
+
| 0.1647 | 3200 | 0.6413 |
|
512 |
+
| 0.1699 | 3300 | 0.6421 |
|
513 |
+
| 0.1750 | 3400 | 0.6351 |
|
514 |
+
| 0.1802 | 3500 | 0.6326 |
|
515 |
+
| 0.1853 | 3600 | 0.6326 |
|
516 |
+
| 0.1905 | 3700 | 0.6279 |
|
517 |
+
| 0.1956 | 3800 | 0.6273 |
|
518 |
+
| 0.2008 | 3900 | 0.6286 |
|
519 |
+
| 0.2059 | 4000 | 0.6282 |
|
520 |
+
| 0.2111 | 4100 | 0.631 |
|
521 |
+
| 0.2162 | 4200 | 0.619 |
|
522 |
+
| 0.2214 | 4300 | 0.6293 |
|
523 |
+
| 0.2265 | 4400 | 0.6206 |
|
524 |
+
| 0.2317 | 4500 | 0.6231 |
|
525 |
+
| 0.2368 | 4600 | 0.6217 |
|
526 |
+
| 0.2420 | 4700 | 0.6178 |
|
527 |
+
| 0.2471 | 4800 | 0.6202 |
|
528 |
+
| 0.2523 | 4900 | 0.6158 |
|
529 |
+
| 0.2574 | 5000 | 0.6213 |
|
530 |
+
| 0.2626 | 5100 | 0.6213 |
|
531 |
+
| 0.2677 | 5200 | 0.6177 |
|
532 |
+
| 0.2729 | 5300 | 0.6146 |
|
533 |
+
| 0.2780 | 5400 | 0.6178 |
|
534 |
+
| 0.2831 | 5500 | 0.6185 |
|
535 |
+
| 0.2883 | 5600 | 0.6174 |
|
536 |
+
| 0.2934 | 5700 | 0.6195 |
|
537 |
+
| 0.2986 | 5800 | 0.6177 |
|
538 |
+
| 0.3037 | 5900 | 0.6243 |
|
539 |
+
| 0.3089 | 6000 | 0.6191 |
|
540 |
+
| 0.3140 | 6100 | 0.6235 |
|
541 |
+
| 0.3192 | 6200 | 0.6249 |
|
542 |
+
| 0.3243 | 6300 | 0.6183 |
|
543 |
+
| 0.3295 | 6400 | 0.6239 |
|
544 |
+
| 0.3346 | 6500 | 0.6252 |
|
545 |
+
| 0.3398 | 6600 | 0.6263 |
|
546 |
+
| 0.3449 | 6700 | 0.6256 |
|
547 |
+
| 0.3501 | 6800 | 0.6236 |
|
548 |
+
| 0.3552 | 6900 | 0.6164 |
|
549 |
+
| 0.3604 | 7000 | 0.6297 |
|
550 |
+
| 0.3655 | 7100 | 0.6355 |
|
551 |
+
| 0.3707 | 7200 | 0.629 |
|
552 |
+
| 0.3758 | 7300 | 0.6286 |
|
553 |
+
| 0.3810 | 7400 | 0.621 |
|
554 |
+
| 0.3861 | 7500 | 0.621 |
|
555 |
+
| 0.3913 | 7600 | 0.6284 |
|
556 |
+
| 0.3964 | 7700 | 0.6306 |
|
557 |
+
| 0.4016 | 7800 | 0.631 |
|
558 |
+
| 0.4067 | 7900 | 0.6385 |
|
559 |
+
| 0.4119 | 8000 | 0.6379 |
|
560 |
+
| 0.4170 | 8100 | 0.6336 |
|
561 |
+
| 0.4221 | 8200 | 0.6414 |
|
562 |
+
| 0.4273 | 8300 | 0.6405 |
|
563 |
+
| 0.4324 | 8400 | 0.6417 |
|
564 |
+
| 0.4376 | 8500 | 0.6451 |
|
565 |
+
| 0.4427 | 8600 | 0.6464 |
|
566 |
+
| 0.4479 | 8700 | 0.6476 |
|
567 |
+
| 0.4530 | 8800 | 0.6417 |
|
568 |
+
| 0.4582 | 8900 | 0.6449 |
|
569 |
+
| 0.4633 | 9000 | 0.6562 |
|
570 |
+
| 0.4685 | 9100 | 0.6557 |
|
571 |
+
| 0.4736 | 9200 | 0.6507 |
|
572 |
+
| 0.4788 | 9300 | 0.6582 |
|
573 |
+
| 0.4839 | 9400 | 0.6538 |
|
574 |
+
| 0.4891 | 9500 | 0.6593 |
|
575 |
+
| 0.4942 | 9600 | 0.6653 |
|
576 |
+
| 0.4994 | 9700 | 0.6653 |
|
577 |
+
| 0.5045 | 9800 | 0.6636 |
|
578 |
+
| 0.5097 | 9900 | 0.6842 |
|
579 |
+
| 0.5148 | 10000 | 0.6844 |
|
580 |
+
| 0.5200 | 10100 | 0.6791 |
|
581 |
+
| 0.5251 | 10200 | 0.6925 |
|
582 |
+
| 0.5303 | 10300 | 0.6851 |
|
583 |
+
| 0.5354 | 10400 | 0.689 |
|
584 |
+
| 0.5406 | 10500 | 0.7075 |
|
585 |
+
| 0.5457 | 10600 | 0.7163 |
|
586 |
+
| 0.5509 | 10700 | 0.7009 |
|
587 |
+
| 0.5560 | 10800 | 0.7088 |
|
588 |
+
| 0.5611 | 10900 | 0.7139 |
|
589 |
+
| 0.5663 | 11000 | 0.7279 |
|
590 |
+
| 0.5714 | 11100 | 0.716 |
|
591 |
+
| 0.5766 | 11200 | 0.7356 |
|
592 |
+
| 0.5817 | 11300 | 0.7485 |
|
593 |
+
| 0.5869 | 11400 | 0.7563 |
|
594 |
+
| 0.5920 | 11500 | 0.7626 |
|
595 |
+
| 0.5972 | 11600 | 0.7682 |
|
596 |
+
| 0.6023 | 11700 | 0.7912 |
|
597 |
+
| 0.6075 | 11800 | 0.7981 |
|
598 |
+
| 0.6126 | 11900 | 0.7949 |
|
599 |
+
| 0.6178 | 12000 | 0.8044 |
|
600 |
+
| 0.6229 | 12100 | 0.819 |
|
601 |
+
| 0.6281 | 12200 | 0.8234 |
|
602 |
+
| 0.6332 | 12300 | 0.8317 |
|
603 |
+
| 0.6384 | 12400 | 0.8501 |
|
604 |
+
| 0.6435 | 12500 | 0.8525 |
|
605 |
+
| 0.6487 | 12600 | 0.8663 |
|
606 |
+
| 0.6538 | 12700 | 0.8856 |
|
607 |
+
| 0.6590 | 12800 | 0.8842 |
|
608 |
+
| 0.6641 | 12900 | 0.9103 |
|
609 |
+
| 0.6693 | 13000 | 0.9503 |
|
610 |
+
| 0.6744 | 13100 | 0.9667 |
|
611 |
+
| 0.6796 | 13200 | 0.9829 |
|
612 |
+
| 0.6847 | 13300 | 0.9859 |
|
613 |
+
| 0.6899 | 13400 | 1.0027 |
|
614 |
+
| 0.6950 | 13500 | 1.0592 |
|
615 |
+
| 0.7001 | 13600 | 1.0708 |
|
616 |
+
| 0.7053 | 13700 | 1.1194 |
|
617 |
+
| 0.7104 | 13800 | 1.1756 |
|
618 |
+
| 0.7156 | 13900 | 1.2475 |
|
619 |
+
| 0.7207 | 14000 | 1.3632 |
|
620 |
+
| 0.7259 | 14100 | 1.4693 |
|
621 |
+
| 0.7310 | 14200 | 1.6161 |
|
622 |
+
| 0.7362 | 14300 | 1.8805 |
|
623 |
+
| 0.7413 | 14400 | 2.1287 |
|
624 |
+
| 0.7465 | 14500 | 2.4615 |
|
625 |
+
| 0.7516 | 14600 | 2.7019 |
|
626 |
+
| 0.7568 | 14700 | 2.8188 |
|
627 |
+
| 0.7619 | 14800 | 2.8304 |
|
628 |
+
| 0.7671 | 14900 | 2.8225 |
|
629 |
+
| 0.7722 | 15000 | 2.8204 |
|
630 |
+
| 0.7774 | 15100 | 2.8899 |
|
631 |
+
| 0.7825 | 15200 | 3.1325 |
|
632 |
+
| 0.7877 | 15300 | 3.1975 |
|
633 |
+
| 0.7928 | 15400 | 3.1277 |
|
634 |
+
| 0.7980 | 15500 | 3.0691 |
|
635 |
+
| 0.8031 | 15600 | 2.9684 |
|
636 |
+
| 0.8083 | 15700 | 2.9182 |
|
637 |
+
| 0.8134 | 15800 | 2.8516 |
|
638 |
+
| 0.8186 | 15900 | 2.8063 |
|
639 |
+
| 0.8237 | 16000 | 2.8108 |
|
640 |
+
| 0.8289 | 16100 | 2.807 |
|
641 |
+
| 0.8340 | 16200 | 2.7552 |
|
642 |
+
| 0.8391 | 16300 | 2.7632 |
|
643 |
+
| 0.8443 | 16400 | 2.7403 |
|
644 |
+
| 0.8494 | 16500 | 2.7234 |
|
645 |
+
| 0.8546 | 16600 | 2.7339 |
|
646 |
+
| 0.8597 | 16700 | 2.7318 |
|
647 |
+
| 0.8649 | 16800 | 2.7038 |
|
648 |
+
| 0.8700 | 16900 | 2.7033 |
|
649 |
+
| 0.8752 | 17000 | 2.6798 |
|
650 |
+
| 0.8803 | 17100 | 2.6885 |
|
651 |
+
| 0.8855 | 17200 | 2.6815 |
|
652 |
+
| 0.8906 | 17300 | 2.6582 |
|
653 |
+
| 0.8958 | 17400 | 2.6478 |
|
654 |
+
| 0.9009 | 17500 | 2.6672 |
|
655 |
+
| 0.9061 | 17600 | 2.7163 |
|
656 |
+
| 0.9112 | 17700 | 2.7185 |
|
657 |
+
| 0.9164 | 17800 | 2.7094 |
|
658 |
+
| 0.9215 | 17900 | 2.6716 |
|
659 |
+
| 0.9267 | 18000 | 2.6439 |
|
660 |
+
| 0.9318 | 18100 | 2.6538 |
|
661 |
+
| 0.9370 | 18200 | 2.6555 |
|
662 |
+
| 0.9421 | 18300 | 2.648 |
|
663 |
+
| 0.9473 | 18400 | 2.6736 |
|
664 |
+
| 0.9524 | 18500 | 2.6839 |
|
665 |
+
| 0.9576 | 18600 | 2.6716 |
|
666 |
+
| 0.9627 | 18700 | 2.6777 |
|
667 |
+
| 0.9678 | 18800 | 2.6732 |
|
668 |
+
| 0.9730 | 18900 | 2.6791 |
|
669 |
+
| 0.9781 | 19000 | 2.6842 |
|
670 |
+
| 0.9833 | 19100 | 2.681 |
|
671 |
+
| 0.9884 | 19200 | 2.6771 |
|
672 |
+
| 0.9936 | 19300 | 2.6802 |
|
673 |
+
| 0.9987 | 19400 | 2.677 |
|
674 |
+
|
675 |
+
</details>
|
676 |
+
|
677 |
+
### Framework Versions
|
678 |
+
- Python: 3.11.11
|
679 |
+
- Sentence Transformers: 4.1.0
|
680 |
+
- Transformers: 4.51.3
|
681 |
+
- PyTorch: 2.6.0+cu126
|
682 |
+
- Accelerate: 1.6.0
|
683 |
+
- Datasets: 3.5.0
|
684 |
+
- Tokenizers: 0.21.1
|
685 |
+
|
686 |
+
## Citation
|
687 |
+
|
688 |
+
### BibTeX
|
689 |
+
|
690 |
+
#### Sentence Transformers
|
691 |
+
```bibtex
|
692 |
+
@inproceedings{reimers-2019-sentence-bert,
|
693 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
694 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
695 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
696 |
+
month = "11",
|
697 |
+
year = "2019",
|
698 |
+
publisher = "Association for Computational Linguistics",
|
699 |
+
url = "https://arxiv.org/abs/1908.10084",
|
700 |
+
}
|
701 |
+
```
|
702 |
+
|
703 |
+
#### MultipleNegativesRankingLoss
|
704 |
+
```bibtex
|
705 |
+
@misc{henderson2017efficient,
|
706 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
707 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
708 |
+
year={2017},
|
709 |
+
eprint={1705.00652},
|
710 |
+
archivePrefix={arXiv},
|
711 |
+
primaryClass={cs.CL}
|
712 |
+
}
|
713 |
+
```
|
714 |
+
|
715 |
+
<!--
|
716 |
+
## Glossary
|
717 |
+
|
718 |
+
*Clearly define terms in order to be accessible across audiences.*
|
719 |
+
-->
|
720 |
+
|
721 |
+
<!--
|
722 |
+
## Model Card Authors
|
723 |
+
|
724 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
725 |
+
-->
|
726 |
+
|
727 |
+
<!--
|
728 |
+
## Model Card Contact
|
729 |
+
|
730 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
731 |
+
-->
|
adapter_config.json
ADDED
@@ -0,0 +1,34 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"alpha_pattern": {},
|
3 |
+
"auto_mapping": null,
|
4 |
+
"base_model_name_or_path": "intfloat/multilingual-e5-base",
|
5 |
+
"bias": "none",
|
6 |
+
"corda_config": null,
|
7 |
+
"eva_config": null,
|
8 |
+
"exclude_modules": null,
|
9 |
+
"fan_in_fan_out": false,
|
10 |
+
"inference_mode": true,
|
11 |
+
"init_lora_weights": true,
|
12 |
+
"layer_replication": null,
|
13 |
+
"layers_pattern": null,
|
14 |
+
"layers_to_transform": null,
|
15 |
+
"loftq_config": {},
|
16 |
+
"lora_alpha": 16,
|
17 |
+
"lora_bias": false,
|
18 |
+
"lora_dropout": 0.1,
|
19 |
+
"megatron_config": null,
|
20 |
+
"megatron_core": "megatron.core",
|
21 |
+
"modules_to_save": null,
|
22 |
+
"peft_type": "LORA",
|
23 |
+
"r": 8,
|
24 |
+
"rank_pattern": {},
|
25 |
+
"revision": null,
|
26 |
+
"target_modules": [
|
27 |
+
"query",
|
28 |
+
"value"
|
29 |
+
],
|
30 |
+
"task_type": "FEATURE_EXTRACTION",
|
31 |
+
"trainable_token_indices": null,
|
32 |
+
"use_dora": false,
|
33 |
+
"use_rslora": false
|
34 |
+
}
|
adapter_model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:4180e29986840f1ba7afee902133de46b2f51b2a804f0048c49cc2936e681ca6
|
3 |
+
size 1186088
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "4.1.0",
|
4 |
+
"transformers": "4.51.3",
|
5 |
+
"pytorch": "2.6.0+cu126"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": "cosine"
|
10 |
+
}
|
modules.json
ADDED
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
},
|
14 |
+
{
|
15 |
+
"idx": 2,
|
16 |
+
"name": "2",
|
17 |
+
"path": "2_Normalize",
|
18 |
+
"type": "sentence_transformers.models.Normalize"
|
19 |
+
}
|
20 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
|
3 |
+
size 17082987
|
tokenizer_config.json
ADDED
@@ -0,0 +1,62 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"extra_special_tokens": {},
|
49 |
+
"mask_token": "<mask>",
|
50 |
+
"max_length": 512,
|
51 |
+
"model_max_length": 512,
|
52 |
+
"pad_to_multiple_of": null,
|
53 |
+
"pad_token": "<pad>",
|
54 |
+
"pad_token_type_id": 0,
|
55 |
+
"padding_side": "right",
|
56 |
+
"sep_token": "</s>",
|
57 |
+
"stride": 0,
|
58 |
+
"tokenizer_class": "XLMRobertaTokenizerFast",
|
59 |
+
"truncation_side": "right",
|
60 |
+
"truncation_strategy": "longest_first",
|
61 |
+
"unk_token": "<unk>"
|
62 |
+
}
|