nickprock's picture
Update README.md
6e18f0d verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:100000
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
base_model: DeepMount00/ModernBERT-base-ita
widget:
  - source_sentence: effetti dell'ipotiroidismo sul corpo
    sentences:
      - >-
        Con l'ipotiroidismo, invece, la temperatura corporea tende a diminuire a
        causa di una carenza di ormone tiroideo. Un piccolo aumento o
        diminuzione dei livelli della tiroide può modificare la temperatura
        corporea abbastanza da influenzare significativamente i livelli di
        proteine ​​nel sangue. Come l'ipotiroidismo influisce sulla temperatura
        interna. I sintomi dell'ipotiroidismo includono costipazione,
        affaticamento, dolori articolari o muscolari e persino depressione.
      - >-
        Organum Harmony una prima forma di polifonia Anonimo IV Ha scritto la
        vecchia teoria musicale dal MUSC 118 alla Eastern Michigan University
      - >-
        Se stai cercando informazioni su quando la tiroide produce troppo ormone
        tiroideo, vedi l'argomento Ipertiroidismo. L'ipotiroidismo significa che
        la tiroide non produce abbastanza ormone tiroideo. La tiroide è una
        ghiandola a forma di farfalla nella parte anteriore del collo. Produce
        ormoni che controllano il modo in cui il tuo corpo usa l'energia. Avere
        un basso livello di ormone tiroideo colpisce tutto il tuo corpo. Può
        farti sentire stanco e debole. Se l'ipotiroidismo non viene trattato,
        può aumentare i livelli di colesterolo.
  - source_sentence: che ore sono a gilbert az
    sentences:
      - >-
        Principali città vicino a Phoenix, AZ. Questa è una lista delle grandi
        città più vicine a Phoenix, AZ. Una grande città di solito ha una
        popolazione di almeno 200.000 abitanti e spesso puoi volare in un grande
        aeroporto. Se devi prenotare un volo, cerca l'aeroporto più vicino a
        Phoenix, AZ. 19 miglia a Glendale, AZ. 2 11 miglia a Scottsdale, AZ. 3
        15 miglia a Mesa, AZ.
      - >-
        Gli appaltatori indipendenti sono coperti come dipendenti di servizio
        sotto la SCA. È responsabilità dell'azienda garantire che gli
        appaltatori indipendenti coperti da SCA ricevano i salari e i benefici
        accessori appropriati. In caso contrario, la società può essere ritenuta
        responsabile per eventuali pagamenti insufficienti.
      - >-
        Ora locale attuale: Gilbert, Arizona si trova nel fuso orario delle
        montagne Nota: la nazione Navajo nell'Arizona nord-orientale osserva
        l'ora legale. Gilbert, Arizona non utilizza l'ora legale. L'ora corrente
        a Gilbert, Arizona è: lunedì 29/01/2018 19:22 MST Gilbert, Arizona si
        trova nel fuso orario di montagna e NON osserva l'ora legale.
  - source_sentence: cos'è un portale di progetto?
    sentences:
      - >-
        La metodologia dei cancelli è un processo di definizione progressiva del
        progetto basato su una valutazione pianificata e standardizzata al
        termine di ogni fase. Un cancello o un casello è un punto di controllo
        standardizzato in cui la fase del progetto viene rivista e/o verificata
        e approvata (o meno) per continuare con la fase successiva.
      - >-
        Lo sviluppo del curriculum è un processo continuo e le modifiche
        necessarie sono parte integrante del processo, In. al fine di rendere
        più reattivo alle mutevoli esigenze e per garantire la pertinenza. È
        senza dubbio la realtà. che l'efficace processo di sviluppo del
        curriculum può migliorare l'apprendimento dei partecipanti.
      - >-
        Quando usi la teoria del controllo del cancello per alleviare il disagio
        del travaglio, tieni a mente alcune cose. Primo, i nervi di grande
        diametro si abituano più velocemente dei nervi di piccolo diametro. Ciò
        significa che farsi massaggiare la schiena può funzionare come un
        incantesimo per una ventina di minuti e poi interrompersi
        improvvisamente. Questo è solo il modo in cui il tuo corpo ti dice che è
        ora di provare qualcos'altro. In secondo luogo, può essere utile
        utilizzare tecniche di visualizzazione o punti focali mentre provi la
        teoria del cancello perché questo ti focalizza e può aiutarti a
        distrarti dal disagio. Quali domande hai sulla teoria del controllo dei
        cancelli? Hai applicato i concetti nel tuo lavoro?
  - source_sentence: tipo di assicurazione di cui avrò bisogno per gli assistenti d'infanzia
    sentences:
      - >-
        QUIET è un esperimento di astronomia per studiare la polarizzazione
        della radiazione cosmica di fondo a microonde. QUIET sta per Q/U Imaging
        Experiment. La Q/U nel nome si riferisce alla capacità del telescopio di
        misurare simultaneamente i parametri Q e U Stokes. QUIET si trova ad
        un'altitudine di 5.080 metri (16.700 piedi) presso l'Osservatorio di
        Llano de Chajnantor nelle Ande cilene.
      - >-
        Assicurazione sulla vita del credito = assicurazione a termine
        decrescente. La durata del credito è simile a un tipo speciale di
        assicurazione sulla vita denominata assicurazione a termine decrescente.
        • Viene emessa una polizza vita di credito per un importo
        pari a quanto devi. Quando il saldo del prestito diminuisce, diminuisce
        anche l'importo nominale della polizza sulla vita del credito.
      - >-
        Childminders v7.0 Aprile 2012 2 Introduzione Gli assistenti all'infanzia
        sono generalmente contrattati con i genitori per fornire servizi nei
        locali degli assistenti all'infanzia, quindi normalmente non sono
        dipendenti dei genitori. La maggior parte degli assistenti d'infanzia
        sono lavoratori autonomi e sono responsabili delle proprie imposte sul
        reddito e dei contributi all'assicurazione nazionale. Gli assistenti
        d'infanzia dovranno tenere registri delle entrate e delle spese
        aziendali per calcolare i loro profitti e questo opuscolo fornisce
        informazioni su come farlo. è un assistente all'infanzia registrato con
        sede a casa dei genitori dei bambini. La maggior parte degli assistenti
        d'infanzia a domicilio sono assunti dai genitori o dai genitori dei
        bambini. Ãâ„ locali, quindi normalmente non sono dipendenti dei
        genitori. La maggior parte degli assistenti d'infanzia sono lavoratori
        autonomi e sono responsabili della propria imposta sul reddito e dei
        contributi all'assicurazione nazionale.
  - source_sentence: chi canta la canzone che ti ama bella piccola
    sentences:
      - >-
        Who Loves You (canzone) Who Loves You è la canzone del titolo di un
        album del 1975 dei The Four Seasons. È stato composto da Bob Gaudio e
        Judy Parker e prodotto da Gaudio. Ha raggiunto il numero 3 della
        Billboard Hot 100 nel novembre 1975. Contenuto.
      - >-
        Quanto dovrebbe essere ampia un'isola cucina? Molte isole sono di circa
        2 o 3 piedi, ma se hai bisogno di più spazio sul bancone, spazio per
        sedersi, ecc., Puoi andare un po' più grande. A volte sono necessari
        circa 7 piedi se si desidera un piano cottura o un lavandino nell'isola.
        Si raccomanda che la tua isola sia profonda almeno 2 piedi. Lasciare
        abbastanza spazio su tutti i lati... 3 piedi di superficie alle
        estremità dell'isola vanno bene. Ricordate che volete essere in grado di
        muovervi facilmente in cucina.
      - >-
        Io, ti amo come una (canzone d'amore piccola) canzone d'amore, piccola.
        Io, ti amo come una (canzone d'amore piccola) canzone d'amore, piccola.
        Io, ti amo (ti amo, ti amo) come una canzone d'amore, piccola. E
        continuo a suonare re-peat-peat-peat-peat-peat-peat (come una canzone
        d'amore). [Ponte].
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy
model-index:
  - name: SentenceTransformer based on DeepMount00/ModernBERT-base-ita
    results:
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: mmarco dev
          type: mmarco_dev
        metrics:
          - type: cosine_accuracy
            value: 0.9154999852180481
            name: Cosine Accuracy
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: mmarco test
          type: mmarco_test
        metrics:
          - type: cosine_accuracy
            value: 0.9129999876022339
            name: Cosine Accuracy

image/png


SentenceTransformer based on DeepMount00/ModernBERT-base-ita

This is a sentence-transformers model finetuned from DeepMount00/ModernBERT-base-ita on the mmarco dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: DeepMount00/ModernBERT-base-ita
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • mmarco

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("ModernBERT-base-ita-embed-mnrl")
# Run inference
sentences = [
    'chi canta la canzone che ti ama bella piccola',
    'Who Loves You (canzone) Who Loves You è la canzone del titolo di un album del 1975 dei The Four Seasons. È stato composto da Bob Gaudio e Judy Parker e prodotto da Gaudio. Ha raggiunto il numero 3 della Billboard Hot 100 nel novembre 1975. Contenuto.',
    "Io, ti amo come una (canzone d'amore piccola) canzone d'amore, piccola. Io, ti amo come una (canzone d'amore piccola) canzone d'amore, piccola. Io, ti amo (ti amo, ti amo) come una canzone d'amore, piccola. E continuo a suonare re-peat-peat-peat-peat-peat-peat (come una canzone d'amore). [Ponte].",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Triplet

Metric mmarco_dev mmarco_test
cosine_accuracy 0.9155 0.913

Training Details

Training Dataset

mmarco

  • Dataset: mmarco
  • Size: 100,000 training samples
  • Columns: query, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    query positive negative
    type string string string
    details
    • min: 5 tokens
    • mean: 14.64 tokens
    • max: 54 tokens
    • min: 32 tokens
    • mean: 131.02 tokens
    • max: 401 tokens
    • min: 11 tokens
    • mean: 121.47 tokens
    • max: 395 tokens
  • Samples:
    query positive negative
    cos'è la nuvola elettrica? Dettagli della Compagnia. Electric Cloud è il leader nell'automazione dei rilasci DevOps. Aiutano le organizzazioni che sviluppano applicazioni Web/IT aziendali, mobili e sistemi embedded a fornire software migliore più velocemente automatizzando e accelerando i processi di creazione, implementazione e rilascio su larga scala. Registrati per abilitare Cloud Sync e ottieni 200 milioni di spazio cloud GRATIS. Accedi a tutti i documenti in qualsiasi momento su qualsiasi dispositivo solo con l'account connesso. L'offerta speciale per studenti e insegnanti consente agli utenti educativi di ottenere la versione completa e 200M di spazio cloud extra.
    quali colori si mescolano per creare i colori primari Attraverso la previsione e la sperimentazione tuo figlio mescola i colori primari (rosso, giallo e blu) per creare colori secondari (arancione, viola e verde). 1 Vernice rossa, gialla e blu (colori primari). La vernice a tempera è una buona opzione perché è lavabile ed è disponibile in colori vivaci. Sei piccoli contenitori per la vernice. I cubi di Rubik sono stati realizzati praticamente di ogni colore immaginabile. Ho un cubo che è bianco, nero, grigio scuro, argento, grigio chiaro e grigio. Ho visto cubi in 6 colori pastello, in 6 colori primari, ecc. I colori più comuni che ho visto sono bianco, giallo, rosso, arancione, verde e blu, ma li ho visti in molte diverse disposizioni di quei colori.
    cos'è l'editing genetico di crispr/cas9? CRISPR/Cas9, una tecnica di editing genetico in grado di mirare e modificare il DNA con un'accuratezza rivoluzionaria, è sia il nuovo tesoro che il più nuovo cattivo della ricerca genetica. Inventato nel 2012 dagli scienziati dell'Università della California, Berkeley, CRISPR/Cas9 ha ricevuto molta attenzione quest'anno. Se gli scienziati sono in grado di definire con precisione l'uso di CRISPR/Cas9 nelle cellule germinali umane, non c'è dubbio che potrebbe conferire grandi benefici. Vale a dire, la tecnologia potrebbe sradicare del tutto malattie ereditarie come la fibrosi cistica, l'anemia falciforme e la malattia di Huntington da una linea familiare. Un gene può esistere in molte forme diverse, chiamate alleli. Ad esempio, diciamo che c'è un gene che determina il colore dei tuoi capelli. Quel gene può avere molte forme, o alleli: capelli neri, capelli castani, capelli ramati, capelli rossi, capelli biondi, ecc. Erediti un allele per ogni gene da tua madre e uno da tuo padre. Ciascuno dei due alleli che erediti per un gene può essere forte (dominante) o debole (recessivo).
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

mmarco

  • Dataset: mmarco
  • Size: 2,000 evaluation samples
  • Columns: query, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    query positive negative
    type string string string
    details
    • min: 5 tokens
    • mean: 14.59 tokens
    • max: 37 tokens
    • min: 30 tokens
    • mean: 130.71 tokens
    • max: 358 tokens
    • min: 28 tokens
    • mean: 125.86 tokens
    • max: 424 tokens
  • Samples:
    query positive negative
    dire la differenza corvi e corvi Alcuni suggerimenti per identificare i corvi: 1 Code più corte e arrotondate e becchi più sottili rispetto ai corvi. 2 Ali più larghe, più corte e meno appuntite dei corvi. 3 corvi americani emettono un gracchiare dal suono chiaro che è più acuto del gracchiare più profondo di un corvo. Cosa mangia i serpenti a sonagli? Risposta rapida. I serpenti a sonagli sono preda di uccelli rapaci, come gufi, aquile, falchi, corvi, corvi e roadrunner, oltre a volpi, coyote, gatti selvatici, tassi, maiali selvatici, ghiandaie, martin pescatori, tacchini, averle e altri serpenti. I serpenti a sonagli appena nati sono particolarmente suscettibili di essere cacciati.
    dove si trova sturgis? Sturgis Township si trova nella contea di St. Joseph, nel Michigan. Sturgis Township ha una popolazione di 2.261 secondo il censimento del 2010. La borgata ha una superficie totale di 18,0 miglia quadrate (46,6 km²), di cui 17,9 miglia quadrate (46,5 km²) di terra e 0,1 miglia quadrate (0,2 km²) (0,39%). ) è acqua. I tarsali si trovano nella parte superiore dei piedi. Pensa a una gamba dritta come a una L, i tarsali si trovano dove la L si piega per formare un piede.
    qual è la differenza tra citazione e riferimento? Poiché citazione e riferimento sono due termini importanti utilizzati nella metodologia di ricerca, la differenza tra questi due termini deve essere compresa chiaramente. La citazione è un riferimento a una fonte pubblicata o inedita. È generalmente un'espressione alfanumerica abbreviata che si trova nelle pagine di una tesi o di una tesi. Una citazione è il modo in cui citi la fonte delle idee all'interno del corpo del documento di ricerca. Il riferimento è le fonti che hai usato per scrivere le fonti. Queste fonti possono includere fonti incluse e consultate. 1 Fare clic all'interno della citazione nel testo per selezionarla. Dovrebbe diventare grigio (a indicare che sono presenti i caratteri di formattazione di EndNote) 2 Fare clic su Modifica e gestisci citazioni. 3 Per la citazione appropriata, fare clic sul pulsante Modifica riferimento e scegliere Rimuovi citazione. Fare clic su OK.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss mmarco_dev_cosine_accuracy mmarco_test_cosine_accuracy
-1 -1 - - 0.5435 -
0.016 100 16.5916 15.8470 0.6420 -
0.032 200 13.0209 8.9407 0.7185 -
0.048 300 6.727 5.0859 0.8205 -
0.064 400 4.6045 4.1197 0.8555 -
0.08 500 3.8849 3.4283 0.8690 -
0.096 600 3.4197 3.0532 0.8765 -
0.112 700 3.0235 2.7099 0.8885 -
0.128 800 2.8111 2.5212 0.8835 -
0.144 900 2.8111 2.5029 0.8985 -
0.16 1000 2.2356 2.3179 0.9020 -
0.176 1100 2.3158 2.1936 0.9080 -
0.192 1200 2.1337 2.1583 0.9050 -
0.208 1300 2.1264 2.0941 0.9050 -
0.224 1400 2.0863 2.0289 0.9055 -
0.24 1500 2.068 1.9900 0.9120 -
0.256 1600 1.8163 1.8768 0.9175 -
0.272 1700 1.8163 1.8177 0.9185 -
0.288 1800 1.7721 1.7886 0.9200 -
0.304 1900 1.5577 1.7382 0.9235 -
0.32 2000 1.8269 1.7232 0.9220 -
0.336 2100 1.765 1.7112 0.9155 -
-1 -1 - - - 0.9130
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 4.1.0.dev0
  • Transformers: 4.52.0.dev0
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.5.2
  • Datasets: 3.5.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}