CrossEncoder based on BAAI/bge-reranker-v2-m3

This is a Cross Encoder model finetuned from BAAI/bge-reranker-v2-m3 using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text pair classification.

Model Details

Model Description

  • Model Type: Cross Encoder
  • Base model: BAAI/bge-reranker-v2-m3
  • Maximum Sequence Length: 8192 tokens
  • Number of Output Labels: 3 labels

Model Sources

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import CrossEncoder

# Download from the 🤗 Hub
model = CrossEncoder("cross_encoder_model_id")
# Get scores for pairs of texts
pairs = [
    ['[PROMPT]\nTại sao Bach lại thích đàn clavichord hơn so với dương cầm, mặc dù dương cầm đã được phát minh từ thế kỷ 15 và rất phổ biến vào thời của ông?\n[CONTEXT]\nNăm 1709, người thợ chế tạo harpsichord người Ý Bartolomeo Cristofori chế tạo chiếc dương cầm đầu tiên trên thế giới gọi là piano et forte (nhẹ và mạnh). Không lâu sau, những người thợ khác tạo ra những chiếc pianoforte với búa. Tiếp đó, pianoforte thay thế harpsichord và clavichord bởi nó có những ưu điểm mà các nhạc cụ phím khác không có. Fortepiano là một nhạc cụ dây-búa có khả năng tạo ra những sự thay đổi âm thanh nhỏ thông qua sự bấm phím mạnh hay nhẹ của người chơi. Đến khoảng năm 1850, từ "fortepiano" được thay thế bởi từ "piano". Vào những năm đầu thế kỉ 18, dương cầm không mấy thu hút được sự chú ý và ủng hộ. J.S. Bach có lẽ thích clavichord, nhạc cụ mà ông đã quen chơi và cũng là nhạc cụ chơi dễ hơn.', '[RESPONSE]\nBach thích clavichord hơn vì âm thanh mềm mại và sự kiểm soát biểu cảm cao hơn, điều này phù hợp với phong cách âm nhạc của ông. Ngoài ra, clavichord cũng ít gây phiền nhiễu trong không gian nhà nhỏ hơn so với piano.'],
    ['[PROMPT]\nSau thất bại thương mại của Off the Wall (1979), phong cách âm nhạc của Michael Jackson có chuyển biến gì nổi bật?\n[CONTEXT]\nOff the Wall (1979), một thành quả hợp tác giữa Jackson và Jones, đã giúp định hình một Jackson từ xu hướng âm nhạc bubblegum pop thuở nhỏ sang âm nhạc chững chạc, trưởng thành, phù hợp với thị hiếu của nhiều thành phần lứa tuổi hơn. Ngoài Jackson, các nhạc sĩ khác xuất hiện trong album bao gồm Rod Temperton, Stevie Wonder và Paul McCartney. Album đạt thành công trên toàn thế giới và lập kỷ lục trở thành album đầu tiên ra mắt 4 đĩa đơn nằm trong top 10 tại Hoa Kỳ, trong đó có đĩa đơn quán quân "Don\'t Stop \'Til You Get Enough" và "Rock With You". Album này vươn tới vị trí thứ 3 trên bảng xếp hạng album Billboard 200 và hiện đã tiêu thụ hơn 20 triệu bản trên thế giới.', '[RESPONSE]\nMichael Jackson đã chuyển từ bubblegum pop sang âm nhạc funk và disco, phối hợp với Quincy Jones để tạo ra một âm thanh độc đáo. Sau thành công của "Off the Wall", Jackson đã trở thành nghệ sĩ solo có sức ảnh hưởng lớn trong làng nhạc quốc tế.'],
    ['[PROMPT]\nSố lượng quân lính Nam Triều Tiên bị chết đói trong lúc di chuyển có thể lên đến con số bao nhiêu?\n[CONTEXT]\nMột điều rất đặc biệt là binh sĩ Nam Triều Tiên lại trở thành nạn nhân bị ngược đãi của chính quân đội này. Trong tháng 12 năm 1950, Ủy ban Quốc phòng của Nam Triều Tiên được thành lập, quản lý 406.000 binh lính Nam Triều Tiên. Vào mùa đông năm 1951, 50.000 tới 90.000 binh lính Nam Triều Tiên đã bị bỏ đói đến chết trong khi hành quân về phía nam dưới sự tấn công của Trung Quốc, bởi các sĩ quan chỉ huy của Nam Triều Tiên đã tham ô ngân quỹ dành cho thực phẩm của binh sĩ. Sự kiện này được gọi là Khủng hoảng tại Ủy ban Quốc phòng.[cần dẫn nguồn]', '[RESPONSE]\nSố lượng quân lính Nam Triều Tiên bị chết đói trong lúc di chuyển có thể lên đến con số 90.000.'],
    ['[PROMPT]\nTên của đế quốc này có ý nghĩa đặc biệt là nó được đặt theo tên của một vị hoàng đế nổi tiếng người La Mã, Julius Caesar, đúng không?\n[CONTEXT]\nĐế quốc La Mã Thần Thánh (tiếng Latinh: Sacrum Romanum Imperium; tiếng Đức: Heiliges Römisches Reich; tiếng Ý: Sacro Romano Impero; tiếng Anh: Holy Roman Empire)[b] còn được gọi là Thánh chế La Mã, là một phức hợp lãnh thổ rộng lớn đa sắc tộc, mà chủ yếu là người Đức, tồn tại từ cuối thời sơ kỳ Trung cổ cho đến năm 1806. Tên của đế quốc bắt nguồn từ yêu sách của các Hoàng đế La Mã Đức vào thời Trung cổ, muốn tiếp tục truyền thống của đế chế La Mã cổ và hợp pháp hóa quyền cai trị như là thánh ý của Thiên Chúa. Lãnh thổ chủ yếu của Đế quốc gồm Vương quốc Đức, Vương quốc Bohemia, Vương quốc Burgundy, Vương quốc Ý và nhiều lãnh thổ, công quốc, thành phố đế quốc tự do lớn nhỏ khác.', '[RESPONSE]\nTên của Đế quốc La Mã Thần Thánh thực chất bắt nguồn từ một truyền thuyết về Julius Caesar, người được cho là đã thành lập đế chế này để bảo vệ nền văn minh La Mã khỏi sự sụp đổ hoàn toàn.'],
    ['[PROMPT]\nChiến tranh Ba mươi năm, diễn ra từ 1618 đến 1648, chủ yếu là một cuộc chiến tranh giữa các quốc gia châu Âu nhằm giành quyền kiểm soát thương mại toàn cầu, phải không?\n[CONTEXT]\nMột loạt trận chiến trong giai đoạn 1618-1648, mà các sử gia gọi là Chiến tranh Ba mươi Năm, diễn ra trên những lãnh thổ của người Đức. Khởi đầu, cuộc chiến chủ yếu dựa trên xung đột tôn giáo giữa các phe nhóm Công giáo và Tin Lành trong Phong trào Cải cách. Dần dà, cuộc chiến lan rộng giữa một bên là những hoàng thân người Đức và bên kia chủ yếu là Thụy Điển và Pháp muốn hạn chế quyền lực của Đế quốc La Mã thần Thánh. Chiến tranh Ba mươi năm là một trong những cuộc chiến gây tàn phá nặng nề nhất trong lịch sử châu Âu. Đây cũng là cuộc chiến tôn giáo cuối cùng ở châu Âu khiến cho Đế quốc bị tàn phá nặng nề, nhiều thành thị và vùng nông thôn bị san bằng, dân số suy giảm. Ước lượng có một phần ba người Đức bỏ mạng trong cuộc chiến tàn bạo này.', '[RESPONSE]\nChiến tranh Ba mươi năm diễn ra từ 1618 đến 1648 chủ yếu là một cuộc xung đột tôn giáo giữa các phe Công giáo và Tin Lành, không phải là cuộc chiến tranh thương mại toàn cầu.'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5, 3)

Training Details

Training Dataset

Unnamed Dataset

  • Size: 5,758 training samples
  • Columns: sentence_0, sentence_1, and label
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 label
    type string string int
    details
    • min: 554 characters
    • mean: 982.23 characters
    • max: 3726 characters
    • min: 47 characters
    • mean: 192.01 characters
    • max: 304 characters
    • 0: ~31.70%
    • 1: ~36.50%
    • 2: ~31.80%
  • Samples:
    sentence_0 sentence_1 label
    [PROMPT]
    Tại sao Bach lại thích đàn clavichord hơn so với dương cầm, mặc dù dương cầm đã được phát minh từ thế kỷ 15 và rất phổ biến vào thời của ông?
    [CONTEXT]
    Năm 1709, người thợ chế tạo harpsichord người Ý Bartolomeo Cristofori chế tạo chiếc dương cầm đầu tiên trên thế giới gọi là piano et forte (nhẹ và mạnh). Không lâu sau, những người thợ khác tạo ra những chiếc pianoforte với búa. Tiếp đó, pianoforte thay thế harpsichord và clavichord bởi nó có những ưu điểm mà các nhạc cụ phím khác không có. Fortepiano là một nhạc cụ dây-búa có khả năng tạo ra những sự thay đổi âm thanh nhỏ thông qua sự bấm phím mạnh hay nhẹ của người chơi. Đến khoảng năm 1850, từ "fortepiano" được thay thế bởi từ "piano". Vào những năm đầu thế kỉ 18, dương cầm không mấy thu hút được sự chú ý và ủng hộ. J.S. Bach có lẽ thích clavichord, nhạc cụ mà ông đã quen chơi và cũng là nhạc cụ chơi dễ hơn.
    [RESPONSE]
    Bach thích clavichord hơn vì âm thanh mềm mại và sự kiểm soát biểu cảm cao hơn, điều này phù hợp với phong cách âm nhạc của ông. Ngoài ra, clavichord cũng ít gây phiền nhiễu trong không gian nhà nhỏ hơn so với piano.
    1
    [PROMPT]
    Sau thất bại thương mại của Off the Wall (1979), phong cách âm nhạc của Michael Jackson có chuyển biến gì nổi bật?
    [CONTEXT]
    Off the Wall (1979), một thành quả hợp tác giữa Jackson và Jones, đã giúp định hình một Jackson từ xu hướng âm nhạc bubblegum pop thuở nhỏ sang âm nhạc chững chạc, trưởng thành, phù hợp với thị hiếu của nhiều thành phần lứa tuổi hơn. Ngoài Jackson, các nhạc sĩ khác xuất hiện trong album bao gồm Rod Temperton, Stevie Wonder và Paul McCartney. Album đạt thành công trên toàn thế giới và lập kỷ lục trở thành album đầu tiên ra mắt 4 đĩa đơn nằm trong top 10 tại Hoa Kỳ, trong đó có đĩa đơn quán quân "Don't Stop 'Til You Get Enough" và "Rock With You". Album này vươn tới vị trí thứ 3 trên bảng xếp hạng album Billboard 200 và hiện đã tiêu thụ hơn 20 triệu bản trên thế giới.
    [RESPONSE]
    Michael Jackson đã chuyển từ bubblegum pop sang âm nhạc funk và disco, phối hợp với Quincy Jones để tạo ra một âm thanh độc đáo. Sau thành công của "Off the Wall", Jackson đã trở thành nghệ sĩ solo có sức ảnh hưởng lớn trong làng nhạc quốc tế.
    2
    [PROMPT]
    Số lượng quân lính Nam Triều Tiên bị chết đói trong lúc di chuyển có thể lên đến con số bao nhiêu?
    [CONTEXT]
    Một điều rất đặc biệt là binh sĩ Nam Triều Tiên lại trở thành nạn nhân bị ngược đãi của chính quân đội này. Trong tháng 12 năm 1950, Ủy ban Quốc phòng của Nam Triều Tiên được thành lập, quản lý 406.000 binh lính Nam Triều Tiên. Vào mùa đông năm 1951, 50.000 tới 90.000 binh lính Nam Triều Tiên đã bị bỏ đói đến chết trong khi hành quân về phía nam dưới sự tấn công của Trung Quốc, bởi các sĩ quan chỉ huy của Nam Triều Tiên đã tham ô ngân quỹ dành cho thực phẩm của binh sĩ. Sự kiện này được gọi là Khủng hoảng tại Ủy ban Quốc phòng.[cần dẫn nguồn]
    [RESPONSE]
    Số lượng quân lính Nam Triều Tiên bị chết đói trong lúc di chuyển có thể lên đến con số 90.000.
    0
  • Loss: CrossEntropyLoss

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • num_train_epochs: 1
  • fp16: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss
0.3472 500 1.0385
0.6944 1000 0.7521
0.3472 500 0.7444
0.6944 1000 0.7389

Framework Versions

  • Python: 3.12.11
  • Sentence Transformers: 5.1.1
  • Transformers: 4.56.2
  • PyTorch: 2.8.0+cu128
  • Accelerate: 1.10.1
  • Datasets: 4.1.1
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
Downloads last month
2
Safetensors
Model size
0.6B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for htNghiaaa/dsc25-bge-reranker-finetuned-kfold1-v1

Finetuned
(33)
this model