SentenceTransformer based on MinhViet/halong_embedding_no_negatives_1epoch

This is a sentence-transformers model finetuned from MinhViet/halong_embedding_no_negatives_1epoch. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("MinhViet/halong_embedding_5epoch")
# Run inference
sentences = [
    'Em muốn biết về hướng nghiệp trong giáo dục?',
    'Tiêu đề: Luật giáo dục 2019 \nMục: Điều 9. Hướng nghiệp và phân luồng trong giáo dục\nNội dung: Phân luồng trong giáo dục là biện pháp tổ chức hoạt động giáo dục trên cơ sở thực hiện hướng nghiệp trong giáo dục, tạo điều kiện để học sinh tốt nghiệp trung học cơ sở, trung học phổ thông tiếp tục học ở cấp học, trình độ cao hơn hoặc theo học giáo dục nghề nghiệp hoặc tham gia lao động phù hợp với năng lực, điều kiện cụ thể của cá nhân và nhu cầu xã hội, góp phần điều tiết cơ cấu ngành nghề của lực lượng lao động phù hợp với yêu cầu phát triển của đất nước.',
    'Tiêu đề: Sổ tay sinh viên 2022\nMục: HỖ TRỢ HƯỚNG NGHIỆP & VIỆC LÀM CHO SINH VIÊN\nNội dung: Hàng năm, Nhà trường phối hợp với các đơn vị, doanh nghiệp... tổ chức ngày hội hướng nghiệp, mời các diễn giả là các cựu sinh viên, đại diện doanh nghiệp, các chuyên gia chia sẻ kinh nghiệm, truyền cảm hứng cho sinh viên. Nhà trường cũng thường xuyên tổ chức các chương trình đào tạo kỹ năng mềm, kỹ năng nghề nghiệp cho sinh viên như: Kỹ năng làm việc nhóm, kỹ năng lập kế hoạch và triển khai dự án, hướng dẫn viết đơn xin việc, sơ yếu lí lịch, kỹ năng trả lời phỏng vấn trực tiếp,…',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.3706
cosine_accuracy@3 0.6012
cosine_accuracy@5 0.7062
cosine_accuracy@10 0.827
cosine_precision@1 0.3706
cosine_precision@3 0.2453
cosine_precision@5 0.1871
cosine_precision@10 0.1179
cosine_recall@1 0.2682
cosine_recall@3 0.4954
cosine_recall@5 0.6028
cosine_recall@10 0.7419
cosine_ndcg@10 0.5432
cosine_mrr@10 0.513
cosine_map@100 0.4702

Training Details

Training Dataset

Unnamed Dataset

  • Size: 17,809 training samples
  • Columns: question, context, negative_4, and negative_5
  • Approximate statistics based on the first 1000 samples:
    question context negative_4 negative_5
    type string string string string
    details
    • min: 7 tokens
    • mean: 18.71 tokens
    • max: 41 tokens
    • min: 39 tokens
    • mean: 122.05 tokens
    • max: 322 tokens
    • min: 39 tokens
    • mean: 140.27 tokens
    • max: 512 tokens
    • min: 39 tokens
    • mean: 141.0 tokens
    • max: 512 tokens
  • Samples:
    question context negative_4 negative_5
    Mục tiêu giáo dục đại học là gì? Tiêu đề: Luật giáo dục 2019
    Mục: Điều 2. Mục tiêu giáo dục
    Nội dung: Mục tiêu giáo dục nhằm phát triển toàn diện con người Việt Nam có đạo đức, tri thức, văn hóa, sức khỏe, thẩm mỹ và nghề nghiệp; có phẩm chất, năng lực và ý thức công dân; có lòng yêu nước, tinh thần dân tộc, trung thành với lý tưởng độc lập dân tộc và chủ nghĩa xã hội; phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân; nâng cao dân trí, phát triển nguồn nhân lực, bồi dưỡng nhân tài, đáp ứng yêu cầu của sự nghiệp xây dựng, bảo vệ Tổ quốc và hội nhập quốc tế.
    Tiêu đề: Luật giáo dục đại học 2012
    Mục: Điều 5. Mục tiêu của giáo dục đại học
    Nội dung: 2. Mục tiêu cụ thể đào tạo trình độ cao đẳng, đại học, thạc sĩ, tiến sĩ:
    a) Đào tạo trình độ cao đẳng để sinh viên có kiến thức chuyên môn cơ bản, kỹ năng thực hành thành thạo, hiểu biết được tác động của các nguyên lý, quy luật tự nhiên - xã hội trong thực tiễn và có khả năng giải quyết những vấn đề thông thường thuộc ngành được đào tạo;
    b) Đào tạo trình độ đại học để sinh viên có kiến thức chuyên môn toàn diện, nắm vững nguyên lý, quy luật tự nhiên - xã hội, có kỹ năng thực hành cơ bản, có khả năng làm việc độc lập, sáng tạo và giải quyết những vấn đề thuộc ngành được đào tạo;
    c) Đào tạo trình độ thạc sĩ để học viên có kiến thức khoa học nền tảng, có kỹ năng chuyên sâu cho nghiên cứu về một lĩnh vực khoa học hoặc hoạt động nghề nghiệp hiệu quả, có khả năng làm việc độc lập, sáng tạo và có năng lực phát hiện, giải quyết những vấn đề thuộc chuyên ngành được đào tạo;
    d) Đào tạo trình độ tiến sĩ để n...
    Tiêu đề: Luật sửa đổi, bổ sung một số điều luật giáo dục đại học 2018
    Mục: Điều 7. Cơ sở giáo dục đại học
    Nội dung: 1. Cơ sở giáo dục đại học có tư cách pháp nhân, bao gồm đại học, trường đại học và cơ sở giáo dục đại học có tên gọi khác phù hợp với quy định của pháp luật
    Đại học quốc gia, đại học vùng là đại học thực hiện nhiệm vụ chiến lược quốc gia, nhiệm vụ phát triển vùng của đất nước.
    Em muốn biết về phát triển toàn diện con người Việt Nam trong giáo dục như thế nào? Tiêu đề: Luật giáo dục 2019
    Mục: Điều 2. Mục tiêu giáo dục
    Nội dung: Mục tiêu giáo dục nhằm phát triển toàn diện con người Việt Nam có đạo đức, tri thức, văn hóa, sức khỏe, thẩm mỹ và nghề nghiệp; có phẩm chất, năng lực và ý thức công dân; có lòng yêu nước, tinh thần dân tộc, trung thành với lý tưởng độc lập dân tộc và chủ nghĩa xã hội; phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân; nâng cao dân trí, phát triển nguồn nhân lực, bồi dưỡng nhân tài, đáp ứng yêu cầu của sự nghiệp xây dựng, bảo vệ Tổ quốc và hội nhập quốc tế.
    Tiêu đề: Luật giáo dục 2019
    Mục: Điều 17. Đầu tư cho giáo dục
    Nội dung: Đầu tư cho giáo dục
    1. Đầu tư cho giáo dục là đầu tư phát triển. Đầu tư trong lĩnh vực giáo dục là hoạt động đầu tư thuộc ngành, nghề đầu tư kinh doanh có điều kiện và được ưu đãi, hỗ trợ đầu tư theo quy định của pháp luật.
    2. Nhà nước ưu tiên đầu tư và thu hút các nguồn đầu tư khác cho giáo dục; ưu tiên đầu tư cho phổ cập giáo dục, phát triển giáo dục ở miền núi, hải đảo, vùng đồng bào dân tộc thiểu số, vùng có điều kiện kinh tế - xã hội đặc biệt khó khăn, địa bàn có khu công nghiệp.
    Nhà nước khuyến khích và bảo hộ các quyền, lợi ích hợp pháp của tổ chức, cá nhân trong nước, người Việt Nam định cư ở nước ngoài, tổ chức, cá nhân nước ngoài đầu tư cho giáo dục.
    3. Ngân sách nhà nước giữ vai trò chủ đạo trong tổng nguồn lực đầu tư cho giáo dục.
    Tiêu đề: Luật giáo dục 2019
    Mục: Điều 13. Quyền và nghĩa vụ học tập của công dân
    Nội dung: Quyền và nghĩa vụ học tập của công dân
    1. Học tập là quyền và nghĩa vụ của công dân. Mọi công dân không phân biệt dân tộc, tôn giáo, tín ngưỡng, giới tính, đặc điểm cá nhân, nguồn gốc gia đình, địa vị xã hội, hoàn cảnh kinh tế đều bình đẳng về cơ hội học tập.
    2. Nhà nước thực hiện công bằng xã hội trong giáo dục, tạo môi trường giáo dục an toàn, bảo đảm giáo dục hòa nhập, tạo điều kiện để người học phát huy tiềm năng, năng khiếu của mình.
    3. Nhà nước ưu tiên, tạo điều kiện cho người học là trẻ em có hoàn cảnh đặc biệt theo quy định của Luật Trẻ em, người học là người khuyết tật theo quy định của Luật Người khuyết tật, người học thuộc hộ nghèo và hộ cận nghèo thực hiện quyền và nghĩa vụ học tập.
    Phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân trong giáo dục được hiểu như thế nào? Tiêu đề: Luật giáo dục 2019
    Mục: Điều 2. Mục tiêu giáo dục
    Nội dung: Mục tiêu giáo dục nhằm phát triển toàn diện con người Việt Nam có đạo đức, tri thức, văn hóa, sức khỏe, thẩm mỹ và nghề nghiệp; có phẩm chất, năng lực và ý thức công dân; có lòng yêu nước, tinh thần dân tộc, trung thành với lý tưởng độc lập dân tộc và chủ nghĩa xã hội; phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân; nâng cao dân trí, phát triển nguồn nhân lực, bồi dưỡng nhân tài, đáp ứng yêu cầu của sự nghiệp xây dựng, bảo vệ Tổ quốc và hội nhập quốc tế.
    Tiêu đề: Sổ tay sinh viên 2022
    Mục: NGHIÊN CỨU, SÁNG TẠO & KHỞI NGHIỆP
    Nội dung: CÁC CUỘC THI SÁNG TẠO VÀ KHỞI NGHIỆP THƯỜNG NIÊN
    Là sân chơi bổ ích nhằm khuyến khích tính sáng tạo, tinh thần khởi nghiệp trong sinh viên.
    Tiêu đề: Luật giáo dục 2019
    Mục: Điều 16. Xã hội hóa sự nghiệp giáo dục
    Nội dung: Xã hội hóa sự nghiệp giáo dục:
    1. Phát triển giáo dục, xây dựng xã hội học tập là sự nghiệp của Nhà nước và của toàn dân.
    2. Nhà nước giữ vai trò chủ đạo trong phát triển sự nghiệp giáo dục. Thực hiện đa dạng hóa các loại hình cơ sở giáo dục và hình thức giáo dục; khuyến khích, huy động và tạo điều kiện để tổ chức, cá nhân tham gia phát triển sự nghiệp giáo dục; khuyến khích phát triển cơ sở giáo dục dân lập, tư thục đáp ứng nhu cầu xã hội về giáo dục chất lượng cao.
    3. Tổ chức, gia đình và cá nhân có trách nhiệm chăm lo sự nghiệp giáo dục, phối hợp với cơ sở giáo dục thực hiện mục tiêu giáo dục, xây dựng môi trường giáo dục an toàn, lành mạnh.
    4. Tổ chức, cá nhân có thành tích trong sự nghiệp giáo dục được khen thưởng theo quy định của pháp luật.
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 32
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 1024
  • per_device_eval_batch_size: 1024
  • weight_decay: 0.0001
  • num_train_epochs: 5
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 1024
  • per_device_eval_batch_size: 1024
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0001
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss evaluation_cosine_ndcg@10
1.0 18 0.8218 0.5671
2.0 36 0.6646 0.5548
3.0 54 0.5934 0.5495
4.0 72 0.5673 0.5443
5.0 90 0.5282 0.5432

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 4.1.0
  • Transformers: 4.51.3
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.5.1
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
1
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for MinhViet/halong_embedding_5epoch

Evaluation results