SentenceTransformer based on MinhViet/halong_embedding_no_negatives_1epoch
This is a sentence-transformers model finetuned from MinhViet/halong_embedding_no_negatives_1epoch. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: MinhViet/halong_embedding_no_negatives_1epoch
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("MinhViet/halong_embedding_5epoch")
# Run inference
sentences = [
'Em muốn biết về hướng nghiệp trong giáo dục?',
'Tiêu đề: Luật giáo dục 2019 \nMục: Điều 9. Hướng nghiệp và phân luồng trong giáo dục\nNội dung: Phân luồng trong giáo dục là biện pháp tổ chức hoạt động giáo dục trên cơ sở thực hiện hướng nghiệp trong giáo dục, tạo điều kiện để học sinh tốt nghiệp trung học cơ sở, trung học phổ thông tiếp tục học ở cấp học, trình độ cao hơn hoặc theo học giáo dục nghề nghiệp hoặc tham gia lao động phù hợp với năng lực, điều kiện cụ thể của cá nhân và nhu cầu xã hội, góp phần điều tiết cơ cấu ngành nghề của lực lượng lao động phù hợp với yêu cầu phát triển của đất nước.',
'Tiêu đề: Sổ tay sinh viên 2022\nMục: HỖ TRỢ HƯỚNG NGHIỆP & VIỆC LÀM CHO SINH VIÊN\nNội dung: Hàng năm, Nhà trường phối hợp với các đơn vị, doanh nghiệp... tổ chức ngày hội hướng nghiệp, mời các diễn giả là các cựu sinh viên, đại diện doanh nghiệp, các chuyên gia chia sẻ kinh nghiệm, truyền cảm hứng cho sinh viên. Nhà trường cũng thường xuyên tổ chức các chương trình đào tạo kỹ năng mềm, kỹ năng nghề nghiệp cho sinh viên như: Kỹ năng làm việc nhóm, kỹ năng lập kế hoạch và triển khai dự án, hướng dẫn viết đơn xin việc, sơ yếu lí lịch, kỹ năng trả lời phỏng vấn trực tiếp,…',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Information Retrieval
- Dataset:
evaluation
- Evaluated with
InformationRetrievalEvaluator
Metric | Value |
---|---|
cosine_accuracy@1 | 0.3706 |
cosine_accuracy@3 | 0.6012 |
cosine_accuracy@5 | 0.7062 |
cosine_accuracy@10 | 0.827 |
cosine_precision@1 | 0.3706 |
cosine_precision@3 | 0.2453 |
cosine_precision@5 | 0.1871 |
cosine_precision@10 | 0.1179 |
cosine_recall@1 | 0.2682 |
cosine_recall@3 | 0.4954 |
cosine_recall@5 | 0.6028 |
cosine_recall@10 | 0.7419 |
cosine_ndcg@10 | 0.5432 |
cosine_mrr@10 | 0.513 |
cosine_map@100 | 0.4702 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 17,809 training samples
- Columns:
question
,context
,negative_4
, andnegative_5
- Approximate statistics based on the first 1000 samples:
question context negative_4 negative_5 type string string string string details - min: 7 tokens
- mean: 18.71 tokens
- max: 41 tokens
- min: 39 tokens
- mean: 122.05 tokens
- max: 322 tokens
- min: 39 tokens
- mean: 140.27 tokens
- max: 512 tokens
- min: 39 tokens
- mean: 141.0 tokens
- max: 512 tokens
- Samples:
question context negative_4 negative_5 Mục tiêu giáo dục đại học là gì?
Tiêu đề: Luật giáo dục 2019
Mục: Điều 2. Mục tiêu giáo dục
Nội dung: Mục tiêu giáo dục nhằm phát triển toàn diện con người Việt Nam có đạo đức, tri thức, văn hóa, sức khỏe, thẩm mỹ và nghề nghiệp; có phẩm chất, năng lực và ý thức công dân; có lòng yêu nước, tinh thần dân tộc, trung thành với lý tưởng độc lập dân tộc và chủ nghĩa xã hội; phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân; nâng cao dân trí, phát triển nguồn nhân lực, bồi dưỡng nhân tài, đáp ứng yêu cầu của sự nghiệp xây dựng, bảo vệ Tổ quốc và hội nhập quốc tế.Tiêu đề: Luật giáo dục đại học 2012
Mục: Điều 5. Mục tiêu của giáo dục đại học
Nội dung: 2. Mục tiêu cụ thể đào tạo trình độ cao đẳng, đại học, thạc sĩ, tiến sĩ:
a) Đào tạo trình độ cao đẳng để sinh viên có kiến thức chuyên môn cơ bản, kỹ năng thực hành thành thạo, hiểu biết được tác động của các nguyên lý, quy luật tự nhiên - xã hội trong thực tiễn và có khả năng giải quyết những vấn đề thông thường thuộc ngành được đào tạo;
b) Đào tạo trình độ đại học để sinh viên có kiến thức chuyên môn toàn diện, nắm vững nguyên lý, quy luật tự nhiên - xã hội, có kỹ năng thực hành cơ bản, có khả năng làm việc độc lập, sáng tạo và giải quyết những vấn đề thuộc ngành được đào tạo;
c) Đào tạo trình độ thạc sĩ để học viên có kiến thức khoa học nền tảng, có kỹ năng chuyên sâu cho nghiên cứu về một lĩnh vực khoa học hoặc hoạt động nghề nghiệp hiệu quả, có khả năng làm việc độc lập, sáng tạo và có năng lực phát hiện, giải quyết những vấn đề thuộc chuyên ngành được đào tạo;
d) Đào tạo trình độ tiến sĩ để n...Tiêu đề: Luật sửa đổi, bổ sung một số điều luật giáo dục đại học 2018
Mục: Điều 7. Cơ sở giáo dục đại học
Nội dung: 1. Cơ sở giáo dục đại học có tư cách pháp nhân, bao gồm đại học, trường đại học và cơ sở giáo dục đại học có tên gọi khác phù hợp với quy định của pháp luật
Đại học quốc gia, đại học vùng là đại học thực hiện nhiệm vụ chiến lược quốc gia, nhiệm vụ phát triển vùng của đất nước.Em muốn biết về phát triển toàn diện con người Việt Nam trong giáo dục như thế nào?
Tiêu đề: Luật giáo dục 2019
Mục: Điều 2. Mục tiêu giáo dục
Nội dung: Mục tiêu giáo dục nhằm phát triển toàn diện con người Việt Nam có đạo đức, tri thức, văn hóa, sức khỏe, thẩm mỹ và nghề nghiệp; có phẩm chất, năng lực và ý thức công dân; có lòng yêu nước, tinh thần dân tộc, trung thành với lý tưởng độc lập dân tộc và chủ nghĩa xã hội; phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân; nâng cao dân trí, phát triển nguồn nhân lực, bồi dưỡng nhân tài, đáp ứng yêu cầu của sự nghiệp xây dựng, bảo vệ Tổ quốc và hội nhập quốc tế.Tiêu đề: Luật giáo dục 2019
Mục: Điều 17. Đầu tư cho giáo dục
Nội dung: Đầu tư cho giáo dục
1. Đầu tư cho giáo dục là đầu tư phát triển. Đầu tư trong lĩnh vực giáo dục là hoạt động đầu tư thuộc ngành, nghề đầu tư kinh doanh có điều kiện và được ưu đãi, hỗ trợ đầu tư theo quy định của pháp luật.
2. Nhà nước ưu tiên đầu tư và thu hút các nguồn đầu tư khác cho giáo dục; ưu tiên đầu tư cho phổ cập giáo dục, phát triển giáo dục ở miền núi, hải đảo, vùng đồng bào dân tộc thiểu số, vùng có điều kiện kinh tế - xã hội đặc biệt khó khăn, địa bàn có khu công nghiệp.
Nhà nước khuyến khích và bảo hộ các quyền, lợi ích hợp pháp của tổ chức, cá nhân trong nước, người Việt Nam định cư ở nước ngoài, tổ chức, cá nhân nước ngoài đầu tư cho giáo dục.
3. Ngân sách nhà nước giữ vai trò chủ đạo trong tổng nguồn lực đầu tư cho giáo dục.Tiêu đề: Luật giáo dục 2019
Mục: Điều 13. Quyền và nghĩa vụ học tập của công dân
Nội dung: Quyền và nghĩa vụ học tập của công dân
1. Học tập là quyền và nghĩa vụ của công dân. Mọi công dân không phân biệt dân tộc, tôn giáo, tín ngưỡng, giới tính, đặc điểm cá nhân, nguồn gốc gia đình, địa vị xã hội, hoàn cảnh kinh tế đều bình đẳng về cơ hội học tập.
2. Nhà nước thực hiện công bằng xã hội trong giáo dục, tạo môi trường giáo dục an toàn, bảo đảm giáo dục hòa nhập, tạo điều kiện để người học phát huy tiềm năng, năng khiếu của mình.
3. Nhà nước ưu tiên, tạo điều kiện cho người học là trẻ em có hoàn cảnh đặc biệt theo quy định của Luật Trẻ em, người học là người khuyết tật theo quy định của Luật Người khuyết tật, người học thuộc hộ nghèo và hộ cận nghèo thực hiện quyền và nghĩa vụ học tập.Phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân trong giáo dục được hiểu như thế nào?
Tiêu đề: Luật giáo dục 2019
Mục: Điều 2. Mục tiêu giáo dục
Nội dung: Mục tiêu giáo dục nhằm phát triển toàn diện con người Việt Nam có đạo đức, tri thức, văn hóa, sức khỏe, thẩm mỹ và nghề nghiệp; có phẩm chất, năng lực và ý thức công dân; có lòng yêu nước, tinh thần dân tộc, trung thành với lý tưởng độc lập dân tộc và chủ nghĩa xã hội; phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân; nâng cao dân trí, phát triển nguồn nhân lực, bồi dưỡng nhân tài, đáp ứng yêu cầu của sự nghiệp xây dựng, bảo vệ Tổ quốc và hội nhập quốc tế.Tiêu đề: Sổ tay sinh viên 2022
Mục: NGHIÊN CỨU, SÁNG TẠO & KHỞI NGHIỆP
Nội dung: CÁC CUỘC THI SÁNG TẠO VÀ KHỞI NGHIỆP THƯỜNG NIÊN
Là sân chơi bổ ích nhằm khuyến khích tính sáng tạo, tinh thần khởi nghiệp trong sinh viên.Tiêu đề: Luật giáo dục 2019
Mục: Điều 16. Xã hội hóa sự nghiệp giáo dục
Nội dung: Xã hội hóa sự nghiệp giáo dục:
1. Phát triển giáo dục, xây dựng xã hội học tập là sự nghiệp của Nhà nước và của toàn dân.
2. Nhà nước giữ vai trò chủ đạo trong phát triển sự nghiệp giáo dục. Thực hiện đa dạng hóa các loại hình cơ sở giáo dục và hình thức giáo dục; khuyến khích, huy động và tạo điều kiện để tổ chức, cá nhân tham gia phát triển sự nghiệp giáo dục; khuyến khích phát triển cơ sở giáo dục dân lập, tư thục đáp ứng nhu cầu xã hội về giáo dục chất lượng cao.
3. Tổ chức, gia đình và cá nhân có trách nhiệm chăm lo sự nghiệp giáo dục, phối hợp với cơ sở giáo dục thực hiện mục tiêu giáo dục, xây dựng môi trường giáo dục an toàn, lành mạnh.
4. Tổ chức, cá nhân có thành tích trong sự nghiệp giáo dục được khen thưởng theo quy định của pháp luật. - Loss:
CachedMultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "mini_batch_size": 32 }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: epochper_device_train_batch_size
: 1024per_device_eval_batch_size
: 1024weight_decay
: 0.0001num_train_epochs
: 5batch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: epochprediction_loss_only
: Trueper_device_train_batch_size
: 1024per_device_eval_batch_size
: 1024per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0001adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 5max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size
: 0fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | evaluation_cosine_ndcg@10 |
---|---|---|---|
1.0 | 18 | 0.8218 | 0.5671 |
2.0 | 36 | 0.6646 | 0.5548 |
3.0 | 54 | 0.5934 | 0.5495 |
4.0 | 72 | 0.5673 | 0.5443 |
5.0 | 90 | 0.5282 | 0.5432 |
Framework Versions
- Python: 3.11.11
- Sentence Transformers: 4.1.0
- Transformers: 4.51.3
- PyTorch: 2.5.1+cu124
- Accelerate: 1.3.0
- Datasets: 3.5.1
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
- Downloads last month
- 1
Model tree for MinhViet/halong_embedding_5epoch
Base model
intfloat/multilingual-e5-base
Finetuned
hiieu/halong_embedding
Evaluation results
- Cosine Accuracy@1 on evaluationself-reported0.371
- Cosine Accuracy@3 on evaluationself-reported0.601
- Cosine Accuracy@5 on evaluationself-reported0.706
- Cosine Accuracy@10 on evaluationself-reported0.827
- Cosine Precision@1 on evaluationself-reported0.371
- Cosine Precision@3 on evaluationself-reported0.245
- Cosine Precision@5 on evaluationself-reported0.187
- Cosine Precision@10 on evaluationself-reported0.118
- Cosine Recall@1 on evaluationself-reported0.268
- Cosine Recall@3 on evaluationself-reported0.495