SentenceTransformer based on BAAI/bge-m3
This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: BAAI/bge-m3
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("hieptran318204/vti-embedding-gemma-v1")
# Run inference
sentences = [
'Điều 21 quy định về vấn đề gì?',
'NỘI QUY LAO ĐỘNG. PHẦN 2: QUY ĐỊNH CHI TIẾT. CHƯƠNG 2: THỜI GIỜ LÀM VIỆC - THỜI GIỜ NGHỈ NGƠI. Điều 21. Thủ tục nghỉ phép Ngoại trừ các trường hợp nghỉ đột xuất như quy định tại Khoản 18.3 Nội quy Lao động hoặc đi trễ về sớm như quy định tại Khoản 18.4 Nội quy Lao động, khi có nhu cầu nghỉ hằng năm theo quy định tại Điểu 20 và nghỉ việc riêng không hưởng lương theo quy định tại điều 17.2 (b) NLĐ phải tuân thủ các thủ tục xin nghỉ như sau: 21.1. NLĐ phải đăng ký nghỉ phép trước ngày nghỉ thực tế như Quy định về Quản lý chấm công, làm thêm giờ và chế độ nghỉ của Công ty. NLĐ nữ cần phải thông báo cho CBQL khi biết mình có thai và nêu thời gian nghỉ thai sản dự kiến để Công ty có thể bố trí nhân sự và phân công công việc để đảm bảo công việc không bị gián đoạn trong thời gian NLĐ nữ nghỉ thai sản. NLĐ nữ cần thông báo thời gian nghỉ trước ít nhất một (01) tháng tính từ thời gian dự sinh cho CBQL và Phòng Nhân sự. Nếu ngày dự sinh và ngày thực tế không trùng nhau. NLĐ nữ thông báo cho Phòng Nhân sự về ngày thực tế trong vòng mười (10) ngày kể từ ngày thực tế sinh. 21.2. Cách đăng ký nghỉ phép: (a) NLĐ đăng ký nghỉ phép thông qua hệ thống quản trị nội bộ VMS (Trong trường hợp hệ thống quản trị nội bộ VMS bị lỗi, Công ty xem xét cho NLĐ đăng ký nghỉ phép qua email hoặc đơn xin nghỉ phép gửi cho CBQL phê duyệt). NLĐ phải đảm bảo đăng ký nghỉ phép phải được phê duyệt và chuyển thông tin tới phòng Nhân sự. (b) Phê duyệt nghỉ phép phải được thực hiện và thông báo đến Phòng Nhân sự (trong trường hợp đăng ký bằng email) ngay khi NLĐ nhận được phê duyệt và trước kỳ lương cuối tháng. 21.3. Các trường hợp nghỉ đột xuất như ốm đau, cấp cứu, tang gia..., NLĐ phải thông báo cho cấp quản lý trực tiếp biết càng sớm càng tốt bằng điện thoại hoặc email hoặc thông qua đồng nghiệp của mình. Ngay sau khi kết thúc đợt nghỉ, NLĐ phải thực hiện các thủ tục quy định tại Nội quy Lao động này. Trường hợp nghỉ do ốm đau, NLĐ có nghĩa vụ nộp kèm theo Giấy chứng nhận của bác sĩ do một bệnh viện được thành lập hợp pháp tại Việt Nam cấp. Trong trường hợp NLĐ thông báo nghỉ ốm nhưng lại không có giấy chứng nhận nghỉ ốm của bác sĩ thì sẽ coi như nghỉ không có lý do chính đáng. 21.4. NLĐ làm việc theo thời gian quy định vi bất cứ lý do gì mà đến nơi làm việc sau giờ quy định hoặc rời khỏi nơi làm việc trước giờ quy định hoặc vắng mặt một khoảng thời gian trong giờ làm việc đều phải xin phép cấp quản lý trực tiếp. Việc không xin phép sẽ xem như nghỉ việc/tự ý bỏ việc không có lý do chính đáng theo quy định tại Điều 22 Nội quy Lao động. Theo đó, NLĐ, ngoài hình thức kỷ luật lao động mà Công ty sẽ xem xét áp dụng, sẽ không được trả lương cho thời gian đi trễ, về sớm hoặc vắng mặt đó.',
'NỘI QUY LAO ĐỘNG. PHẦN 2: QUY ĐỊNH CHI TIẾT. CHƯƠNG 2: THỜI GIỜ LÀM VIỆC - THỜI GIỜ NGHỈ NGƠI. Điều 19. Nghỉ thai sản NLĐ được nghỉ hưởng chế độ thai sản trong các trường hợp sau: - Khám thai - Sẩy thai, nạo, hút thai, thai chết lưu hoặc phá thai bệnh lý - Sinh con, con chết sau khi sinh - Mang thai hộ - Nhận nuôi con nuôi - Thực hiện các biện pháp tránh thai Tất cả các trường hợp trên đêu theo Quy định của Luật Bảo hiểm xã hội hiện hành.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 900 training samples
- Columns:
anchor
andpositive
- Approximate statistics based on the first 900 samples:
anchor positive type string string details - min: 11 tokens
- mean: 20.8 tokens
- max: 43 tokens
- min: 54 tokens
- mean: 479.18 tokens
- max: 1190 tokens
- Samples:
anchor positive Mục đích chính của tài liệu Hướng dẫn quy định chấm công là gì?
I. MỤC ĐÍCH của tài liệu Hướng dẫn quy định chấm công Hướng dẫn này được xây dựng nhằm đảm bảo việc thực hiện đúng theo “Quy định thời gian làm việc, làm thêm giờ và chế độ nghỉ” Mã TL: 03/2025/QyĐ-VTI, hiệu lực ngày 01/05/2025, góp phần nâng cao hiệu quả công việc và đảm bảo quyền lợi cho tất cả nhân viên trong Công ty.
Hướng dẫn này được xây dựng dựa trên quy định nào của công ty?
I. MỤC ĐÍCH của tài liệu Hướng dẫn quy định chấm công Hướng dẫn này được xây dựng nhằm đảm bảo việc thực hiện đúng theo “Quy định thời gian làm việc, làm thêm giờ và chế độ nghỉ” Mã TL: 03/2025/QyĐ-VTI, hiệu lực ngày 01/05/2025, góp phần nâng cao hiệu quả công việc và đảm bảo quyền lợi cho tất cả nhân viên trong Công ty.
Tài liệu Hướng dẫn quy định chấm công có mã số bao nhiêu?
I. MỤC ĐÍCH của tài liệu Hướng dẫn quy định chấm công Hướng dẫn này được xây dựng nhằm đảm bảo việc thực hiện đúng theo “Quy định thời gian làm việc, làm thêm giờ và chế độ nghỉ” Mã TL: 03/2025/QyĐ-VTI, hiệu lực ngày 01/05/2025, góp phần nâng cao hiệu quả công việc và đảm bảo quyền lợi cho tất cả nhân viên trong Công ty.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size
: 2learning_rate
: 1e-05num_train_epochs
: 5warmup_ratio
: 0.1fp16
: True
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 2per_device_eval_batch_size
: 8per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 1e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 5max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss |
---|---|---|
0.2222 | 50 | 0.3243 |
0.4444 | 100 | 0.2173 |
0.6667 | 150 | 0.1512 |
0.8889 | 200 | 0.1577 |
1.1111 | 250 | 0.1922 |
1.3333 | 300 | 0.1553 |
1.5556 | 350 | 0.0871 |
1.7778 | 400 | 0.1744 |
2.0 | 450 | 0.0735 |
2.2222 | 500 | 0.1036 |
2.4444 | 550 | 0.1207 |
2.6667 | 600 | 0.1486 |
2.8889 | 650 | 0.1309 |
3.1111 | 700 | 0.1585 |
3.3333 | 750 | 0.1154 |
3.5556 | 800 | 0.0356 |
3.7778 | 850 | 0.1242 |
4.0 | 900 | 0.0692 |
4.2222 | 950 | 0.0791 |
4.4444 | 1000 | 0.1345 |
4.6667 | 1050 | 0.1107 |
4.8889 | 1100 | 0.0569 |
Framework Versions
- Python: 3.11.13
- Sentence Transformers: 4.1.0
- Transformers: 4.52.4
- PyTorch: 2.6.0+cu124
- Accelerate: 1.8.1
- Datasets: 3.6.0
- Tokenizers: 0.21.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 16
Model tree for hieptran318204/vti-embedding-bge-v1
Base model
BAAI/bge-m3