SentenceTransformer based on intfloat/multilingual-e5-large-instruct
This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large-instruct. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: intfloat/multilingual-e5-large-instruct
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'Instruct: Với một truy vấn về luật Việt Nam, truy xuất các đoạn văn liên quan có chứa câu trả lời cho truy vấn đó.\nQuery: Tự ý mở liveshow ca nhạc biểu diễn tại nhà bị phạt bao nhiêu tiền?',
'1. Phạt tiền từ 5.000.000 đồng đến 10.000.000 đồng đối với một trong các hành vi sau đây:\t\ta) Kê khai không trung thực trong hồ sơ đề nghị chấp thuận tổ chức biểu diễn nghệ thuật, tổ chức cuộc thi, liên hoan các loại hình nghệ thuật biểu diễn;\t\tb) Thực hiện không đúng thông báo với cơ quan nhà nước có thẩm quyền theo quy định tổ chức biểu diễn nghệ thuật, tổ chức cuộc thi, liên hoan các loại hình nghệ thuật biểu diễn phục vụ nhiệm vụ chính trị; phục vụ nội bộ cơ quan và tổ chức; \t\tc) Thực hiện không đúng thông báo với cơ quan nhà nước có thẩm quyền theo quy định tổ chức biểu diễn nghệ thuật phục vụ tại các cơ sở kinh doanh dịch vụ du lịch, vui chơi, giải trí, nhà hàng không bán vé xem biểu diễn nghệ thuật.\n2. Phạt tiền từ 10.000.000 đồng đến 15.000.000 đồng đối với một trong các hành vi sau đây:\t\ta) Tổ chức biểu diễn nghệ thuật, tổ chức cuộc thi, liên hoan các loại hình nghệ thuật biểu diễn không đúng nội dung ghi trong văn bản chấp thuận; \t\tb) Tẩy xóa, sửa chữa hoặc bổ sung làm thay đổi nội dung trong văn bản chấp thuận tổ chức biểu diễn nghệ thuật, tổ chức cuộc thi, liên hoan các loại hình nghệ thuật;\t\tc) Không thông báo với cơ quan nhà nước có thẩm quyền theo quy định tổ chức biểu diễn nghệ thuật, tổ chức cuộc thi, liên hoan các loại hình nghệ thuật biểu diễn phục vụ nhiệm vụ chính trị; phục vụ nội bộ cơ quan và tổ chức; \t\td) Không thông báo với cơ quan nhà nước có thẩm quyền theo quy định tổ chức biểu diễn nghệ thuật phục vụ tại các cơ sở kinh doanh dịch vụ du lịch, vui chơi, giải trí, nhà hàng không bán vé xem biểu diễn nghệ thuật.\n3. Phạt tiền từ 15.000.000 đồng đến 20.000.000 đồng đối với một trong các hành vi sau đây:\t\ta) Không thu hồi danh hiệu, giải thưởng cuộc thi, liên hoan các loại hình nghệ thuật biểu diễn khi đã có văn bản yêu cầu thu hồi của cơ quan nhà nước có thẩm quyền;\t\tb) Không công bố công khai trên các phương tiện thông tin đại chúng về việc thu hồi danh hiệu, giải thưởng cuộc thi, liên hoan các loại hình nghệ thuật biểu diễn;\t\tc) Sử dụng danh hiệu, giải thưởng cuộc thi, liên hoan các loại hình nghệ thuật biểu diễn sau khi bị thu hồi hoặc có quyết định hủy kết quả cuộc thi, liên hoan các loại hình nghệ thuật biểu diễn.',
'1. Quyền của đơn vị quản lý, vận hành: \t\ta) Được thanh toán đúng và đủ các chi phí theo quy định trong hợp đồng; \t\tb) Đề nghị cơ quan nhà nước có thẩm quyền xem xét sửa đổi, bổ sung các quy chuẩn kỹ thuật, tiêu chuẩn có liên quan đến chiếu sáng công cộng đô thị; \t\tc) Được quyền tham gia ý kiến vào việc lập quy hoạch chiếu sáng đô thị trên địa bàn được giao quản lý; tham gia nghiên cứu khoa học; thực hiện các dịch vụ về tư vấn, thiết kế, xây dựng chiếu sáng đô thị; nghiên cứu ứng dụng công nghệ mới trong chiếu sáng công cộng, trong quản lý, vận hành hệ thống chiếu sáng công cộng đô thị. \n\n2. Trách nhiệm của đơn vị quản lý, vận hành: \t\ta) Đảm bảo thực hiện đúng nhiệm vụ; các quy định về quản lý, vận hành đã cam kết trong hợp đồng; \t\tb) Báo cáo định kỳ tới chính quyền đô thị và cơ quan chuyên môn về quản lý, vận hành hệ thống chiếu sáng công cộng đô thị do mình được giao; \t\tc) Tổ chức triển khai thực hiện kế hoạch đầu tư phát triển chiếu sáng công cộng đô thị đã được phê duyệt; \t\td) Quản lý tài sản được đầu tư từ nguồn vốn ngân sách nhà nước theo hợp đồng ký kết với chính quyền đô thị; \t\tđ) Bảo vệ hệ thống chiếu sáng công cộng đô thị trên địa bàn được giao quản lý.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.7233, 0.1076],
# [0.7233, 1.0000, 0.1383],
# [0.1076, 0.1383, 1.0000]])
Training Details
Training Dataset
Unnamed Dataset
- Size: 2,864 training samples
- Columns:
sentence_0
,sentence_1
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 label type string string float details - min: 41 tokens
- mean: 55.63 tokens
- max: 87 tokens
- min: 21 tokens
- mean: 301.62 tokens
- max: 512 tokens
- min: 1.0
- mean: 1.0
- max: 1.0
- Samples:
sentence_0 sentence_1 label Instruct: Với một truy vấn về luật Việt Nam, truy xuất các đoạn văn liên quan có chứa câu trả lời cho truy vấn đó.
Query: Quy định về bồi thường thiệt hại do hành vi dẫn nước mưa qua nhà hàng xóm gây ra ra sao?1. Phạt tiền từ 2.000.000 đồng đến 3.000.000 đồng đối với một trong những hành vi sau đây: a) Trộm cắp tài sản, xâm nhập vào khu vực nhà ở, kho bãi hoặc địa điểm khác thuộc quản lý của người khác nhằm mục đích trộm cắp, chiếm đoạt tài sản; b) Công nhiên chiếm đoạt tài sản; c) Dùng thủ đoạn gian dối hoặc bỏ trốn để chiếm đoạt tài sản hoặc đến thời điểm trả lại tài sản do vay, mượn, thuê tài sản của người khác hoặc nhận được tài sản của người khác bằng hình thức hợp đồng, mặc dù có điều kiện, khả năng nhưng cố tình không trả; d) Không trả lại tài sản cho người khác do vay, mượn, thuê tài sản của người khác hoặc nhận được tài sản của người khác bằng hình thức hợp đồng nhưng sử dụng tài sản đó vào mục đích bất hợp pháp dẫn đến không có khả năng trả lại tài sản; đ) Thiếu trách nhiệm gây thiệt hại đến tài sản của Nhà nước, cơ quan, tổ chức, doanh nghiệp.
2. Phạt tiền từ 3.000.000 đồng đến 5.000.000 đồng đối với một trong những hành vi sau đây: a) Hủy hoại hoặc cố ý làm hư hỏng tài sản...1.0
Instruct: Với một truy vấn về luật Việt Nam, truy xuất các đoạn văn liên quan có chứa câu trả lời cho truy vấn đó.
Query: Tôi muốn tìm hiểu một công chứng viên hướng dẫn tối đa bao nhiêu người tập sự hành nghề công chứng, công chứng viên hướng dẫn nhiều người tập sự có bị xử phạt không?1. Phạt tiền từ 1.000.000 đồng đến 3.000.000 đồng đối với một trong các hành vi sau: a) Không đánh số thứ tự từng trang đối với văn bản công chứng có từ 02 trang trở lên; b) Công chứng hợp đồng, giao dịch trong trường hợp phiếu yêu cầu công chứng không đầy đủ nội dung theo quy định; c) Không mang theo thẻ công chứng viên khi hành nghề; d) Tham gia không đầy đủ nghĩa vụ bồi dưỡng nghiệp vụ công chứng hằng năm theo quy định.
2. Phạt tiền từ 3.000.000 đồng đến 7.000.000 đồng đối với một trong các hành vi sau: a) Công chứng ngoài trụ sở của tổ chức hành nghề công chứng không đúng quy định; b) Công chứng không đúng thời hạn quy định; c) Sửa lỗi kỹ thuật văn bản công chứng không đúng quy định; d) Sách nhiễu, gây khó khăn cho người yêu cầu công chứng; đ) Từ chối yêu cầu công chứng mà không có lý do chính đáng; e) Không dùng tiếng nói hoặc chữ viết là tiếng Việt; g) Không tham gia tổ chức xã hội - nghề nghiệp của công chứng viên; h) Hướng dẫn nhiều hơn 02 người tập sự tại cùng một ...1.0
Instruct: Với một truy vấn về luật Việt Nam, truy xuất các đoạn văn liên quan có chứa câu trả lời cho truy vấn đó.
Query: Trách nhiệm của người nhận bảo lãnh Chính phủ ra sao?1. Người cho vay (người nhận bảo lãnh) có trách nhiệm hợp tác chặt chẽ với Bộ Tài chính trong quá trình đàm phán Thư bảo lãnh.
2. Người nhận bảo lãnh có trách nhiệm hợp tác với Bộ Tài chính trong quá trình thực hiện khoản vay được Chính phủ bảo lãnh và trong thời gian Thư bảo lãnh có hiệu lực: a) Gửi cho Bộ Tài chính bản sao chi tiết thông báo từng khoản rút vốn, lãi suất biến động (nếu có), yêu cầu trả nợ cùng thời điểm gửi cho đối tượng được bảo lãnh; b) Gửi thông báo cho Bộ Tài chính về tình hình rút vốn, trả nợ và dự án của đối tượng được bảo lãnh ngay khi phát hiện bất kỳ vấn đề bất thường nào xảy ra; c) Gửi cho Bộ Tài chính các thông báo khác theo quy định của Thỏa thuận vay được Chính phủ bảo lãnh.
3. Người nhận bảo lãnh có trách nhiệm chia sẻ các thông tin cần thiết cho Bộ Tài chính về đối tượng được bảo lãnh, dự án và khoản vay được Chính phủ bảo lãnh, các báo cáo kiểm tra, giám sát trong phạm vi cho phép của mình để đảm bảo tiền vay được sử dụng đúng mục đích, đối tượng ...1.0
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size
: 36per_device_eval_batch_size
: 36num_train_epochs
: 20fp16
: Truemulti_dataset_batch_sampler
: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 36per_device_eval_batch_size
: 36per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1num_train_epochs
: 20max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsehub_revision
: Nonegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseliger_kernel_config
: Noneeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: round_robinrouter_mapping
: {}learning_rate_mapping
: {}
Training Logs
Epoch | Step | Training Loss |
---|---|---|
12.5 | 500 | 0.1151 |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 5.0.0
- Transformers: 4.54.0
- PyTorch: 2.7.1+cu126
- Accelerate: 1.9.0
- Datasets: 4.0.0
- Tokenizers: 0.21.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 1
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for xuandin/e5-instruct-neg-top60-from-finetune-500
Base model
intfloat/multilingual-e5-large-instruct