SentenceTransformer based on Alibaba-NLP/gte-multilingual-base
This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: Alibaba-NLP/gte-multilingual-base
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'NewModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'Trách nhiệm của Trưởng phòng Tiền tệ - Kho quỹ Ngân hàng Nhà nước chi nhánh trong việc quản lý tiền mặt, tài sản quý, giấy tờ có giá là gì?',
'1. Hướng dẫn, kiểm tra nghiệp vụ quản lý an toàn kho quỹ; tổ chức việc thu, chi (xuất, nhập), bảo quản, vận chuyển tiền mặt, tài sản quý, giấy tờ có giá theo quy định.\n\n2. Hướng dẫn, kiểm tra việc mở và ghi chép sổ sách của thủ quỹ, thủ kho tiền.\n\n3. Tham gia kiểm tra, kiểm kê, bàn giao tiền mặt, tài sản quý, giấy tờ có giá.',
'1. Người có đủ các điều kiện sau đây không phân biệt dân tộc, nam nữ, thành phần xã hội, tín ngưỡng, tôn giáo được đăng ký dự tuyển viên chức: \t\ta) Có quốc tịch Việt Nam và cư trú tại Việt Nam;\t\tb) Từ đủ 18 tuổi trở lên. Đối với một số lĩnh vực hoạt động văn hóa, nghệ thuật, thể dục, thể thao, tuổi dự tuyển có thể thấp hơn theo quy định của pháp luật; đồng thời, phải có sự đồng ý bằng văn bản của người đại diện theo pháp luật;\t\tc) Có đơn đăng ký dự tuyển;\t\td) Có lý lịch rõ ràng;\t\tđ) Có văn bằng, chứng chỉ đào tạo, chứng chỉ hành nghề hoặc có năng khiếu kỹ năng phù hợp với vị trí việc làm;\t\te) Đủ sức khoẻ để thực hiện công việc hoặc nhiệm vụ;\t\tg) Đáp ứng các điều kiện khác theo yêu cầu của vị trí việc làm do đơn vị sự nghiệp công lập xác định nhưng không được trái với quy định của pháp luật.\n\n2. Những người sau đây không được đăng ký dự tuyển viên chức:\t\ta) Mất năng lực hành vi dân sự hoặc bị hạn chế năng lực hành vi dân sự;\t\tb) Đang bị truy cứu trách nhiệm hình sự; đang chấp hành bản án, quyết định về hình sự của Tòa án; đang bị áp dụng biện pháp xử lý hành chính đưa vào cơ sở chữa bệnh, cơ sở giáo dục, trường giáo dưỡng.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000, 0.8502, -0.0614],
# [ 0.8502, 1.0000, -0.0440],
# [-0.0614, -0.0440, 1.0000]])
Training Details
Training Dataset
Unnamed Dataset
- Size: 2,864 training samples
- Columns:
sentence_0
,sentence_1
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 label type string string float details - min: 14 tokens
- mean: 23.6 tokens
- max: 55 tokens
- min: 15 tokens
- mean: 299.02 tokens
- max: 512 tokens
- min: 1.0
- mean: 1.0
- max: 1.0
- Samples:
sentence_0 sentence_1 label Điều kiện để được cấp chứng chỉ bồi dưỡng của cán bộ, công chức, viên chức được quy định như thế nào?
Chứng chỉ chương trình
bồi dưỡng được cấp cho học viên có đủ các điều kiện sau đây:1. Tham gia học tập đầy
đủ theo quy định của chương trình bồi dưỡng.
2. Có đủ các bài kiểm
tra, viết thu hoạch, tiểu luận, đề án theo quy định của chương trình bồi dưỡng;
các bài kiểm tra, viết thu hoạch, tiểu luận, đề án phải đạt từ 50% số điểm trở
lên theo thang điểm quy định của chương trình.
3. Chấp hành đúng, đầy
đủ các quy định của pháp luật về bồi dưỡng cán bộ, công chức, viên chức; quy
chế, nội quy học tập của Học viện Hành chính Quốc gia; cơ sở đào tạo, bồi
dưỡng; cơ sở đào tạo, nghiên cứu.1.0
Vi bằng phải đảm bảo nội dung và hình thức thế nào?
1. Vi bằng được lập bằng văn bản tiếng Việt, có nội dung chủ yếu sau đây: a) Tên, địa chỉ Văn phòng Thừa phát lại; họ, tên Thừa phát lại lập vi bằng; b) Địa điểm, thời gian lập vi bằng; c) Họ, tên, địa chỉ người yêu cầu lập vi bằng; d) Họ, tên người tham gia khác (nếu có); đ) Nội dung yêu cầu lập vi bằng; nội dung cụ thể của sự kiện, hành vi được ghi nhận; e) Lời cam đoan của Thừa phát lại về tính trung thực và khách quan trong việc lập vi bằng; g) Chữ ký của Thừa phát lại, dấu Văn phòng Thừa phát lại, chữ ký hoặc dấu điểm chỉ của người yêu cầu, người tham gia khác (nếu có) và người có hành vi bị lập vi bằng (nếu họ có yêu cầu).Vi bằng có từ 02 trang trở lên thì từng trang phải được đánh số thứ tự; vi bằng có từ 02 tờ trở lên phải được đóng dấu giáp lai giữa các tờ; số lượng bản chính của mỗi vi bằng do các bên tự thỏa thuận.
2. Kèm theo vi bằng có thể có các tài liệu chứng minh; trường hợp tài liệu chứng minh do Thừa phát lại lập thì phải phù hợp với thẩm quyền, phạm vi theo q...1.0
Người cai nghiện tại cơ sở cai nghiện bắt buộc được thăm gặp người thân mấy lần mỗi tuần?
1. Người cai nghiện được thăm gặp người thân tại phòng thăm gặp của cơ sở cai nghiện bắt buộc, một tuần một lần, mỗi lần không quá 02 giờ và tối đa không quá 03 thân nhân. Trường hợp gặp lâu hơn phải được Giám đốc cơ sở cai nghiện bắt buộc đồng ý và tối đa không quá 04 giờ.Người cai nghiện có vợ hoặc chồng, được Giám đốc cơ sở cai nghiện bắt buộc xem xét, cho phép thăm gặp tại phòng riêng của cơ sở cai nghiện bắt buộc một lần trong tháng và tối đa không quá 48 giờ cho một lần gặp. Căn cứ quy mô và điều kiện, cơ sở cai nghiện xây dựng, tổ chức phòng riêng để học viên thăm gặp vợ hoặc chồng.
2. Cơ sở cai nghiện xây dựng quy chế thăm gặp theo theo hướng dẫn của Bộ trưởng Bộ Lao động - Thương binh và Xã hội.
3. Người cai nghiện được nhận và gửi thư, nhận tiền, quà (trừ rượu, bia, thuốc lá, các chất kích thích, đồ vật và các loại văn hóa phẩm bị cấm). Cơ sở cai nghiện có trách nhiệm kiểm tra thư và các loại quà trước khi trao cho người cai nghiện. Riêng tiền hoặc giấy tờ có giá, người cai...1.0
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size
: 24per_device_eval_batch_size
: 24num_train_epochs
: 30fp16
: Truemulti_dataset_batch_sampler
: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 24per_device_eval_batch_size
: 24per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1num_train_epochs
: 30max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsehub_revision
: Nonegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseliger_kernel_config
: Noneeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: round_robinrouter_mapping
: {}learning_rate_mapping
: {}
Training Logs
Epoch | Step | Training Loss |
---|---|---|
8.3333 | 500 | 0.0984 |
16.6667 | 1000 | 0.0354 |
25.0 | 1500 | 0.0288 |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 5.0.0
- Transformers: 4.54.0
- PyTorch: 2.7.1+cu126
- Accelerate: 1.9.0
- Datasets: 4.0.0
- Tokenizers: 0.21.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 1
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for xuandin/gte-neg-top60-from-finetune-500
Base model
Alibaba-NLP/gte-multilingual-base