SentenceTransformer based on BAAI/bge-m3
This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: BAAI/bge-m3
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("aleynahukmet/bge-m3-8-layers")
# Run inference
sentences = [
'Buna göre, yeniden düzenlenen kesin izin taahhüt senetleri ve ek taahhütnamenin, söz konusu kağıtlarda yer alan arazi izin bedeli ile atıf yapılan ilk kesin izin taahhüt senetlerinde yer alan arazi izin bedeli arasındaki farkın kalan izin süresiyle çarpımı sonucu bulunacak tutar ile artan teminat bedeli mukayese edilerek en yüksek vergi alınmasını gerektiren tutar üzerinden, 488 sayılı Kanuna ekli (1) sayılı tablonun I/A-1 fıkrasına göre damga vergisine, 492 sayılı Kanuna bağlı (2) sayılı tarifenin I/1 fıkrası gereğince harca tabi tutulması gerekmektedir.\n\nBilgi edinilmesini rica ederim.',
'Velayetin kaldırılması, çocuğun hayatını derinden etkileyen bir karardır ve yalnızca çocuğun güvenliği ve iyiliği için gerekli olduğunda alınır. Bu süreçte çocuğun hakları korunur ve mahkeme, çocuğun en iyi çıkarlarını gözeterek karar verir. Her vaka kendine özgüdür ve kararlar, vakanın özel koşullarına göre verilir. Dolayısıyla, bu bilgiler genel bir rehber niteliğindedir ve özel bir hukuki danışma yerine geçmez.',
'(**\\*\\***)\xa0\xa0 İnceleme, yargı ya da uzlaşmada olduğu halde bu konuya ilişkin olarak yanlış bilgi verilmiş ise bu özelge geçersizdir.\n\n(\\*\\*\\*) Talebiniz üzerine tayin edilmiş olan bu özelgeye uygun işlem yapmanız hâlinde, bu fiilleriniz dolayısıyla vergi tarh edilmesi icap ederse, tarafınıza vergi cezası kesilmeyecek ve tarh edilen vergi için gecikme faizi hesaplanmayacaktır.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Knowledge Distillation
- Datasets:
mse-dev
andmse-test
- Evaluated with
MSEEvaluator
Metric | mse-dev | mse-test |
---|---|---|
negative_mse | -0.1757 | -0.1758 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 287,204 training samples
- Columns:
sentence
andlabel
- Approximate statistics based on the first 1000 samples:
sentence label type string list details - min: 7 tokens
- mean: 160.09 tokens
- max: 341 tokens
- size: 1024 elements
- Samples:
sentence label -"İstisnanın Uygulanması" başlıklı (II/E-4.2.) ayrımında,
"İstisna, münhasıran söz konusu yatırımlar kapsamındaki inşaat taahhüt işi, nakliye, hafriyat ve benzeri inşa işlerine ilişkindir. Yatırımı yapanların söz konusu inşaat işlerinde kullanılan mal alımları da bu kapsamda değerlendirilir. Dolayısıyla söz konusu istisna inşaat işlerine ilişkin olmak koşuluyla hem hizmet hem de mal alımlarını kapsamaktadır.
..."
açıklamaları yer almaktadır.
Buna göre, yatırım teşvik belgeniz kapsamındaki sabit yatırımınıza yönelik inşaat işleri dolayısıyla yapılan zemin etüdü gideri, proje çizim gideri, zemin araştırma-temel etüd hizmet giderleri nedeniyle yüklenmiş olduğunuz KDV'lerin, KDV Kanununun geçici 30 uncu maddesi kapsamında iadesi mümkün bulunmaktadır.
Bilgi edinilmesini rica ederim.
(*) Bu Özelge 213 sayılı Vergi Usul Kanununun 413.maddesine dayanılarak verilmiştir.[-0.009974503889679909, 0.036509882658720016, 0.03562415763735771, -0.00381448189727962, 0.01367136649787426, ...]
Anılan Kanunun 231 inci maddesinin 5 numaralı bendinde, faturanın malın teslimi veya hizmetin yapıldığı tarihten itibaren azami yedi gün içinde düzenleneceği, bu süre içerisinde düzenlenmeyen faturaların hiç düzenlenmemiş sayılacağı; 232 nci maddesinde ise, birinci ve ikinci sınıf tüccarlarla, kazancı basit usulde tespit edilenler ve defter tutmak mecburiyetinde olan çiftçilerin sattıkları emtia veya yaptıkları iş için fatura vermek, satın aldıkları emtia ve hizmetler için de fatura istemek ve almak zorunda oldukları hükmü yer almaktadır.
[-0.004749941639602184, 0.029555343091487885, 0.033180367201566696, 0.0038023695815354586, 0.007536270655691624, ...]
kabulünü gerektirmez. Vade farkı faturasının davalıya tebliğ edilip itiraza
uğramamış olması da temel dayanağı bulunmayan bu faturanın tek başına vade farkı
talep edilebilmesine olanak sağlayamayacağı da kuşkusuzdur. Hal böyle olunca
taraflar arasında sözleşme ilişkisi bulunup bulunmadığının araştırılması gerekir. Davalı tarafça davacıya gönderilen faks mesajında vade farkına ilişkin hükümler mevcuttur. Davalının çektiği bu faks mesajının davacı tarafça teyit edilmesi, başka bir ifade ile tarafların anılan faks mesajında yer alan hususlar konusunda mutabık olduklarının saptanması halinde taraflar arasında bu yönde sözleşme ilişkisi kurulduğunun kabulü gerekecektir. Bu durumda mahkemece belirtilen yönler üzerinde durulup tartışılarak yeterli araştırma ve inceleme yapıldıktan sonra tüm deliller birlikte değerlendirilmek suretiyle uygun sonuç dairesinde bir karar verilmesi gerekirken eksik inceleme ile yazılı şekilde hüküm kurulması doğru görülmemiştir.[-0.007021570112556219, 0.03200509026646614, 0.02259155362844467, -0.003074771026149392, 0.006905834656208754, ...]
- Loss:
MSELoss
Evaluation Dataset
Unnamed Dataset
- Size: 5,000 evaluation samples
- Columns:
sentence
andlabel
- Approximate statistics based on the first 1000 samples:
sentence label type string list details - min: 7 tokens
- mean: 157.25 tokens
- max: 368 tokens
- size: 1024 elements
- Samples:
sentence label karar verilmesine, 4 aylık ücret ve 8 aylık ücreti tutarında tazminat ödenmesine karar verilmesini istemiştir. Davalı, davacının toplu iş sözleşmesinin 69/2 maddesine aykırı davranışı nedeni ile iş akdinin bildirimsiz olarak feshedildiğini, feshin haklı olduğunu savunarak davanın reddini dilemiştir. Mahkemece, iş mahkemesi tarafından verilen ve temyiz edilmeksizin kesinleşen görevsizlik kararı gereğince yapılan yargılama sonunda, feshin geçersizliği ile, davacının. işe iadesine, ve iş kanununun 21. maddesine göre diğer haklarının davalıdan tahsiline karar verilmiş; hüküm, davalı tarafından temyiz edilmiştir. 1 -Davacının hava taşıma işinde çalıştığından iş kanununun 4/a maddesi gereğince iş kanunu hükümlerine tabi olmadığı ancak Hava İş Sendikas ı üyesi olduğundan işyerinde uygulanan 19. dönem toplu iş sözleşmesi hükümlerinden yararlandığı ve Teftiş kurulu Başkanlığının 8.2/2005 tarihli soruşturma raporu doğrultusunda, davacının ortaklık ve ortaklık personeli hakkında şeref ve.
[-0.00802378449589014, 0.03146154806017876, 0.039876192808151245, -0.002182986354455352, 0.009204964153468609, ...]
#### Belediye ve mücavir alan dışındaki köylerde bulunan taşınmalara ilişkin zamanında emlak vergisi bildirimi verilmemesi halinde ceza uygulaması hk.
Sayı: 85373914-175.01[66.01.04]-100Tarih: 07/09/2015T.C. GELİR İDARESİ BAŞKANLIĞI MANİSA VERGİ DAİRESİ BAŞKANLIĞI Mükellef Hizmetleri Grup Müdürlüğü Öte yandan, Gelir Vergisi Kanununun 65 inci maddesinde, "Her türlü serbest meslek faaliyetinden doğan kazançlar serbest meslek kazancıdır.
Serbest meslek faaliyeti; sermayeden ziyade şahsi mesaiye, ilmi veya mesleki bilgiye veya ihtisasa dayanan ve ticari mahiyette olmıyan işlerin işverene tabi olmaksızın şahsi sorumluluk altında kendi nam ve hesabına yapılmasıdır..." hükmüne yer verilmiştir.[-0.005017167888581753, 0.02980973944067955, 0.0245507825165987, 0.002575532766059041, 0.01661611907184124, ...]
- Loss:
MSELoss
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 64per_device_eval_batch_size
: 64learning_rate
: 0.0001num_train_epochs
: 1warmup_ratio
: 0.1bf16
: Trueload_best_model_at_end
: True
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 64per_device_eval_batch_size
: 64per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 0.0001weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Trueignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | mse-dev_negative_mse | mse-test_negative_mse |
---|---|---|---|---|
0 | 0 | - | -0.1757 | - |
0.2228 | 1000 | 0.0001 | - | - |
0.4456 | 2000 | 0.0001 | - | - |
0.6684 | 3000 | 0.0 | - | - |
0.8913 | 4000 | 0.0 | - | - |
1.0 | 4488 | - | - | -0.1758 |
Framework Versions
- Python: 3.12.4
- Sentence Transformers: 3.3.1
- Transformers: 4.48.0
- PyTorch: 2.4.1+cu121
- Accelerate: 1.0.1
- Datasets: 2.19.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MSELoss
@inproceedings{reimers-2020-multilingual-sentence-bert,
title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2020",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/2004.09813",
}
- Downloads last month
- 11
Inference Providers
NEW
This model is not currently available via any of the supported third-party Inference Providers, and
the model is not deployed on the HF Inference API.
Model tree for aleynahukmet/bge-m3-8-layers
Base model
BAAI/bge-m3Evaluation results
- Negative Mse on mse devself-reported-0.176
- Negative Mse on mse testself-reported-0.176