SentenceTransformer based on dbmdz/bert-base-turkish-cased

This is a sentence-transformers model finetuned from dbmdz/bert-base-turkish-cased. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: dbmdz/bert-base-turkish-cased
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("selmanbaysan/bert-base-turkish-cased_contrastive_loss_training")
# Run inference
sentences = [
    "Bilim dünyasında yeni bir gelişme yaşandı. Paris'te toplanan konferansla kilogramın tanımı değişti. Kilogramın standardı elektrik akımıyla belirlenecek.",
    "Karacaahmet Sultan Derneği Başkanı Muharrem Ercan, Üsküdar'daki Karacaahmet Sultan Derneği'nde düzenlediği basın toplantısında yaptığı konuşmada, Başbakan Recep Tayyip Erdoğan'ın katıldığı bir televizyon programında, Karacaahmet Cemevi ile ilgili söylediği ''Gidin bakın orada bir ucube olarak Karacaahmet Türbesi'nin yanında durur. Şimdi hala olan cemevi ruhsatı filan yoktur, hala kaçaktır'' şeklindeki sözlerini üzüntü ile karşıladıklarını söyledi.  Yapının sadece bir cemevi değil, aynı zamanda bir dergah olduğunu belirten Ercan, şöyle konuştu:  ''Binanın ruhsatı yok. Zaten hiçbir cemevinin ruhsatı yoktur. Biz asla cemevi, cami ayrımı yapmıyoruz ama bugün Şakirin Camisi'nin de ruhsatı yoktur. Ben üzülüyorum şimdi. Çünkü 18 sene olmuş. 18 sene sonra bunun tekrar gündeme getirilmesinden üzüntü duyduk. Bizim bir bayrak derdimiz yok. Bizim bir toprak derdimiz yok. Bizim hiçbir derdimiz yok. Vergiyse veririz, askerlikse yaparız. Yeri geldi mi demokrasinin sibobuyuz.''  O dönemde kendisinin derneğin yönetiminde olmadığını ve mezar taşlarının kırılarak üzerine inşaat yapıldığı konusunda bir şey diyemeyeceğini dile getiren Ercan, ''O dönemde mahkemeye verildik. Üsküdar 15. Ağır Ceza Mahkemesi'nde yargılandık ve beraat ettik. Bildiğim kadarıyla vatandaşların çoğuna yer gösterilmiştir. Kırılma falan yok. Benim duyduğum çoğu vatandaşa yer gösterildiği yönünde. Zaten çok çok 5 tane falan var, bunlarda mahkeme dosyasında, razılık alınmış vaziyette, öyle zoraki kırılma, zoraki kaldırılma diye bir şey yok'' diye konuştu.  Ercan, 18 sene sonra bu olayın gündeme getirilmesine gücendiklerini dile getirerek, sözlerini şöyle sürdürdü:  ''Sayın Başbakan'ın kullandığı kelimeyi ve üslubu onaylamıyoruz. Üzüntü kaynağı oldu bizim için. Çünkü kendisi 74 milyon yurttaşımızın Başbakanı. Yani onun için oraya 'ucube', işte buraya cemevi ayrımı yapması, birlikten, beraberlikten bahseden bir Başbakanımız'ın, böyle bir söz söylemesini gerçekten yadırgadık.  İslam inancına göre ramazan ayı hoşgörü, kalp kırmamak, gönül kırmamak, insanları sevmek, saymak, barışı korumak değil mi? Ama sen, kalkacaksın burada 15-20 milyon Alevi insanını bir yerde rencide edeceksin. Sayın Başbakan'dan tekrar tekrar rica ediyoruz, Faruk Çelik'e teşekkür ediyoruz belirli bir gayret göstermiştir, öncelikli olan cemevilerimiz yasal statüye kavuşturulsun. Kalkıp da şimdi bu saatten sonra yıkarlarsa da bir şey diyemeyiz.''",
    "Palandöken Dağı'ndaki bir otelde 2 aydır kamp yapan Atletizm Milli Takım Antrenörü İbrahim Tunç, bugün yapılan çalışmalar sonrası odasına çekildi. Burada bir süre sonra rahatsızlanan İbrahim Tunç, yan odada kalan sporcularından duvara vurarak yardım istedi. Odaya gelen sporcular, antrenörlerinin terlediğini fark etti. İbrahim Tunç'u resepsiyona indiren sporcular, durumu otel yönetimine bildirdi. İbrahim Tunç, otele çağrılan ambulansla Atatürk Üniversitesi Tıp Fakültesi Yakutiye Araştırma Hastanesi Acil Servisine kaldırıldı. Burada doktorların yaptığı tüm müdahaleye karşın Konya Selçuk Üniversitesi Beden Eğitimi Öğretmenliği Bölümü mezunu olan İbrahim Tunç kurtarılamayarak hayatını kaybetti. Damar genişlemesi hastalığı olduğu öğrenilen ve kalp krizi geçirdiği belirtilen edilen genç antrenörün cenazesi otopsi için Erzurum Adli Tıp Grup Başkanlığı'na gönderildi. İbrahim Tunç'un ani ölümü sporcularını ve spor camiasını yasa boğdu. İbrahim Tunç'un çalıştırdığı sporcular Adli Tıp Kurumu önünde gözyaşlarına boğuldu. Konya'da yaşayan İbrahim Tunç'un ailesi acı haber üzerine Erzurum'a gelmek için yola çıktı. Daha önce de kalp sorunu nedeniyle tedavi gördüğü öğrenilen evli 1 erkek çocuk babası İbrahim Tunç'un cenazesi bugün toprağa verilmek üzere memleketi Konya'ya götürülecek.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Binary Classification

Metric dev test
cosine_accuracy 0.9954 0.9948
cosine_accuracy_threshold 0.3884 0.3874
cosine_f1 0.9954 0.9948
cosine_f1_threshold 0.3884 0.3874
cosine_precision 0.9958 0.9959
cosine_recall 0.9949 0.9938
cosine_ap 0.9997 0.9997
cosine_mcc 0.9908 0.9897

Training Details

Training Dataset

Unnamed Dataset

  • Size: 2,038,410 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 3 tokens
    • mean: 7.32 tokens
    • max: 19 tokens
    • min: 10 tokens
    • mean: 54.4 tokens
    • max: 498 tokens
  • Samples:
    anchor positive
    Bill Roycroft (17 Mart 1915 - 29 Mayıs 2011), Avustralyalı Olimpik binici şampiyonu. Çocukluğunda çiftlikte ata binmiştir. Daha sonrasında II. Dünya Savaşı sırasında ordunun bölgeye gelmesi sonucunda ailesi, Batı Victoria yakınlarındaki Camperdown'a yerleşmiştir. Orada Olimpiyatlarda oynamıştır. İlk olimpiyatlarda ise 1960 Yaz Olimpiyatları'na katılmış ve oynamıştır. 1968 Mexico City ve 1976 Münih Olimpiyatlarında da oynamış, takımına bronz madalya kazandırmıştır.
    Sıdıklıküçükoba, Kırşehir ilinin Merkez ilçesine bağlı bir köydür.
    Polinezya mitolojisi Polinezya anlatısı veya , Polinezya halkının sözlü geleneklerini (Polinezya Üçgeni de denilen Orta ve Güney Pasifik Okyanusu ada takımadaları grubu ) ve bilinen çoğunlukla dağınık kültürlerin geleneklerini kapsar. Polinezyalılar, muhtemelen MÖ 1000 civarında Tonga - Samoa bölgesinde konuşulan Proto-Polinezya olarak yeniden inşa edilen bir dilden gelen dilleri konuşuyorlardı.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 30,724 evaluation samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string int
    details
    • min: 5 tokens
    • mean: 34.14 tokens
    • max: 168 tokens
    • min: 6 tokens
    • mean: 286.56 tokens
    • max: 512 tokens
    • 0: ~52.80%
    • 1: ~47.20%
  • Samples:
    sentence1 sentence2 label
    Geçtiğimiz Şubat ayında havalandırma sisteminde yangın çıkan Bursa'daki hastanede bu kez elektrik panosundan alevler yükseldi. Bursa'daki Ali Osman Sönmez Onkoloji Hastanesi'nin bodrum katında bulunan 10 elektrik panosundan birinde, yaşanan arıza sonucu saat 06.00 sıralarında yangın çıktı. Dumanların yükselmesi üzerine hastalar, sağlık görevlileri ve refakatçiler tarafından tahliye edildi. Yoğun bakımda tedavi gören 2 hasta, ambulanslarla Şevket Yılmaz Hastanesi ve Muradiye Hastanesi'ne sevk edilirken, cihaza ihtiyaç duyan bir hasta da Yüksek İhtisas Eğitim ve Araştırma Hastanesi'ne gönderildi. İhbar üzerine olay yerine gelen itfaiye ekipleri, yangını kısa sürede kontrol altına aldı. Yangının söndürülmesinden sonra hastane girişinde bekleyen diğer hastalar, tekrar kaldıkları bölümlere çıkarıldı. Bursa İl Sağlık Müdürü Özcan Akan, yangınla ilgili yazılı bir açıklama yaptı. Açıklamasında hastane personelinin olaya anında müdahale ederek, panodaki elektrik akımını ''by-pass'' ettiğini dile getiren Akan, şu ifadelere yer verdi: ''Saat 05.45 itibariyle panodaki bu ısınmaya bağlı duman tamamen kontrol altına alınmış... 1
    Zonguldak'ta, aile hekimi Dr. Hasan Koca (44), kimliği belirsiz kişi ya da kişilerce dövülerek ormanlık bölgede yol kenarına bırakıldı. Aldığı darbelerle ağır yaralanan Dr. Koca, hastanede tedavi altına alındı. Mart ayında 10 yaşına girecek, mavi kuş logolu mikroblog sitesi Twitter, tarihinde ilk kez aylık aktif kullanıcı sayısını artıramadı. 10 Şubat’ta 2015 yılı 4. çeyrek bilançosunu açıklayan şirketin aylık ortalama aktif kullanıcı sayısı 320 milyonda kaldı. Bu rakam bir önceki çeyrekle aynı. Ancak SMS ile takip edenler hariç tutulduğunda 3. çeyrekte 307 milyon aylık aktif kullanıcı sayısı 305 milyona indi. 2 milyon aylık aktif kullanıcı kaybeden şirket bunun dışında iyi bir mali performans sergiledi. Şirketin 2015’in son çeyreğindeki gelirleri ise 2014’ün son çeyreğine göre yüzde 48 artış göstererek 710 milyon dolara ulaştı. Zararı 90 milyon dolar oldu. En büyük rakibi Facebook kullanıcı sayısını 1.5 milyara, Whatsapp 800 milyona, Instagram ise 400 milyona yükseltirken Twitter’ın geride kalmasının nedeni ne? Pek çok uzmana göre bu sorunun yanıtı karmaşıklık. Özellikle de en büyük rakibi Facebook ile kıyaslandığında, Twitter pek de kullanıcı dostu değil. Daha önce yöneticilerinin de itiraf... 0
    Araştırmacılar, özellikle gebeliğin son dönemlerinde virüsten etkilenen bebeklerin kafa yapılarının normal olmasının, beyinlerinde hasar olmadığı anlamına gelmediğini açıkladı Zika virüsünden etkilenen bebeklerin bir kısmının normal görünüme sahip olabilecekleri ancak bunun virüsün beyni etkilemediği anlamına gelmeyeceği belirtildi. BBC'nin haberine göre, sonuçları Lancet dergisinde yayımlanan araştırmada, Zika virüsünden etkilenen bebeklerin 5'te 1'inin normal görünüme sahip olmalarına rağmen beyinlerinin hasarlı olduğu tespit edildi. Brezilyalı araştırmacıların bin 501 Zika vakası üzerinde yaptıkları incelemede, virüsün gebeliğin son döneminde bulaşması durumunda bebeğin kafasının, gelişiminin büyük bölümünü tamamladığından normal göründüğünü ortaya koydu. Federal de Pelatos Üniversitesinden Prof. Cesar Viktora, normal kafa yapısıyla doğan ve Zika virüsü bulaşmış bebeklere yüzde 20 oranında rastlandığını söyledi. Zika virüsünün yeni doğanların beynine verdiği hasarın tespiti için yalnızca mikrosefali ve kızarıklıkları temel alan değil daha detaylı değerlendirmeyi içerecek bir sisteme ihtiyaç duyulduğunu belirten Viktora, virüsün beynin üzerindeki etkilerin... 1
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss dev_cosine_ap test_cosine_ap
0.4082 13000 0.1139 3.5533 0.9995 -
0.4238 13500 0.1127 3.5780 0.9996 -
0.4395 14000 0.1106 3.5957 0.9996 -
0.4552 14500 0.1123 3.5246 0.9995 -
0.4709 15000 0.1103 3.5829 0.9996 -
0.4866 15500 0.1086 3.6003 0.9996 -
0.5023 16000 0.1076 3.5603 0.9996 -
0.5180 16500 0.106 3.5453 0.9996 -
0.5337 17000 0.1098 3.5069 0.9996 -
0.5494 17500 0.1029 3.4922 0.9996 -
0.5651 18000 0.1028 3.5603 0.9997 -
0.5808 18500 0.0974 3.5372 0.9997 -
0.5965 19000 0.1023 3.5242 0.9997 -
0.6122 19500 0.1033 3.5293 0.9997 -
0.6279 20000 0.1003 3.5095 0.9997 -
0.6436 20500 0.0957 3.4889 0.9996 -
0.6593 21000 0.0961 3.4950 0.9997 -
0.6750 21500 0.0992 3.4706 0.9996 -
0.6907 22000 0.0992 3.4538 0.9997 -
0.7064 22500 0.098 3.5141 0.9997 -
0.7221 23000 0.0974 3.4961 0.9997 -
0.7378 23500 0.092 3.5231 0.9997 -
0.7535 24000 0.0982 3.4808 0.9997 -
0.7692 24500 0.0884 3.4751 0.9997 -
0.7849 25000 0.0931 3.4639 0.9997 -
0.8006 25500 0.0893 3.4859 0.9997 -
0.8163 26000 0.0883 3.4774 0.9997 -
0.8320 26500 0.0912 3.4738 0.9997 -
0.8477 27000 0.0923 3.4801 0.9997 -
0.8634 27500 0.0906 3.4843 0.9997 -
0.8791 28000 0.0958 3.4938 0.9997 -
0.8948 28500 0.0895 3.4770 0.9997 -
0.9105 29000 0.0918 3.4850 0.9997 -
0.9262 29500 0.0869 3.4774 0.9997 -
0.9419 30000 0.0906 3.4702 0.9997 -
0.9576 30500 0.0891 3.4860 0.9997 -
0.9733 31000 0.0884 3.4628 0.9997 -
0.9890 31500 0.0881 3.4774 0.9997 -
-1 -1 - - - 0.9997

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.48.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.4.1
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
10
Safetensors
Model size
111M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for selmanbaysan/bert-base-turkish-cased_contrastive_loss_training

Finetuned
(222)
this model

Evaluation results