SentenceTransformer based on dbmdz/bert-base-turkish-cased
This is a sentence-transformers model finetuned from dbmdz/bert-base-turkish-cased. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: dbmdz/bert-base-turkish-cased
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("selmanbaysan/bert-base-turkish-cased_contrastive_loss_training")
# Run inference
sentences = [
"Bilim dünyasında yeni bir gelişme yaşandı. Paris'te toplanan konferansla kilogramın tanımı değişti. Kilogramın standardı elektrik akımıyla belirlenecek.",
"Karacaahmet Sultan Derneği Başkanı Muharrem Ercan, Üsküdar'daki Karacaahmet Sultan Derneği'nde düzenlediği basın toplantısında yaptığı konuşmada, Başbakan Recep Tayyip Erdoğan'ın katıldığı bir televizyon programında, Karacaahmet Cemevi ile ilgili söylediği ''Gidin bakın orada bir ucube olarak Karacaahmet Türbesi'nin yanında durur. Şimdi hala olan cemevi ruhsatı filan yoktur, hala kaçaktır'' şeklindeki sözlerini üzüntü ile karşıladıklarını söyledi. Yapının sadece bir cemevi değil, aynı zamanda bir dergah olduğunu belirten Ercan, şöyle konuştu: ''Binanın ruhsatı yok. Zaten hiçbir cemevinin ruhsatı yoktur. Biz asla cemevi, cami ayrımı yapmıyoruz ama bugün Şakirin Camisi'nin de ruhsatı yoktur. Ben üzülüyorum şimdi. Çünkü 18 sene olmuş. 18 sene sonra bunun tekrar gündeme getirilmesinden üzüntü duyduk. Bizim bir bayrak derdimiz yok. Bizim bir toprak derdimiz yok. Bizim hiçbir derdimiz yok. Vergiyse veririz, askerlikse yaparız. Yeri geldi mi demokrasinin sibobuyuz.'' O dönemde kendisinin derneğin yönetiminde olmadığını ve mezar taşlarının kırılarak üzerine inşaat yapıldığı konusunda bir şey diyemeyeceğini dile getiren Ercan, ''O dönemde mahkemeye verildik. Üsküdar 15. Ağır Ceza Mahkemesi'nde yargılandık ve beraat ettik. Bildiğim kadarıyla vatandaşların çoğuna yer gösterilmiştir. Kırılma falan yok. Benim duyduğum çoğu vatandaşa yer gösterildiği yönünde. Zaten çok çok 5 tane falan var, bunlarda mahkeme dosyasında, razılık alınmış vaziyette, öyle zoraki kırılma, zoraki kaldırılma diye bir şey yok'' diye konuştu. Ercan, 18 sene sonra bu olayın gündeme getirilmesine gücendiklerini dile getirerek, sözlerini şöyle sürdürdü: ''Sayın Başbakan'ın kullandığı kelimeyi ve üslubu onaylamıyoruz. Üzüntü kaynağı oldu bizim için. Çünkü kendisi 74 milyon yurttaşımızın Başbakanı. Yani onun için oraya 'ucube', işte buraya cemevi ayrımı yapması, birlikten, beraberlikten bahseden bir Başbakanımız'ın, böyle bir söz söylemesini gerçekten yadırgadık. İslam inancına göre ramazan ayı hoşgörü, kalp kırmamak, gönül kırmamak, insanları sevmek, saymak, barışı korumak değil mi? Ama sen, kalkacaksın burada 15-20 milyon Alevi insanını bir yerde rencide edeceksin. Sayın Başbakan'dan tekrar tekrar rica ediyoruz, Faruk Çelik'e teşekkür ediyoruz belirli bir gayret göstermiştir, öncelikli olan cemevilerimiz yasal statüye kavuşturulsun. Kalkıp da şimdi bu saatten sonra yıkarlarsa da bir şey diyemeyiz.''",
"Palandöken Dağı'ndaki bir otelde 2 aydır kamp yapan Atletizm Milli Takım Antrenörü İbrahim Tunç, bugün yapılan çalışmalar sonrası odasına çekildi. Burada bir süre sonra rahatsızlanan İbrahim Tunç, yan odada kalan sporcularından duvara vurarak yardım istedi. Odaya gelen sporcular, antrenörlerinin terlediğini fark etti. İbrahim Tunç'u resepsiyona indiren sporcular, durumu otel yönetimine bildirdi. İbrahim Tunç, otele çağrılan ambulansla Atatürk Üniversitesi Tıp Fakültesi Yakutiye Araştırma Hastanesi Acil Servisine kaldırıldı. Burada doktorların yaptığı tüm müdahaleye karşın Konya Selçuk Üniversitesi Beden Eğitimi Öğretmenliği Bölümü mezunu olan İbrahim Tunç kurtarılamayarak hayatını kaybetti. Damar genişlemesi hastalığı olduğu öğrenilen ve kalp krizi geçirdiği belirtilen edilen genç antrenörün cenazesi otopsi için Erzurum Adli Tıp Grup Başkanlığı'na gönderildi. İbrahim Tunç'un ani ölümü sporcularını ve spor camiasını yasa boğdu. İbrahim Tunç'un çalıştırdığı sporcular Adli Tıp Kurumu önünde gözyaşlarına boğuldu. Konya'da yaşayan İbrahim Tunç'un ailesi acı haber üzerine Erzurum'a gelmek için yola çıktı. Daha önce de kalp sorunu nedeniyle tedavi gördüğü öğrenilen evli 1 erkek çocuk babası İbrahim Tunç'un cenazesi bugün toprağa verilmek üzere memleketi Konya'ya götürülecek.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Binary Classification
- Datasets:
dev
andtest
- Evaluated with
BinaryClassificationEvaluator
Metric | dev | test |
---|---|---|
cosine_accuracy | 0.9954 | 0.9948 |
cosine_accuracy_threshold | 0.3884 | 0.3874 |
cosine_f1 | 0.9954 | 0.9948 |
cosine_f1_threshold | 0.3884 | 0.3874 |
cosine_precision | 0.9958 | 0.9959 |
cosine_recall | 0.9949 | 0.9938 |
cosine_ap | 0.9997 | 0.9997 |
cosine_mcc | 0.9908 | 0.9897 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 2,038,410 training samples
- Columns:
anchor
andpositive
- Approximate statistics based on the first 1000 samples:
anchor positive type string string details - min: 3 tokens
- mean: 7.32 tokens
- max: 19 tokens
- min: 10 tokens
- mean: 54.4 tokens
- max: 498 tokens
- Samples:
anchor positive Bill Roycroft
(17 Mart 1915 - 29 Mayıs 2011), Avustralyalı Olimpik binici şampiyonu. Çocukluğunda çiftlikte ata binmiştir. Daha sonrasında II. Dünya Savaşı sırasında ordunun bölgeye gelmesi sonucunda ailesi, Batı Victoria yakınlarındaki Camperdown'a yerleşmiştir. Orada Olimpiyatlarda oynamıştır. İlk olimpiyatlarda ise 1960 Yaz Olimpiyatları'na katılmış ve oynamıştır. 1968 Mexico City ve 1976 Münih Olimpiyatlarında da oynamış, takımına bronz madalya kazandırmıştır.
Sıdıklıküçükoba, Kırşehir
ilinin Merkez ilçesine bağlı bir köydür.
Polinezya mitolojisi
Polinezya anlatısı veya , Polinezya halkının sözlü geleneklerini (Polinezya Üçgeni de denilen Orta ve Güney Pasifik Okyanusu ada takımadaları grubu ) ve bilinen çoğunlukla dağınık kültürlerin geleneklerini kapsar. Polinezyalılar, muhtemelen MÖ 1000 civarında Tonga - Samoa bölgesinde konuşulan Proto-Polinezya olarak yeniden inşa edilen bir dilden gelen dilleri konuşuyorlardı.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
Unnamed Dataset
- Size: 30,724 evaluation samples
- Columns:
sentence1
,sentence2
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence1 sentence2 label type string string int details - min: 5 tokens
- mean: 34.14 tokens
- max: 168 tokens
- min: 6 tokens
- mean: 286.56 tokens
- max: 512 tokens
- 0: ~52.80%
- 1: ~47.20%
- Samples:
sentence1 sentence2 label Geçtiğimiz Şubat ayında havalandırma sisteminde yangın çıkan Bursa'daki hastanede bu kez elektrik panosundan alevler yükseldi.
Bursa'daki Ali Osman Sönmez Onkoloji Hastanesi'nin bodrum katında bulunan 10 elektrik panosundan birinde, yaşanan arıza sonucu saat 06.00 sıralarında yangın çıktı. Dumanların yükselmesi üzerine hastalar, sağlık görevlileri ve refakatçiler tarafından tahliye edildi. Yoğun bakımda tedavi gören 2 hasta, ambulanslarla Şevket Yılmaz Hastanesi ve Muradiye Hastanesi'ne sevk edilirken, cihaza ihtiyaç duyan bir hasta da Yüksek İhtisas Eğitim ve Araştırma Hastanesi'ne gönderildi. İhbar üzerine olay yerine gelen itfaiye ekipleri, yangını kısa sürede kontrol altına aldı. Yangının söndürülmesinden sonra hastane girişinde bekleyen diğer hastalar, tekrar kaldıkları bölümlere çıkarıldı. Bursa İl Sağlık Müdürü Özcan Akan, yangınla ilgili yazılı bir açıklama yaptı. Açıklamasında hastane personelinin olaya anında müdahale ederek, panodaki elektrik akımını ''by-pass'' ettiğini dile getiren Akan, şu ifadelere yer verdi: ''Saat 05.45 itibariyle panodaki bu ısınmaya bağlı duman tamamen kontrol altına alınmış...
1
Zonguldak'ta, aile hekimi Dr. Hasan Koca (44), kimliği belirsiz kişi ya da kişilerce dövülerek ormanlık bölgede yol kenarına bırakıldı. Aldığı darbelerle ağır yaralanan Dr. Koca, hastanede tedavi altına alındı.
Mart ayında 10 yaşına girecek, mavi kuş logolu mikroblog sitesi Twitter, tarihinde ilk kez aylık aktif kullanıcı sayısını artıramadı. 10 Şubat’ta 2015 yılı 4. çeyrek bilançosunu açıklayan şirketin aylık ortalama aktif kullanıcı sayısı 320 milyonda kaldı. Bu rakam bir önceki çeyrekle aynı. Ancak SMS ile takip edenler hariç tutulduğunda 3. çeyrekte 307 milyon aylık aktif kullanıcı sayısı 305 milyona indi. 2 milyon aylık aktif kullanıcı kaybeden şirket bunun dışında iyi bir mali performans sergiledi. Şirketin 2015’in son çeyreğindeki gelirleri ise 2014’ün son çeyreğine göre yüzde 48 artış göstererek 710 milyon dolara ulaştı. Zararı 90 milyon dolar oldu. En büyük rakibi Facebook kullanıcı sayısını 1.5 milyara, Whatsapp 800 milyona, Instagram ise 400 milyona yükseltirken Twitter’ın geride kalmasının nedeni ne? Pek çok uzmana göre bu sorunun yanıtı karmaşıklık. Özellikle de en büyük rakibi Facebook ile kıyaslandığında, Twitter pek de kullanıcı dostu değil. Daha önce yöneticilerinin de itiraf...
0
Araştırmacılar, özellikle gebeliğin son dönemlerinde virüsten etkilenen bebeklerin kafa yapılarının normal olmasının, beyinlerinde hasar olmadığı anlamına gelmediğini açıkladı
Zika virüsünden etkilenen bebeklerin bir kısmının normal görünüme sahip olabilecekleri ancak bunun virüsün beyni etkilemediği anlamına gelmeyeceği belirtildi. BBC'nin haberine göre, sonuçları Lancet dergisinde yayımlanan araştırmada, Zika virüsünden etkilenen bebeklerin 5'te 1'inin normal görünüme sahip olmalarına rağmen beyinlerinin hasarlı olduğu tespit edildi. Brezilyalı araştırmacıların bin 501 Zika vakası üzerinde yaptıkları incelemede, virüsün gebeliğin son döneminde bulaşması durumunda bebeğin kafasının, gelişiminin büyük bölümünü tamamladığından normal göründüğünü ortaya koydu. Federal de Pelatos Üniversitesinden Prof. Cesar Viktora, normal kafa yapısıyla doğan ve Zika virüsü bulaşmış bebeklere yüzde 20 oranında rastlandığını söyledi. Zika virüsünün yeni doğanların beynine verdiği hasarın tespiti için yalnızca mikrosefali ve kızarıklıkları temel alan değil daha detaylı değerlendirmeyi içerecek bir sisteme ihtiyaç duyulduğunu belirten Viktora, virüsün beynin üzerindeki etkilerin...
1
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 64per_device_eval_batch_size
: 64learning_rate
: 2e-05num_train_epochs
: 1warmup_ratio
: 0.1fp16
: Truebatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 64per_device_eval_batch_size
: 64per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | Validation Loss | dev_cosine_ap | test_cosine_ap |
---|---|---|---|---|---|
0.4082 | 13000 | 0.1139 | 3.5533 | 0.9995 | - |
0.4238 | 13500 | 0.1127 | 3.5780 | 0.9996 | - |
0.4395 | 14000 | 0.1106 | 3.5957 | 0.9996 | - |
0.4552 | 14500 | 0.1123 | 3.5246 | 0.9995 | - |
0.4709 | 15000 | 0.1103 | 3.5829 | 0.9996 | - |
0.4866 | 15500 | 0.1086 | 3.6003 | 0.9996 | - |
0.5023 | 16000 | 0.1076 | 3.5603 | 0.9996 | - |
0.5180 | 16500 | 0.106 | 3.5453 | 0.9996 | - |
0.5337 | 17000 | 0.1098 | 3.5069 | 0.9996 | - |
0.5494 | 17500 | 0.1029 | 3.4922 | 0.9996 | - |
0.5651 | 18000 | 0.1028 | 3.5603 | 0.9997 | - |
0.5808 | 18500 | 0.0974 | 3.5372 | 0.9997 | - |
0.5965 | 19000 | 0.1023 | 3.5242 | 0.9997 | - |
0.6122 | 19500 | 0.1033 | 3.5293 | 0.9997 | - |
0.6279 | 20000 | 0.1003 | 3.5095 | 0.9997 | - |
0.6436 | 20500 | 0.0957 | 3.4889 | 0.9996 | - |
0.6593 | 21000 | 0.0961 | 3.4950 | 0.9997 | - |
0.6750 | 21500 | 0.0992 | 3.4706 | 0.9996 | - |
0.6907 | 22000 | 0.0992 | 3.4538 | 0.9997 | - |
0.7064 | 22500 | 0.098 | 3.5141 | 0.9997 | - |
0.7221 | 23000 | 0.0974 | 3.4961 | 0.9997 | - |
0.7378 | 23500 | 0.092 | 3.5231 | 0.9997 | - |
0.7535 | 24000 | 0.0982 | 3.4808 | 0.9997 | - |
0.7692 | 24500 | 0.0884 | 3.4751 | 0.9997 | - |
0.7849 | 25000 | 0.0931 | 3.4639 | 0.9997 | - |
0.8006 | 25500 | 0.0893 | 3.4859 | 0.9997 | - |
0.8163 | 26000 | 0.0883 | 3.4774 | 0.9997 | - |
0.8320 | 26500 | 0.0912 | 3.4738 | 0.9997 | - |
0.8477 | 27000 | 0.0923 | 3.4801 | 0.9997 | - |
0.8634 | 27500 | 0.0906 | 3.4843 | 0.9997 | - |
0.8791 | 28000 | 0.0958 | 3.4938 | 0.9997 | - |
0.8948 | 28500 | 0.0895 | 3.4770 | 0.9997 | - |
0.9105 | 29000 | 0.0918 | 3.4850 | 0.9997 | - |
0.9262 | 29500 | 0.0869 | 3.4774 | 0.9997 | - |
0.9419 | 30000 | 0.0906 | 3.4702 | 0.9997 | - |
0.9576 | 30500 | 0.0891 | 3.4860 | 0.9997 | - |
0.9733 | 31000 | 0.0884 | 3.4628 | 0.9997 | - |
0.9890 | 31500 | 0.0881 | 3.4774 | 0.9997 | - |
-1 | -1 | - | - | - | 0.9997 |
Framework Versions
- Python: 3.11.11
- Sentence Transformers: 3.4.1
- Transformers: 4.48.3
- PyTorch: 2.6.0+cu124
- Accelerate: 1.3.0
- Datasets: 3.4.1
- Tokenizers: 0.21.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 10
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for selmanbaysan/bert-base-turkish-cased_contrastive_loss_training
Base model
dbmdz/bert-base-turkish-casedEvaluation results
- Cosine Accuracy on devself-reported0.995
- Cosine Accuracy Threshold on devself-reported0.388
- Cosine F1 on devself-reported0.995
- Cosine F1 Threshold on devself-reported0.388
- Cosine Precision on devself-reported0.996
- Cosine Recall on devself-reported0.995
- Cosine Ap on devself-reported1.000
- Cosine Mcc on devself-reported0.991
- Cosine Accuracy on testself-reported0.995
- Cosine Accuracy Threshold on testself-reported0.387