turkce-qwen3-tokenizer / turkce_tokenizer_config.json
Huseyin's picture
Upload turkce_tokenizer_config.json with huggingface_hub
df60fda verified
{
"config": {
"isim": "TurkceQwen3Tokenizer",
"versiyon": "1.0",
"tarih": "2025-09-06 14:38:19",
"base_model": "Qwen/Qwen3-8B",
"vocab_size": 151936,
"ozel_token_sayisi": 293,
"kök_kelime_sayisi": 4996,
"morfolojik_destek": true
},
"kok_kelime_ornekleri": [
"abla",
"aile100",
"aile101",
"aile102",
"aile103",
"aile104",
"aile105",
"aile106",
"aile107",
"aile108",
"aile109",
"aile110",
"aile111",
"aile112",
"aile113",
"aile114",
"aile115",
"aile116",
"aile117",
"aile118",
"aile119",
"aile120",
"aile121",
"aile122",
"aile123",
"aile124",
"aile125",
"aile126",
"aile127",
"aile128",
"aile129",
"aile130",
"aile131",
"aile132",
"aile133",
"aile134",
"aile135",
"aile136",
"aile137",
"aile138",
"aile139",
"aile140",
"aile141",
"aile142",
"aile143",
"aile144",
"aile145",
"aile146",
"aile147",
"aile148",
"aile149",
"akciğer",
"akşam",
"al",
"amca",
"anne",
"antrenör",
"araba",
"armut",
"asker",
"aslan",
"at",
"atkı",
"ay",
"ayak",
"ayakkabı",
"ayran",
"ayı",
"ağabey",
"ağaç",
"ağır",
"ağız",
"aşçı",
"baba",
"bacak",
"bahçe",
"bal",
"balon",
"balık",
"basketbol",
"baş",
"berber",
"beyaz",
"beyin",
"bilgisayar",
"bin",
"bisiklet",
"bitki100",
"bitki101",
"bitki102",
"bitki103",
"bitki104",
"bitki105",
"bitki106",
"bitki107",
"bitki108",
"bitki109",
"bitki110",
"bitki111",
"bitki112"
],
"ek_tanimlari": {
"isim_hal_ekleri": [
"de",
"da",
"den",
"dan",
"e",
"a",
"i",
"ı",
"in",
"ın",
"le",
"la"
],
"iyelik_ekleri": [
"im",
"ım",
"in",
"ın",
"i",
"ı",
"imiz",
"ımız",
"iniz",
"ınız"
],
"cogul_ekleri": [
"ler",
"lar"
],
"fiil_zaman_ekleri": [
"yor",
"iyor",
"ar",
"er",
"ir",
"ır",
"acak",
"ecek",
"di",
"dı",
"miş",
"mış"
],
"fiil_kip_ekleri": [
"abil",
"ebil",
"ma",
"me",
"malı",
"meli"
]
},
"ozel_tokenlar": {
"<|endoftext|>": 151643,
"<|im_start|>": 151644,
"<|im_end|>": 151645,
"<PAD>": 151646,
"<UNK>": 151647,
"<BOS>": 151648,
"<EOS>": 151649,
"<MASK>": 151650,
"<think>": 151667,
"</think>": 151668
},
"istatistikler": {
"toplam_kok": 4996,
"toplam_ek": 42,
"toplam_ozel_token": 10
}
}