Huseyin commited on
Commit
df60fda
·
verified ·
1 Parent(s): bd213f8

Upload turkce_tokenizer_config.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. turkce_tokenizer_config.json +185 -0
turkce_tokenizer_config.json ADDED
@@ -0,0 +1,185 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "isim": "TurkceQwen3Tokenizer",
4
+ "versiyon": "1.0",
5
+ "tarih": "2025-09-06 14:38:19",
6
+ "base_model": "Qwen/Qwen3-8B",
7
+ "vocab_size": 151936,
8
+ "ozel_token_sayisi": 293,
9
+ "kök_kelime_sayisi": 4996,
10
+ "morfolojik_destek": true
11
+ },
12
+ "kok_kelime_ornekleri": [
13
+ "abla",
14
+ "aile100",
15
+ "aile101",
16
+ "aile102",
17
+ "aile103",
18
+ "aile104",
19
+ "aile105",
20
+ "aile106",
21
+ "aile107",
22
+ "aile108",
23
+ "aile109",
24
+ "aile110",
25
+ "aile111",
26
+ "aile112",
27
+ "aile113",
28
+ "aile114",
29
+ "aile115",
30
+ "aile116",
31
+ "aile117",
32
+ "aile118",
33
+ "aile119",
34
+ "aile120",
35
+ "aile121",
36
+ "aile122",
37
+ "aile123",
38
+ "aile124",
39
+ "aile125",
40
+ "aile126",
41
+ "aile127",
42
+ "aile128",
43
+ "aile129",
44
+ "aile130",
45
+ "aile131",
46
+ "aile132",
47
+ "aile133",
48
+ "aile134",
49
+ "aile135",
50
+ "aile136",
51
+ "aile137",
52
+ "aile138",
53
+ "aile139",
54
+ "aile140",
55
+ "aile141",
56
+ "aile142",
57
+ "aile143",
58
+ "aile144",
59
+ "aile145",
60
+ "aile146",
61
+ "aile147",
62
+ "aile148",
63
+ "aile149",
64
+ "akciğer",
65
+ "akşam",
66
+ "al",
67
+ "amca",
68
+ "anne",
69
+ "antrenör",
70
+ "araba",
71
+ "armut",
72
+ "asker",
73
+ "aslan",
74
+ "at",
75
+ "atkı",
76
+ "ay",
77
+ "ayak",
78
+ "ayakkabı",
79
+ "ayran",
80
+ "ayı",
81
+ "ağabey",
82
+ "ağaç",
83
+ "ağır",
84
+ "ağız",
85
+ "aşçı",
86
+ "baba",
87
+ "bacak",
88
+ "bahçe",
89
+ "bal",
90
+ "balon",
91
+ "balık",
92
+ "basketbol",
93
+ "baş",
94
+ "berber",
95
+ "beyaz",
96
+ "beyin",
97
+ "bilgisayar",
98
+ "bin",
99
+ "bisiklet",
100
+ "bitki100",
101
+ "bitki101",
102
+ "bitki102",
103
+ "bitki103",
104
+ "bitki104",
105
+ "bitki105",
106
+ "bitki106",
107
+ "bitki107",
108
+ "bitki108",
109
+ "bitki109",
110
+ "bitki110",
111
+ "bitki111",
112
+ "bitki112"
113
+ ],
114
+ "ek_tanimlari": {
115
+ "isim_hal_ekleri": [
116
+ "de",
117
+ "da",
118
+ "den",
119
+ "dan",
120
+ "e",
121
+ "a",
122
+ "i",
123
+ "ı",
124
+ "in",
125
+ "ın",
126
+ "le",
127
+ "la"
128
+ ],
129
+ "iyelik_ekleri": [
130
+ "im",
131
+ "ım",
132
+ "in",
133
+ "ın",
134
+ "i",
135
+ "ı",
136
+ "imiz",
137
+ "ımız",
138
+ "iniz",
139
+ "ınız"
140
+ ],
141
+ "cogul_ekleri": [
142
+ "ler",
143
+ "lar"
144
+ ],
145
+ "fiil_zaman_ekleri": [
146
+ "yor",
147
+ "iyor",
148
+ "ar",
149
+ "er",
150
+ "ir",
151
+ "ır",
152
+ "acak",
153
+ "ecek",
154
+ "di",
155
+ "dı",
156
+ "miş",
157
+ "mış"
158
+ ],
159
+ "fiil_kip_ekleri": [
160
+ "abil",
161
+ "ebil",
162
+ "ma",
163
+ "me",
164
+ "malı",
165
+ "meli"
166
+ ]
167
+ },
168
+ "ozel_tokenlar": {
169
+ "<|endoftext|>": 151643,
170
+ "<|im_start|>": 151644,
171
+ "<|im_end|>": 151645,
172
+ "<PAD>": 151646,
173
+ "<UNK>": 151647,
174
+ "<BOS>": 151648,
175
+ "<EOS>": 151649,
176
+ "<MASK>": 151650,
177
+ "<think>": 151667,
178
+ "</think>": 151668
179
+ },
180
+ "istatistikler": {
181
+ "toplam_kok": 4996,
182
+ "toplam_ek": 42,
183
+ "toplam_ozel_token": 10
184
+ }
185
+ }