Saiteja commited on
Commit
7878358
·
verified ·
1 Parent(s): c952f8b

Upload folder using huggingface_hub

Browse files
Files changed (3) hide show
  1. README.md +2 -2
  2. examples.json +204 -79
  3. tokenizer.json +0 -0
README.md CHANGED
@@ -16,8 +16,8 @@ A Byte-Pair Encoding (BPE) tokenizer trained on Telugu text data from Wikipedia.
16
  This tokenizer was trained on Telugu text data collected from Wikipedia articles. It uses Byte-Pair Encoding (BPE) to create subword tokens.
17
 
18
  ## Stats
19
- - Vocabulary Size: 5000 tokens
20
- - Compression Ratio: 1.26
21
 
22
  ## Usage
23
 
 
16
  This tokenizer was trained on Telugu text data collected from Wikipedia articles. It uses Byte-Pair Encoding (BPE) to create subword tokens.
17
 
18
  ## Stats
19
+ - Vocabulary Size: 50000 tokens
20
+ - Compression Ratio: 3.43
21
 
22
  ## Usage
23
 
examples.json CHANGED
@@ -2,98 +2,223 @@
2
  {
3
  "text": "నమస్కారం",
4
  "tokens": [
5
- "Ġనమ",
6
- "à°¸",
7
- "à±į",
8
- "à°ķ",
9
- "à°¾",
10
- "à°°",
11
- "à°Ĥ"
12
  ],
13
  "ids": [
14
- 438,
15
- 196,
16
- 177,
17
- 185,
18
- 179,
19
- 180,
20
- 181
21
- ]
22
  },
23
  {
24
  "text": "తెలుగు భాష చాలా అందమైనది",
25
  "tokens": [
26
- "Ġà°¤",
27
- "à±Ĩ",
28
- "à°²",
29
- "à±ģ",
30
- "à°Ĺ",
31
- "à±ģ",
32
- "Ġà°Ń",
33
- "à°¾",
34
- "à°·",
35
- "Ġà°ļ",
36
- "à°¾",
37
- "à°²",
38
- "à°¾",
39
- "Ġà°ħ",
40
- "à°Ĥ",
41
- "దమ",
42
- "à±Ī",
43
- "నద",
44
- "à°¿"
45
  ],
46
  "ids": [
47
- 230,
48
- 204,
49
- 183,
50
- 182,
51
- 199,
52
- 182,
53
- 254,
54
- 179,
55
- 223,
56
- 225,
57
- 179,
58
- 183,
59
- 179,
60
- 211,
61
- 181,
62
- 946,
63
- 213,
64
- 447,
65
- 178
66
- ]
67
  },
68
  {
69
  "text": "భారతదేశం నా దేశం",
70
  "tokens": [
71
- "Ġà°Ń",
72
- "à°¾",
73
- "రతద",
74
- "à±ĩ",
75
- "à°¶",
76
- "à°Ĥ",
77
- "Ġà°¨",
78
- "à°¾",
79
- "Ġà°¦",
80
- "à±ĩ",
81
- "à°¶",
82
- "à°Ĥ"
 
 
 
 
 
 
 
 
 
 
 
 
 
83
  ],
84
  "ids": [
85
- 254,
86
- 179,
87
- 524,
88
- 195,
89
- 217,
90
- 181,
91
- 206,
92
- 179,
93
- 215,
94
- 195,
95
- 217,
96
- 181
97
- ]
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
98
  }
99
  ]
 
2
  {
3
  "text": "నమస్కారం",
4
  "tokens": [
5
+ "[CLS]",
6
+ "నమ",
7
+ "##స్కారం",
8
+ "[SEP]"
 
 
 
9
  ],
10
  "ids": [
11
+ 1,
12
+ 4970,
13
+ 20090,
14
+ 2
15
+ ],
16
+ "compression_ratio": 2.0
 
 
17
  },
18
  {
19
  "text": "తెలుగు భాష చాలా అందమైనది",
20
  "tokens": [
21
+ "[CLS]",
22
+ "తెలుగు",
23
+ "భాష",
24
+ "చాలా",
25
+ "అందమైన",
26
+ "##ది",
27
+ "[SEP]"
 
 
 
 
 
 
 
 
 
 
 
 
28
  ],
29
  "ids": [
30
+ 1,
31
+ 1182,
32
+ 1317,
33
+ 1017,
34
+ 7802,
35
+ 265,
36
+ 2
37
+ ],
38
+ "compression_ratio": 3.4285714285714284
 
 
 
 
 
 
 
 
 
 
 
39
  },
40
  {
41
  "text": "భారతదేశం నా దేశం",
42
  "tokens": [
43
+ "[CLS]",
44
+ "భారతదేశం",
45
+ "నా",
46
+ "దేశం",
47
+ "[SEP]"
48
+ ],
49
+ "ids": [
50
+ 1,
51
+ 2617,
52
+ 447,
53
+ 3029,
54
+ 2
55
+ ],
56
+ "compression_ratio": 3.2
57
+ },
58
+ {
59
+ "text": "తెలుగు సాహిత్యం చాలా సమృద్ధిగా ఉంది",
60
+ "tokens": [
61
+ "[CLS]",
62
+ "తెలుగు",
63
+ "సాహిత్యం",
64
+ "చాలా",
65
+ "సమృద్ధిగా",
66
+ "ఉంది",
67
+ "[SEP]"
68
  ],
69
  "ids": [
70
+ 1,
71
+ 1182,
72
+ 4357,
73
+ 1017,
74
+ 14475,
75
+ 783,
76
+ 2
77
+ ],
78
+ "compression_ratio": 5.0
79
+ },
80
+ {
81
+ "text": "నేను తెలుగు భాషను ప్రేమిస్తున్నాను",
82
+ "tokens": [
83
+ "[CLS]",
84
+ "నేను",
85
+ "తెలుగు",
86
+ "భాషను",
87
+ "ప్రేమి",
88
+ "##స్తున్నాను",
89
+ "[SEP]"
90
+ ],
91
+ "ids": [
92
+ 1,
93
+ 1929,
94
+ 1182,
95
+ 11472,
96
+ 7466,
97
+ 27949,
98
+ 2
99
+ ],
100
+ "compression_ratio": 4.857142857142857
101
+ },
102
+ {
103
+ "text": "తెలుగు భాష దక్షిణ భారతదేశంలోని ద్రావిడ భాషా కుటుంబానికి చెందిన భాష",
104
+ "tokens": [
105
+ "[CLS]",
106
+ "తెలుగు",
107
+ "భాష",
108
+ "దక్షిణ",
109
+ "భారతదేశంలోని",
110
+ "ద్రావిడ",
111
+ "భాషా",
112
+ "కుటుంబానికి",
113
+ "చెందిన",
114
+ "భాష",
115
+ "[SEP]"
116
+ ],
117
+ "ids": [
118
+ 1,
119
+ 1182,
120
+ 1317,
121
+ 1619,
122
+ 2821,
123
+ 9963,
124
+ 3168,
125
+ 5282,
126
+ 704,
127
+ 1317,
128
+ 2
129
+ ],
130
+ "compression_ratio": 6.0
131
+ },
132
+ {
133
+ "text": "భారతదేశంలో తెలుగు మాట్లాడే ప్రజల సంఖ్య సుమారు 8 కోట్లు",
134
+ "tokens": [
135
+ "[CLS]",
136
+ "భారతదేశంలో",
137
+ "తెలుగు",
138
+ "మాట్లాడే",
139
+ "ప్రజల",
140
+ "సంఖ్య",
141
+ "సుమారు",
142
+ "[UNK]",
143
+ "కోట్లు",
144
+ "[SEP]"
145
+ ],
146
+ "ids": [
147
+ 1,
148
+ 2305,
149
+ 1182,
150
+ 5302,
151
+ 2498,
152
+ 375,
153
+ 2207,
154
+ 0,
155
+ 8404,
156
+ 2
157
+ ],
158
+ "compression_ratio": 5.4
159
+ },
160
+ {
161
+ "text": "తెలుగు భాష యొక్క చరిత్ర చాలా ప్రాచీనమైనది. ఈ భాష క్రీ.పూ. 1000 సంవత్సరాల నాటి ప్రాచీన తెలుగు లిపి నుండి వికసించింది. తెలుగు భాష యొక్క మొదటి శాసనం క్రీ.శ. 575 నాటిది.",
162
+ "tokens": [
163
+ "[CLS]",
164
+ "తెలుగు",
165
+ "భాష",
166
+ "యొక్క",
167
+ "చరిత్ర",
168
+ "చాలా",
169
+ "ప్రాచీన",
170
+ "##మ���నది.",
171
+ "ఈ",
172
+ "భాష",
173
+ "క్రీ.పూ.",
174
+ "[UNK]",
175
+ "సంవత్సరాల",
176
+ "నాటి",
177
+ "ప్రాచీన",
178
+ "తెలుగు",
179
+ "లిపి",
180
+ "నుండి",
181
+ "వికసించింది.",
182
+ "తెలుగు",
183
+ "భాష",
184
+ "యొక్క",
185
+ "మొదటి",
186
+ "శాసనం",
187
+ "క్రీ.శ.",
188
+ "[UNK]",
189
+ "నాటిది.",
190
+ "[SEP]"
191
+ ],
192
+ "ids": [
193
+ 1,
194
+ 1182,
195
+ 1317,
196
+ 867,
197
+ 1270,
198
+ 1017,
199
+ 3745,
200
+ 4384,
201
+ 16,
202
+ 1317,
203
+ 8068,
204
+ 0,
205
+ 1524,
206
+ 3164,
207
+ 3745,
208
+ 1182,
209
+ 14101,
210
+ 198,
211
+ 43698,
212
+ 1182,
213
+ 1317,
214
+ 867,
215
+ 932,
216
+ 10531,
217
+ 38147,
218
+ 0,
219
+ 23708,
220
+ 2
221
+ ],
222
+ "compression_ratio": 5.892857142857143
223
  }
224
  ]
tokenizer.json CHANGED
The diff for this file is too large to render. See raw diff