Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

README.md +2 -2
examples.json +204 -79
tokenizer.json +0 -0

README.md CHANGED Viewed

@@ -16,8 +16,8 @@ A Byte-Pair Encoding (BPE) tokenizer trained on Telugu text data from Wikipedia.
 This tokenizer was trained on Telugu text data collected from Wikipedia articles. It uses Byte-Pair Encoding (BPE) to create subword tokens.
 ## Stats
-- Vocabulary Size: 5000 tokens
-- Compression Ratio: 1.26
 ## Usage

 This tokenizer was trained on Telugu text data collected from Wikipedia articles. It uses Byte-Pair Encoding (BPE) to create subword tokens.
 ## Stats
+- Vocabulary Size: 50000 tokens
+- Compression Ratio: 3.43
 ## Usage

examples.json CHANGED Viewed

@@ -2,98 +2,223 @@
   {
     "text": "నమస్కారం",
     "tokens": [
-      "Ġà°¨à°®",
-      "à°¸",
-      "à±į",
-      "à°ķ",
-      "à°¾",
-      "à°°",
-      "à°Ĥ"
     ],
     "ids": [
-      438,
-      196,
-      177,
-      185,
-      179,
-      180,
-      181
-    ]
   },
   {
     "text": "తెలుగు భాష చాలా అందమైనది",
     "tokens": [
-      "Ġà°¤",
-      "à±Ĩ",
-      "à°²",
-      "à±ģ",
-      "à°Ĺ",
-      "à±ģ",
-      "Ġà°Ń",
-      "à°¾",
-      "à°·",
-      "Ġà°ļ",
-      "à°¾",
-      "à°²",
-      "à°¾",
-      "Ġà°ħ",
-      "à°Ĥ",
-      "à°¦à°®",
-      "à±Ī",
-      "à°¨à°¦",
-      "à°¿"
     ],
     "ids": [
-      230,
-      204,
-      183,
-      182,
-      199,
-      182,
-      254,
-      179,
-      223,
-      225,
-      179,
-      183,
-      179,
-      211,
-      181,
-      946,
-      213,
-      447,
-      178
-    ]
   },
   {
     "text": "భారతదేశం నా దేశం",
     "tokens": [
-      "Ġà°Ń",
-      "à°¾",
-      "à°°à°¤à°¦",
-      "à±ĩ",
-      "à°¶",
-      "à°Ĥ",
-      "Ġà°¨",
-      "à°¾",
-      "Ġà°¦",
-      "à±ĩ",
-      "à°¶",
-      "à°Ĥ"
     ],
     "ids": [
-      254,
-      179,
-      524,
-      195,
-      217,
-      181,
-      206,
-      179,
-      215,
-      195,
-      217,
-      181
-    ]
   }
 ]

   {
     "text": "నమస్కారం",
     "tokens": [
+      "[CLS]",
+      "నమ",
+      "##స్కారం",
+      "[SEP]"
     ],
     "ids": [
+      1,
+      4970,
+      20090,
+      2
+    ],
+    "compression_ratio": 2.0
   },
   {
     "text": "తెలుగు భాష చాలా అందమైనది",
     "tokens": [
+      "[CLS]",
+      "తెలుగు",
+      "భాష",
+      "చాలా",
+      "అందమైన",
+      "##ది",
+      "[SEP]"
     ],
     "ids": [
+      1,
+      1182,
+      1317,
+      1017,
+      7802,
+      265,
+      2
+    ],
+    "compression_ratio": 3.4285714285714284
   },
   {
     "text": "భారతదేశం నా దేశం",
     "tokens": [
+      "[CLS]",
+      "భారతదేశం",
+      "నా",
+      "దేశం",
+      "[SEP]"
+    ],
+    "ids": [
+      1,
+      2617,
+      447,
+      3029,
+      2
+    ],
+    "compression_ratio": 3.2
+  },
+  {
+    "text": "తెలుగు సాహిత్యం చాలా సమృద్ధిగా ఉంది",
+    "tokens": [
+      "[CLS]",
+      "తెలుగు",
+      "సాహిత్యం",
+      "చాలా",
+      "సమృద్ధిగా",
+      "ఉంది",
+      "[SEP]"
     ],
     "ids": [
+      1,
+      1182,
+      4357,
+      1017,
+      14475,
+      783,
+      2
+    ],
+    "compression_ratio": 5.0
+  },
+  {
+    "text": "నేను తెలుగు భాషను ప్రేమిస్తున్నాను",
+    "tokens": [
+      "[CLS]",
+      "నేను",
+      "తెలుగు",
+      "భాషను",
+      "ప్రేమి",
+      "##స్తున్నాను",
+      "[SEP]"
+    ],
+    "ids": [
+      1,
+      1929,
+      1182,
+      11472,
+      7466,
+      27949,
+      2
+    ],
+    "compression_ratio": 4.857142857142857
+  },
+  {
+    "text": "తెలుగు భాష దక్షిణ భారతదేశంలోని ద్రావిడ భాషా కుటుంబానికి చెందిన భాష",
+    "tokens": [
+      "[CLS]",
+      "తెలుగు",
+      "భాష",
+      "దక్షిణ",
+      "భారతదేశంలోని",
+      "ద్రావిడ",
+      "భాషా",
+      "కుటుంబానికి",
+      "చెందిన",
+      "భాష",
+      "[SEP]"
+    ],
+    "ids": [
+      1,
+      1182,
+      1317,
+      1619,
+      2821,
+      9963,
+      3168,
+      5282,
+      704,
+      1317,
+      2
+    ],
+    "compression_ratio": 6.0
+  },
+  {
+    "text": "భారతదేశంలో తెలుగు మాట్లాడే ప్రజల సంఖ్య సుమారు 8 కోట్లు",
+    "tokens": [
+      "[CLS]",
+      "భారతదేశంలో",
+      "తెలుగు",
+      "మాట్లాడే",
+      "ప్రజల",
+      "సంఖ్య",
+      "సుమారు",
+      "[UNK]",
+      "కోట్లు",
+      "[SEP]"
+    ],
+    "ids": [
+      1,
+      2305,
+      1182,
+      5302,
+      2498,
+      375,
+      2207,
+      0,
+      8404,
+      2
+    ],
+    "compression_ratio": 5.4
+  },
+  {
+    "text": "తెలుగు భాష యొక్క చరిత్ర చాలా ప్రాచీనమైనది. ఈ భాష క్రీ.పూ. 1000 సంవత్సరాల నాటి ప్రాచీన తెలుగు లిపి నుండి వికసించింది. తెలుగు భాష యొక్క మొదటి శాసనం క్రీ.శ. 575 నాటిది.",
+    "tokens": [
+      "[CLS]",
+      "తెలుగు",
+      "భాష",
+      "యొక్క",
+      "చరిత్ర",
+      "చాలా",
+      "ప్రాచీన",
+      "##మ���నది.",
+      "ఈ",
+      "భాష",
+      "క్రీ.పూ.",
+      "[UNK]",
+      "సంవత్సరాల",
+      "నాటి",
+      "ప్రాచీన",
+      "తెలుగు",
+      "లిపి",
+      "నుండి",
+      "వికసించింది.",
+      "తెలుగు",
+      "భాష",
+      "యొక్క",
+      "మొదటి",
+      "శాసనం",
+      "క్రీ.శ.",
+      "[UNK]",
+      "నాటిది.",
+      "[SEP]"
+    ],
+    "ids": [
+      1,
+      1182,
+      1317,
+      867,
+      1270,
+      1017,
+      3745,
+      4384,
+      16,
+      1317,
+      8068,
+      0,
+      1524,
+      3164,
+      3745,
+      1182,
+      14101,
+      198,
+      43698,
+      1182,
+      1317,
+      867,
+      932,
+      10531,
+      38147,
+      0,
+      23708,
+      2
+    ],
+    "compression_ratio": 5.892857142857143
   }
 ]

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff