KuBERT / special_tokens_map.json
abdulhade's picture
Upload tokenizer
2b9f6dd verified
{
"additional_special_tokens": [
"<|endoftext|>",
"<|startoftranscript|>",
"<|¡|>",
"<|¢|>",
"<|£|>",
"<|¤|>",
"<|¥|>",
"<|¦|>",
"<|§|>",
"<|¨|>",
"<|©|>",
"<|ª|>",
"<|«|>",
"<|¬|>",
"<|®|>",
"<|¯|>",
"<|°|>",
"<|±|>",
"<|²|>",
"<|³|>",
"<|´|>",
"<|µ|>",
"<|¶|>",
"<|·|>",
"<|¸|>",
"<|¹|>",
"<|º|>",
"<|»|>",
"<|¼|>",
"<|½|>",
"<|¾|>",
"<|¿|>",
"<|À|>",
"<|Á|>",
"<|Â|>",
"<|Ã|>",
"<|Ä|>",
"<|Å|>",
"<|Æ|>",
"<|Ç|>",
"<|È|>",
"<|É|>",
"<|Ê|>",
"<|Ë|>",
"<|Ì|>",
"<|Í|>",
"<|Î|>",
"<|Ï|>",
"<|Ð|>",
"<|Ñ|>",
"<|Ò|>",
"<|Ó|>",
"<|Ô|>",
"<|Õ|>",
"<|Ö|>",
"<|×|>",
"<|Ø|>",
"<|Ù|>",
"<|Ú|>",
"<|Û|>",
"<|Ü|>",
"<|Ý|>",
"<|Þ|>",
"<|ß|>",
"<|à|>",
"<|á|>",
"<|â|>",
"<|ã|>",
"<|ä|>",
"<|å|>",
"<|æ|>",
"<|ç|>",
"<|è|>",
"<|é|>",
"<|ê|>",
"<|ë|>",
"<|ì|>",
"<|í|>",
"<|î|>",
"<|ï|>",
"<|ð|>",
"<|ñ|>",
"<|ò|>",
"<|ó|>",
"<|ô|>",
"<|õ|>",
"<|ö|>",
"<|÷|>",
"<|ø|>",
"<|ù|>",
"<|ú|>",
"<|û|>",
"<|ü|>",
"<|ý|>",
"<|þ|>",
"<|ÿ|>",
"<|Ā|>",
"<|ā|>",
"<|Ă|>",
"<|ă|>",
"<|Ą|>",
"<|ą|>",
"<|Ć|>",
"<|ć|>",
"<|Ĉ|>",
"<|ĉ|>",
"<|Ċ|>",
"<|ċ|>",
"<|Č|>",
"<|č|>",
"<|Ď|>",
"<|ď|>",
"<|Đ|>",
"<|đ|>",
"<|Ē|>",
"<|ē|>",
"<|Ĕ|>",
"<|ĕ|>",
"<|Ė|>",
"<|ė|>",
"<|Ę|>",
"<|ę|>",
"<|Ě|>",
"<|ě|>",
"<|Ĝ|>",
"<|ĝ|>",
"<|Ğ|>",
"<|ğ|>",
"<|Ġ|>",
"<|ġ|>",
"<|Ģ|>",
"<|ģ|>",
"<|Ĥ|>",
"<|ĥ|>",
"<|Ħ|>",
"<|ħ|>",
"<|Ĩ|>",
"<|ĩ|>",
"<|Ī|>",
"<|ī|>",
"<|Ĭ|>",
"<|ĭ|>",
"<|Į|>",
"<|į|>",
"<|İ|>",
"<|ı|>",
"<|IJ|>",
"<|ij|>",
"<|Ĵ|>",
"<|ĵ|>",
"<|Ķ|>",
"<|ķ|>",
"<|ĸ|>",
"<|Ĺ|>",
"<|ĺ|>",
"<|Ļ|>",
"<|ļ|>",
"<|Ľ|>",
"<|ľ|>",
"<|Ŀ|>",
"<|ŀ|>",
"<|Ł|>",
"<|ł|>",
"<|Ń|>",
"<|Ûķ|>",
"<|ÛĮ|>",
"<|ا|>",
"<|ĠØ|>",
"<|ÙĪ|>",
"<|ÙĨ|>",
"<|ر|>",
"<|Ú©|>",
"<|ĠÙ|>",
"<|ت|>",
"<|اÙĨ|>",
"<|Ûİ|>",
"<|د|>",
"<|Ùħ|>",
"<|Ġب|>",
"<|ÛĨ|>",
"<|س|>",
"<|translate|>",
"<|transcribe|>",
"<|startoflm|>",
"<|startofprev|>",
"<|nocaptions|>",
"<|notimestamps|>"
],
"bos_token": {
"content": "<|endoftext|>",
"lstrip": false,
"normalized": true,
"rstrip": false,
"single_word": false
},
"eos_token": {
"content": "<|endoftext|>",
"lstrip": false,
"normalized": true,
"rstrip": false,
"single_word": false
},
"pad_token": {
"content": "<|endoftext|>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"unk_token": {
"content": "<|endoftext|>",
"lstrip": false,
"normalized": true,
"rstrip": false,
"single_word": false
}
}