abdulhade
/

KuBERT

feature-extraction

Inference Endpoints

Model card Files Files and versions Community

KuBERT / special_tokens_map.json

abdulhade's picture

Upload tokenizer

2b9f6dd verified 4 months ago

history blame contribute delete

3.35 kB

	{
	"additional_special_tokens": [
	"<\|endoftext\|>",
	"<\|startoftranscript\|>",
	"<\|¡\|>",
	"<\|¢\|>",
	"<\|£\|>",
	"<\|¤\|>",
	"<\|¥\|>",
	"<\|¦\|>",
	"<\|§\|>",
	"<\|¨\|>",
	"<\|©\|>",
	"<\|ª\|>",
	"<\|«\|>",
	"<\|¬\|>",
	"<\|®\|>",
	"<\|¯\|>",
	"<\|°\|>",
	"<\|±\|>",
	"<\|²\|>",
	"<\|³\|>",
	"<\|´\|>",
	"<\|µ\|>",
	"<\|¶\|>",
	"<\|·\|>",
	"<\|¸\|>",
	"<\|¹\|>",
	"<\|º\|>",
	"<\|»\|>",
	"<\|¼\|>",
	"<\|½\|>",
	"<\|¾\|>",
	"<\|¿\|>",
	"<\|À\|>",
	"<\|Á\|>",
	"<\|Â\|>",
	"<\|Ã\|>",
	"<\|Ä\|>",
	"<\|Å\|>",
	"<\|Æ\|>",
	"<\|Ç\|>",
	"<\|È\|>",
	"<\|É\|>",
	"<\|Ê\|>",
	"<\|Ë\|>",
	"<\|Ì\|>",
	"<\|Í\|>",
	"<\|Î\|>",
	"<\|Ï\|>",
	"<\|Ð\|>",
	"<\|Ñ\|>",
	"<\|Ò\|>",
	"<\|Ó\|>",
	"<\|Ô\|>",
	"<\|Õ\|>",
	"<\|Ö\|>",
	"<\|×\|>",
	"<\|Ø\|>",
	"<\|Ù\|>",
	"<\|Ú\|>",
	"<\|Û\|>",
	"<\|Ü\|>",
	"<\|Ý\|>",
	"<\|Þ\|>",
	"<\|ß\|>",
	"<\|à\|>",
	"<\|á\|>",
	"<\|â\|>",
	"<\|ã\|>",
	"<\|ä\|>",
	"<\|å\|>",
	"<\|æ\|>",
	"<\|ç\|>",
	"<\|è\|>",
	"<\|é\|>",
	"<\|ê\|>",
	"<\|ë\|>",
	"<\|ì\|>",
	"<\|í\|>",
	"<\|î\|>",
	"<\|ï\|>",
	"<\|ð\|>",
	"<\|ñ\|>",
	"<\|ò\|>",
	"<\|ó\|>",
	"<\|ô\|>",
	"<\|õ\|>",
	"<\|ö\|>",
	"<\|÷\|>",
	"<\|ø\|>",
	"<\|ù\|>",
	"<\|ú\|>",
	"<\|û\|>",
	"<\|ü\|>",
	"<\|ý\|>",
	"<\|þ\|>",
	"<\|ÿ\|>",
	"<\|Ā\|>",
	"<\|ā\|>",
	"<\|Ă\|>",
	"<\|ă\|>",
	"<\|Ą\|>",
	"<\|ą\|>",
	"<\|Ć\|>",
	"<\|ć\|>",
	"<\|Ĉ\|>",
	"<\|ĉ\|>",
	"<\|Ċ\|>",
	"<\|ċ\|>",
	"<\|Č\|>",
	"<\|č\|>",
	"<\|Ď\|>",
	"<\|ď\|>",
	"<\|Đ\|>",
	"<\|đ\|>",
	"<\|Ē\|>",
	"<\|ē\|>",
	"<\|Ĕ\|>",
	"<\|ĕ\|>",
	"<\|Ė\|>",
	"<\|ė\|>",
	"<\|Ę\|>",
	"<\|ę\|>",
	"<\|Ě\|>",
	"<\|ě\|>",
	"<\|Ĝ\|>",
	"<\|ĝ\|>",
	"<\|Ğ\|>",
	"<\|ğ\|>",
	"<\|Ġ\|>",
	"<\|ġ\|>",
	"<\|Ģ\|>",
	"<\|ģ\|>",
	"<\|Ĥ\|>",
	"<\|ĥ\|>",
	"<\|Ħ\|>",
	"<\|ħ\|>",
	"<\|Ĩ\|>",
	"<\|ĩ\|>",
	"<\|Ī\|>",
	"<\|ī\|>",
	"<\|Ĭ\|>",
	"<\|ĭ\|>",
	"<\|Į\|>",
	"<\|į\|>",
	"<\|İ\|>",
	"<\|ı\|>",
	"<\|Ĳ\|>",
	"<\|ĳ\|>",
	"<\|Ĵ\|>",
	"<\|ĵ\|>",
	"<\|Ķ\|>",
	"<\|ķ\|>",
	"<\|ĸ\|>",
	"<\|Ĺ\|>",
	"<\|ĺ\|>",
	"<\|Ļ\|>",
	"<\|ļ\|>",
	"<\|Ľ\|>",
	"<\|ľ\|>",
	"<\|Ŀ\|>",
	"<\|ŀ\|>",
	"<\|Ł\|>",
	"<\|ł\|>",
	"<\|Ń\|>",
	"<\|Ûķ\|>",
	"<\|ÛĮ\|>",
	"<\|Ø§\|>",
	"<\|ĠØ\|>",
	"<\|ÙĪ\|>",
	"<\|ÙĨ\|>",
	"<\|Ø±\|>",
	"<\|Ú©\|>",
	"<\|ĠÙ\|>",
	"<\|Øª\|>",
	"<\|Ø§ÙĨ\|>",
	"<\|Ûİ\|>",
	"<\|Ø¯\|>",
	"<\|Ùħ\|>",
	"<\|ĠØ¨\|>",
	"<\|ÛĨ\|>",
	"<\|Ø³\|>",
	"<\|translate\|>",
	"<\|transcribe\|>",
	"<\|startoflm\|>",
	"<\|startofprev\|>",
	"<\|nocaptions\|>",
	"<\|notimestamps\|>"
	],
	"bos_token": {
	"content": "<\|endoftext\|>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false
	},
	"eos_token": {
	"content": "<\|endoftext\|>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false
	},
	"pad_token": {
	"content": "<\|endoftext\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	"unk_token": {
	"content": "<\|endoftext\|>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false
	}
	}