phonemetransformers
/

babble-tokenizers

Model card Files Files and versions Community

codebyzeb commited on 29 days ago

Commit

50c3c1a

·

verified ·

1 Parent(s): 688f317

Update README.md

Files changed (1) hide show

README.md +7 -1

README.md CHANGED Viewed

@@ -13,4 +13,10 @@ This repository contains the eight tokenizers trained for the project, covering
 - Character-based tokenization (`CHAR`) vs. subword tokenization (`BPE`)
 - Tokenizer for phonemic data (`PHON`) vs. orthographic data (`TXT`)
-- Tokenizer removes whitespace (`SPACELESS`) vs. keeps whitespace

 - Character-based tokenization (`CHAR`) vs. subword tokenization (`BPE`)
 - Tokenizer for phonemic data (`PHON`) vs. orthographic data (`TXT`)
+- Tokenizer removes whitespace (`SPACELESS`) vs. keeps whitespace
+To load a tokenizer:
+```python
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained('phonemetransformers/babble-tokenizers', subfolder='BABYLM-TOKENIZER-CHAR-TXT')
+```