IPA CHILDES - a phonemetransformers Collection

phonemetransformers 's Collections

BabyLM's First Words

From Babble to Words

IPA CHILDES

updated Apr 8

The IPA-CHILDES dataset along with the models and tokenizers used for phoneme-based language modeling for the 31 languages in CHILDES.

IPA-CHILDES & G2P+: Feature-Rich Resources for Cross-Lingual Phonology and Phonemic Language Modeling

Paper • 2504.03036 • Published Apr 3
phonemetransformers/IPA-CHILDES

Viewer • Updated Apr 8 • 12.5M • 418 • 2
phonemetransformers/ipa-childes-tokenizers

Updated Apr 8

Note Tokenizers for each of the 31 languages in IPA-CHILDES.
phonemetransformers/ipa-childes-models

Updated Apr 8

Note Models trained on 11 languages in IPA-CHILDES.
phonemetransformers/ipa-childes-english-size-comparison

0.0B • Updated Apr 8 • 45

Note 108 models trained on the EnglishNA portion of IPA-CHILDES to establish scaling behaviours of phoneme LMs.