F5-TTS_CHUVASH
Эксперимент по дообучению модели F5-TTS для чувашского языка, основанный на предварительно обученной русскоязычной модели F5-TTS.
О проекте
Данный эксперимент был проведен для проверки возможности дообучения моделей F5-TTS на малоресурсных языке. Для дообучения был выбран чувашский язык, который имеет похожую фонетическую структуру с русским языком.
Методология
- В токенайзер были добавлены специфические символы чувашского алфавита: «ҫ», «ĕ», «ӑ», «ӳ», «ӗ», «Ÿ»
- Для обучения использован набор данных Common Voice на чувашском языке (все файлы из validated.tsv)
- Датасет был дополнительно обработан для унификации представления чувашских символов:
text.replace('ӱ', 'ӳ').replace('ÿ', 'ӳ').replace('ӗ', 'ĕ')
- Проведена фильтрация аудиофайлов по длительности (0.3-30 секунд)
- Итоговый объем данных для обучения - 24.2 часа аудио
- Модель обучалась на 70 эпохах
- Параметры и графики обучения wandb.ai
Результаты
Эксперимент показал возможность успешного дообучения модели на близкородственном языке даже с ограниченным объемом данных (25 часов). Модель частично освоила задачу клонирования голоса на чувашском языке.
Примечание: Для тестирования использовался чекпоинт без загрузки EMA весов, так как 40 000 итераций оказалось недостаточно для cходимотси EMA весов, необходимо большее количество итераций обучения.
Примеры сгенерированной речи
В таблице ниже представлены некоторые примеры генерации речи на чувашском языке без загрузки EMA весов:
Текст для генерации | Prompt | Generation |
---|---|---|
ҫапла хӑтланнишӗн парламент ертӳҫисем «Тӗрӗслӗхшӗн Раҫҫей» парти пайташне депутат этикине пӑснишӗн ӳпкеленӗ теҫҫӗ. | ||
«Чӑваш Ен» кӑларӑм валли Ирина Николаева, Наталья Егорова, Алиса Александрова, Михаил Солин. | ||
Ку вӗрентӳре ҫапла, чӑн пурнӑҫра вара штраф ҫын пурнӑҫӗпе танлашать. |
- Downloads last month
- 30
Model tree for Misha24-10/F5-TTS_CHUVASH
Unable to build the model tree, the base model loops to the model itself. Learn more.