Quality training
#1
by
dennythekid
- opened
Mình thắc mắc chút, dù đã extend vocab, chuẩn hoá tập dataset thì khi training đến khoản 64k steps giọng đọc vẫn như giọng Lào/Thái. Trường hợp của bạn đến khoảng bao nhiêu steps thì có thể hình thạnh giọng Vietnam vậy? Cám ơn.
- Bạn extend vocab => đã extend pretrained embedding chưa ?
- 64k steps của bạn training với batch_size là bao nhiêu ?, GPU gì ?
- Model hiện tại của mình đến khoảng 40k steps đã có thể hình thành giọng Tiếng Việt, batch_size=3200
- Mình extend pretrained embedding rồi.
- Batch size 1600, lớn hơn luôn bị OOM, GPU 4090 train với 1 card. Mình có 8 card nhưng không biết cách chạy song song :v
- Bạn chạy được bao nhiêu epoch vậy?
Mình thắc mắc thêm
- vocab bạn đang dùng là word level hay char level, ['x', 'i', 'n', 'c', 'h', 'à', 'o'] hay ['xin', 'chào']
- learning rate bạn đang set là bao nhiêu?
Cám ơn
- Char level, sử dụng tokenizer mặc định của pretrained, bạn tham khảo thêm hàm convert_char_to_pinyin trong src/f5_tts/model/utils.py
- 1e-5, bạn có thể tham khảo trong git của mình nhé: https://github.com/nguyenthienhy/F5-TTS-Vietnamese
- Mình extend pretrained embedding rồi.
- Batch size 1600, lớn hơn luôn bị OOM, GPU 4090 train với 1 card. Mình có 8 card nhưng không biết cách chạy song song :v
- Bạn chạy được bao nhiêu epoch vậy?
=> Train song song thì đơn giản bro thêm dòng accelerate launch vào trước lệnh python, setup thông số khi chạy accelerate launch thì search google nhé :v
=> Như này chắc chắn bạn config sai ở đâu đó hoặc data của bạn quá lớn :v