Quality training

by dennythekid - opened Mar 24

Mar 24

Mình thắc mắc chút, dù đã extend vocab, chuẩn hoá tập dataset thì khi training đến khoản 64k steps giọng đọc vẫn như giọng Lào/Thái. Trường hợp của bạn đến khoảng bao nhiêu steps thì có thể hình thạnh giọng Vietnam vậy? Cám ơn.

hynt

Owner Mar 24

Bạn extend vocab => đã extend pretrained embedding chưa ?
64k steps của bạn training với batch_size là bao nhiêu ?, GPU gì ?
Model hiện tại của mình đến khoảng 40k steps đã có thể hình thành giọng Tiếng Việt, batch_size=3200

dennythekid

Mar 25

Mình extend pretrained embedding rồi.
Batch size 1600, lớn hơn luôn bị OOM, GPU 4090 train với 1 card. Mình có 8 card nhưng không biết cách chạy song song :v
Bạn chạy được bao nhiêu epoch vậy?

dennythekid

Mar 25

Mình thắc mắc thêm

vocab bạn đang dùng là word level hay char level, ['x', 'i', 'n', 'c', 'h', 'à', 'o'] hay ['xin', 'chào']
learning rate bạn đang set là bao nhiêu?

Cám ơn

hynt

Owner Mar 25

Char level, sử dụng tokenizer mặc định của pretrained, bạn tham khảo thêm hàm convert_char_to_pinyin trong src/f5_tts/model/utils.py
1e-5, bạn có thể tham khảo trong git của mình nhé: https://github.com/nguyenthienhy/F5-TTS-Vietnamese

hynt

Owner Mar 25

Mình extend pretrained embedding rồi.

Batch size 1600, lớn hơn luôn bị OOM, GPU 4090 train với 1 card. Mình có 8 card nhưng không biết cách chạy song song :v

Bạn chạy được bao nhiêu epoch vậy?
=> Train song song thì đơn giản bro thêm dòng accelerate launch vào trước lệnh python, setup thông số khi chạy accelerate launch thì search google nhé :v
=> Như này chắc chắn bạn config sai ở đâu đó hoặc data của bạn quá lớn :v

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

Your need to confirm your account before you can post a new comment.

· Sign up or log in to comment