Chất lượng output

#6
by dotoan159 - opened

Cho mình hỏi tại sao khi chạy trên Space có chất lượng khá tốt, phát âm ổn mà khi chạy local thì nghe có từ được từ mất vậy.
Mình cảm ơn !

  1. Bạn convert cả ref text và gen text về lower giúp mình nhé
  2. Do trên space mình đã cập nhật chuẩn hoá text qua thư viện vinorm nên dấu câu với các ký tự số về cơ bản sẽ đọc chuẩn.
  3. Để tối mình sẽ cập nhật lại git

Mình thấy vinorm chỉ chạy được trên linux thôi, local trên win lỗi ngay, chạy trên space của bạn các dấu câu . , không bị đọc, trên local bị đọc (phát ra âm thanh um ờ) dù đã ref text và gen text về lower mình không biết là do model không nữa

This comment has been hidden

Tiền xử lý sau vinorm

     def post_process(text):
         text = " " + text + " "
         text = text.replace(" . . ", " . ")
         text = " " + text + " "
         text = text.replace(" .. ", " . ")
         text = " " + text + " "
         text = text.replace(" , , ", " , ")
         text = " " + text + " "
         text = text.replace(" ,, ", " , ")
         text = " " + text + " "
         text = text.replace('"', "")
         return " ".join(text.split())

Infer model

    final_wave, final_sample_rate, spectrogram = infer_process(
         ref_audio, ref_text.lower(), post_process(TTSnorm(gen_text)).lower(), model, vocoder, speed=speed
    )

@dangvancuong Trên Windows bạn có thể dùng vi_cleaner (https://github.com/CodeLinkIO/Vietnamese-text-normalization). Tuy cái này không hoàn chỉnh bằng vinorm nhưng thêm code vào khá dễ để bổ sung những cái còn thiếu cần được chuẩn hóa.

Anh em làm một cái text norm perfect luôn đi :)))

Cảm ơn! mong anh zai sớm cập nhật...thanks

Your need to confirm your account before you can post a new comment.

Sign up or log in to comment