Speech Enhancement Model

Architecture: Lightweight feedforward network inserted into mHuBERT-147
Target Layer: Layer 6
Hidden Dimension: 768

このモデルは日本語と英語で小規模に学習された音声復元モデルです。 SSLモデルとしてmHuBERT-147を用い、VocoderとしてHiFi-GANを用いました。 HiFi-GANに関してはssl-vocoderの実装を使って学習しました。

このモデルはMiipher-2の再現を目指して実装されましたが、学習の規模も使用している事前学習済みモデルも大きく異なります。ノイズの除去は上手く動きますが、話者性が大きく変動するモデルとなっています。また、計算資源の都合で学習も十分に行えていません。 Miipher-1の再現実装であるWataru-Nakata/miipherとの比較評価結果を載せているので参考にしてください。