japanese-hubert-base-phoneme-ctc-v3

rinna/japanese-hubert-base を CTC での日本語音素認識にファインチューニングしたモデルです。

v2 からの変更点

漢字仮名交じりの書き起こしに対して MeCab (fugashi) で N-best を出力し、それぞれに対して pyopenjtalk-plus による後処理を行った後、読みに対して前バージョンのモデルで計算した CTC loss と MeCab のコストとの重み付き和が最小となるものを正解ラベルとして扱う
学習データから除外する文の条件を次のように変更
- 「9人」「９人」「九人」「今シーズン」「今大会」のいずれかが含まれた文は学習データから除外
- 「十」「0」「０」のいずれかが含まれた文のうち、pyopenjtalk-plus で推定された発音に「ジュッ」が含まれるものは学習データから除外 (v2 から継続)
- 「日本」「方」「明日」の除外は実施しない (v2 から変更)
音素「ty」を追加

その他の条件は v2 と同じです。

Safetensors

Model size

94.4M params

Tensor type

F32

Base model

Finetuned

(50)

this model