|
--- |
|
{} |
|
--- |
|
このモデルは日本語の音声ツールの読み上げの精度向上を目的とした、 |
|
漢字かな交じり文を、カタカナ、ひらがなに変換するものです。 |
|
出来上がったデータセットは.tsvファイルとして保存されます。 |
|
今のところまだ不完全で、一部の漢字やカタカナが上手くデータになっていないところがあります。 |
|
このコードの改善やデータセットを多く作り、日本音声読み上げの向上につながればと思います。 |
|
|
|
## 依存ライブラリのインストール |
|
|
|
このコードを実行するには、以下のライブラリが必要です。 |
|
|
|
```bash |
|
pip install -r requirements.txt |
|
もしくは |
|
pip install pyopenjtalk PyYAML jaconv janome |
|
|
|
コードの説明 |
|
# pyopenjtalkを使用し、JSONLとLAB形式で出力、比較データも出力 |
|
python your_script_name.py \ |
|
--input_files input1.txt input2.txt \ |
|
--output_folder ./corpus_output \ |
|
--engine pyopenjtalk \ |
|
--output_format jsonl \ |
|
--output_lab \ |
|
--output_comparison \ |
|
--norm_rules normalization_rules.yaml \ |
|
# --jtalk_dic /path/to/open_jtalk_dic (必要なら) |
|
# --jtalk_user_dic /path/to/user.dic (現在実験的) |
|
|
|
# Janomeを使用し、TSV形式でひらがな読みを出力 |
|
python your_script_name.py \ |
|
--input_files data/*.txt \ |
|
--output_folder ./corpus_output_janome \ |
|
--engine janome \ |
|
--output_format tsv \ |
|
--reading_format hiragana \ |
|
# --janome_udic /path/to/janome_user.csv (必要なら) |