File size: 1,559 Bytes
ee1dc56
 
 
c78834d
 
 
 
 
 
 
 
 
 
 
61d0445
 
 
c78834d
 
61d0445
 
 
 
 
 
 
 
 
 
 
c78834d
61d0445
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
---
{}
---
このモデルは日本語の音声ツールの読み上げの精度向上を目的とした、
漢字かな交じり文を、カタカナ、ひらがなに変換するものです。
出来上がったデータセットは.tsvファイルとして保存されます。
今のところまだ不完全で、一部の漢字やカタカナが上手くデータになっていないところがあります。
このコードの改善やデータセットを多く作り、日本音声読み上げの向上につながればと思います。

## 依存ライブラリのインストール

このコードを実行するには、以下のライブラリが必要です。

```bash
pip install -r requirements.txt
もしくは
pip install pyopenjtalk PyYAML jaconv janome

コードの説明
# pyopenjtalkを使用し、JSONLとLAB形式で出力、比較データも出力
python your_script_name.py \
    --input_files input1.txt input2.txt \
    --output_folder ./corpus_output \
    --engine pyopenjtalk \
    --output_format jsonl \
    --output_lab \
    --output_comparison \
    --norm_rules normalization_rules.yaml \
    # --jtalk_dic /path/to/open_jtalk_dic (必要なら)
    # --jtalk_user_dic /path/to/user.dic (現在実験的)

# Janomeを使用し、TSV形式でひらがな読みを出力
python your_script_name.py \
    --input_files data/*.txt \
    --output_folder ./corpus_output_janome \
    --engine janome \
    --output_format tsv \
    --reading_format hiragana \
    # --janome_udic /path/to/janome_user.csv (必要なら)