tugaa commited on
Commit
61d0445
·
verified ·
1 Parent(s): b3787ef

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +22 -8
README.md CHANGED
@@ -12,14 +12,28 @@
12
  このコードを実行するには、以下のライブラリが必要です。
13
 
14
  ```bash
15
- pip install janome jaconv
 
 
16
 
17
  コードの説明
 
 
 
 
 
 
 
 
 
 
 
18
 
19
- mainapp.py: メインの処理スクリプトです。
20
- extract_hiragana(text): テキストからひらがなを抽出します。
21
- preprocess_text(text): テキストの前処理(改行、空白の正規化、カタカナ変換)を行います。
22
- read_text_with_bom_removal(filepath, encoding='utf-8'): BOM付きの可能性のあるテキストファイルを読み込みます。
23
- output_comparison_data(filename, original_text, preprocessed_text, hiragana_text, output_folder): 比較結果を TSV ファイルとJSONLファイルにに出力します。
24
- process_file(filename, input_folder, output_folder): 個々のテキストファイルを処理します。
25
- load_text_files(folder_path): 指定されたフォルダ内の .txt ファイルのリストを取得します。
 
 
12
  このコードを実行するには、以下のライブラリが必要です。
13
 
14
  ```bash
15
+ pip install -r requirements.txt
16
+ もしくは
17
+ pip install pyopenjtalk PyYAML jaconv janome
18
 
19
  コードの説明
20
+ # pyopenjtalkを使用し、JSONLとLAB形式で出力、比較データも出力
21
+ python your_script_name.py \
22
+ --input_files input1.txt input2.txt \
23
+ --output_folder ./corpus_output \
24
+ --engine pyopenjtalk \
25
+ --output_format jsonl \
26
+ --output_lab \
27
+ --output_comparison \
28
+ --norm_rules normalization_rules.yaml \
29
+ # --jtalk_dic /path/to/open_jtalk_dic (必要なら)
30
+ # --jtalk_user_dic /path/to/user.dic (現在実験的)
31
 
32
+ # Janomeを使用し、TSV形式でひらがな読みを出力
33
+ python your_script_name.py \
34
+ --input_files data/*.txt \
35
+ --output_folder ./corpus_output_janome \
36
+ --engine janome \
37
+ --output_format tsv \
38
+ --reading_format hiragana \
39
+ # --janome_udic /path/to/janome_user.csv (必要なら)