Safetensors
Japanese
xlm-roberta
hotchpotch commited on
Commit
a54bbe1
·
verified ·
1 Parent(s): 92c0372

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +10 -2
README.md CHANGED
@@ -41,13 +41,21 @@ Webから取得した日本語文章には、特有のボイラープレート
41
  [NOISE]前のページ[/NOISE] [NOISE]次のページ[/NOISE]
42
  ```
43
 
44
- ## 学習
 
 
 
 
 
 
 
 
45
 
46
  ノイズ判定の教師データは[fineweb-2-japanese-noise-spans](https://huggingface.co/datasets/hotchpotch/fineweb-2-japanese-noise-spans)を使っています。このデータセットの作成には、[cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese](https://huggingface.co/cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese)を利用しました。
47
 
48
  また、ノイズがない正解データとして、日本語wikipediaのパラグラフ[hpprc/jawiki-paragraphs](https://huggingface.co/datasets/hpprc/jawiki-paragraphs)から20万件ランダムサンプリングしたデータを利用しています。
49
 
50
- これらを、この⭐️スクリプトを元に学習しています。
51
 
52
  ## ⚠️注意
53
 
 
41
  [NOISE]前のページ[/NOISE] [NOISE]次のページ[/NOISE]
42
  ```
43
 
44
+ ## ノイズ判定のスクリプト例
45
+
46
+ 以下を参照ください
47
+
48
+ - https://huggingface.co/hotchpotch/fineweb-2-japanese-text-cleaner/blob/main/scripts/noise_detecter.py
49
+
50
+
51
+
52
+ ## 学習方法
53
 
54
  ノイズ判定の教師データは[fineweb-2-japanese-noise-spans](https://huggingface.co/datasets/hotchpotch/fineweb-2-japanese-noise-spans)を使っています。このデータセットの作成には、[cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese](https://huggingface.co/cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese)を利用しました。
55
 
56
  また、ノイズがない正解データとして、日本語wikipediaのパラグラフ[hpprc/jawiki-paragraphs](https://huggingface.co/datasets/hpprc/jawiki-paragraphs)から20万件ランダムサンプリングしたデータを利用しています。
57
 
58
+ これらを、[このスクリプト](https://huggingface.co/hotchpotch/fineweb-2-japanese-text-cleaner/blob/main/scripts/trainer-fineweb-2-japanese-text-cleaner.py)で学習しています。
59
 
60
  ## ⚠️注意
61