Update README.md
Browse files
README.md
CHANGED
@@ -41,13 +41,21 @@ Webから取得した日本語文章には、特有のボイラープレート
|
|
41 |
[NOISE]前のページ[/NOISE] [NOISE]次のページ[/NOISE]
|
42 |
```
|
43 |
|
44 |
-
##
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
45 |
|
46 |
ノイズ判定の教師データは[fineweb-2-japanese-noise-spans](https://huggingface.co/datasets/hotchpotch/fineweb-2-japanese-noise-spans)を使っています。このデータセットの作成には、[cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese](https://huggingface.co/cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese)を利用しました。
|
47 |
|
48 |
また、ノイズがない正解データとして、日本語wikipediaのパラグラフ[hpprc/jawiki-paragraphs](https://huggingface.co/datasets/hpprc/jawiki-paragraphs)から20万件ランダムサンプリングしたデータを利用しています。
|
49 |
|
50 |
-
|
51 |
|
52 |
## ⚠️注意
|
53 |
|
|
|
41 |
[NOISE]前のページ[/NOISE] [NOISE]次のページ[/NOISE]
|
42 |
```
|
43 |
|
44 |
+
## ノイズ判定のスクリプト例
|
45 |
+
|
46 |
+
以下を参照ください
|
47 |
+
|
48 |
+
- https://huggingface.co/hotchpotch/fineweb-2-japanese-text-cleaner/blob/main/scripts/noise_detecter.py
|
49 |
+
|
50 |
+
|
51 |
+
|
52 |
+
## 学習方法
|
53 |
|
54 |
ノイズ判定の教師データは[fineweb-2-japanese-noise-spans](https://huggingface.co/datasets/hotchpotch/fineweb-2-japanese-noise-spans)を使っています。このデータセットの作成には、[cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese](https://huggingface.co/cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese)を利用しました。
|
55 |
|
56 |
また、ノイズがない正解データとして、日本語wikipediaのパラグラフ[hpprc/jawiki-paragraphs](https://huggingface.co/datasets/hpprc/jawiki-paragraphs)から20万件ランダムサンプリングしたデータを利用しています。
|
57 |
|
58 |
+
これらを、[このスクリプト](https://huggingface.co/hotchpotch/fineweb-2-japanese-text-cleaner/blob/main/scripts/trainer-fineweb-2-japanese-text-cleaner.py)で学習しています。
|
59 |
|
60 |
## ⚠️注意
|
61 |
|