Commit
·
4688c1f
1
Parent(s):
3eb2e72
docs: fix image path
Browse files
README.md
CHANGED
@@ -9,7 +9,7 @@ base_model: "cyberagent/calm3-22b-chat"
|
|
9 |
|
10 |
[cyberagent/calm3-22b-chat](https://huggingface.co/cyberagent/calm3-22b-chat)を学習モデル・データ拡張に用いた自己学習モデルである.
|
11 |
[Answer Carefully Dataset (ACv1)](https://llmc.nii.ac.jp/en/answercarefully-dataset/)からデータ拡張し,[Direct Preference Optimization (DPO)](https://arxiv.org/abs/2305.18290)で学習させた.
|
12 |
-
|
13 |
|
14 |
## Requirements, Usage, Chat Template
|
15 |
|
@@ -36,7 +36,7 @@ output_ids = model.generate(input_ids,
|
|
36 |
```
|
37 |
|
38 |
## データ拡張プロンプト
|
39 |
-
Answer Carefully
|
40 |
calm3にこのプロンプト入力することでデータ拡張が可能となる.
|
41 |
<details>
|
42 |
<summary>データ拡張プロンプト</summary>
|
@@ -117,7 +117,7 @@ calm3にこのプロンプト入力することでデータ拡張が可能とな
|
|
117 |
```
|
118 |
</details>
|
119 |
|
120 |
-
,**draw**(モデルの出力が参照応答と同等),**lose**(モデルの出力が参照応答を下回る).
|
126 |
評価用データのうち,ランダムに抽出した20組を用いて,4人の評価者に評価させた.
|
127 |
|
128 |
-
を学習モデル・データ拡張に用いた自己学習モデルである.
|
11 |
[Answer Carefully Dataset (ACv1)](https://llmc.nii.ac.jp/en/answercarefully-dataset/)からデータ拡張し,[Direct Preference Optimization (DPO)](https://arxiv.org/abs/2305.18290)で学習させた.
|
12 |
+
特に,不適切な質問応答に関するベンチマーク性能を向上させている.
|
13 |
|
14 |
## Requirements, Usage, Chat Template
|
15 |
|
|
|
36 |
```
|
37 |
|
38 |
## データ拡張プロンプト
|
39 |
+
Answer Carefullyを元にしたデータ拡張に用いたプロンプトである.
|
40 |
calm3にこのプロンプト入力することでデータ拡張が可能となる.
|
41 |
<details>
|
42 |
<summary>データ拡張プロンプト</summary>
|
|
|
117 |
```
|
118 |
</details>
|
119 |
|
120 |
+

|
121 |
|
122 |
### human eval
|
123 |
|
|
|
125 |
評価の際には,各応答を次の3つの基準で分類した:**win**(モデルの出力が参照応答を上回る),**draw**(モデルの出力が参照応答と同等),**lose**(モデルの出力が参照応答を下回る).
|
126 |
評価用データのうち,ランダムに抽出した20組を用いて,4人の評価者に評価させた.
|
127 |
|
128 |
+

|
129 |
|
130 |
|
131 |
### Nejumi LLMリーダーボード3
|