Update README.md
Browse files
README.md
CHANGED
@@ -139,8 +139,24 @@ zr贸b mi t臋 przyjemno艣膰 i przyjd藕 wreszcie, prosz臋!
|
|
139 |
```
|
140 |
Your results may vary depending on model parameters (e.g., temperature, top_k, top_p), hardware, and other settings.
|
141 |
|
|
|
|
|
142 |
|
|
|
143 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
144 |
|
145 |
## Training Procedure
|
146 |
- **Datasets**: ~150B tokens from Polish and multilingual sources, with ~28B tokens available for fully open-source commercial use.
|
|
|
139 |
```
|
140 |
Your results may vary depending on model parameters (e.g., temperature, top_k, top_p), hardware, and other settings.
|
141 |
|
142 |
+
### 6. Retrieval Augmented Generation (RAG)
|
143 |
+
Our Llama-PLLuM models (both chat and instruct versions) were additionally trained to perform well in Retrieval Augmented Generation (RAG) setting. The prompt is in .jinja format, where docs is a list of document texts and question is a query that should be answered based on the provided documents. If there is no answer in the provided documents model generates "Nie uda艂o mi si臋 odnale藕膰 odpowiedzi na pytanie".
|
144 |
|
145 |
+
Prompt:
|
146 |
|
147 |
+
```
|
148 |
+
Numerowana lista dokument贸w jest poni偶ej:
|
149 |
+
---------------------
|
150 |
+
<results>{% for doc in docs %}
|
151 |
+
Dokument: {{ loop.index0 }}
|
152 |
+
{{ doc }}
|
153 |
+
{% endfor %}</results>
|
154 |
+
---------------------
|
155 |
+
Odpowiedz na pytanie u偶ytkownika wykorzystuj膮c tylko informacje znajduj膮ce si臋 w dokumentach, a nie wcze艣niejsz膮 wiedz臋.
|
156 |
+
Udziel wysokiej jako艣ci, poprawnej gramatycznie odpowiedzi w j臋zyku polskim. Odpowied藕 powinna zawiera膰 cytowania do dokument贸w, z kt贸rych pochodz膮 informacje. Zacytuj dokument za pomoc膮 symbolu [nr_dokumentu] powo艂uj膮c si臋 na fragment np. [0] dla fragmentu z dokumentu 0. Je偶eli w dokumentach nie ma informacji potrzebnych do odpowiedzi na pytanie, zamiast odpowiedzi zwr贸膰 tekst: "Nie uda艂o mi si臋 odnale藕膰 odpowiedzi na pytanie".
|
157 |
+
|
158 |
+
Pytanie: {{ question }}
|
159 |
+
```
|
160 |
|
161 |
## Training Procedure
|
162 |
- **Datasets**: ~150B tokens from Polish and multilingual sources, with ~28B tokens available for fully open-source commercial use.
|