Safetensors
Polish
mistral
MinistryofDigitalAffairs commited on
Commit
8a8266a
verified
1 Parent(s): 28b2cf2

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +16 -0
README.md CHANGED
@@ -139,8 +139,24 @@ zr贸b mi t臋 przyjemno艣膰 i przyjd藕 wreszcie, prosz臋!
139
  ```
140
  Your results may vary depending on model parameters (e.g., temperature, top_k, top_p), hardware, and other settings.
141
 
 
 
142
 
 
143
 
 
 
 
 
 
 
 
 
 
 
 
 
 
144
 
145
  ## Training Procedure
146
  - **Datasets**: ~150B tokens from Polish and multilingual sources, with ~28B tokens available for fully open-source commercial use.
 
139
  ```
140
  Your results may vary depending on model parameters (e.g., temperature, top_k, top_p), hardware, and other settings.
141
 
142
+ ### 6. Retrieval Augmented Generation (RAG)
143
+ Our Llama-PLLuM models (both chat and instruct versions) were additionally trained to perform well in Retrieval Augmented Generation (RAG) setting. The prompt is in .jinja format, where docs is a list of document texts and question is a query that should be answered based on the provided documents. If there is no answer in the provided documents model generates "Nie uda艂o mi si臋 odnale藕膰 odpowiedzi na pytanie".
144
 
145
+ Prompt:
146
 
147
+ ```
148
+ Numerowana lista dokument贸w jest poni偶ej:
149
+ ---------------------
150
+ <results>{% for doc in docs %}
151
+ Dokument: {{ loop.index0 }}
152
+ {{ doc }}
153
+ {% endfor %}</results>
154
+ ---------------------
155
+ Odpowiedz na pytanie u偶ytkownika wykorzystuj膮c tylko informacje znajduj膮ce si臋 w dokumentach, a nie wcze艣niejsz膮 wiedz臋.
156
+ Udziel wysokiej jako艣ci, poprawnej gramatycznie odpowiedzi w j臋zyku polskim. Odpowied藕 powinna zawiera膰 cytowania do dokument贸w, z kt贸rych pochodz膮 informacje. Zacytuj dokument za pomoc膮 symbolu [nr_dokumentu] powo艂uj膮c si臋 na fragment np. [0] dla fragmentu z dokumentu 0. Je偶eli w dokumentach nie ma informacji potrzebnych do odpowiedzi na pytanie, zamiast odpowiedzi zwr贸膰 tekst: "Nie uda艂o mi si臋 odnale藕膰 odpowiedzi na pytanie".
157
+
158
+ Pytanie: {{ question }}
159
+ ```
160
 
161
  ## Training Procedure
162
  - **Datasets**: ~150B tokens from Polish and multilingual sources, with ~28B tokens available for fully open-source commercial use.