Vikhrmodels
/

Vikhr-Llama3.1-8B-Instruct-R-21-09-24

Model card Files Files and versions

hivaze commited on Sep 23, 2024

Commit

e38b700

·

verified ·

1 Parent(s): f76663e

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -192,7 +192,7 @@ out_of_domain - вопросы которые специально никак н
 Реализацию SMPO, rejection sampling и другое можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
-Идея использования именно SMPO, а не другого PO метода, возникла в результате проведения большого количества экспериментов с классическими методами, при необходимости лучшего контроля процесса сходимости. При использовании разных гиперпараметров в разных методах, можно добится почти одинакового результата оптимизации, однако мы постарались упростить этот процесс и объединить лучшие практики из других методов.
 ### Как работать с RAG

 Реализацию SMPO, rejection sampling и другое можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
+Идея использования именно SMPO, а не другого PO метода, возникла в результате проведения большого количества экспериментов с классическими методами, при необходимости лучшего контроля процесса сходимости. При тщательной настройке других методов (например SimPO), можно добится похожего результата, однако мы постарались стаблизировать этот процесс и объединить лучшие практики из других методов.
 ### Как работать с RAG