attn-signs
/

Watari-32b-v2

@@ -32,7 +32,10 @@ LoRA supervised finetuning version was performed on **2xA100 NVIDIA** GPUs for *
 - Russian Code [attn-signs/russian/code] (1 epochs)
 The model has extended tokenizer based on arxiv paper and works of RefalMachine (RuAdapt / Moscow State University).
 **Huge thanks to Mikhail Tikhomirov for hard scientific work and tokenizer extension methods developed.**
-The model generation in russian is 60% more cheaper and faster due to the extended tokenizer (see the research at the end).
 ### [RU]
 SFT LoRA обучение было выполнено на **двух NVIDIA A100**, обучение длилось около **8 дней**.
 **Использованные датасеты:**
@@ -41,13 +44,15 @@ SFT LoRA обучение было выполнено на **двух NVIDIA A10
 - Russian Code [attn-signs/russian/code] (1 эпоха)
 Модель имеет расширенный токенайзер, метод основан на arxiv статье и работах RefalMachine (RuAdapt / Московский Государственный Университет).
 **Выражаю большое уважение Михаилу Тихомирову за его научные работы и методы расширения токенайзера.**
-Генерация модели, благодаря методу на 60% более быстрая и менее дорогая (см. исследование токенайзера в конце статьи).
 ### Model Description / Описание модели
 - **Developed by:** [Reisen Raumberg (Attention Signs team)]
 - **Language(s) (NLP):** [RU/EN]
-- **Finetuned from model:** [Qwen2.5]
 **Distributed training:**
 - DeepSpeed (Stage 3)

 - Russian Code [attn-signs/russian/code] (1 epochs)
 The model has extended tokenizer based on arxiv paper and works of RefalMachine (RuAdapt / Moscow State University).
 **Huge thanks to Mikhail Tikhomirov for hard scientific work and tokenizer extension methods developed.**
+The model generation in russian is 60% more cheaper and faster due to the extended tokenizer (see the research at the end).
+**Base model**: https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-Pro-Beta
 ### [RU]
 SFT LoRA обучение было выполнено на **двух NVIDIA A100**, обучение длилось около **8 дней**.
 **Использованные датасеты:**
 - Russian Code [attn-signs/russian/code] (1 эпоха)
 Модель имеет расширенный токенайзер, метод основан на arxiv статье и работах RefalMachine (RuAdapt / Московский Государственный Университет).
 **Выражаю большое уважение Михаилу Тихомирову за его научные работы и методы расширения токенайзера.**
+Генерация модели, благодаря методу на 60% более быстрая и менее дорогая (см. исследование токенайзера в конце статьи).
+**Базовая модель**: https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-Pro-Beta
 ### Model Description / Описание модели
 - **Developed by:** [Reisen Raumberg (Attention Signs team)]
 - **Language(s) (NLP):** [RU/EN]
+- **Finetuned from model:** [Qwen2.5, RuAdapt version]
 **Distributed training:**
 - DeepSpeed (Stage 3)