Update README.md
Browse files
README.md
CHANGED
@@ -32,7 +32,10 @@ LoRA supervised finetuning version was performed on **2xA100 NVIDIA** GPUs for *
|
|
32 |
- Russian Code [attn-signs/russian/code] (1 epochs)
|
33 |
The model has extended tokenizer based on arxiv paper and works of RefalMachine (RuAdapt / Moscow State University).
|
34 |
**Huge thanks to Mikhail Tikhomirov for hard scientific work and tokenizer extension methods developed.**
|
35 |
-
The model generation in russian is 60% more cheaper and faster due to the extended tokenizer (see the research at the end).
|
|
|
|
|
|
|
36 |
### [RU]
|
37 |
SFT LoRA обучение было выполнено на **двух NVIDIA A100**, обучение длилось около **8 дней**.
|
38 |
**Использованные датасеты:**
|
@@ -41,13 +44,15 @@ SFT LoRA обучение было выполнено на **двух NVIDIA A10
|
|
41 |
- Russian Code [attn-signs/russian/code] (1 эпоха)
|
42 |
Модель имеет расширенный токенайзер, метод основан на arxiv статье и работах RefalMachine (RuAdapt / Московский Государственный Университет).
|
43 |
**Выражаю большое уважение Михаилу Тихомирову за его научные работы и методы расширения токенайзера.**
|
44 |
-
Генерация модели, благодаря методу на 60% более быстрая и менее дорогая (см. исследование токенайзера в конце статьи).
|
45 |
-
|
|
|
|
|
46 |
### Model Description / Описание модели
|
47 |
|
48 |
- **Developed by:** [Reisen Raumberg (Attention Signs team)]
|
49 |
- **Language(s) (NLP):** [RU/EN]
|
50 |
-
- **Finetuned from model:** [Qwen2.5]
|
51 |
|
52 |
**Distributed training:**
|
53 |
- DeepSpeed (Stage 3)
|
|
|
32 |
- Russian Code [attn-signs/russian/code] (1 epochs)
|
33 |
The model has extended tokenizer based on arxiv paper and works of RefalMachine (RuAdapt / Moscow State University).
|
34 |
**Huge thanks to Mikhail Tikhomirov for hard scientific work and tokenizer extension methods developed.**
|
35 |
+
The model generation in russian is 60% more cheaper and faster due to the extended tokenizer (see the research at the end).
|
36 |
+
|
37 |
+
**Base model**: https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-Pro-Beta
|
38 |
+
|
39 |
### [RU]
|
40 |
SFT LoRA обучение было выполнено на **двух NVIDIA A100**, обучение длилось около **8 дней**.
|
41 |
**Использованные датасеты:**
|
|
|
44 |
- Russian Code [attn-signs/russian/code] (1 эпоха)
|
45 |
Модель имеет расширенный токенайзер, метод основан на arxiv статье и работах RefalMachine (RuAdapt / Московский Государственный Университет).
|
46 |
**Выражаю большое уважение Михаилу Тихомирову за его научные работы и методы расширения токенайзера.**
|
47 |
+
Генерация модели, благодаря методу на 60% более быстрая и менее дорогая (см. исследование токенайзера в конце статьи).
|
48 |
+
|
49 |
+
**Базовая модель**: https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-Pro-Beta
|
50 |
+
|
51 |
### Model Description / Описание модели
|
52 |
|
53 |
- **Developed by:** [Reisen Raumberg (Attention Signs team)]
|
54 |
- **Language(s) (NLP):** [RU/EN]
|
55 |
+
- **Finetuned from model:** [Qwen2.5, RuAdapt version]
|
56 |
|
57 |
**Distributed training:**
|
58 |
- DeepSpeed (Stage 3)
|