Text Generation
Transformers
Safetensors
Russian
qwen2
conversational
text-generation-inference
attn-signs commited on
Commit
b342c98
·
verified ·
1 Parent(s): f54eba5

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +9 -4
README.md CHANGED
@@ -32,7 +32,10 @@ LoRA supervised finetuning version was performed on **2xA100 NVIDIA** GPUs for *
32
  - Russian Code [attn-signs/russian/code] (1 epochs)
33
  The model has extended tokenizer based on arxiv paper and works of RefalMachine (RuAdapt / Moscow State University).
34
  **Huge thanks to Mikhail Tikhomirov for hard scientific work and tokenizer extension methods developed.**
35
- The model generation in russian is 60% more cheaper and faster due to the extended tokenizer (see the research at the end).
 
 
 
36
  ### [RU]
37
  SFT LoRA обучение было выполнено на **двух NVIDIA A100**, обучение длилось около **8 дней**.
38
  **Использованные датасеты:**
@@ -41,13 +44,15 @@ SFT LoRA обучение было выполнено на **двух NVIDIA A10
41
  - Russian Code [attn-signs/russian/code] (1 эпоха)
42
  Модель имеет расширенный токенайзер, метод основан на arxiv статье и работах RefalMachine (RuAdapt / Московский Государственный Университет).
43
  **Выражаю большое уважение Михаилу Тихомирову за его научные работы и методы расширения токенайзера.**
44
- Генерация модели, благодаря методу на 60% более быстрая и менее дорогая (см. исследование токенайзера в конце статьи).
45
-
 
 
46
  ### Model Description / Описание модели
47
 
48
  - **Developed by:** [Reisen Raumberg (Attention Signs team)]
49
  - **Language(s) (NLP):** [RU/EN]
50
- - **Finetuned from model:** [Qwen2.5]
51
 
52
  **Distributed training:**
53
  - DeepSpeed (Stage 3)
 
32
  - Russian Code [attn-signs/russian/code] (1 epochs)
33
  The model has extended tokenizer based on arxiv paper and works of RefalMachine (RuAdapt / Moscow State University).
34
  **Huge thanks to Mikhail Tikhomirov for hard scientific work and tokenizer extension methods developed.**
35
+ The model generation in russian is 60% more cheaper and faster due to the extended tokenizer (see the research at the end).
36
+
37
+ **Base model**: https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-Pro-Beta
38
+
39
  ### [RU]
40
  SFT LoRA обучение было выполнено на **двух NVIDIA A100**, обучение длилось около **8 дней**.
41
  **Использованные датасеты:**
 
44
  - Russian Code [attn-signs/russian/code] (1 эпоха)
45
  Модель имеет расширенный токенайзер, метод основан на arxiv статье и работах RefalMachine (RuAdapt / Московский Государственный Университет).
46
  **Выражаю большое уважение Михаилу Тихомирову за его научные работы и методы расширения токенайзера.**
47
+ Генерация модели, благодаря методу на 60% более быстрая и менее дорогая (см. исследование токенайзера в конце статьи).
48
+
49
+ **Базовая модель**: https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-Pro-Beta
50
+
51
  ### Model Description / Описание модели
52
 
53
  - **Developed by:** [Reisen Raumberg (Attention Signs team)]
54
  - **Language(s) (NLP):** [RU/EN]
55
+ - **Finetuned from model:** [Qwen2.5, RuAdapt version]
56
 
57
  **Distributed training:**
58
  - DeepSpeed (Stage 3)