Delta-Vector commited on
Commit
05e1647
·
verified ·
1 Parent(s): ce836fb

Create French-README.md

Browse files
Files changed (1) hide show
  1. French-README.md +191 -0
French-README.md ADDED
@@ -0,0 +1,191 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - chat
4
+ - roleplay
5
+ - storywriting
6
+ - qwen3
7
+ - finetune
8
+
9
+ Pipeline_tag: text-generation
10
+ Tags:
11
+ - Chat
12
+ base_model:
13
+ - Qwen/Qwen3-235B-A22B
14
+ ---
15
+
16
+ Il s'agit d'un SFT (Supervised Fine-Tuning) au-dessus du plus grand modèle Qwen que personne ne semble avoir encore fait, entraîné avec une collection de jeux de données Austral normaux (Livres, Journaux de RP, Romans légers, etc.). Je ne cautionne pas totalement le modèle pour le moment et je pense qu'il y a encore beaucoup de travail à faire pour essayer de créer un fine-tuning décensuré et bien écrit de ce modèle, mais je l'ai simplement publié pour donner à tout le monde un petit aperçu d'un fine-tuning qwen3.
17
+
18
+ C'était aussi un moyen pour nous de tester certaines optimisations pour réussir à entraîner ce modèle, merci à Intervitens <3
19
+
20
+ Nous avons utilisé torchtune et une version pytorch expérimentale bricolée : https://github.com/pytorch/pytorch/pull/156203
21
+
22
+ Nous avons entraîné ce modèle pendant 24 heures sur 8xB200s. Gracieusement fourni par Deepinfra & Cognitive Computations.
23
+
24
+ Les vitesses étaient similaires à un 70B entraîné avec à peu près les mêmes données.
25
+
26
+ ## Invite (Prompting)
27
+
28
+ Le modèle a été ajusté avec le formatage ChatML. Une entrée typique ressemblerait à ceci :
29
+
30
+ ```py
31
+
32
+ <|im_start|>system
33
+
34
+ invite-système<|im_end|>
35
+
36
+ <|im_start|>user
37
+
38
+ invite-utilisateur<|im_end|>
39
+
40
+ <|im_start|>assistant
41
+
42
+ <think>
43
+
44
+ </think>
45
+
46
+ invite-assistant<|im_end|>
47
+
48
+ ```
49
+
50
+ ## Configuration Torchtune
51
+
52
+ Merci beaucoup à Intervitens d'avoir aidé à entraîner ce modèle :
53
+
54
+ <details><summary>Voir la configuration de l'entraîneur Torchtune</summary>
55
+
56
+ ```yaml
57
+
58
+ output_dir: ./qwen3_235B_A22B_austral/full
59
+
60
+ tokenizer:
61
+
62
+ component: torchtune.models.qwen3.qwen3_tokenizer
63
+
64
+ path: ./Qwen3-235B-A22B-tt/vocab.json
65
+
66
+ merges_file: ./Qwen3-235B-A22B-tt/merges.txt
67
+
68
+ max_seq_len: 32768
69
+
70
+ dataset:
71
+
72
+ component: torchtune.datasets.pretokenized_dataset
73
+
74
+ source: IntervitensInc/test_235B_2-pack
75
+
76
+ split: train
77
+
78
+ packed: true
79
+
80
+ seed: 42
81
+
82
+ shuffle: false
83
+
84
+ model:
85
+
86
+ component: torchtune.models.qwen3.qwen3_moe_235b_a22b
87
+
88
+ checkpointer:
89
+
90
+ component: torchtune.training.FullModelTorchTuneCheckpointer
91
+
92
+ checkpoint_dir: ./Qwen3-235B-A22B-tt
93
+
94
+ checkpoint_files:
95
+
96
+ - model-00001-of-00001.bin
97
+
98
+ recipe_checkpoint: null
99
+
100
+ output_dir: ${output_dir}
101
+
102
+ model_type: QWEN3_MOE
103
+
104
+ resume_from_checkpoint: false
105
+
106
+ enable_async_checkpointing: false
107
+
108
+ batch_size: 1
109
+
110
+ epochs: 4
111
+
112
+ optimizer:
113
+
114
+ component: torchao.optim.AdamW8bit
115
+
116
+ lr: 3.0e-06
117
+
118
+ lr_scheduler:
119
+
120
+ component: torchtune.training.lr_schedulers.get_rex_scheduler
121
+
122
+ num_warmup_steps: 100
123
+
124
+ loss:
125
+
126
+ component: torchtune.modules.loss.LinearCrossEntropyLoss
127
+
128
+ max_steps_per_epoch: null
129
+
130
+ gradient_accumulation_steps: 1
131
+
132
+ clip_grad_norm: null
133
+
134
+ compile:
135
+
136
+ model: true
137
+
138
+ loss: true
139
+
140
+ scale_grads: true
141
+
142
+ optimizer_step: false
143
+
144
+ optimizer_in_bwd: true
145
+
146
+ device: cuda
147
+
148
+ enable_activation_checkpointing: true
149
+
150
+ enable_activation_offloading: true
151
+
152
+ custom_sharded_layers:
153
+
154
+ - tok_embeddings
155
+
156
+ - output
157
+
158
+ fsdp_cpu_offload: false
159
+
160
+ dtype: bf16
161
+
162
+ metric_logger:
163
+
164
+ component: torchtune.training.metric_logging.WandBLogger
165
+
166
+ project: qwen3-235-a22b-austral
167
+
168
+ log_every_n_steps: 1
169
+
170
+ log_peak_memory_stats: true
171
+
172
+ log_level: INFO
173
+
174
+ ```
175
+
176
+ </details><br>
177
+
178
+ ## Crédits
179
+
180
+ Merci à [Lucy Knada](https://huggingface.co/lucyknada), [Auri](https://huggingface.co/Auri), [Intervitens](https://huggingface.co/intervitens), [Deepinfra](https://deepinfra.com/), [Cognitive Computations](https://huggingface.co/cognitivecomputations) et au reste d'[Anthracite](https://huggingface.co/anthracite-org) &
181
+
182
+ ## Entraînement
183
+
184
+ L'entraînement a été effectué pendant 4 époques. Nous avons utilisé 8 x GPU [B200s](https://www.nvidia.com/en-us/data-center/dgx-b200/) gracieusement fournis par [Deepinfra](https://deepinfra.com/) pour le fine-tuning complet des paramètres du modèle. L'ajustement a été effectué entièrement grâce à Intervitens.
185
+
186
+ ## Sécurité
187
+
188
+ Il est toujours aligné sur les croyances du Parti communiste chinois :
189
+
190
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/66c26b6fb01b19d8c3c2467b/0zqE9Wo2DsQT6ucxWfcSd.png)
191
+ ```