File size: 4,138 Bytes
05e1647 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 |
---
tags:
- chat
- roleplay
- storywriting
- qwen3
- finetune
Pipeline_tag: text-generation
Tags:
- Chat
base_model:
- Qwen/Qwen3-235B-A22B
---
Il s'agit d'un SFT (Supervised Fine-Tuning) au-dessus du plus grand modèle Qwen que personne ne semble avoir encore fait, entraîné avec une collection de jeux de données Austral normaux (Livres, Journaux de RP, Romans légers, etc.). Je ne cautionne pas totalement le modèle pour le moment et je pense qu'il y a encore beaucoup de travail à faire pour essayer de créer un fine-tuning décensuré et bien écrit de ce modèle, mais je l'ai simplement publié pour donner à tout le monde un petit aperçu d'un fine-tuning qwen3.
C'était aussi un moyen pour nous de tester certaines optimisations pour réussir à entraîner ce modèle, merci à Intervitens <3
Nous avons utilisé torchtune et une version pytorch expérimentale bricolée : https://github.com/pytorch/pytorch/pull/156203
Nous avons entraîné ce modèle pendant 24 heures sur 8xB200s. Gracieusement fourni par Deepinfra & Cognitive Computations.
Les vitesses étaient similaires à un 70B entraîné avec à peu près les mêmes données.
## Invite (Prompting)
Le modèle a été ajusté avec le formatage ChatML. Une entrée typique ressemblerait à ceci :
```py
<|im_start|>system
invite-système<|im_end|>
<|im_start|>user
invite-utilisateur<|im_end|>
<|im_start|>assistant
<think>
</think>
invite-assistant<|im_end|>
```
## Configuration Torchtune
Merci beaucoup à Intervitens d'avoir aidé à entraîner ce modèle :
<details><summary>Voir la configuration de l'entraîneur Torchtune</summary>
```yaml
output_dir: ./qwen3_235B_A22B_austral/full
tokenizer:
component: torchtune.models.qwen3.qwen3_tokenizer
path: ./Qwen3-235B-A22B-tt/vocab.json
merges_file: ./Qwen3-235B-A22B-tt/merges.txt
max_seq_len: 32768
dataset:
component: torchtune.datasets.pretokenized_dataset
source: IntervitensInc/test_235B_2-pack
split: train
packed: true
seed: 42
shuffle: false
model:
component: torchtune.models.qwen3.qwen3_moe_235b_a22b
checkpointer:
component: torchtune.training.FullModelTorchTuneCheckpointer
checkpoint_dir: ./Qwen3-235B-A22B-tt
checkpoint_files:
- model-00001-of-00001.bin
recipe_checkpoint: null
output_dir: ${output_dir}
model_type: QWEN3_MOE
resume_from_checkpoint: false
enable_async_checkpointing: false
batch_size: 1
epochs: 4
optimizer:
component: torchao.optim.AdamW8bit
lr: 3.0e-06
lr_scheduler:
component: torchtune.training.lr_schedulers.get_rex_scheduler
num_warmup_steps: 100
loss:
component: torchtune.modules.loss.LinearCrossEntropyLoss
max_steps_per_epoch: null
gradient_accumulation_steps: 1
clip_grad_norm: null
compile:
model: true
loss: true
scale_grads: true
optimizer_step: false
optimizer_in_bwd: true
device: cuda
enable_activation_checkpointing: true
enable_activation_offloading: true
custom_sharded_layers:
- tok_embeddings
- output
fsdp_cpu_offload: false
dtype: bf16
metric_logger:
component: torchtune.training.metric_logging.WandBLogger
project: qwen3-235-a22b-austral
log_every_n_steps: 1
log_peak_memory_stats: true
log_level: INFO
```
</details><br>
## Crédits
Merci à [Lucy Knada](https://huggingface.co/lucyknada), [Auri](https://huggingface.co/Auri), [Intervitens](https://huggingface.co/intervitens), [Deepinfra](https://deepinfra.com/), [Cognitive Computations](https://huggingface.co/cognitivecomputations) et au reste d'[Anthracite](https://huggingface.co/anthracite-org) &
## Entraînement
L'entraînement a été effectué pendant 4 époques. Nous avons utilisé 8 x GPU [B200s](https://www.nvidia.com/en-us/data-center/dgx-b200/) gracieusement fournis par [Deepinfra](https://deepinfra.com/) pour le fine-tuning complet des paramètres du modèle. L'ajustement a été effectué entièrement grâce à Intervitens.
## Sécurité
Il est toujours aligné sur les croyances du Parti communiste chinois :

``` |