|
--- |
|
tags: |
|
- chat |
|
- roleplay |
|
- storywriting |
|
- qwen3 |
|
- finetune |
|
|
|
Pipeline_tag: text-generation |
|
Tags: |
|
- Chat |
|
base_model: |
|
- Qwen/Qwen3-235B-A22B |
|
--- |
|
|
|
Il s'agit d'un SFT (Supervised Fine-Tuning) au-dessus du plus grand modèle Qwen que personne ne semble avoir encore fait, entraîné avec une collection de jeux de données Austral normaux (Livres, Journaux de RP, Romans légers, etc.). Je ne cautionne pas totalement le modèle pour le moment et je pense qu'il y a encore beaucoup de travail à faire pour essayer de créer un fine-tuning décensuré et bien écrit de ce modèle, mais je l'ai simplement publié pour donner à tout le monde un petit aperçu d'un fine-tuning qwen3. |
|
|
|
C'était aussi un moyen pour nous de tester certaines optimisations pour réussir à entraîner ce modèle, merci à Intervitens <3 |
|
|
|
Nous avons utilisé torchtune et une version pytorch expérimentale bricolée : https://github.com/pytorch/pytorch/pull/156203 |
|
|
|
Nous avons entraîné ce modèle pendant 24 heures sur 8xB200s. Gracieusement fourni par Deepinfra & Cognitive Computations. |
|
|
|
Les vitesses étaient similaires à un 70B entraîné avec à peu près les mêmes données. |
|
|
|
## Invite (Prompting) |
|
|
|
Le modèle a été ajusté avec le formatage ChatML. Une entrée typique ressemblerait à ceci : |
|
|
|
```py |
|
|
|
<|im_start|>system |
|
|
|
invite-système<|im_end|> |
|
|
|
<|im_start|>user |
|
|
|
invite-utilisateur<|im_end|> |
|
|
|
<|im_start|>assistant |
|
|
|
<think> |
|
|
|
</think> |
|
|
|
invite-assistant<|im_end|> |
|
|
|
``` |
|
|
|
## Configuration Torchtune |
|
|
|
Merci beaucoup à Intervitens d'avoir aidé à entraîner ce modèle : |
|
|
|
<details><summary>Voir la configuration de l'entraîneur Torchtune</summary> |
|
|
|
```yaml |
|
|
|
output_dir: ./qwen3_235B_A22B_austral/full |
|
|
|
tokenizer: |
|
|
|
component: torchtune.models.qwen3.qwen3_tokenizer |
|
|
|
path: ./Qwen3-235B-A22B-tt/vocab.json |
|
|
|
merges_file: ./Qwen3-235B-A22B-tt/merges.txt |
|
|
|
max_seq_len: 32768 |
|
|
|
dataset: |
|
|
|
component: torchtune.datasets.pretokenized_dataset |
|
|
|
source: IntervitensInc/test_235B_2-pack |
|
|
|
split: train |
|
|
|
packed: true |
|
|
|
seed: 42 |
|
|
|
shuffle: false |
|
|
|
model: |
|
|
|
component: torchtune.models.qwen3.qwen3_moe_235b_a22b |
|
|
|
checkpointer: |
|
|
|
component: torchtune.training.FullModelTorchTuneCheckpointer |
|
|
|
checkpoint_dir: ./Qwen3-235B-A22B-tt |
|
|
|
checkpoint_files: |
|
|
|
- model-00001-of-00001.bin |
|
|
|
recipe_checkpoint: null |
|
|
|
output_dir: ${output_dir} |
|
|
|
model_type: QWEN3_MOE |
|
|
|
resume_from_checkpoint: false |
|
|
|
enable_async_checkpointing: false |
|
|
|
batch_size: 1 |
|
|
|
epochs: 4 |
|
|
|
optimizer: |
|
|
|
component: torchao.optim.AdamW8bit |
|
|
|
lr: 3.0e-06 |
|
|
|
lr_scheduler: |
|
|
|
component: torchtune.training.lr_schedulers.get_rex_scheduler |
|
|
|
num_warmup_steps: 100 |
|
|
|
loss: |
|
|
|
component: torchtune.modules.loss.LinearCrossEntropyLoss |
|
|
|
max_steps_per_epoch: null |
|
|
|
gradient_accumulation_steps: 1 |
|
|
|
clip_grad_norm: null |
|
|
|
compile: |
|
|
|
model: true |
|
|
|
loss: true |
|
|
|
scale_grads: true |
|
|
|
optimizer_step: false |
|
|
|
optimizer_in_bwd: true |
|
|
|
device: cuda |
|
|
|
enable_activation_checkpointing: true |
|
|
|
enable_activation_offloading: true |
|
|
|
custom_sharded_layers: |
|
|
|
- tok_embeddings |
|
|
|
- output |
|
|
|
fsdp_cpu_offload: false |
|
|
|
dtype: bf16 |
|
|
|
metric_logger: |
|
|
|
component: torchtune.training.metric_logging.WandBLogger |
|
|
|
project: qwen3-235-a22b-austral |
|
|
|
log_every_n_steps: 1 |
|
|
|
log_peak_memory_stats: true |
|
|
|
log_level: INFO |
|
|
|
``` |
|
|
|
</details><br> |
|
|
|
## Crédits |
|
|
|
Merci à [Lucy Knada](https://huggingface.co/lucyknada), [Auri](https://huggingface.co/Auri), [Intervitens](https://huggingface.co/intervitens), [Deepinfra](https://deepinfra.com/), [Cognitive Computations](https://huggingface.co/cognitivecomputations) et au reste d'[Anthracite](https://huggingface.co/anthracite-org) & |
|
|
|
## Entraînement |
|
|
|
L'entraînement a été effectué pendant 4 époques. Nous avons utilisé 8 x GPU [B200s](https://www.nvidia.com/en-us/data-center/dgx-b200/) gracieusement fournis par [Deepinfra](https://deepinfra.com/) pour le fine-tuning complet des paramètres du modèle. L'ajustement a été effectué entièrement grâce à Intervitens. |
|
|
|
## Sécurité |
|
|
|
Il est toujours aligné sur les croyances du Parti communiste chinois : |
|
|
|
 |
|
``` |