tags:
- chat
- roleplay
- storywriting
- qwen3
- finetune
Pipeline_tag: text-generation
Tags:
- Chat
base_model:
- Qwen/Qwen3-235B-A22B
Il s'agit d'un SFT (Supervised Fine-Tuning) au-dessus du plus grand modèle Qwen que personne ne semble avoir encore fait, entraîné avec une collection de jeux de données Austral normaux (Livres, Journaux de RP, Romans légers, etc.). Je ne cautionne pas totalement le modèle pour le moment et je pense qu'il y a encore beaucoup de travail à faire pour essayer de créer un fine-tuning décensuré et bien écrit de ce modèle, mais je l'ai simplement publié pour donner à tout le monde un petit aperçu d'un fine-tuning qwen3.
C'était aussi un moyen pour nous de tester certaines optimisations pour réussir à entraîner ce modèle, merci à Intervitens <3
Nous avons utilisé torchtune et une version pytorch expérimentale bricolée : https://github.com/pytorch/pytorch/pull/156203
Nous avons entraîné ce modèle pendant 24 heures sur 8xB200s. Gracieusement fourni par Deepinfra & Cognitive Computations.
Les vitesses étaient similaires à un 70B entraîné avec à peu près les mêmes données.
Invite (Prompting)
Le modèle a été ajusté avec le formatage ChatML. Une entrée typique ressemblerait à ceci :
<|im_start|>system
invite-système<|im_end|>
<|im_start|>user
invite-utilisateur<|im_end|>
<|im_start|>assistant
<think>
</think>
invite-assistant<|im_end|>
Configuration Torchtune
Merci beaucoup à Intervitens d'avoir aidé à entraîner ce modèle :
Voir la configuration de l'entraîneur Torchtune
output_dir: ./qwen3_235B_A22B_austral/full
tokenizer:
component: torchtune.models.qwen3.qwen3_tokenizer
path: ./Qwen3-235B-A22B-tt/vocab.json
merges_file: ./Qwen3-235B-A22B-tt/merges.txt
max_seq_len: 32768
dataset:
component: torchtune.datasets.pretokenized_dataset
source: IntervitensInc/test_235B_2-pack
split: train
packed: true
seed: 42
shuffle: false
model:
component: torchtune.models.qwen3.qwen3_moe_235b_a22b
checkpointer:
component: torchtune.training.FullModelTorchTuneCheckpointer
checkpoint_dir: ./Qwen3-235B-A22B-tt
checkpoint_files:
- model-00001-of-00001.bin
recipe_checkpoint: null
output_dir: ${output_dir}
model_type: QWEN3_MOE
resume_from_checkpoint: false
enable_async_checkpointing: false
batch_size: 1
epochs: 4
optimizer:
component: torchao.optim.AdamW8bit
lr: 3.0e-06
lr_scheduler:
component: torchtune.training.lr_schedulers.get_rex_scheduler
num_warmup_steps: 100
loss:
component: torchtune.modules.loss.LinearCrossEntropyLoss
max_steps_per_epoch: null
gradient_accumulation_steps: 1
clip_grad_norm: null
compile:
model: true
loss: true
scale_grads: true
optimizer_step: false
optimizer_in_bwd: true
device: cuda
enable_activation_checkpointing: true
enable_activation_offloading: true
custom_sharded_layers:
- tok_embeddings
- output
fsdp_cpu_offload: false
dtype: bf16
metric_logger:
component: torchtune.training.metric_logging.WandBLogger
project: qwen3-235-a22b-austral
log_every_n_steps: 1
log_peak_memory_stats: true
log_level: INFO
Crédits
Merci à Lucy Knada, Auri, Intervitens, Deepinfra, Cognitive Computations et au reste d'Anthracite &
Entraînement
L'entraînement a été effectué pendant 4 époques. Nous avons utilisé 8 x GPU B200s gracieusement fournis par Deepinfra pour le fine-tuning complet des paramètres du modèle. L'ajustement a été effectué entièrement grâce à Intervitens.
Sécurité
Il est toujours aligné sur les croyances du Parti communiste chinois :