--- tags: - chat - roleplay - storywriting - qwen3 - finetune Pipeline_tag: text-generation Tags: - Chat base_model: - Qwen/Qwen3-235B-A22B --- Il s'agit d'un SFT (Supervised Fine-Tuning) au-dessus du plus grand modèle Qwen que personne ne semble avoir encore fait, entraîné avec une collection de jeux de données Austral normaux (Livres, Journaux de RP, Romans légers, etc.). Je ne cautionne pas totalement le modèle pour le moment et je pense qu'il y a encore beaucoup de travail à faire pour essayer de créer un fine-tuning décensuré et bien écrit de ce modèle, mais je l'ai simplement publié pour donner à tout le monde un petit aperçu d'un fine-tuning qwen3. C'était aussi un moyen pour nous de tester certaines optimisations pour réussir à entraîner ce modèle, merci à Intervitens <3 Nous avons utilisé torchtune et une version pytorch expérimentale bricolée : https://github.com/pytorch/pytorch/pull/156203 Nous avons entraîné ce modèle pendant 24 heures sur 8xB200s. Gracieusement fourni par Deepinfra & Cognitive Computations. Les vitesses étaient similaires à un 70B entraîné avec à peu près les mêmes données. ## Invite (Prompting) Le modèle a été ajusté avec le formatage ChatML. Une entrée typique ressemblerait à ceci : ```py <|im_start|>system invite-système<|im_end|> <|im_start|>user invite-utilisateur<|im_end|> <|im_start|>assistant invite-assistant<|im_end|> ``` ## Configuration Torchtune Merci beaucoup à Intervitens d'avoir aidé à entraîner ce modèle :
Voir la configuration de l'entraîneur Torchtune ```yaml output_dir: ./qwen3_235B_A22B_austral/full tokenizer: component: torchtune.models.qwen3.qwen3_tokenizer path: ./Qwen3-235B-A22B-tt/vocab.json merges_file: ./Qwen3-235B-A22B-tt/merges.txt max_seq_len: 32768 dataset: component: torchtune.datasets.pretokenized_dataset source: IntervitensInc/test_235B_2-pack split: train packed: true seed: 42 shuffle: false model: component: torchtune.models.qwen3.qwen3_moe_235b_a22b checkpointer: component: torchtune.training.FullModelTorchTuneCheckpointer checkpoint_dir: ./Qwen3-235B-A22B-tt checkpoint_files: - model-00001-of-00001.bin recipe_checkpoint: null output_dir: ${output_dir} model_type: QWEN3_MOE resume_from_checkpoint: false enable_async_checkpointing: false batch_size: 1 epochs: 4 optimizer: component: torchao.optim.AdamW8bit lr: 3.0e-06 lr_scheduler: component: torchtune.training.lr_schedulers.get_rex_scheduler num_warmup_steps: 100 loss: component: torchtune.modules.loss.LinearCrossEntropyLoss max_steps_per_epoch: null gradient_accumulation_steps: 1 clip_grad_norm: null compile: model: true loss: true scale_grads: true optimizer_step: false optimizer_in_bwd: true device: cuda enable_activation_checkpointing: true enable_activation_offloading: true custom_sharded_layers: - tok_embeddings - output fsdp_cpu_offload: false dtype: bf16 metric_logger: component: torchtune.training.metric_logging.WandBLogger project: qwen3-235-a22b-austral log_every_n_steps: 1 log_peak_memory_stats: true log_level: INFO ```

## Crédits Merci à [Lucy Knada](https://huggingface.co/lucyknada), [Auri](https://huggingface.co/Auri), [Intervitens](https://huggingface.co/intervitens), [Deepinfra](https://deepinfra.com/), [Cognitive Computations](https://huggingface.co/cognitivecomputations) et au reste d'[Anthracite](https://huggingface.co/anthracite-org) & ## Entraînement L'entraînement a été effectué pendant 4 époques. Nous avons utilisé 8 x GPU [B200s](https://www.nvidia.com/en-us/data-center/dgx-b200/) gracieusement fournis par [Deepinfra](https://deepinfra.com/) pour le fine-tuning complet des paramètres du modèle. L'ajustement a été effectué entièrement grâce à Intervitens. ## Sécurité Il est toujours aligné sur les croyances du Parti communiste chinois : ![image/png](https://cdn-uploads.huggingface.co/production/uploads/66c26b6fb01b19d8c3c2467b/0zqE9Wo2DsQT6ucxWfcSd.png) ```