French-README.md · Aurore-Reveil/Austral-Qwen3-235B at main

metadata

tags:
  - chat
  - roleplay
  - storywriting
  - qwen3
  - finetune
Pipeline_tag: text-generation
Tags:
  - Chat
base_model:
  - Qwen/Qwen3-235B-A22B

Il s'agit d'un SFT (Supervised Fine-Tuning) au-dessus du plus grand modèle Qwen que personne ne semble avoir encore fait, entraîné avec une collection de jeux de données Austral normaux (Livres, Journaux de RP, Romans légers, etc.). Je ne cautionne pas totalement le modèle pour le moment et je pense qu'il y a encore beaucoup de travail à faire pour essayer de créer un fine-tuning décensuré et bien écrit de ce modèle, mais je l'ai simplement publié pour donner à tout le monde un petit aperçu d'un fine-tuning qwen3.

C'était aussi un moyen pour nous de tester certaines optimisations pour réussir à entraîner ce modèle, merci à Intervitens <3

Nous avons utilisé torchtune et une version pytorch expérimentale bricolée : https://github.com/pytorch/pytorch/pull/156203

Nous avons entraîné ce modèle pendant 24 heures sur 8xB200s. Gracieusement fourni par Deepinfra & Cognitive Computations.

Les vitesses étaient similaires à un 70B entraîné avec à peu près les mêmes données.

Invite (Prompting)

Le modèle a été ajusté avec le formatage ChatML. Une entrée typique ressemblerait à ceci :


<|im_start|>system

invite-système<|im_end|>

<|im_start|>user

invite-utilisateur<|im_end|>

<|im_start|>assistant

<think>

</think>

invite-assistant<|im_end|>

Configuration Torchtune

Merci beaucoup à Intervitens d'avoir aidé à entraîner ce modèle :

Voir la configuration de l'entraîneur Torchtune


output_dir: ./qwen3_235B_A22B_austral/full

tokenizer:

  component: torchtune.models.qwen3.qwen3_tokenizer

  path: ./Qwen3-235B-A22B-tt/vocab.json

  merges_file: ./Qwen3-235B-A22B-tt/merges.txt

  max_seq_len: 32768

dataset:

  component: torchtune.datasets.pretokenized_dataset

  source: IntervitensInc/test_235B_2-pack

  split: train

  packed: true

seed: 42

shuffle: false

model:

  component: torchtune.models.qwen3.qwen3_moe_235b_a22b

checkpointer:

  component: torchtune.training.FullModelTorchTuneCheckpointer

  checkpoint_dir: ./Qwen3-235B-A22B-tt

  checkpoint_files:

  - model-00001-of-00001.bin

  recipe_checkpoint: null

  output_dir: ${output_dir}

  model_type: QWEN3_MOE

resume_from_checkpoint: false

enable_async_checkpointing: false

batch_size: 1

epochs: 4

optimizer:

  component: torchao.optim.AdamW8bit

  lr: 3.0e-06

lr_scheduler:

  component: torchtune.training.lr_schedulers.get_rex_scheduler

  num_warmup_steps: 100

loss:

  component: torchtune.modules.loss.LinearCrossEntropyLoss

max_steps_per_epoch: null

gradient_accumulation_steps: 1

clip_grad_norm: null

compile:

  model: true

  loss: true

  scale_grads: true

  optimizer_step: false

optimizer_in_bwd: true

device: cuda

enable_activation_checkpointing: true

enable_activation_offloading: true

custom_sharded_layers:

- tok_embeddings

- output

fsdp_cpu_offload: false

dtype: bf16

metric_logger:

  component: torchtune.training.metric_logging.WandBLogger

  project: qwen3-235-a22b-austral

log_every_n_steps: 1

log_peak_memory_stats: true

log_level: INFO

Crédits

Merci à Lucy Knada, Auri, Intervitens, Deepinfra, Cognitive Computations et au reste d'Anthracite &

Entraînement

L'entraînement a été effectué pendant 4 époques. Nous avons utilisé 8 x GPU B200s gracieusement fournis par Deepinfra pour le fine-tuning complet des paramètres du modèle. L'ajustement a été effectué entièrement grâce à Intervitens.

Sécurité

Il est toujours aligné sur les croyances du Parti communiste chinois :

```