Aratako's picture
Update README.md
02ce4f3 verified
metadata
license: mit
language:
  - ja
base_model:
  - Qwen/Qwen3-30B-A3B-Base
library_name: transformers

Qwen3-30B-A3B-NSFW-JP

概要

このモデルは、Qwen/Qwen3-30B-A3B-Baseに対してNSFW系日本語データ約6Bトークンで継続事前学習を行ったモデルです。

事後学習は行われていないので、本モデルを利用する際には何らかの事後学習を行った上でご利用ください。

学習の設定

学習はMegatron-SWIFTを使ってMegatron-LMベースで行いました。

学習環境はH200x8、学習時間は約50時間です。

学習に関する主な設定は以下の通りです。

- lr: 1e-5
- min_lr: 1e-6
- lr_decay_style: cosine
- micro_batch_size: 1
- global_batch_size: 256
- max_length: 32768
- weight_decay: 0.1
- tensor_model_parallel_size: 2
- expert_model_parallel_size: 4
- moe_grouped_gemm: True
- moe_shared_expert_overlap: True
- moe_aux_loss_coeff: 0.01
- recompute_granularity: full
- recompute_method: uniform
- recompute_num_layers: 1
- cross_entropy_loss_fusion: True
- sequence_parallel: True
- packing: True
- use_flash_attn: True

ライセンス

MITライセンスの元公開します。