Doctor-Shotgun
/

Qwen3-30B-A3B-Instruct-2507-ScatterMoE

Text Generation

qwen3_shared_moe

Model card Files Files and versions Community

Doctor-Shotgun commited on Jul 31

Commit

bee792f

·

verified ·

1 Parent(s): 6ebf48b

Remove deprecated import, type hint

Files changed (1) hide show

modeling_qwen3_shared_moe.py +2 -10

modeling_qwen3_shared_moe.py CHANGED Viewed

@@ -20,17 +20,12 @@ import torch
 from torch import nn
 import torch.nn.functional as F
-from transformers.modeling_flash_attention_utils import FlashAttentionKwargs
 from transformers.modeling_outputs import (
     MoeCausalLMOutputWithPast,
     MoeModelOutputWithPast,
 )
 from transformers.activations import ACT2FN
-from transformers.processing_utils import Unpack
-from transformers.utils import (
-    LossKwargs,
-    logging,
-)
 from transformers.models.mixtral.modeling_mixtral import (
     load_balancing_loss_func,
 )
@@ -132,9 +127,6 @@ class Qwen3SharedMoeModel(Qwen3MoeModel):
         )
-class KwargsForCausalLM(FlashAttentionKwargs, LossKwargs): ...
 class Qwen3SharedMoeForCausalLM(Qwen3MoeForCausalLM):
     config_class = Qwen3SharedMoeConfig
@@ -157,7 +149,7 @@ class Qwen3SharedMoeForCausalLM(Qwen3MoeForCausalLM):
         output_router_logits: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None,
         logits_to_keep: Union[int, torch.Tensor] = 0,
-        **kwargs: Unpack[KwargsForCausalLM],
     ) -> MoeCausalLMOutputWithPast:
         r"""
             labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):

 from torch import nn
 import torch.nn.functional as F
 from transformers.modeling_outputs import (
     MoeCausalLMOutputWithPast,
     MoeModelOutputWithPast,
 )
 from transformers.activations import ACT2FN
+from transformers.utils import logging
 from transformers.models.mixtral.modeling_mixtral import (
     load_balancing_loss_func,
 )
         )
 class Qwen3SharedMoeForCausalLM(Qwen3MoeForCausalLM):
     config_class = Qwen3SharedMoeConfig
         output_router_logits: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None,
         logits_to_keep: Union[int, torch.Tensor] = 0,
+        **kwargs,
     ) -> MoeCausalLMOutputWithPast:
         r"""
             labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):