lamm-mit
/

Cephalo-Idefics2-vision-3x8b-beta

Model card Files Files and versions

mjbuehler commited on Jun 9, 2024

Commit

0333b31

·

verified ·

1 Parent(s): 4b46e98

Update moe_idefics2.py

Removed some commented code

Files changed (1) hide show

moe_idefics2.py +0 -8

moe_idefics2.py CHANGED Viewed

@@ -52,14 +52,6 @@ class MoE(nn.Module):
             expert_outputs = []
             for expert in self.experts:
                 expert_outputs.append(expert.down_proj(expert.act_fn(expert.gate_proj(x)) * expert.up_proj(x)))
-                '''
-                up_states = expert.gate_up_proj(x.view(-1, x.size(-1)))  # Flatten to [batch_size * seq_length, input_dim]
-                gate, up_states = up_states.chunk(2, dim=-1)
-                up_states = up_states * expert.activation_fn(gate)
-                expert_output = expert.down_proj(up_states)
-                expert_outputs.append(expert_output.view(batch_size, seq_length, -1))
-                '''
             expert_outputs = torch.stack(expert_outputs, dim=-1)  # Shape: [batch_size, seq_length, hidden_size, num_experts]

             expert_outputs = []
             for expert in self.experts:
                 expert_outputs.append(expert.down_proj(expert.act_fn(expert.gate_proj(x)) * expert.up_proj(x)))
             expert_outputs = torch.stack(expert_outputs, dim=-1)  # Shape: [batch_size, seq_length, hidden_size, num_experts]