BabyLM-community
/

babylm-baseline-100m-gpt-bert-masked-focus

babylm-baseline

Model card Files Files and versions Community

lgcharpe commited on 2 days ago

Commit

b2a4d72

·

verified ·

1 Parent(s): b9c1a62

Uploading patch

Files changed (1) hide show

modeling_gpt_bert.py +3 -2

modeling_gpt_bert.py CHANGED Viewed

@@ -310,6 +310,7 @@ class Embedding(nn.Module):
 class GPTBERTPreTrainedModel(PreTrainedModel):
     config_class = ModelConfig
     supports_gradient_checkpointing = False
     def _set_gradient_checkpointing(self, module, value=False):
         raise NotImplementedError("Gradient checkpointing is not supported by this model")
@@ -330,7 +331,7 @@ class GPTBERTPreTrainedModel(PreTrainedModel):
 class GPTBERT(GPTBERTPreTrainedModel):
-    def __init__(self, config: ModelConfig, is_causal: bool, **kwargs):
         super().__init__(config, **kwargs)
         self.config = config
         self.hidden_size = config.hidden_size
@@ -380,7 +381,7 @@ class GPTBERT(GPTBERTPreTrainedModel):
             attention, layer_attention_probs = attention_layer(contextualized_embeddings[-1], attention_mask, relative_embeddings)
             layer_embeddings = contextualized_embeddings[-1] + attention
             layer_embeddings = self.dwa_modules(layer_embeddings, block_idx=i * 2)
-            layer_embeddings += mlp_layer(layer_embeddings)
             layer_embeddings = self.dwa_modules(layer_embeddings, block_idx=i * 2 + 1)
             contextualized_embeddings.append(layer_embeddings)
             attention_probs.append(layer_attention_probs)

 class GPTBERTPreTrainedModel(PreTrainedModel):
     config_class = ModelConfig
     supports_gradient_checkpointing = False
+    base_model_prefix = "model"
     def _set_gradient_checkpointing(self, module, value=False):
         raise NotImplementedError("Gradient checkpointing is not supported by this model")
 class GPTBERT(GPTBERTPreTrainedModel):
+    def __init__(self, config: ModelConfig, is_causal: bool = False, **kwargs):
         super().__init__(config, **kwargs)
         self.config = config
         self.hidden_size = config.hidden_size
             attention, layer_attention_probs = attention_layer(contextualized_embeddings[-1], attention_mask, relative_embeddings)
             layer_embeddings = contextualized_embeddings[-1] + attention
             layer_embeddings = self.dwa_modules(layer_embeddings, block_idx=i * 2)
+            layer_embeddings = layer_embeddings + mlp_layer(layer_embeddings)
             layer_embeddings = self.dwa_modules(layer_embeddings, block_idx=i * 2 + 1)
             contextualized_embeddings.append(layer_embeddings)
             attention_probs.append(layer_attention_probs)