rhymes-ai
/

Aria

@@ -23,7 +23,7 @@ from typing import List, Optional, Tuple, Union
 import torch
 import torch.nn as nn
 from torch import nn
-from transformers import PreTrainedModel
 from transformers.modeling_outputs import ModelOutput
 from transformers.utils import logging
@@ -122,7 +122,7 @@ def build_mm_projector(config: AriaConfig):
 # adapted from transformers.models.llava.modeling_llava.LlavaForConditionalGeneration
-class AriaForConditionalGeneration(AriaPretrainedModel):
     """
     Aria model for conditional generation tasks.

 import torch
 import torch.nn as nn
 from torch import nn
+from transformers import GenerationMixin, PreTrainedModel
 from transformers.modeling_outputs import ModelOutput
 from transformers.utils import logging
 # adapted from transformers.models.llava.modeling_llava.LlavaForConditionalGeneration
+class AriaForConditionalGeneration(AriaPretrainedModel, GenerationMixin):
     """
     Aria model for conditional generation tasks.

moe_lm.py CHANGED Viewed

@@ -25,7 +25,7 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
 from torch import nn
-from transformers import LlamaConfig
 from transformers.models.llama.modeling_llama import (
     ACT2FN,
     LLAMA_ATTENTION_CLASSES,
@@ -634,7 +634,7 @@ class AriaMoELMModel(LlamaModel):
         self.post_init()
-class AriaMoELMForCausalLM(LlamaForCausalLM):
     """
     AriaMoE model for causal language modeling tasks.

 import torch.nn as nn
 import torch.nn.functional as F
 from torch import nn
+from transformers import GenerationMixin, LlamaConfig
 from transformers.models.llama.modeling_llama import (
     ACT2FN,
     LLAMA_ATTENTION_CLASSES,
         self.post_init()
+class AriaMoELMForCausalLM(LlamaForCausalLM, GenerationMixin):
     """
     AriaMoE model for causal language modeling tasks.