Modelo Zion 1.0

  • Developed by: Next AI Solutions.
  • Model type: 9B transfomer LLM.

Model Description

O Zion 1.0 utiliza uma arquitetura Transformer densa e padrão:

  • Utilizamos a atenção de consulta agrupada (GQA) com 8 cabeças de chave-valor, pois demonstrou aumentar a velocidade no momento da inferência, mantendo o desempenho a jusante.
  • Realizamos a normalização pré-camada, pois melhora a estabilidade do treinamento, e utilizamos o RMSNorm, que é mais rápido.
  • Utilizamos a função de ativação SwiGLU, pois demonstrou levar a bons resultados em tarefas a jusante.
  • Utilizamos incorporações posicionais rotativas (RoPE) em todas as camadas, pois demonstraram levar a bons desempenhos, permitindo a extensão do comprimento do contexto.

Para o pré-treinamento, utilizamos quatro Mac Studio M4 128, treinando o modelo com um tamanho de lote constante de 2.800 sequências, o que corresponde a aproximadamente 12 milhões de tokens, utilizando o otimizador Adam e precisão BF16. Aqui está um resumo dos hiperparâmetros do modelo:

Comprimento da Sequência 4.096
Número de Camadas 42
Tamanho de Incorporação 4.096
Tamanho Oculto FFN 12.288
Número de Cabeças 32
Número de Cabeças KV (GQA) 8
Função de Ativação SwiGLU
Codificações de Posição RoPE (\Theta=10.000)
Norma da Camada RMSNorm
Incorporações Amarradas Não
Parâmetros de Incorporação 0,524B
Parâmetros da Cabeça LM 0,524B
Parâmetros Não Incorporantes 8,105B
Parâmetros Totais 9,154B
Downloads last month
21
Safetensors
Model size
9.15B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for nsxtai/Zion-9B

Quantizations
2 models