Zion-9B / README.md
nextaisolutions's picture
Upload 13 files
74e0d02 verified
metadata
license: apache-2.0
language:
  - en
  - de
  - es
  - fr
  - it
  - pt
  - pl
  - nl
  - tr
  - sv
  - cs
  - el
  - hu
  - ro
  - fi
  - uk
  - sl
  - sk
  - da
  - lt
  - lv
  - et
  - bg
  - 'no'
  - ca
  - hr
  - ga
  - mt
  - gl
  - zh
  - ru
  - ko
  - ja
  - ar
  - hi
library_name: mlx
pipeline_tag: text-generation
tags:
  - mlx

Modelo Zion 1.0

  • Developed by: Next AI Solutions.
  • Model type: 9B transfomer LLM.

Model Description

O Zion 1.0 utiliza uma arquitetura Transformer densa e padrão:

  • Utilizamos a atenção de consulta agrupada (GQA) com 8 cabeças de chave-valor, pois demonstrou aumentar a velocidade no momento da inferência, mantendo o desempenho a jusante.
  • Realizamos a normalização pré-camada, pois melhora a estabilidade do treinamento, e utilizamos o RMSNorm, que é mais rápido.
  • Utilizamos a função de ativação SwiGLU, pois demonstrou levar a bons resultados em tarefas a jusante.
  • Utilizamos incorporações posicionais rotativas (RoPE) em todas as camadas, pois demonstraram levar a bons desempenhos, permitindo a extensão do comprimento do contexto.

Para o pré-treinamento, utilizamos quatro Mac Studio M4 128, treinando o modelo com um tamanho de lote constante de 2.800 sequências, o que corresponde a aproximadamente 12 milhões de tokens, utilizando o otimizador Adam e precisão BF16. Aqui está um resumo dos hiperparâmetros do modelo:

Comprimento da Sequência 4.096
Número de Camadas 42
Tamanho de Incorporação 4.096
Tamanho Oculto FFN 12.288
Número de Cabeças 32
Número de Cabeças KV (GQA) 8
Função de Ativação SwiGLU
Codificações de Posição RoPE (\Theta=10.000)
Norma da Camada RMSNorm
Incorporações Amarradas Não
Parâmetros de Incorporação 0,524B
Parâmetros da Cabeça LM 0,524B
Parâmetros Não Incorporantes 8,105B
Parâmetros Totais 9,154B