Zion-9B / README.md

nextaisolutions

Upload 13 files

74e0d02 verified 20 days ago

preview code

raw

history blame contribute delete

1.94 kB

metadata

license: apache-2.0
language:
  - en
  - de
  - es
  - fr
  - it
  - pt
  - pl
  - nl
  - tr
  - sv
  - cs
  - el
  - hu
  - ro
  - fi
  - uk
  - sl
  - sk
  - da
  - lt
  - lv
  - et
  - bg
  - 'no'
  - ca
  - hr
  - ga
  - mt
  - gl
  - zh
  - ru
  - ko
  - ja
  - ar
  - hi
library_name: mlx
pipeline_tag: text-generation
tags:
  - mlx

Modelo Zion 1.0

Developed by: Next AI Solutions.
Model type: 9B transfomer LLM.

Model Description

O Zion 1.0 utiliza uma arquitetura Transformer densa e padrão:

Utilizamos a atenção de consulta agrupada (GQA) com 8 cabeças de chave-valor, pois demonstrou aumentar a velocidade no momento da inferência, mantendo o desempenho a jusante.
Realizamos a normalização pré-camada, pois melhora a estabilidade do treinamento, e utilizamos o RMSNorm, que é mais rápido.
Utilizamos a função de ativação SwiGLU, pois demonstrou levar a bons resultados em tarefas a jusante.
Utilizamos incorporações posicionais rotativas (RoPE) em todas as camadas, pois demonstraram levar a bons desempenhos, permitindo a extensão do comprimento do contexto.

Para o pré-treinamento, utilizamos quatro Mac Studio M4 128, treinando o modelo com um tamanho de lote constante de 2.800 sequências, o que corresponde a aproximadamente 12 milhões de tokens, utilizando o otimizador Adam e precisão BF16. Aqui está um resumo dos hiperparâmetros do modelo:


Comprimento da Sequência	4.096
Número de Camadas	42
Tamanho de Incorporação	4.096
Tamanho Oculto FFN	12.288
Número de Cabeças	32
Número de Cabeças KV (GQA)	8
Função de Ativação	SwiGLU
Codificações de Posição	RoPE (\Theta=10.000)
Norma da Camada	RMSNorm
Incorporações Amarradas	Não
Parâmetros de Incorporação	0,524B
Parâmetros da Cabeça LM	0,524B
Parâmetros Não Incorporantes	8,105B
Parâmetros Totais	9,154B