|
--- |
|
license: apache-2.0 |
|
language: |
|
- en |
|
- de |
|
- es |
|
- fr |
|
- it |
|
- pt |
|
- pl |
|
- nl |
|
- tr |
|
- sv |
|
- cs |
|
- el |
|
- hu |
|
- ro |
|
- fi |
|
- uk |
|
- sl |
|
- sk |
|
- da |
|
- lt |
|
- lv |
|
- et |
|
- bg |
|
- 'no' |
|
- ca |
|
- hr |
|
- ga |
|
- mt |
|
- gl |
|
- zh |
|
- ru |
|
- ko |
|
- ja |
|
- ar |
|
- hi |
|
library_name: mlx |
|
pipeline_tag: text-generation |
|
tags: |
|
- mlx |
|
--- |
|
|
|
# Modelo Zion 1.0 |
|
|
|
|
|
- **Developed by:** Next AI Solutions. |
|
- **Model type:** 9B transfomer LLM. |
|
|
|
### Model Description |
|
|
|
O Zion 1.0 utiliza uma arquitetura Transformer densa e padrão: |
|
- Utilizamos a atenção de consulta agrupada (GQA) com 8 cabeças de chave-valor, pois demonstrou aumentar a velocidade no momento da inferência, mantendo o desempenho a jusante. |
|
- Realizamos a normalização pré-camada, pois melhora a estabilidade do treinamento, e utilizamos o RMSNorm, que é mais rápido. |
|
- Utilizamos a função de ativação SwiGLU, pois demonstrou levar a bons resultados em tarefas a jusante. |
|
- Utilizamos incorporações posicionais rotativas (RoPE) em todas as camadas, pois demonstraram levar a bons desempenhos, permitindo a extensão do comprimento do contexto. |
|
|
|
Para o pré-treinamento, utilizamos quatro Mac Studio M4 128, treinando o modelo com um tamanho de lote constante de 2.800 sequências, o que corresponde a aproximadamente 12 milhões de tokens, utilizando o otimizador Adam e precisão BF16. |
|
Aqui está um resumo dos hiperparâmetros do modelo: |
|
| | | |
|
|--------------------------------------|----------------------| |
|
| Comprimento da Sequência | 4.096 | |
|
| Número de Camadas | 42 | |
|
| Tamanho de Incorporação | 4.096 | |
|
| Tamanho Oculto FFN | 12.288 | |
|
| Número de Cabeças | 32 | |
|
| Número de Cabeças KV (GQA) | 8 | |
|
| Função de Ativação | SwiGLU | |
|
| Codificações de Posição | RoPE (\Theta=10.000) | |
|
| Norma da Camada | RMSNorm | |
|
| Incorporações Amarradas | Não | |
|
| Parâmetros de Incorporação | 0,524B | |
|
| Parâmetros da Cabeça LM | 0,524B | |
|
| Parâmetros Não Incorporantes | 8,105B | |
|
| Parâmetros Totais | 9,154B | |