nsxtai
/

Zion-9B

Text Generation

Model card Files Files and versions

Zion-9B / README.md

nextaisolutions's picture

nextaisolutions

Upload 13 files

74e0d02 verified about 1 month ago

|

history blame contribute delete

1.94 kB

	---
	license: apache-2.0
	language:
	- en
	- de
	- es
	- fr
	- it
	- pt
	- pl
	- nl
	- tr
	- sv
	- cs
	- el
	- hu
	- ro
	- fi
	- uk
	- sl
	- sk
	- da
	- lt
	- lv
	- et
	- bg
	- 'no'
	- ca
	- hr
	- ga
	- mt
	- gl
	- zh
	- ru
	- ko
	- ja
	- ar
	- hi
	library_name: mlx
	pipeline_tag: text-generation
	tags:
	- mlx
	---

	# Modelo Zion 1.0


	- Developed by: Next AI Solutions.
	- Model type: 9B transfomer LLM.

	### Model Description

	O Zion 1.0 utiliza uma arquitetura Transformer densa e padrão:
	- Utilizamos a atenção de consulta agrupada (GQA) com 8 cabeças de chave-valor, pois demonstrou aumentar a velocidade no momento da inferência, mantendo o desempenho a jusante.
	- Realizamos a normalização pré-camada, pois melhora a estabilidade do treinamento, e utilizamos o RMSNorm, que é mais rápido.
	- Utilizamos a função de ativação SwiGLU, pois demonstrou levar a bons resultados em tarefas a jusante.
	- Utilizamos incorporações posicionais rotativas (RoPE) em todas as camadas, pois demonstraram levar a bons desempenhos, permitindo a extensão do comprimento do contexto.

	Para o pré-treinamento, utilizamos quatro Mac Studio M4 128, treinando o modelo com um tamanho de lote constante de 2.800 sequências, o que corresponde a aproximadamente 12 milhões de tokens, utilizando o otimizador Adam e precisão BF16.
	Aqui está um resumo dos hiperparâmetros do modelo:
	\| \| \|
	\|--------------------------------------\|----------------------\|
	\| Comprimento da Sequência \| 4.096 \|
	\| Número de Camadas \| 42 \|
	\| Tamanho de Incorporação \| 4.096 \|
	\| Tamanho Oculto FFN \| 12.288 \|
	\| Número de Cabeças \| 32 \|
	\| Número de Cabeças KV (GQA) \| 8 \|
	\| Função de Ativação \| SwiGLU \|
	\| Codificações de Posição \| RoPE (\Theta=10.000) \|
	\| Norma da Camada \| RMSNorm \|
	\| Incorporações Amarradas \| Não \|
	\| Parâmetros de Incorporação \| 0,524B \|
	\| Parâmetros da Cabeça LM \| 0,524B \|
	\| Parâmetros Não Incorporantes \| 8,105B \|
	\| Parâmetros Totais \| 9,154B \|