Quantization?

by ffedericoni - opened Dec 30, 2023

Dec 30, 2023

Grazie per questi modelli in italiano.
Pensate di fornire versioni più piccole, ad esempio quantizzate a 4 bit nei formati GGUF/AWQ?

SWAP Research Group@UNIBA org Jan 19

Ciao, attualmente puoi caricare il modello in versione quantizzata usando Bitsandbytes (https://huggingface.co/blog/4bit-transformers-bitsandbytes). Probabilmente rilasceremo delle versioni già quantizzate prossimamente. Nel frattempo se sei interessato al topic ti consiglio di seguire la guida di llama.cpp (https://github.com/ggerganov/llama.cpp)

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment