Quantization?
#1
by
ffedericoni
- opened
Grazie per questi modelli in italiano.
Pensate di fornire versioni più piccole, ad esempio quantizzate a 4 bit nei formati GGUF/AWQ?
Ciao, attualmente puoi caricare il modello in versione quantizzata usando Bitsandbytes (https://huggingface.co/blog/4bit-transformers-bitsandbytes). Probabilmente rilasceremo delle versioni già quantizzate prossimamente. Nel frattempo se sei interessato al topic ti consiglio di seguire la guida di llama.cpp (https://github.com/ggerganov/llama.cpp)