ISTA-DASLab
/

Llama-3.1-8B-Instruct-GGUF

Model card Files Files and versions

helcig commited on Sep 11

Commit

8601592

·

verified ·

1 Parent(s): 4ed2d4b

Update README.md

Files changed (1) hide show

README.md +30 -1

README.md CHANGED Viewed

@@ -3,4 +3,33 @@ base_model:
 - meta-llama/Llama-3.1-8B-Instruct
 ---
-See [GGUF Toolkit repo](https://github.com/IST-DASLab/gguf-toolkit)

 - meta-llama/Llama-3.1-8B-Instruct
 ---
+# Llama-3.1-8B-Instruct GGUF DASLab Quantization
+This repository contains advanced quantized versions of Llama 3.1 8B Instruct using **GPTQ quantization** and **GPTQ+EvoPress optimization** from the [DASLab GGUF Toolkit](https://github.com/IST-DASLab/gguf-toolkit).
+## Models
+- **GPTQ Uniform**: High-quality GPTQ quantization at 2-6 bit precision
+- **GPTQ+EvoPress**: Non-uniform per-layer quantization discovered via evolutionary search
+## Performance
+Our GPTQ-based quantization methods achieve **superior quality-compression tradeoffs** compared to standard quantization:
+- **Better perplexity** at equivalent bitwidths vs. naive quantization approaches
+- **Error-correcting updates** during calibration for improved accuracy
+- **Optimized configurations** that allocate bits based on layer sensitivity (EvoPress)
+| Method | Avg Bits | C4 PPL | WikiText2 PPL |
+|--------|----------|--------|---------------|
+| GPTQ-4 | 4.50 | 11.35 | 6.89 |
+| EvoPress-GPTQ-4 | 4.50 | 11.35 | 6.89 |
+| EvoPress-GPTQ-5 | 5.51 | 11.13 | 6.79 |
+## Usage
+Compatible with llama.cpp and all GGUF-supporting inference engines. No special setup required.
+**Full documentation, evaluation results, and toolkit source**: https://github.com/IST-DASLab/gguf-toolkit
+---