cpatonn
/

cogito-v2-preview-llama-109B-MoE-GPTQ-4bit

Image-Text-to-Text

text-generation-inference

compressed-tensors

Model card Files Files and versions

cpatonn commited on 10 days ago

Commit

70dd391

·

verified ·

1 Parent(s): 29589f1

Update README.md

Files changed (1) hide show

README.md +18 -0

README.md CHANGED Viewed

@@ -4,6 +4,24 @@ library_name: transformers
 base_model:
 - deepcogito/cogito-v2-preview-llama-109B-MoE
 ---
 <p align="center">
   <img src="images/deep-cogito-logo.png" alt="Logo" width="40%">

 base_model:
 - deepcogito/cogito-v2-preview-llama-109B-MoE
 ---
+# Cogito v2 preview - 109B MoE - GPTQ 4bit
+## Method
+Quantised using [vllm-project/llm-compressor](https://github.com/vllm-project/llm-compressor.git), [nvidia/Llama-Nemotron-Post-Training-Dataset](https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset) and the following configs:
+```
+recipe = GPTQModifier(
+    targets="Linear",
+    scheme="W4A16",
+    ignore=[
+        "re:.*lm_head",
+        "re:.*self_attn",
+        "re:.*router",
+        "re:vision_model.*",
+        "re:multi_modal_projector.*",
+        "Llama4TextAttention",
+    ],
+)
+```
 <p align="center">
   <img src="images/deep-cogito-logo.png" alt="Logo" width="40%">