Upload folder using huggingface_hub

Files changed (4) hide show

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+model.safetensors.index.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -5,14 +5,15 @@ license_link: https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507/blob/mai
 pipeline_tag: text-generation
 tags:
 - Qwen3
-- AWQ
 - 量化修复
 - vLLM
 base_model:
   - Qwen/Qwen3-235B-A22B-Thinking-2507
 base_model_relation: quantized
 ---
-# 通义千问3-235B-A22B-Thinking-2507-AWQ
 基础型 [Qwen/Qwen3-235B-A22B-Thinking-2507](https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507)
@@ -22,8 +23,8 @@ base_model_relation: quantized
 $CONTEXT_LENGTH=32768  # 262144
 vllm serve \
-    tclf90/Qwen3-235B-A22B-Thinking-2507-AWQ \
-    --served-model-name Qwen3-235B-A22B-Thinking-2507-AWQ \
     --enable-expert-parallel \
     --swap-space 16 \
     --max-num-seqs 512 \
@@ -53,7 +54,7 @@ vllm>=0.9.2
 | 文件大小    | 最近更新时间       |
 |---------|--------------|
-| `116GB` | `2025-07-26` |
@@ -61,7 +62,7 @@ vllm>=0.9.2
 ```python
 from modelscope import snapshot_download
-snapshot_download('tclf90/Qwen3-235B-A22B-Thinking-2507-AWQ', cache_dir="本地路径")
 ```

 pipeline_tag: text-generation
 tags:
 - Qwen3
+- GPTQ
+- Int4-Int8Mix
 - 量化修复
 - vLLM
 base_model:
   - Qwen/Qwen3-235B-A22B-Thinking-2507
 base_model_relation: quantized
 ---
+# 通义千问3-235B-A22B-Thinking-2507-GPTQ-Int4-Int8Mix
 基础型 [Qwen/Qwen3-235B-A22B-Thinking-2507](https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507)
 $CONTEXT_LENGTH=32768  # 262144
 vllm serve \
+    tclf90/Qwen3-235B-A22B-Thinking-2507-GPTQ-Int4-Int8Mix \
+    --served-model-name Qwen3-235B-A22B-Thinking-2507-GPTQ-Int4-Int8Mix \
     --enable-expert-parallel \
     --swap-space 16 \
     --max-num-seqs 512 \
 | 文件大小    | 最近更新时间       |
 |---------|--------------|
+| `125GB` | `2025-07-26` |
 ```python
 from modelscope import snapshot_download
+snapshot_download('tclf90/Qwen3-235B-A22B-Thinking-2507-GPTQ-Int4-Int8Mix', cache_dir="本地路径")
 ```

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "name_or_path": "tclf90/Qwen3-235B-A22B-Thinking-2507-AWQ",
   "architectures": [
     "Qwen3MoeForCausalLM"
   ],
@@ -37,10 +37,15 @@
   "use_sliding_window": false,
   "vocab_size": 151936,
   "quantization_config": {
-    "quant_method": "awq",
     "bits": 4,
     "group_size": 128,
-    "version": "gemm",
-    "zero_point": true
   }
 }

 {
+  "name_or_path": "tclf90/Qwen3-235B-A22B-Thinking-2507-GPTQ-Int4-Int8Mix",
   "architectures": [
     "Qwen3MoeForCausalLM"
   ],
   "use_sliding_window": false,
   "vocab_size": 151936,
   "quantization_config": {
+    "quant_method": "gptq",
     "bits": 4,
     "group_size": 128,
+    "sym": true,
+    "desc_act": false,
+    "dynamic": {
+      "+:model[.]layers[.]([0-6])[.].*": {
+        "bits": 8
+      }
+    }
   }
 }

model.safetensors.index.json CHANGED Viewed

The diff for this file is too large to render. See raw diff