Upload README.md with huggingface_hub
Browse files
README.md
ADDED
|
@@ -0,0 +1,45 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
# MiniCPM4-0.5B RKLLM Models Test Repository
|
| 2 |
+
|
| 3 |
+
这是一个测试仓库,用于存储和管理MiniCPM4-0.5B的RKLLM模型文件。
|
| 4 |
+
|
| 5 |
+
## 📋 模型列表
|
| 6 |
+
|
| 7 |
+
### 🎯 推荐模型:GPTQ版本
|
| 8 |
+
- **文件名**: `MiniCPM4-0.5B-QAT-Int4-GPTQ-format_w4a16_g32_RK3576.rkllm`
|
| 9 |
+
- **大小**: 471MB
|
| 10 |
+
- **特点**: 完美支持embedding输入
|
| 11 |
+
- **测试结果**: 余弦相似度 1.0,Top-50重叠率 100%
|
| 12 |
+
|
| 13 |
+
### ⚠️ 限制模型:Per-Channel版本
|
| 14 |
+
- **文件名**: `Minicpm4-0.5B-QAT-Int4-perChannel_w4a16_RK3576.rkllm`
|
| 15 |
+
- **大小**: 414MB
|
| 16 |
+
- **特点**: 仅推荐token输入
|
| 17 |
+
- **问题**: embedding输入会产生EOS tokens
|
| 18 |
+
|
| 19 |
+
### 📊 测试发现
|
| 20 |
+
|
| 21 |
+
我们发现了一个反直觉的现象:**量化模型比原始模型更一致**!
|
| 22 |
+
|
| 23 |
+
| 模型类型 | 余弦相似度 | Top-50重叠 | 状态 |
|
| 24 |
+
|----------|------------|------------|------|
|
| 25 |
+
| GPTQ量化 | 1.0000 | 100% | ✅ 完美 |
|
| 26 |
+
| Per-Channel | N/A | N/A | ❌ 产生EOS |
|
| 27 |
+
| 原始FP16 | 0.5946 | 7.85% | ⚠️ 不一致 |
|
| 28 |
+
|
| 29 |
+
## 🚀 使用方法
|
| 30 |
+
|
| 31 |
+
```bash
|
| 32 |
+
# 下载模型
|
| 33 |
+
huggingface-cli download okletsgg/minicpm-rkllm-test
|
| 34 |
+
```
|
| 35 |
+
|
| 36 |
+
## 🔧 硬件要求
|
| 37 |
+
|
| 38 |
+
- **硬件**: RK3576
|
| 39 |
+
- **内存**: 建议4GB+
|
| 40 |
+
- **存储**: 根据模型大小预留空间
|
| 41 |
+
|
| 42 |
+
## 📝 更新日志
|
| 43 |
+
|
| 44 |
+
- **2024-01**: 完成量化效应对embedding输入影响的测试
|
| 45 |
+
- **2024-01**: 发现GPTQ量化模型的完美对齐特性
|