|
|
--- |
|
|
license: apache-2.0 |
|
|
base_model: Qwen2.5-3B-Instruct |
|
|
language: |
|
|
- zh |
|
|
- id |
|
|
tags: |
|
|
- gguf |
|
|
- quantized |
|
|
- text-generation |
|
|
- llama |
|
|
- q4_k_m |
|
|
- efficient |
|
|
model_type: llama |
|
|
quantization: Q4_K_M |
|
|
--- |
|
|
|
|
|
# Royal ZhTW-ID Q4_K_M - Quantized Translation Model |
|
|
|
|
|
高效能量化版本的繁體中文↔印尼文雙向翻譯 GGUF 模型,基於 Llama 架構,採用 Q4_K_M 量化技術。 |
|
|
|
|
|
## 模型詳情 |
|
|
- **格式**: GGUF |
|
|
- **量化**: Q4_K_M (混合精度量化) |
|
|
- **架構**: Llama |
|
|
- **大小**: ~4.36GB (相較原版 F16 減少約 69% 大小) |
|
|
- **語言**: 繁體中文 (zh-TW) ↔ 印尼文 (ID) 雙向翻譯 |
|
|
- **原始模型**: roylin1003/royal-zhTW-ID-f16.gguf |
|
|
- **量化工具**: llama-quantize (llama.cpp) |
|
|
|
|
|
## 量化資訊 |
|
|
此模型使用 Q4_K_M 量化,提供: |
|
|
- 大幅減少記憶體使用量 |
|
|
- 保持良好的模型品質 |
|
|
- 更快的推理速度 |
|
|
- 適合資源有限的環境 |
|
|
|
|
|
## 使用方式 |
|
|
|
|
|
### Ollama |
|
|
```bash |
|
|
ollama run roylin1003/royal-ZhTW-ID-q4_k_m.gguf |
|
|
``` |
|
|
|
|
|
### llama.cpp |
|
|
```bash |
|
|
./main -m royal-ZhTW-ID-q4_k_m.gguf -p "Hello" -c 2048 |
|
|
``` |
|
|
|
|
|
### Python (llama-cpp-python) |
|
|
```python |
|
|
from llama_cpp import Llama |
|
|
llm = Llama( |
|
|
model_path="royal-ZhTW-ID-q4_k_m.gguf", |
|
|
n_ctx=2048, |
|
|
n_threads=8 |
|
|
) |
|
|
``` |
|
|
|
|
|
### LM Studio |
|
|
直接載入 GGUF 檔案即可使用 |
|
|
|
|
|
## 翻譯範例 |
|
|
|
|
|
### 繁體中文 → 印尼文 |
|
|
``` |
|
|
輸入: 請將以下繁體中文翻譯成印尼文 |
|
|
然而面臨到期債務壓力,可能影響其獲得補助的資格。 |
|
|
|
|
|
輸出: Namun, tekanan dari utang yang jatuh tempo dapat memengaruhi kelayakannya untuk menerima subsidi tersebut. |
|
|
``` |
|
|
|
|
|
### 印尼文 → 繁體中文 |
|
|
``` |
|
|
輸入: 請將以下印尼文翻譯成繁體中文 |
|
|
Namun, tekanan dari utang yang jatuh tempo dapat memengaruhi kelayakannya untuk menerima subsidi tersebut. |
|
|
|
|
|
輸出: 然而面臨到期債務壓力,可能影響其獲得補助的資格。 |
|
|
``` |
|
|
|
|
|
## 系統需求 |
|
|
- **RAM**: 最低 6GB,建議 8GB+ |
|
|
- **CPU**: 支援 AVX2 指令集 |
|
|
- **儲存**: 約 4.36GB 空間 |
|
|
|
|
|
## 效能比較 |
|
|
| 版本 | 大小 | 記憶體需求 | 推理速度 | 品質保持率 | |
|
|
|------|------|------------|----------|------------| |
|
|
| F16 | ~14GB| ~16GB | 基準 | 100% | |
|
|
| Q4_K_M| ~4.36GB | ~6GB | 2-3x faster| ~95% | |
|
|
|
|
|
## 兼容性 |
|
|
- ✅ llama.cpp |
|
|
- ✅ Ollama |
|
|
- ✅ text-generation-webui |
|
|
- ✅ LM Studio |
|
|
- ✅ KoboldCpp |
|
|
- ✅ Jan |
|
|
- ✅ GPT4All |
|
|
|
|
|
## 量化技術 |
|
|
Q4_K_M 採用混合精度策略: |
|
|
- 注意力機制使用較高精度 |
|
|
- FFN 層使用適中精度 |
|
|
- 平衡模型大小與品質 |
|
|
|
|
|
## 訓練資料 |
|
|
模型基於高品質的中文↔印尼文平行語料進行微調,涵蓋新聞、商務、學術等多種領域的翻譯對。 |
|
|
|
|
|
## 建議用途 |
|
|
- 繁體中文↔印尼文雙向翻譯 |
|
|
- 跨語言文檔處理 |
|
|
- 商務文件翻譯 |
|
|
- 新聞文章翻譯 |
|
|
- 學術文獻翻譯 |
|
|
|
|
|
## 授權 |
|
|
本模型採用 Apache 2.0 授權條款。 |
|
|
|
|
|
## 致謝 |
|
|
感謝 llama.cpp 團隊提供優秀的量化工具。 |
|
|
|
|
|
--- |
|
|
由 Roy Lin 創建 🚀 | Q4_K_M 量化版本 |