imi2
/

llama-2-7b-chat-pure-Q4_0-gguf

Model card Files Files and versions Community

imi2 commited on Apr 11

Commit

6466219

·

verified ·

1 Parent(s): 0801f09

Update README.md

Files changed (1) hide show

README.md +3 -2

README.md CHANGED Viewed

@@ -49,7 +49,7 @@ TODO:
 ------------
-## T-MAC (larger groupsize 128?)
 | Model                   | Size    | Params | Backend | Threads | Test   | t/s (tokens/sec)     |
 |-------------------------|---------|--------|---------|---------|--------|----------------------|
@@ -58,4 +58,5 @@ TODO:
 | qwen2 ?B INT_N Q4_K     | 1.70 GiB| 3.40 B | CPU     | 4       | pp512  | 59.66 ± 0.10         |
 | qwen2 ?B INT_N Q4_K     | 1.70 GiB| 3.40 B | CPU     | 4       | tg128  | 26.43 ± 0.14         |
-[Test Issue Link](https://github.com/microsoft/T-MAC/issues/79)

 ------------
+## llama.cpp Q4_K_M scheme and T-MAC inference -groupsize 128?
 | Model                   | Size    | Params | Backend | Threads | Test   | t/s (tokens/sec)     |
 |-------------------------|---------|--------|---------|---------|--------|----------------------|
 | qwen2 ?B INT_N Q4_K     | 1.70 GiB| 3.40 B | CPU     | 4       | pp512  | 59.66 ± 0.10         |
 | qwen2 ?B INT_N Q4_K     | 1.70 GiB| 3.40 B | CPU     | 4       | tg128  | 26.43 ± 0.14         |
+**It's 16.3% faster and 13% smaller.**
+- [Issue Link](https://github.com/microsoft/T-MAC/issues/79)