xmadai
/

Llama-3.1-405B-Instruct-xMADai-INT4

Text Generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

Tianyi Zhang commited on Oct 30, 2024

Commit

051a9d7

·

verified ·

1 Parent(s): f7b09e8

Update README.md

Files changed (1) hide show

README.md +15 -0

README.md CHANGED Viewed

@@ -62,5 +62,20 @@ model = AutoGPTQForCausalLM.from_quantized(
 outputs = model.generate(**inputs, do_sample=True, max_new_tokens=1024)
 print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
 ```
 # Contact Us
 For additional xMADified models, access to fine-tuning, and general questions, please contact us at [email protected] and join our waiting list.

 outputs = model.generate(**inputs, do_sample=True, max_new_tokens=1024)
 print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
 ```
+# Citation
+If you found this model useful, please cite our research paper.
+```
+@article{zhang2024leanquant,
+  title={LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid},
+  author={Zhang, Tianyi and Shrivastava, Anshumali},
+  journal={arXiv preprint arXiv:2407.10032},
+  year={2024},
+  url={https://arxiv.org/abs/2407.10032},
+}
+```
 # Contact Us
 For additional xMADified models, access to fine-tuning, and general questions, please contact us at [email protected] and join our waiting list.