qualcomm
/

Mistral-7B-Instruct-v0_3

@@ -41,7 +41,7 @@ More details on model performance across various devices, can be found
   - Decoding length: 4096
   - Use: Initiate conversation with prompt-processor and then token generator for subsequent iterations.
-| Model | Device | Chipset | Target Runtime | Response Rate (Tokens/Second) | Time To First Token Range (Seconds) | Tiny MMLU
 |---|---|---|---|---|---|---|
 | Mistral-7B-Instruct-v0_3 | Snapdragon 8 Elite QRD | Snapdragon® 8 Elite | QNN | 10.73 | 0.18 - 5.79 | 58.85% | Use Export Script |

   - Decoding length: 4096
   - Use: Initiate conversation with prompt-processor and then token generator for subsequent iterations.
+| Model | Device | Chipset | Target Runtime | Response Rate (tokens per second) | Time To First Token (range, seconds) | Tiny MMLU
 |---|---|---|---|---|---|---|
 | Mistral-7B-Instruct-v0_3 | Snapdragon 8 Elite QRD | Snapdragon® 8 Elite | QNN | 10.73 | 0.18 - 5.79 | 58.85% | Use Export Script |