aws-neuron
/

optimum-neuron-cache

dacorvo HF Staff commited on May 31, 2024

Commit

545cd4d

verified ·

1 Parent(s): ee458f5

Add more batch_size for mistral on smaller instances

Files changed (1) hide show

inference-cache-config/mistral.json CHANGED Viewed

@@ -6,6 +6,18 @@
       "num_cores": 2,
       "auto_cast_type": "fp16"
     },
     {
       "batch_size": 1,
       "sequence_length": 4096,

       "num_cores": 2,
       "auto_cast_type": "fp16"
     },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "num_cores": 4,
+      "auto_cast_type": "fp16"
+    },
+    {
+      "batch_size": 8,
+      "sequence_length": 4096,
+      "num_cores": 2,
+      "auto_cast_type": "fp16"
+    },
     {
       "batch_size": 1,
       "sequence_length": 4096,