aws-neuron
/

optimum-neuron-cache

dacorvo HF Staff commited on Mar 8, 2024

Commit

593822e

verified ·

1 Parent(s): 608a595

Added Llama-70b batch_size 4 to inference cache

Files changed (1) hide show

inference-cache-config/llama.json CHANGED Viewed

@@ -105,6 +105,12 @@
       "sequence_length": 4096,
       "num_cores": 24,
       "auto_cast_type": "fp16"
     }
   ]
 }

       "sequence_length": 4096,
       "num_cores": 24,
       "auto_cast_type": "fp16"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "num_cores": 24,
+      "auto_cast_type": "fp16"
     }
   ]
 }