aws-neuron
/

optimum-neuron-cache

dacorvo HF Staff commited on Sep 10

Commit

05a6e8d

verified ·

1 Parent(s): 1f93295

Create llama4.json

Files changed (1) hide show

inference-cache-config/llama4.json ADDED Viewed

+{
+  "meta-llama/Llama-4-Scout-17B-16E-Instruct": [
+    {
+      "task": "text-generation",
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "num_cores": 16,
+      "auto_cast_type": "bf16"
+    },
+    {
+      "task": "text-generation",
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "num_cores": 16,
+      "auto_cast_type": "bf16"
+    }
+  ]
+}