diff --git a/.gitattributes b/.gitattributes
index ecaef5ea65967aa14f9963a41681b8c1024ea593..5727c7b07e343cbb00e7b69fd26fcd6ede46a91d 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -10618,3 +10618,24 @@ neuronxcc-2.19.8089.0+8ab9f450/MODULE_0bac481d29ac1829a8af+253d6470/model.neff f
 neuronxcc-2.19.8089.0+8ab9f450/MODULE_2052cf656c210489741d+431f5505/model.neff filter=lfs diff=lfs merge=lfs -text
 neuronxcc-2.19.8089.0+8ab9f450/MODULE_b9a3b941bc75ca360b60+cd3419b6/model.neff filter=lfs diff=lfs merge=lfs -text
 neuronxcc-2.19.8089.0+8ab9f450/MODULE_b9a3b941bc75ca360b60+cd3419b6/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_0b67a734fc55d67768bd+253d6470/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_1d0c9d2357e7888e46cd+253d6470/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_20ce63f489314924a057+253d6470/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_40f6b4304be01d72d956+253d6470/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_64f5633fb25cfe2548d6+253d6470/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_9f17b2a2f6b76b4ae4a8+253d6470/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_b522f7aabb6b091bde5f+253d6470/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/Qwen/Qwen3-30B-A3B-Instruct-2507/2e075469bb7e246e19de.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/Qwen/Qwen3-30B-A3B-Instruct-2507/2e075469bb7e246e19de.json
new file mode 100644
index 0000000000000000000000000000000000000000..4d96cdd82a33c2bf0e3e35ce5dbeeea2cafd45f9
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/Qwen/Qwen3-30B-A3B-Instruct-2507/2e075469bb7e246e19de.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen3-30B-A3B-Instruct-2507",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 1,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 6144,
+  "max_position_embeddings": 262144,
+  "max_window_layers": 48,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 768,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 8,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "Qwen/Qwen3-30B-A3B-Instruct-2507",
+    "checkpoint_revision": "61082d4deaa4785f64943b443cbc2b5de7524fad",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 8,
+    "logical_nc_config": 1,
+    "max_batch_size": 8,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 8,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 32,
+  "num_experts": 128,
+  "num_experts_per_tok": 8,
+  "num_hidden_layers": 48,
+  "num_key_value_heads": 4,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000000,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/63936687f0615be0c4b5.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/63936687f0615be0c4b5.json
new file mode 100644
index 0000000000000000000000000000000000000000..c31686cfbc1c1a9d54c0d86dcb4bded5dca641cb
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/63936687f0615be0c4b5.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 2,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 64,
+  "initializer_range": 0.02,
+  "intermediate_size": 128,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 1,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 128,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+    "checkpoint_revision": "e0230be2839556b44b7400a233c73c74b4abb7af",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 1024,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 1024,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 1024,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 2,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/67d11d4985c28ac7d5ff.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/67d11d4985c28ac7d5ff.json
new file mode 100644
index 0000000000000000000000000000000000000000..5e92538d4c65e2230433c39b14581d471147e741
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/67d11d4985c28ac7d5ff.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 2,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 64,
+  "initializer_range": 0.02,
+  "intermediate_size": 128,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 1,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 128,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+    "checkpoint_revision": "e0230be2839556b44b7400a233c73c74b4abb7af",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 2,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/cd03fa772b07fbb454c0.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/cd03fa772b07fbb454c0.json
new file mode 100644
index 0000000000000000000000000000000000000000..857271cc14484c5f4141af1f56bde95321ddbf7d
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/cd03fa772b07fbb454c0.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 2,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 64,
+  "initializer_range": 0.02,
+  "intermediate_size": 128,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 1,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 128,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+    "checkpoint_revision": "e0230be2839556b44b7400a233c73c74b4abb7af",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 2,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/e5eddc28add59e2ee9d6.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/e5eddc28add59e2ee9d6.json
new file mode 100644
index 0000000000000000000000000000000000000000..9861451f01a555e63d7d11f1c7c18529098a1ee1
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/e5eddc28add59e2ee9d6.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 2,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 64,
+  "initializer_range": 0.02,
+  "intermediate_size": 128,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 1,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 128,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 2,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+    "checkpoint_revision": "e0230be2839556b44b7400a233c73c74b4abb7af",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 2,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 2,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/tiny-random/qwen3-moe/21c419fc8bcc3104cc37.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/tiny-random/qwen3-moe/21c419fc8bcc3104cc37.json
new file mode 100644
index 0000000000000000000000000000000000000000..f42327d2bbeeb9b31bab20146edd8583d89f4b9b
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/tiny-random/qwen3-moe/21c419fc8bcc3104cc37.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "tiny-random/qwen3-moe",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 2,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 64,
+  "initializer_range": 0.02,
+  "intermediate_size": 128,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 1,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 128,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 2,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "tiny-random/qwen3-moe",
+    "checkpoint_revision": "10a349dcb488b10c27aa4a3c1dbefb74c41565c3",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 2,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 2,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/tiny-random/qwen3-moe/e14cd546176a864ee18b.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/tiny-random/qwen3-moe/e14cd546176a864ee18b.json
new file mode 100644
index 0000000000000000000000000000000000000000..4a14615eca9f58adc68a1a996b8bc6935a75dc92
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/tiny-random/qwen3-moe/e14cd546176a864ee18b.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "tiny-random/qwen3-moe",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 2,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 64,
+  "initializer_range": 0.02,
+  "intermediate_size": 128,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 1,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 128,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "tiny-random/qwen3-moe",
+    "checkpoint_revision": "10a349dcb488b10c27aa4a3c1dbefb74c41565c3",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 2,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/tiny-random/qwen3-moe/e99ce6fcf5be305e9424.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/tiny-random/qwen3-moe/e99ce6fcf5be305e9424.json
new file mode 100644
index 0000000000000000000000000000000000000000..fe4648571c25856e0515e4f7d8dcbeb9f4912c40
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/tiny-random/qwen3-moe/e99ce6fcf5be305e9424.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "tiny-random/qwen3-moe",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 2,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 64,
+  "initializer_range": 0.02,
+  "intermediate_size": 128,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 1,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 128,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "tiny-random/qwen3-moe",
+    "checkpoint_revision": "10a349dcb488b10c27aa4a3c1dbefb74c41565c3",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 2,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/yujiepan/qwen3-moe-tiny-random/1cacc2cc42865a8b000d.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/yujiepan/qwen3-moe-tiny-random/1cacc2cc42865a8b000d.json
new file mode 100644
index 0000000000000000000000000000000000000000..83443d345a27a77ac798d282e6139485f26ec536
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/yujiepan/qwen3-moe-tiny-random/1cacc2cc42865a8b000d.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/qwen3-moe-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 2,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 64,
+  "initializer_range": 0.02,
+  "intermediate_size": 128,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 1,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 128,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 2,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/qwen3-moe-tiny-random",
+    "checkpoint_revision": "fb6c5ee2a2c19bd9aced6d9afd8a858966a7bb7e",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 2,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 2,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/yujiepan/qwen3-moe-tiny-random/619f2f5356bdf0f59205.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/yujiepan/qwen3-moe-tiny-random/619f2f5356bdf0f59205.json
new file mode 100644
index 0000000000000000000000000000000000000000..b29c4d5d735011faac8c3e32b97562f02e07fb4a
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/yujiepan/qwen3-moe-tiny-random/619f2f5356bdf0f59205.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/qwen3-moe-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 2,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 64,
+  "initializer_range": 0.02,
+  "intermediate_size": 128,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 1,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 128,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/qwen3-moe-tiny-random",
+    "checkpoint_revision": "fb6c5ee2a2c19bd9aced6d9afd8a858966a7bb7e",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 2,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/yujiepan/qwen3-moe-tiny-random/67bc8c12b9b1221b38ad.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/yujiepan/qwen3-moe-tiny-random/67bc8c12b9b1221b38ad.json
new file mode 100644
index 0000000000000000000000000000000000000000..b9c74ffad3ea40cbac21d589c5d0de91e56298e8
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3_moe/yujiepan/qwen3-moe-tiny-random/67bc8c12b9b1221b38ad.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/qwen3-moe-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 2,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 64,
+  "initializer_range": 0.02,
+  "intermediate_size": 128,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 1,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 128,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/qwen3-moe-tiny-random",
+    "checkpoint_revision": "fb6c5ee2a2c19bd9aced6d9afd8a858966a7bb7e",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 2,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/0f44022ffda5d90427b3.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/0f44022ffda5d90427b3.json
new file mode 100644
index 0000000000000000000000000000000000000000..1935bb29c34c11bee37f95305cb7d0d5231bd2df
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/0f44022ffda5d90427b3.json
@@ -0,0 +1,72 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "hf-internal-testing/tiny-random-GraniteForCausalLM",
+  "_task": "text-generation",
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attention_multiplier": 1.0,
+  "embedding_multiplier": 1.0,
+  "hidden_act": "silu",
+  "hidden_size": 32,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "logits_scaling": 1.0,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "hf-internal-testing/tiny-random-GraniteForCausalLM",
+    "checkpoint_revision": "c3074ebc0ac2fe545305f5e5f6cce2cc9b2aa0c5",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "residual_multiplier": 1.0,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 49152
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/1471022e22b5b8b3de3b.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/1471022e22b5b8b3de3b.json
new file mode 100644
index 0000000000000000000000000000000000000000..d428d7f4b1e6cdbb54feb5b6ba487b3660c44aa9
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/1471022e22b5b8b3de3b.json
@@ -0,0 +1,72 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "hf-internal-testing/tiny-random-GraniteForCausalLM",
+  "_task": "text-generation",
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attention_multiplier": 1.0,
+  "embedding_multiplier": 1.0,
+  "hidden_act": "silu",
+  "hidden_size": 32,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "logits_scaling": 1.0,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "hf-internal-testing/tiny-random-GraniteForCausalLM",
+    "checkpoint_revision": "c3074ebc0ac2fe545305f5e5f6cce2cc9b2aa0c5",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "residual_multiplier": 1.0,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 49152
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/c9c911d79dbddb873dcf.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/c9c911d79dbddb873dcf.json
new file mode 100644
index 0000000000000000000000000000000000000000..c4ffaddf9d60d04ccb46d0631af3014305b2c2f1
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/c9c911d79dbddb873dcf.json
@@ -0,0 +1,72 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "hf-internal-testing/tiny-random-GraniteForCausalLM",
+  "_task": "text-generation",
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attention_multiplier": 1.0,
+  "embedding_multiplier": 1.0,
+  "hidden_act": "silu",
+  "hidden_size": 32,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "logits_scaling": 1.0,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 2,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "hf-internal-testing/tiny-random-GraniteForCausalLM",
+    "checkpoint_revision": "c3074ebc0ac2fe545305f5e5f6cce2cc9b2aa0c5",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 2,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "residual_multiplier": 1.0,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 49152
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/granite/ibm-granite/granite-3.1-2b-instruct/b66dbd045f3e73eb7427.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/granite/ibm-granite/granite-3.1-2b-instruct/b66dbd045f3e73eb7427.json
new file mode 100644
index 0000000000000000000000000000000000000000..e7121b4c906fe4db893266ba29c602f23a655afd
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/granite/ibm-granite/granite-3.1-2b-instruct/b66dbd045f3e73eb7427.json
@@ -0,0 +1,72 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "ibm-granite/granite-3.1-2b-instruct",
+  "_task": "text-generation",
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.1,
+  "attention_multiplier": 0.015625,
+  "embedding_multiplier": 12.0,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "logits_scaling": 8.0,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "ibm-granite/granite-3.1-2b-instruct",
+    "checkpoint_revision": "bbc2aed595bd38bd770263dc3ab831db9794441d",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 32,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 8,
+  "residual_multiplier": 0.22,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 5000000.0,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "vocab_size": 49155
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/llamafactory/tiny-random-Llama-3/20b7299fc104cc69ce0f.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/llamafactory/tiny-random-Llama-3/20b7299fc104cc69ce0f.json
new file mode 100644
index 0000000000000000000000000000000000000000..b99d37fd6f026e6520e51d8391de5ad75d74dcc5
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/llamafactory/tiny-random-Llama-3/20b7299fc104cc69ce0f.json
@@ -0,0 +1,76 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "llamafactory/tiny-random-Llama-3",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 4,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "llamafactory/tiny-random-Llama-3",
+    "checkpoint_revision": "bf2a2e3bf199ad2ee96f02a3c00246c608db22a8",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 128256
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/llamafactory/tiny-random-Llama-3/502c5523ff7585cd3287.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/llamafactory/tiny-random-Llama-3/502c5523ff7585cd3287.json
new file mode 100644
index 0000000000000000000000000000000000000000..182038842fb9c82530fa122c6ef5f6e0522fb392
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/llamafactory/tiny-random-Llama-3/502c5523ff7585cd3287.json
@@ -0,0 +1,76 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "llamafactory/tiny-random-Llama-3",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 4,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "llamafactory/tiny-random-Llama-3",
+    "checkpoint_revision": "bf2a2e3bf199ad2ee96f02a3c00246c608db22a8",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 131072,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 131072,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 131072,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 128256
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/llamafactory/tiny-random-Llama-3/9c27c3f4a94313192c63.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/llamafactory/tiny-random-Llama-3/9c27c3f4a94313192c63.json
new file mode 100644
index 0000000000000000000000000000000000000000..9b7dc60740eb8f34d6a401c5e6f3e38639ebd11b
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/llamafactory/tiny-random-Llama-3/9c27c3f4a94313192c63.json
@@ -0,0 +1,76 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "llamafactory/tiny-random-Llama-3",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 4,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "llamafactory/tiny-random-Llama-3",
+    "checkpoint_revision": "bf2a2e3bf199ad2ee96f02a3c00246c608db22a8",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 128256
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/llamafactory/tiny-random-Llama-3/f0cd6ae3a57125c25463.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/llamafactory/tiny-random-Llama-3/f0cd6ae3a57125c25463.json
new file mode 100644
index 0000000000000000000000000000000000000000..7fc6d6dad78656643bf0bf85bcdff0eafc1b8a4b
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/llamafactory/tiny-random-Llama-3/f0cd6ae3a57125c25463.json
@@ -0,0 +1,76 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "llamafactory/tiny-random-Llama-3",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 4,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 2,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "llamafactory/tiny-random-Llama-3",
+    "checkpoint_revision": "bf2a2e3bf199ad2ee96f02a3c00246c608db22a8",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 2,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 128256
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/unsloth/Llama-3.2-1B-Instruct/d4cdf18983e9784091ec.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/unsloth/Llama-3.2-1B-Instruct/d4cdf18983e9784091ec.json
new file mode 100644
index 0000000000000000000000000000000000000000..5c29f052d524702b8e209cb2328edb9c3f071e2c
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/llama/unsloth/Llama-3.2-1B-Instruct/d4cdf18983e9784091ec.json
@@ -0,0 +1,77 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "unsloth/Llama-3.2-1B-Instruct",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "unsloth/Llama-3.2-1B-Instruct",
+    "checkpoint_revision": "5a8abab4a5d6f164389b1079fb721cfab8d7126c",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 32,
+  "num_hidden_layers": 16,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 32.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": true,
+  "unsloth_fixed": true,
+  "use_cache": true,
+  "vocab_size": 128256
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/mixtral/dacorvo/Mixtral-tiny/34134d6beddf69d6e6c0.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/mixtral/dacorvo/Mixtral-tiny/34134d6beddf69d6e6c0.json
new file mode 100644
index 0000000000000000000000000000000000000000..824c7a3c7902d52cedcb662bb940cac654b37b3d
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/mixtral/dacorvo/Mixtral-tiny/34134d6beddf69d6e6c0.json
@@ -0,0 +1,72 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "dacorvo/Mixtral-tiny",
+  "_task": "text-generation",
+  "architectures": [
+    "MixtralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3584,
+  "max_position_embeddings": 1024,
+  "model_type": "mixtral",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "dacorvo/Mixtral-tiny",
+    "checkpoint_revision": "c557ba205ddff6ea911f4719e0d543d6c08356b6",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 32,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 8,
+  "num_local_experts": 8,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 10000.0,
+  "router_aux_loss_coef": 0.001,
+  "router_jitter_noise": 0.0,
+  "sliding_window": 4096,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 32000
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/mixtral/dacorvo/Mixtral-tiny/4625dfce3a6ec89cfa42.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/mixtral/dacorvo/Mixtral-tiny/4625dfce3a6ec89cfa42.json
new file mode 100644
index 0000000000000000000000000000000000000000..a3f8c6cee340a4592d1ff8d3610a87710e44937b
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/mixtral/dacorvo/Mixtral-tiny/4625dfce3a6ec89cfa42.json
@@ -0,0 +1,72 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "dacorvo/Mixtral-tiny",
+  "_task": "text-generation",
+  "architectures": [
+    "MixtralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3584,
+  "max_position_embeddings": 1024,
+  "model_type": "mixtral",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "dacorvo/Mixtral-tiny",
+    "checkpoint_revision": "c557ba205ddff6ea911f4719e0d543d6c08356b6",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 32,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 8,
+  "num_local_experts": 8,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 10000.0,
+  "router_aux_loss_coef": 0.001,
+  "router_jitter_noise": 0.0,
+  "sliding_window": 4096,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 32000
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/mixtral/dacorvo/Mixtral-tiny/f790967cf96542a801bc.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/mixtral/dacorvo/Mixtral-tiny/f790967cf96542a801bc.json
new file mode 100644
index 0000000000000000000000000000000000000000..7ca60b0881e8932521e629ea3474bbdc9c9e2374
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/mixtral/dacorvo/Mixtral-tiny/f790967cf96542a801bc.json
@@ -0,0 +1,72 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "dacorvo/Mixtral-tiny",
+  "_task": "text-generation",
+  "architectures": [
+    "MixtralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3584,
+  "max_position_embeddings": 1024,
+  "model_type": "mixtral",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 2,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "dacorvo/Mixtral-tiny",
+    "checkpoint_revision": "c557ba205ddff6ea911f4719e0d543d6c08356b6",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 2,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 32,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 8,
+  "num_local_experts": 8,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 10000.0,
+  "router_aux_loss_coef": 0.001,
+  "router_jitter_noise": 0.0,
+  "sliding_window": 4096,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 32000
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/phi3/microsoft/Phi-3-mini-4k-instruct/c3b4f930a6c51ad40028.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/phi3/microsoft/Phi-3-mini-4k-instruct/c3b4f930a6c51ad40028.json
new file mode 100644
index 0000000000000000000000000000000000000000..0b68023b3256667bbac3b5f67de4459529326bf9
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/phi3/microsoft/Phi-3-mini-4k-instruct/c3b4f930a6c51ad40028.json
@@ -0,0 +1,76 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "microsoft/Phi-3-mini-4k-instruct",
+  "_task": "text-generation",
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "modeling_phi3.Phi3ForCausalLM"
+  },
+  "embd_pdrop": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 4096,
+  "model_type": "phi3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "microsoft/Phi-3-mini-4k-instruct",
+    "checkpoint_revision": "0a67737cc96d2554230f90338b163bc6380a2a85",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "original_max_position_embeddings": 4096,
+  "partial_rotary_factor": 1.0,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "sliding_window": 2047,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 32064
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/phi3/yujiepan/phi-4-tiny-random/63d7815d3de40f55a3ae.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/phi3/yujiepan/phi-4-tiny-random/63d7815d3de40f55a3ae.json
new file mode 100644
index 0000000000000000000000000000000000000000..961a8ebebe5bcc656df88a7d8b4d6b22264bd968
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/phi3/yujiepan/phi-4-tiny-random/63d7815d3de40f55a3ae.json
@@ -0,0 +1,73 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/phi-4-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {},
+  "embd_pdrop": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 32,
+  "max_position_embeddings": 16384,
+  "model_type": "phi3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 2,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/phi-4-tiny-random",
+    "checkpoint_revision": "18a9a1168dc97ac6d128f811925670c275610f5a",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 2,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "original_max_position_embeddings": 16384,
+  "partial_rotary_factor": 1.0,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 250000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 100352
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/phi3/yujiepan/phi-4-tiny-random/892d9f2862662e5407c6.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/phi3/yujiepan/phi-4-tiny-random/892d9f2862662e5407c6.json
new file mode 100644
index 0000000000000000000000000000000000000000..743f1c049614d46665c8b689664ab7a761d7d8fc
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/phi3/yujiepan/phi-4-tiny-random/892d9f2862662e5407c6.json
@@ -0,0 +1,73 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/phi-4-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {},
+  "embd_pdrop": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 32,
+  "max_position_embeddings": 16384,
+  "model_type": "phi3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/phi-4-tiny-random",
+    "checkpoint_revision": "18a9a1168dc97ac6d128f811925670c275610f5a",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "original_max_position_embeddings": 16384,
+  "partial_rotary_factor": 1.0,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 250000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 100352
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/phi3/yujiepan/phi-4-tiny-random/e97f2d9bfc450d08ef3b.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/phi3/yujiepan/phi-4-tiny-random/e97f2d9bfc450d08ef3b.json
new file mode 100644
index 0000000000000000000000000000000000000000..5fbe5d6bbb64d936c0fe916341bf36605a0e8e56
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/phi3/yujiepan/phi-4-tiny-random/e97f2d9bfc450d08ef3b.json
@@ -0,0 +1,73 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/phi-4-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {},
+  "embd_pdrop": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 32,
+  "max_position_embeddings": 16384,
+  "model_type": "phi3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/phi-4-tiny-random",
+    "checkpoint_revision": "18a9a1168dc97ac6d128f811925670c275610f5a",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "original_max_position_embeddings": 16384,
+  "partial_rotary_factor": 1.0,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 250000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 100352
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/Qwen/Qwen2.5-0.5B/00b909b9addfb3e82c75.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/Qwen/Qwen2.5-0.5B/00b909b9addfb3e82c75.json
new file mode 100644
index 0000000000000000000000000000000000000000..29a48eac91b0b227155f6c38e27c364a85cc2d76
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/Qwen/Qwen2.5-0.5B/00b909b9addfb3e82c75.json
@@ -0,0 +1,96 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen2.5-0.5B",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 896,
+  "initializer_range": 0.02,
+  "intermediate_size": 4864,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 24,
+  "model_type": "qwen2",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "Qwen/Qwen2.5-0.5B",
+    "checkpoint_revision": "060db6499f32faf8b98477b0a26969ef7d8b9987",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 14,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/Qwen/Qwen2.5-0.5B/8a714805c0774dccda3d.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/Qwen/Qwen2.5-0.5B/8a714805c0774dccda3d.json
new file mode 100644
index 0000000000000000000000000000000000000000..5c3e387f990a3e8e7dc3def8b548bf22b3a9a39b
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/Qwen/Qwen2.5-0.5B/8a714805c0774dccda3d.json
@@ -0,0 +1,96 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen2.5-0.5B",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 896,
+  "initializer_range": 0.02,
+  "intermediate_size": 4864,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 24,
+  "model_type": "qwen2",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "Qwen/Qwen2.5-0.5B",
+    "checkpoint_revision": "060db6499f32faf8b98477b0a26969ef7d8b9987",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 32768,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 32768,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 32768,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 14,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/yujiepan/qwen2.5-128k-tiny-random/4be7e684c15f704cb67d.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/yujiepan/qwen2.5-128k-tiny-random/4be7e684c15f704cb67d.json
new file mode 100644
index 0000000000000000000000000000000000000000..9b4e06bfad0de66d9cdf9613baca71f012b08e66
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/yujiepan/qwen2.5-128k-tiny-random/4be7e684c15f704cb67d.json
@@ -0,0 +1,78 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/qwen2.5-128k-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 8,
+  "initializer_range": 0.02,
+  "intermediate_size": 16,
+  "layer_types": [
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 1,
+  "model_type": "qwen2",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 2,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/qwen2.5-128k-tiny-random",
+    "checkpoint_revision": "c8296d4ca3f87782876d2382fbb6481d1beb8ef0",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 2,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "factor": 4.0,
+    "original_max_position_embeddings": 32768,
+    "rope_type": "yarn",
+    "type": "yarn"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/yujiepan/qwen2.5-128k-tiny-random/6cead920a0dbb3daefb9.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/yujiepan/qwen2.5-128k-tiny-random/6cead920a0dbb3daefb9.json
new file mode 100644
index 0000000000000000000000000000000000000000..73a3837cd498485e0e431571d66338f428215170
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/yujiepan/qwen2.5-128k-tiny-random/6cead920a0dbb3daefb9.json
@@ -0,0 +1,78 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/qwen2.5-128k-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 8,
+  "initializer_range": 0.02,
+  "intermediate_size": 16,
+  "layer_types": [
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 1,
+  "model_type": "qwen2",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/qwen2.5-128k-tiny-random",
+    "checkpoint_revision": "c8296d4ca3f87782876d2382fbb6481d1beb8ef0",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "factor": 4.0,
+    "original_max_position_embeddings": 32768,
+    "rope_type": "yarn",
+    "type": "yarn"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/yujiepan/qwen2.5-128k-tiny-random/cd761b198c1bec21bd55.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/yujiepan/qwen2.5-128k-tiny-random/cd761b198c1bec21bd55.json
new file mode 100644
index 0000000000000000000000000000000000000000..a48e6102aa99758b5efa2fa53381a6c5f6ed3e2b
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen2/yujiepan/qwen2.5-128k-tiny-random/cd761b198c1bec21bd55.json
@@ -0,0 +1,78 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/qwen2.5-128k-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 8,
+  "initializer_range": 0.02,
+  "intermediate_size": 16,
+  "layer_types": [
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 1,
+  "model_type": "qwen2",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/qwen2.5-128k-tiny-random",
+    "checkpoint_revision": "c8296d4ca3f87782876d2382fbb6481d1beb8ef0",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "factor": 4.0,
+    "original_max_position_embeddings": 32768,
+    "rope_type": "yarn",
+    "type": "yarn"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen3/Qwen/Qwen3-0.6B/2ed7a8812dbe9c7ab058.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen3/Qwen/Qwen3-0.6B/2ed7a8812dbe9c7ab058.json
new file mode 100644
index 0000000000000000000000000000000000000000..b4644255a9dac32dd8eb00e9ac0cdf5295f62dc6
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen3/Qwen/Qwen3-0.6B/2ed7a8812dbe9c7ab058.json
@@ -0,0 +1,101 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen3-0.6B",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 28,
+  "model_type": "qwen3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "Qwen/Qwen3-0.6B",
+    "checkpoint_revision": "c1899de289a04d12100db370d81485cdf75e47ca",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 16,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/8fff447965fd3c157c0f.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/8fff447965fd3c157c0f.json
new file mode 100644
index 0000000000000000000000000000000000000000..48db4015486e3d22d008ca6ae1347c80498f2e90
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/8fff447965fd3c157c0f.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 2,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 64,
+  "initializer_range": 0.02,
+  "intermediate_size": 128,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 1,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 128,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 2,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+    "checkpoint_revision": "e0230be2839556b44b7400a233c73c74b4abb7af",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 2,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 2,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/90f9e02faff8566070cb.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/90f9e02faff8566070cb.json
new file mode 100644
index 0000000000000000000000000000000000000000..439d714c09bc2a2132aa6f1c4139d4de90cc210e
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/90f9e02faff8566070cb.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 2,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 64,
+  "initializer_range": 0.02,
+  "intermediate_size": 128,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 1,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 128,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+    "checkpoint_revision": "e0230be2839556b44b7400a233c73c74b4abb7af",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 2,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/f6c02365716b13dea692.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/f6c02365716b13dea692.json
new file mode 100644
index 0000000000000000000000000000000000000000..fe71b4c5cca937e3b71a2e2935dd307755730cec
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/qwen3_moe/optimum-internal-testing/tiny-random-qwen3_moe/f6c02365716b13dea692.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 2,
+  "head_dim": 32,
+  "hidden_act": "silu",
+  "hidden_size": 64,
+  "initializer_range": 0.02,
+  "intermediate_size": 128,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 1,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 128,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "optimum-internal-testing/tiny-random-qwen3_moe",
+    "checkpoint_revision": "e0230be2839556b44b7400a233c73c74b4abb7af",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 2,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/smollm3/HuggingFaceTB/SmolLM3-3B/60de13af0adf5a679b2c.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/smollm3/HuggingFaceTB/SmolLM3-3B/60de13af0adf5a679b2c.json
new file mode 100644
index 0000000000000000000000000000000000000000..bb9bd7391e9304e814cce740a5cb70f5df13d560
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev2/smollm3/HuggingFaceTB/SmolLM3-3B/60de13af0adf5a679b2c.json
@@ -0,0 +1,148 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "HuggingFaceTB/SmolLM3-3B",
+  "_task": "text-generation",
+  "architectures": [
+    "SmolLM3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 65536,
+  "max_window_layers": 28,
+  "mlp_bias": false,
+  "model_type": "smollm3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "HuggingFaceTB/SmolLM3-3B",
+    "checkpoint_revision": "1c00fc78bd9cf90108046bc433cb34992480f1c1",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev2",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "no_rope_layer_interval": 4,
+  "no_rope_layers": [
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0
+  ],
+  "num_attention_heads": 16,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 5000000.0,
+  "sliding_window": null,
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 128256
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev3/qwen3_moe/Qwen/Qwen3-30B-A3B-Instruct-2507/fc72a21b6de27e9bcefe.json b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev3/qwen3_moe/Qwen/Qwen3-30B-A3B-Instruct-2507/fc72a21b6de27e9bcefe.json
new file mode 100644
index 0000000000000000000000000000000000000000..655e2f4718c56c730b9c7018ea7085235388274d
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev3/qwen3_moe/Qwen/Qwen3-30B-A3B-Instruct-2507/fc72a21b6de27e9bcefe.json
@@ -0,0 +1,79 @@
+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen3-30B-A3B-Instruct-2507",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3MoeForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "decoder_sparse_step": 1,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 6144,
+  "max_position_embeddings": 262144,
+  "max_window_layers": 48,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_moe",
+  "moe_intermediate_size": 768,
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 8,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "Qwen/Qwen3-30B-A3B-Instruct-2507",
+    "checkpoint_revision": "61082d4deaa4785f64943b443cbc2b5de7524fad",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 8,
+    "logical_nc_config": 1,
+    "max_batch_size": 8,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev3",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 8,
+    "vocab_parallel": false
+  },
+  "norm_topk_prob": true,
+  "num_attention_heads": 32,
+  "num_experts": 128,
+  "num_experts_per_tok": 8,
+  "num_hidden_layers": 48,
+  "num_key_value_heads": 4,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000000,
+  "router_aux_loss_coef": 0.001,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_04376e1307045cf435ae+431f5505/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_04376e1307045cf435ae+431f5505/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..9932c70d27d759d781be88485b74b17b49b4c04f
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_04376e1307045cf435ae+431f5505/compile_flags.json
@@ -0,0 +1 @@
+"--model-type=transformer -O1 --lnc=1 --internal-hlo2tensorizer-options=--experimental-unsafe-fp8e4m3fn-as-fp8e4m3 --logfile=/tmp/nxd_model/layout_opt/log-neuron-cc.txt"
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_04376e1307045cf435ae+431f5505/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_04376e1307045cf435ae+431f5505/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_04376e1307045cf435ae+431f5505/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_04376e1307045cf435ae+431f5505/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..ff7d986b3271d37835d84abc55a8a39dfcf714eb
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_04376e1307045cf435ae+431f5505/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1a6a5e05e7901f7ec6ea776377316585b1bf917c33884f8a2a2d3851e28128c6
+size 7993
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_04376e1307045cf435ae+431f5505/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_04376e1307045cf435ae+431f5505/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..e1a9110e65f3dfe16914ed5de35c393ff98056b2
Binary files /dev/null and b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_04376e1307045cf435ae+431f5505/model.neff differ
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..93354bd42abb66b9b6e56b127441174baa403534
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/token_generation_model/_tp0_bk0/log-neuron-cc.txt", "--enable-internal-neff-wrapper"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..6a9334b0b848beed885ab182d0e274d3e3cb9431
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a31c4cdb1fbc97738a6e37dec33d6f44e6b1284cef02f7149efa6cfbe91b480c
+size 63836
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..87a31198f24982c87763248012545bda30bcd43f
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8842daaea9ad716443a64507d5e6eb80bd5036701c69d3cc22d3c8b28cfe3129
+size 297984
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/wrapped_neff.hlo b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/wrapped_neff.hlo
new file mode 100644
index 0000000000000000000000000000000000000000..e38e58c3c706b254edb6a0ae9c697677338cd49a
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0a47deab436eaf26c99a+cd3419b6/wrapped_neff.hlo
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:01904b235c4fe11e10878eb7201accabe15e04a5a33cb5e989bab9b2b9fd2617
+size 307570
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0b67a734fc55d67768bd+253d6470/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0b67a734fc55d67768bd+253d6470/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..cb53ce53583cfe21339b4bed39f5fa1a679cddd1
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0b67a734fc55d67768bd+253d6470/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/context_encoding_model/_tp0_bk0/log-neuron-cc.txt"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0b67a734fc55d67768bd+253d6470/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0b67a734fc55d67768bd+253d6470/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0b67a734fc55d67768bd+253d6470/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0b67a734fc55d67768bd+253d6470/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..80d9136200b58e6269150c051fd495b5aaeee849
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0b67a734fc55d67768bd+253d6470/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a0f136968c19fe7f46131dfedad1594b894b6655dc565cdc5558de5cacfb3f05
+size 79740
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0b67a734fc55d67768bd+253d6470/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0b67a734fc55d67768bd+253d6470/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..85ae2f5300dd2610c8f7fe594924b7bea675a3a0
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_0b67a734fc55d67768bd+253d6470/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:82cf7b5f3ae04b99b054cf93a92f9347d6a7d0e73783fedf2611a11b2d3fbe2a
+size 297984
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_15bb8d9c0246df177b49+431f5505/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_15bb8d9c0246df177b49+431f5505/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..9932c70d27d759d781be88485b74b17b49b4c04f
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_15bb8d9c0246df177b49+431f5505/compile_flags.json
@@ -0,0 +1 @@
+"--model-type=transformer -O1 --lnc=1 --internal-hlo2tensorizer-options=--experimental-unsafe-fp8e4m3fn-as-fp8e4m3 --logfile=/tmp/nxd_model/layout_opt/log-neuron-cc.txt"
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_15bb8d9c0246df177b49+431f5505/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_15bb8d9c0246df177b49+431f5505/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_15bb8d9c0246df177b49+431f5505/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_15bb8d9c0246df177b49+431f5505/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..b52d8cc266e17bc530bcad08196823405bf20df5
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_15bb8d9c0246df177b49+431f5505/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:41d96c35c2ccaa4ae59a468b8fd21975e79107d8066114014997dc59ecebd487
+size 9389
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_15bb8d9c0246df177b49+431f5505/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_15bb8d9c0246df177b49+431f5505/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..3b56c0796bac36c24ff05da60f9cb8950a473d08
Binary files /dev/null and b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_15bb8d9c0246df177b49+431f5505/model.neff differ
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..93354bd42abb66b9b6e56b127441174baa403534
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/token_generation_model/_tp0_bk0/log-neuron-cc.txt", "--enable-internal-neff-wrapper"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..85fbf4a25cf0195c367f8d929722f97674d63676
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0b06a008527980f356db3d9da2f8e07a0f666e78a972b1f132cf73888b442c2e
+size 74871
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..b83acec29a32a4d122cbac0dd7e5fb10ae9299dc
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ecc6293b1f4e819e5c75dc187918683fae55afcde0a88804cc55d9368db84364
+size 287744
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/wrapped_neff.hlo b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/wrapped_neff.hlo
new file mode 100644
index 0000000000000000000000000000000000000000..17962bfa590136ed19690d8650f5998f72b00b1c
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_184fcc045921c74845be+cd3419b6/wrapped_neff.hlo
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:03e64756b32beefb88ac3aa57215d382b1b191f8f8299ea04d176bfd32d6e906
+size 297333
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1940237707648304797+e30acd3a/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1940237707648304797+e30acd3a/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..32157f229be17480afc9e02a7ed48ca0cbc8f22a
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1940237707648304797+e30acd3a/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1940237707648304797+e30acd3a/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1940237707648304797+e30acd3a/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1940237707648304797+e30acd3a/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1940237707648304797+e30acd3a/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..6ec09fc8d2297f6e534d45ab48b9115a3ec449cd
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1940237707648304797+e30acd3a/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:54c474fb284f0e1cdb6dc86b55c91b03eaf8f0421d872dddec4becec301c1956
+size 970
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1940237707648304797+e30acd3a/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1940237707648304797+e30acd3a/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..d7f3de257aa981beebc0f37b320a039c900b84f9
Binary files /dev/null and b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1940237707648304797+e30acd3a/model.neff differ
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1c6882381e4240eeeb0c+431f5505/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1c6882381e4240eeeb0c+431f5505/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..9932c70d27d759d781be88485b74b17b49b4c04f
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1c6882381e4240eeeb0c+431f5505/compile_flags.json
@@ -0,0 +1 @@
+"--model-type=transformer -O1 --lnc=1 --internal-hlo2tensorizer-options=--experimental-unsafe-fp8e4m3fn-as-fp8e4m3 --logfile=/tmp/nxd_model/layout_opt/log-neuron-cc.txt"
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1c6882381e4240eeeb0c+431f5505/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1c6882381e4240eeeb0c+431f5505/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1c6882381e4240eeeb0c+431f5505/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1c6882381e4240eeeb0c+431f5505/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..f1e6668ec2317f34708baa0e99995b8a6a6a57ee
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1c6882381e4240eeeb0c+431f5505/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:78e3e7c5cdd402819f82ab95b0d26d53bc9ee895fc8dd5621fdae8ea91257f1d
+size 10039
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1c6882381e4240eeeb0c+431f5505/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1c6882381e4240eeeb0c+431f5505/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..173ac6d76aa2ccf688bd3526b33c0dfb2cfb2eff
Binary files /dev/null and b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1c6882381e4240eeeb0c+431f5505/model.neff differ
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1d0c9d2357e7888e46cd+253d6470/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1d0c9d2357e7888e46cd+253d6470/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..cb53ce53583cfe21339b4bed39f5fa1a679cddd1
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1d0c9d2357e7888e46cd+253d6470/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/context_encoding_model/_tp0_bk0/log-neuron-cc.txt"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1d0c9d2357e7888e46cd+253d6470/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1d0c9d2357e7888e46cd+253d6470/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1d0c9d2357e7888e46cd+253d6470/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1d0c9d2357e7888e46cd+253d6470/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..c82183d4432394117c59cdf1ca01cfa4bfcca234
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1d0c9d2357e7888e46cd+253d6470/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d4b5a6b6fb9269ad0e90c9d158fdfe0d144a65523095d36430cdd75a94f310aa
+size 80577
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1d0c9d2357e7888e46cd+253d6470/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1d0c9d2357e7888e46cd+253d6470/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..f4c41bb44134dba18e822d60a878edd83363b7e3
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_1d0c9d2357e7888e46cd+253d6470/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fbe503446ae4be16ba5818c37cddd064d2c658ceb24a0aa88e61311317846a4a
+size 277504
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_20ce63f489314924a057+253d6470/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_20ce63f489314924a057+253d6470/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..cb53ce53583cfe21339b4bed39f5fa1a679cddd1
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_20ce63f489314924a057+253d6470/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/context_encoding_model/_tp0_bk0/log-neuron-cc.txt"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_20ce63f489314924a057+253d6470/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_20ce63f489314924a057+253d6470/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_20ce63f489314924a057+253d6470/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_20ce63f489314924a057+253d6470/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..f73f6201536fb8b2294cf168aa9e8d4d2bb7e37c
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_20ce63f489314924a057+253d6470/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:adf143da6ef102c634a18ed6bc5782ab446f0272f4b281d2280b27019b18b923
+size 63331
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_20ce63f489314924a057+253d6470/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_20ce63f489314924a057+253d6470/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..15bb877b84420ac1714c5b7825ad0b880e1be981
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_20ce63f489314924a057+253d6470/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7cce35b0fbb4a24282647ff1dd7183bb4cc0dd6857c6b0d7149628849d24258a
+size 287744
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_2d2de0754e92d084bfdd+431f5505/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_2d2de0754e92d084bfdd+431f5505/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..9932c70d27d759d781be88485b74b17b49b4c04f
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_2d2de0754e92d084bfdd+431f5505/compile_flags.json
@@ -0,0 +1 @@
+"--model-type=transformer -O1 --lnc=1 --internal-hlo2tensorizer-options=--experimental-unsafe-fp8e4m3fn-as-fp8e4m3 --logfile=/tmp/nxd_model/layout_opt/log-neuron-cc.txt"
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_2d2de0754e92d084bfdd+431f5505/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_2d2de0754e92d084bfdd+431f5505/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_2d2de0754e92d084bfdd+431f5505/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_2d2de0754e92d084bfdd+431f5505/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..221b265a1790316640ea59d67d770f52ff0c3d9c
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_2d2de0754e92d084bfdd+431f5505/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3c771665be0ee7502116b8ce0f5a91ff36d81b629eea10fb3ca2b7ab256b87fb
+size 10039
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_2d2de0754e92d084bfdd+431f5505/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_2d2de0754e92d084bfdd+431f5505/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..47391292d14ecb7e312a19b19a92c86a8e034fba
Binary files /dev/null and b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_2d2de0754e92d084bfdd+431f5505/model.neff differ
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_40f6b4304be01d72d956+253d6470/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_40f6b4304be01d72d956+253d6470/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..cb53ce53583cfe21339b4bed39f5fa1a679cddd1
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_40f6b4304be01d72d956+253d6470/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/context_encoding_model/_tp0_bk0/log-neuron-cc.txt"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_40f6b4304be01d72d956+253d6470/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_40f6b4304be01d72d956+253d6470/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_40f6b4304be01d72d956+253d6470/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_40f6b4304be01d72d956+253d6470/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..368b0ae888ec07c27b637793414d7d4e58eaf72c
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_40f6b4304be01d72d956+253d6470/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0313ab33efa7bc2afc16e69a56885768329bd7f5234cf53905ccc9a505bbdc9c
+size 300195
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_40f6b4304be01d72d956+253d6470/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_40f6b4304be01d72d956+253d6470/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..d11cc9e37e97e7984b540308540694a761aa7ac6
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_40f6b4304be01d72d956+253d6470/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3b189ee48bca944eb76c443beeb3e74126739c3cf8d909f76b4ccb01e12fec76
+size 461824
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_64f5633fb25cfe2548d6+253d6470/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_64f5633fb25cfe2548d6+253d6470/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..cb53ce53583cfe21339b4bed39f5fa1a679cddd1
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_64f5633fb25cfe2548d6+253d6470/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/context_encoding_model/_tp0_bk0/log-neuron-cc.txt"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_64f5633fb25cfe2548d6+253d6470/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_64f5633fb25cfe2548d6+253d6470/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_64f5633fb25cfe2548d6+253d6470/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_64f5633fb25cfe2548d6+253d6470/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..b18f83d6d6fd3809a06c869551d7f6a94e223bb0
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_64f5633fb25cfe2548d6+253d6470/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aac8dc7e9330ce1f47f53878e2e8ce8b433677659ce2ff25966f48373cf042e3
+size 63330
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_64f5633fb25cfe2548d6+253d6470/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_64f5633fb25cfe2548d6+253d6470/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..ea1c346b87d0b2883b6cbc30fe65987dd773ec24
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_64f5633fb25cfe2548d6+253d6470/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7cae8d6499e370fa5652085a3a2d16e56022c63f8d417887d618e08d4e55bf00
+size 287744
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_78784e2fcde757cbaea0+431f5505/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_78784e2fcde757cbaea0+431f5505/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..9932c70d27d759d781be88485b74b17b49b4c04f
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_78784e2fcde757cbaea0+431f5505/compile_flags.json
@@ -0,0 +1 @@
+"--model-type=transformer -O1 --lnc=1 --internal-hlo2tensorizer-options=--experimental-unsafe-fp8e4m3fn-as-fp8e4m3 --logfile=/tmp/nxd_model/layout_opt/log-neuron-cc.txt"
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_78784e2fcde757cbaea0+431f5505/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_78784e2fcde757cbaea0+431f5505/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_78784e2fcde757cbaea0+431f5505/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_78784e2fcde757cbaea0+431f5505/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..248686b0c0497ce90cbf10b915607df81e175898
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_78784e2fcde757cbaea0+431f5505/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8e300e124be19d09710fe712fd873bf2c5a1913bc08067ae5df24f2ddb9c11cf
+size 9389
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_78784e2fcde757cbaea0+431f5505/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_78784e2fcde757cbaea0+431f5505/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..36a0891bb1acb70da2b3b2c0fb5405241985dcce
Binary files /dev/null and b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_78784e2fcde757cbaea0+431f5505/model.neff differ
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..93354bd42abb66b9b6e56b127441174baa403534
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/token_generation_model/_tp0_bk0/log-neuron-cc.txt", "--enable-internal-neff-wrapper"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..5e48a3abb6530e6f34a6bf106fcc427a7f5b8011
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2a60734c46f0e96ae9e3d939314cfa6ff355f670e23beedb9568404394687e90
+size 54868
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..aa513ca2c031387e945b3e01186d1e391de3d894
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a9efaba7f6635a9384cf742bb43ce1121e6daed0c080f1fe6d209783f201e372
+size 287744
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/wrapped_neff.hlo b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/wrapped_neff.hlo
new file mode 100644
index 0000000000000000000000000000000000000000..4b38ff054b179067484adc92126c8283cfdf6a0b
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_806ef7cec3a07d99b574+cd3419b6/wrapped_neff.hlo
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:17000c8a4cfc8d65845893ec222a9efb409f4f57b06f60395073685ef946ea3d
+size 297990
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_889702416621506ce9e2+cd3419b6/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_889702416621506ce9e2+cd3419b6/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..93354bd42abb66b9b6e56b127441174baa403534
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_889702416621506ce9e2+cd3419b6/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/token_generation_model/_tp0_bk0/log-neuron-cc.txt", "--enable-internal-neff-wrapper"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_889702416621506ce9e2+cd3419b6/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_889702416621506ce9e2+cd3419b6/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..e29520fb2f93b45fc5210da37748e55683966461
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_889702416621506ce9e2+cd3419b6/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6a1d6163de7397cd9023e76d6e7d1fa1bf855b31b1f0a134d60ffd529d1e99d
+size 3283984
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_889702416621506ce9e2+cd3419b6/model.log b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_889702416621506ce9e2+cd3419b6/model.log
new file mode 100644
index 0000000000000000000000000000000000000000..a1abb6d43198984dc74768a1c2d2ab172ab95aa7
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_889702416621506ce9e2+cd3419b6/model.log
@@ -0,0 +1,3 @@
+Failed compilation with ['neuronx-cc', 'compile', '--framework=XLA', '/tmp/nxd_model/token_generation_model/_tp0_bk0/model.MODULE_889702416621506ce9e2+cd3419b6.hlo_module.pb', '--output', '/tmp/nxd_model/token_generation_model/_tp0_bk0/model.MODULE_889702416621506ce9e2+cd3419b6.neff', '--target=trn1', '--enable-saturate-infinity', '--enable-mixed-precision-accumulation', '--model-type', 'transformer', '-O1', '--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2', '--auto-cast=none', '--internal-enable-dge-levels', 'vector_dynamic_offsets', '--internal-hlo2tensorizer-options=--verify-hlo=true', '--logfile=/tmp/nxd_model/token_generation_model/_tp0_bk0/log-neuron-cc.txt', '--enable-internal-neff-wrapper', '--verbose=35']: [XCG815]  Estimated peak HBM usage (27.811111) exceeds 16GB. Neff won't be able to load on chip - Please open a support ticket at https://github.com/aws-neuron/aws-neuron-sdk/issues/new. You may also be able to obtain more information using the 'XLA_IR_DEBUG' and 'XLA_HLO_DEBUG' environment variables.
+2025-08-29T11:39:09Z Non-signal exit. Backend exited with code 1 and stderr: [XCG815]  Estimated peak HBM usage (27.811111) exceeds 16GB. Neff won't be able to load on chip - Please open a support ticket at https://github.com/aws-neuron/aws-neuron-sdk/issues/new. You may also be able to obtain more information using the 'XLA_IR_DEBUG' and 'XLA_HLO_DEBUG' environment variables.
+
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_9f17b2a2f6b76b4ae4a8+253d6470/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_9f17b2a2f6b76b4ae4a8+253d6470/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..cb53ce53583cfe21339b4bed39f5fa1a679cddd1
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_9f17b2a2f6b76b4ae4a8+253d6470/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/context_encoding_model/_tp0_bk0/log-neuron-cc.txt"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_9f17b2a2f6b76b4ae4a8+253d6470/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_9f17b2a2f6b76b4ae4a8+253d6470/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_9f17b2a2f6b76b4ae4a8+253d6470/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_9f17b2a2f6b76b4ae4a8+253d6470/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..07d4b550dacf6a8fcb2f3200a661d79e7d811a3c
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_9f17b2a2f6b76b4ae4a8+253d6470/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3cdf173905d4d6c94c6c80054dcca944f2f3ed60a8a91fce8fe5f9b22fc01731
+size 79738
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_9f17b2a2f6b76b4ae4a8+253d6470/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_9f17b2a2f6b76b4ae4a8+253d6470/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..08b8b766fbf9dd31ea71ffcde21fc799bbc46f2a
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_9f17b2a2f6b76b4ae4a8+253d6470/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c477a7b110049f0649adf16dad94814fe9a8c851a79760f2aa888982ccdce658
+size 297984
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_a0dab04a6051ff2ac839+cd3419b6/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_a0dab04a6051ff2ac839+cd3419b6/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..93354bd42abb66b9b6e56b127441174baa403534
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_a0dab04a6051ff2ac839+cd3419b6/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/token_generation_model/_tp0_bk0/log-neuron-cc.txt", "--enable-internal-neff-wrapper"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_a0dab04a6051ff2ac839+cd3419b6/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_a0dab04a6051ff2ac839+cd3419b6/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..28929eb9ad69274d40944b1ac44c9a66fcc4be5f
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_a0dab04a6051ff2ac839+cd3419b6/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6ba8a1147568d47fd6d9e4277affb0ec81e136d7c1d80a758a41bcb5f3e7aca9
+size 3283984
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_a0dab04a6051ff2ac839+cd3419b6/model.log b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_a0dab04a6051ff2ac839+cd3419b6/model.log
new file mode 100644
index 0000000000000000000000000000000000000000..228945b6b6b0b851c0364c22476a2eb426cc57c2
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_a0dab04a6051ff2ac839+cd3419b6/model.log
@@ -0,0 +1,3 @@
+Failed compilation with ['neuronx-cc', 'compile', '--framework=XLA', '/tmp/nxd_model/token_generation_model/_tp0_bk0/model.MODULE_a0dab04a6051ff2ac839+cd3419b6.hlo_module.pb', '--output', '/tmp/nxd_model/token_generation_model/_tp0_bk0/model.MODULE_a0dab04a6051ff2ac839+cd3419b6.neff', '--target=trn1', '--enable-saturate-infinity', '--enable-mixed-precision-accumulation', '--model-type', 'transformer', '-O1', '--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2', '--auto-cast=none', '--internal-enable-dge-levels', 'vector_dynamic_offsets', '--internal-hlo2tensorizer-options=--verify-hlo=true', '--logfile=/tmp/nxd_model/token_generation_model/_tp0_bk0/log-neuron-cc.txt', '--enable-internal-neff-wrapper', '--verbose=35']: [XCG815]  Estimated peak HBM usage (27.672468) exceeds 16GB. Neff won't be able to load on chip - Please open a support ticket at https://github.com/aws-neuron/aws-neuron-sdk/issues/new. You may also be able to obtain more information using the 'XLA_IR_DEBUG' and 'XLA_HLO_DEBUG' environment variables.
+2025-08-29T11:53:11Z Non-signal exit. Backend exited with code 1 and stderr: [XCG815]  Estimated peak HBM usage (27.672468) exceeds 16GB. Neff won't be able to load on chip - Please open a support ticket at https://github.com/aws-neuron/aws-neuron-sdk/issues/new. You may also be able to obtain more information using the 'XLA_IR_DEBUG' and 'XLA_HLO_DEBUG' environment variables.
+
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_ace0c273811c44dd64c1+431f5505/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_ace0c273811c44dd64c1+431f5505/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..9932c70d27d759d781be88485b74b17b49b4c04f
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_ace0c273811c44dd64c1+431f5505/compile_flags.json
@@ -0,0 +1 @@
+"--model-type=transformer -O1 --lnc=1 --internal-hlo2tensorizer-options=--experimental-unsafe-fp8e4m3fn-as-fp8e4m3 --logfile=/tmp/nxd_model/layout_opt/log-neuron-cc.txt"
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_ace0c273811c44dd64c1+431f5505/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_ace0c273811c44dd64c1+431f5505/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_ace0c273811c44dd64c1+431f5505/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_ace0c273811c44dd64c1+431f5505/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..63bb4e64ed08ea18b5da1868906526e766d8bb14
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_ace0c273811c44dd64c1+431f5505/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c9ac6bfd73e125d6606fabf26ce5f60ff4043a760cc7fa9689ea7896ea7eb378
+size 10039
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_ace0c273811c44dd64c1+431f5505/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_ace0c273811c44dd64c1+431f5505/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..9f567b801b368512f309e1ab174ed398ef18413a
Binary files /dev/null and b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_ace0c273811c44dd64c1+431f5505/model.neff differ
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b522f7aabb6b091bde5f+253d6470/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b522f7aabb6b091bde5f+253d6470/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..cb53ce53583cfe21339b4bed39f5fa1a679cddd1
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b522f7aabb6b091bde5f+253d6470/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/context_encoding_model/_tp0_bk0/log-neuron-cc.txt"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b522f7aabb6b091bde5f+253d6470/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b522f7aabb6b091bde5f+253d6470/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b522f7aabb6b091bde5f+253d6470/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b522f7aabb6b091bde5f+253d6470/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..077c105c3efa59d9c4ee34bd7139db91fe2439a0
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b522f7aabb6b091bde5f+253d6470/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:55a2643eff994253518995e9cda3f7793d7024060c5ff4de17fa34488862aec5
+size 63921
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b522f7aabb6b091bde5f+253d6470/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b522f7aabb6b091bde5f+253d6470/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..b6aed886b0f4db8d99a00be6430ecb92c3039444
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b522f7aabb6b091bde5f+253d6470/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:400e9c32e404b3180ef75c48cbb3cd5f5b478e5cc02cd36617edaff309fd5ecd
+size 267264
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..93354bd42abb66b9b6e56b127441174baa403534
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/token_generation_model/_tp0_bk0/log-neuron-cc.txt", "--enable-internal-neff-wrapper"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..4841d04975a14aed584672489800d2289b44dea6
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a594a346cbcf86d47b48121fc0588a7ee7fdd8cd70ff17635b287d86ad9e350a
+size 63838
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..c2138a20b9adf3455e07aae1462246251eefaaca
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:74c18cb728478c1cd597d66f35eefc0d1277ae0946c9881b8c04e1108054e3c5
+size 297984
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/wrapped_neff.hlo b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/wrapped_neff.hlo
new file mode 100644
index 0000000000000000000000000000000000000000..59b7e8b3c0fbd09c99d122ab086b84b88517119e
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_b72befbd04b196887e2e+cd3419b6/wrapped_neff.hlo
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:142bd2d4422548fa597a1b2f80a85e0e2cb80892660b57f3ca6044c2de95f2ea
+size 307570
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c02ce832872dc14d2f12+431f5505/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c02ce832872dc14d2f12+431f5505/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..9932c70d27d759d781be88485b74b17b49b4c04f
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c02ce832872dc14d2f12+431f5505/compile_flags.json
@@ -0,0 +1 @@
+"--model-type=transformer -O1 --lnc=1 --internal-hlo2tensorizer-options=--experimental-unsafe-fp8e4m3fn-as-fp8e4m3 --logfile=/tmp/nxd_model/layout_opt/log-neuron-cc.txt"
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c02ce832872dc14d2f12+431f5505/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c02ce832872dc14d2f12+431f5505/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c02ce832872dc14d2f12+431f5505/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c02ce832872dc14d2f12+431f5505/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..b1cf80c06db0a363474056177a7e32484354f850
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c02ce832872dc14d2f12+431f5505/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61c34effd5fedae7b600ec1d21f4475ef4981e5dcdb195bff8a29f8b148fd514
+size 9392
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c02ce832872dc14d2f12+431f5505/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c02ce832872dc14d2f12+431f5505/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..ce192868ec800f95235b0062d71ea90618278fe3
Binary files /dev/null and b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c02ce832872dc14d2f12+431f5505/model.neff differ
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..93354bd42abb66b9b6e56b127441174baa403534
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/token_generation_model/_tp0_bk0/log-neuron-cc.txt", "--enable-internal-neff-wrapper"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..fe8cb728bf166a8b560b8a9a7047416e88b063d5
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7ef18f3eee0fea6ac1cd8e929b68e55b804dd00989b370917720d61b08b677fb
+size 63933
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..b5d476390cb6a1fdf39bd05a78e3300291f0a6e3
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:07e125da81e6828567b56c9e7e62b90e1e63adbe89a7044321a02ac7f0d6d786
+size 297984
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/wrapped_neff.hlo b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/wrapped_neff.hlo
new file mode 100644
index 0000000000000000000000000000000000000000..0704698365124faf9098106bec60b66337964c72
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_c5daaeaa40996f359a5c+cd3419b6/wrapped_neff.hlo
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9db505847c90dc22eec35075bdf608887e5ee6c26bf9d589da84026485cd74fa
+size 306238
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..93354bd42abb66b9b6e56b127441174baa403534
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/token_generation_model/_tp0_bk0/log-neuron-cc.txt", "--enable-internal-neff-wrapper"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..d3a2ee5db2e2e28c23b4e1aa5af4a183d9ff98f9
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a178d643c0c8e7e4d2209b0febfdc4cc31e7b06bbcede98c31be2a5ffc4d9f16
+size 60501
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..a6d4e2a619f7ec6fd038b7481572e488100c0011
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1eed0072a3c87405151a5802e5b03c5de14c06b32cd7826c08a66b7d4fa536eb
+size 277504
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/wrapped_neff.hlo b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/wrapped_neff.hlo
new file mode 100644
index 0000000000000000000000000000000000000000..977a02513f10cf1a2c2466285c36957ccfb7d87b
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_df21c2b35cb01f251b78+cd3419b6/wrapped_neff.hlo
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:68ad2ca46349cbb01096c06982a3691f5b5c2bb67eb12bd6b504922ae47878a7
+size 287750
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/compile_flags.json b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/compile_flags.json
new file mode 100644
index 0000000000000000000000000000000000000000..93354bd42abb66b9b6e56b127441174baa403534
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/compile_flags.json
@@ -0,0 +1 @@
+["--target=trn1", "--enable-saturate-infinity", "--enable-mixed-precision-accumulation", "--model-type", "transformer", "-O1", "--tensorizer-options=--enable-ccop-compute-overlap --cc-pipeline-tiling-factor=2", "--auto-cast=none", "--internal-enable-dge-levels", "vector_dynamic_offsets", "--internal-hlo2tensorizer-options=--verify-hlo=true", "--logfile=/tmp/nxd_model/token_generation_model/_tp0_bk0/log-neuron-cc.txt", "--enable-internal-neff-wrapper"]
\ No newline at end of file
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/model.done b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/model.done
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/model.hlo_module.pb b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/model.hlo_module.pb
new file mode 100644
index 0000000000000000000000000000000000000000..ccd2281666b595d7154e1d2a6977ccfab28bf58d
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/model.hlo_module.pb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:29c8356719604b8eb2bc23f160723a9bf0df82e0815e9b0112a9400d0a009629
+size 54867
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/model.neff b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/model.neff
new file mode 100644
index 0000000000000000000000000000000000000000..4cf878c432098d5b04ebec843af45a3d3355fb8d
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/model.neff
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4faa86504a9326e80d9e63332b3eb917b8302c62dd293d5d02fb2d5d9f729908
+size 287744
diff --git a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/wrapped_neff.hlo b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/wrapped_neff.hlo
new file mode 100644
index 0000000000000000000000000000000000000000..17f7c0c7a4349f53d203c5654d3854c895945e19
--- /dev/null
+++ b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_f561bf7d12efdc67186d+cd3419b6/wrapped_neff.hlo
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7b0466b7d4b1b4c175c14fc032d7155c1ae5694f0de51fd8076e94607d0ca278
+size 297990