Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

README.md +24 -0
config.json +1336 -0
model.safetensors +3 -0
model.safetensors.index.json +350 -0

README.md ADDED Viewed

	@@ -0,0 +1,24 @@

+---
+license: apache-2.0
+language:
+- en
+base_model:
+- nari-labs/Dia-1.6B
+pipeline_tag: text-to-speech
+library_name: mlx
+tags:
+- mlx
+---
+# mlx-community/Dia-1.6B-4bit
+This model was converted to MLX format from [`mlx-community/Dia-1.6B`](https://huggingface.co/mlx-community/Dia-1.6B) using mlx-audio version **0.1.0**.
+Refer to the [original model card](https://huggingface.co/mlx-community/Dia-1.6B) for more details on the model.
+## Use with mlx
+```bash
+pip install -U mlx-audio
+```
+```bash
+python -m mlx_audio.tts.generate --model mlx-community/Dia-1.6B-4bit --text "Describe this image."
+```

config.json ADDED Viewed

	@@ -0,0 +1,1336 @@

+{
+    "data": {
+        "text_length": 1024,
+        "audio_length": 3072,
+        "channels": 9,
+        "text_pad_value": 0,
+        "audio_eos_value": 1024,
+        "audio_pad_value": 1025,
+        "audio_bos_value": 1026,
+        "delay_pattern": [
+            0,
+            8,
+            9,
+            10,
+            11,
+            12,
+            13,
+            14,
+            15
+        ]
+    },
+    "model": {
+        "encoder": {
+            "n_layer": 12,
+            "n_embd": 1024,
+            "n_hidden": 4096,
+            "n_head": 16,
+            "head_dim": 128
+        },
+        "decoder": {
+            "n_layer": 18,
+            "n_embd": 2048,
+            "n_hidden": 8192,
+            "gqa_query_heads": 16,
+            "cross_query_heads": 16,
+            "kv_heads": 4,
+            "gqa_head_dim": 128,
+            "cross_head_dim": 128
+        },
+        "src_vocab_size": 256,
+        "tgt_vocab_size": 1028,
+        "dropout": 0.0
+    },
+    "quantization": {
+        "group_size": 64,
+        "bits": 4,
+        "model.encoder.embedding": false,
+        "model.encoder.dropout": false,
+        "model.encoder.layers.0.pre_sa_norm": false,
+        "model.encoder.layers.0.self_attention.q_proj": false,
+        "model.encoder.layers.0.self_attention.k_proj": false,
+        "model.encoder.layers.0.self_attention.v_proj": false,
+        "model.encoder.layers.0.self_attention.o_proj": false,
+        "model.encoder.layers.0.self_attention.rotary_emb": false,
+        "model.encoder.layers.0.post_sa_norm": false,
+        "model.encoder.layers.0.mlp.wi_fused": false,
+        "model.encoder.layers.0.mlp.activation_fn_0": false,
+        "model.encoder.layers.0.mlp.activation_fn_1": false,
+        "model.encoder.layers.0.mlp.dropout": false,
+        "model.encoder.layers.0.mlp.wo": false,
+        "model.encoder.layers.0.dropout": false,
+        "model.encoder.layers.1.pre_sa_norm": false,
+        "model.encoder.layers.1.self_attention.q_proj": false,
+        "model.encoder.layers.1.self_attention.k_proj": false,
+        "model.encoder.layers.1.self_attention.v_proj": false,
+        "model.encoder.layers.1.self_attention.o_proj": false,
+        "model.encoder.layers.1.self_attention.rotary_emb": false,
+        "model.encoder.layers.1.post_sa_norm": false,
+        "model.encoder.layers.1.mlp.wi_fused": false,
+        "model.encoder.layers.1.mlp.activation_fn_0": false,
+        "model.encoder.layers.1.mlp.activation_fn_1": false,
+        "model.encoder.layers.1.mlp.dropout": false,
+        "model.encoder.layers.1.mlp.wo": false,
+        "model.encoder.layers.1.dropout": false,
+        "model.encoder.layers.2.pre_sa_norm": false,
+        "model.encoder.layers.2.self_attention.q_proj": false,
+        "model.encoder.layers.2.self_attention.k_proj": false,
+        "model.encoder.layers.2.self_attention.v_proj": false,
+        "model.encoder.layers.2.self_attention.o_proj": false,
+        "model.encoder.layers.2.self_attention.rotary_emb": false,
+        "model.encoder.layers.2.post_sa_norm": false,
+        "model.encoder.layers.2.mlp.wi_fused": false,
+        "model.encoder.layers.2.mlp.activation_fn_0": false,
+        "model.encoder.layers.2.mlp.activation_fn_1": false,
+        "model.encoder.layers.2.mlp.dropout": false,
+        "model.encoder.layers.2.mlp.wo": false,
+        "model.encoder.layers.2.dropout": false,
+        "model.encoder.layers.3.pre_sa_norm": false,
+        "model.encoder.layers.3.self_attention.q_proj": false,
+        "model.encoder.layers.3.self_attention.k_proj": false,
+        "model.encoder.layers.3.self_attention.v_proj": false,
+        "model.encoder.layers.3.self_attention.o_proj": false,
+        "model.encoder.layers.3.self_attention.rotary_emb": false,
+        "model.encoder.layers.3.post_sa_norm": false,
+        "model.encoder.layers.3.mlp.wi_fused": false,
+        "model.encoder.layers.3.mlp.activation_fn_0": false,
+        "model.encoder.layers.3.mlp.activation_fn_1": false,
+        "model.encoder.layers.3.mlp.dropout": false,
+        "model.encoder.layers.3.mlp.wo": false,
+        "model.encoder.layers.3.dropout": false,
+        "model.encoder.layers.4.pre_sa_norm": false,
+        "model.encoder.layers.4.self_attention.q_proj": false,
+        "model.encoder.layers.4.self_attention.k_proj": false,
+        "model.encoder.layers.4.self_attention.v_proj": false,
+        "model.encoder.layers.4.self_attention.o_proj": false,
+        "model.encoder.layers.4.self_attention.rotary_emb": false,
+        "model.encoder.layers.4.post_sa_norm": false,
+        "model.encoder.layers.4.mlp.wi_fused": false,
+        "model.encoder.layers.4.mlp.activation_fn_0": false,
+        "model.encoder.layers.4.mlp.activation_fn_1": false,
+        "model.encoder.layers.4.mlp.dropout": false,
+        "model.encoder.layers.4.mlp.wo": false,
+        "model.encoder.layers.4.dropout": false,
+        "model.encoder.layers.5.pre_sa_norm": false,
+        "model.encoder.layers.5.self_attention.q_proj": false,
+        "model.encoder.layers.5.self_attention.k_proj": false,
+        "model.encoder.layers.5.self_attention.v_proj": false,
+        "model.encoder.layers.5.self_attention.o_proj": false,
+        "model.encoder.layers.5.self_attention.rotary_emb": false,
+        "model.encoder.layers.5.post_sa_norm": false,
+        "model.encoder.layers.5.mlp.wi_fused": false,
+        "model.encoder.layers.5.mlp.activation_fn_0": false,
+        "model.encoder.layers.5.mlp.activation_fn_1": false,
+        "model.encoder.layers.5.mlp.dropout": false,
+        "model.encoder.layers.5.mlp.wo": false,
+        "model.encoder.layers.5.dropout": false,
+        "model.encoder.layers.6.pre_sa_norm": false,
+        "model.encoder.layers.6.self_attention.q_proj": false,
+        "model.encoder.layers.6.self_attention.k_proj": false,
+        "model.encoder.layers.6.self_attention.v_proj": false,
+        "model.encoder.layers.6.self_attention.o_proj": false,
+        "model.encoder.layers.6.self_attention.rotary_emb": false,
+        "model.encoder.layers.6.post_sa_norm": false,
+        "model.encoder.layers.6.mlp.wi_fused": false,
+        "model.encoder.layers.6.mlp.activation_fn_0": false,
+        "model.encoder.layers.6.mlp.activation_fn_1": false,
+        "model.encoder.layers.6.mlp.dropout": false,
+        "model.encoder.layers.6.mlp.wo": false,
+        "model.encoder.layers.6.dropout": false,
+        "model.encoder.layers.7.pre_sa_norm": false,
+        "model.encoder.layers.7.self_attention.q_proj": false,
+        "model.encoder.layers.7.self_attention.k_proj": false,
+        "model.encoder.layers.7.self_attention.v_proj": false,
+        "model.encoder.layers.7.self_attention.o_proj": false,
+        "model.encoder.layers.7.self_attention.rotary_emb": false,
+        "model.encoder.layers.7.post_sa_norm": false,
+        "model.encoder.layers.7.mlp.wi_fused": false,
+        "model.encoder.layers.7.mlp.activation_fn_0": false,
+        "model.encoder.layers.7.mlp.activation_fn_1": false,
+        "model.encoder.layers.7.mlp.dropout": false,
+        "model.encoder.layers.7.mlp.wo": false,
+        "model.encoder.layers.7.dropout": false,
+        "model.encoder.layers.8.pre_sa_norm": false,
+        "model.encoder.layers.8.self_attention.q_proj": false,
+        "model.encoder.layers.8.self_attention.k_proj": false,
+        "model.encoder.layers.8.self_attention.v_proj": false,
+        "model.encoder.layers.8.self_attention.o_proj": false,
+        "model.encoder.layers.8.self_attention.rotary_emb": false,
+        "model.encoder.layers.8.post_sa_norm": false,
+        "model.encoder.layers.8.mlp.wi_fused": false,
+        "model.encoder.layers.8.mlp.activation_fn_0": false,
+        "model.encoder.layers.8.mlp.activation_fn_1": false,
+        "model.encoder.layers.8.mlp.dropout": false,
+        "model.encoder.layers.8.mlp.wo": false,
+        "model.encoder.layers.8.dropout": false,
+        "model.encoder.layers.9.pre_sa_norm": false,
+        "model.encoder.layers.9.self_attention.q_proj": false,
+        "model.encoder.layers.9.self_attention.k_proj": false,
+        "model.encoder.layers.9.self_attention.v_proj": false,
+        "model.encoder.layers.9.self_attention.o_proj": false,
+        "model.encoder.layers.9.self_attention.rotary_emb": false,
+        "model.encoder.layers.9.post_sa_norm": false,
+        "model.encoder.layers.9.mlp.wi_fused": false,
+        "model.encoder.layers.9.mlp.activation_fn_0": false,
+        "model.encoder.layers.9.mlp.activation_fn_1": false,
+        "model.encoder.layers.9.mlp.dropout": false,
+        "model.encoder.layers.9.mlp.wo": false,
+        "model.encoder.layers.9.dropout": false,
+        "model.encoder.layers.10.pre_sa_norm": false,
+        "model.encoder.layers.10.self_attention.q_proj": false,
+        "model.encoder.layers.10.self_attention.k_proj": false,
+        "model.encoder.layers.10.self_attention.v_proj": false,
+        "model.encoder.layers.10.self_attention.o_proj": false,
+        "model.encoder.layers.10.self_attention.rotary_emb": false,
+        "model.encoder.layers.10.post_sa_norm": false,
+        "model.encoder.layers.10.mlp.wi_fused": false,
+        "model.encoder.layers.10.mlp.activation_fn_0": false,
+        "model.encoder.layers.10.mlp.activation_fn_1": false,
+        "model.encoder.layers.10.mlp.dropout": false,
+        "model.encoder.layers.10.mlp.wo": false,
+        "model.encoder.layers.10.dropout": false,
+        "model.encoder.layers.11.pre_sa_norm": false,
+        "model.encoder.layers.11.self_attention.q_proj": false,
+        "model.encoder.layers.11.self_attention.k_proj": false,
+        "model.encoder.layers.11.self_attention.v_proj": false,
+        "model.encoder.layers.11.self_attention.o_proj": false,
+        "model.encoder.layers.11.self_attention.rotary_emb": false,
+        "model.encoder.layers.11.post_sa_norm": false,
+        "model.encoder.layers.11.mlp.wi_fused": false,
+        "model.encoder.layers.11.mlp.activation_fn_0": false,
+        "model.encoder.layers.11.mlp.activation_fn_1": false,
+        "model.encoder.layers.11.mlp.dropout": false,
+        "model.encoder.layers.11.mlp.wo": false,
+        "model.encoder.layers.11.dropout": false,
+        "model.encoder.norm": false,
+        "model.decoder.embeddings.0": false,
+        "model.decoder.embeddings.1": false,
+        "model.decoder.embeddings.2": false,
+        "model.decoder.embeddings.3": false,
+        "model.decoder.embeddings.4": false,
+        "model.decoder.embeddings.5": false,
+        "model.decoder.embeddings.6": false,
+        "model.decoder.embeddings.7": false,
+        "model.decoder.embeddings.8": false,
+        "model.decoder.dropout": false,
+        "model.decoder.layers.0.pre_sa_norm": false,
+        "model.decoder.layers.0.pre_ca_norm": false,
+        "model.decoder.layers.0.pre_mlp_norm": false,
+        "model.decoder.layers.0.self_attention.q_proj": false,
+        "model.decoder.layers.0.self_attention.k_proj": false,
+        "model.decoder.layers.0.self_attention.v_proj": false,
+        "model.decoder.layers.0.self_attention.o_proj": false,
+        "model.decoder.layers.0.self_attention.rotary_emb": false,
+        "model.decoder.layers.0.cross_attention.q_proj": false,
+        "model.decoder.layers.0.cross_attention.k_proj": false,
+        "model.decoder.layers.0.cross_attention.v_proj": false,
+        "model.decoder.layers.0.cross_attention.o_proj": false,
+        "model.decoder.layers.0.cross_attention.rotary_emb": false,
+        "model.decoder.layers.0.mlp.wi_fused": false,
+        "model.decoder.layers.0.mlp.activation_fn_0": false,
+        "model.decoder.layers.0.mlp.activation_fn_1": false,
+        "model.decoder.layers.0.mlp.dropout": false,
+        "model.decoder.layers.0.mlp.wo": false,
+        "model.decoder.layers.1.pre_sa_norm": false,
+        "model.decoder.layers.1.pre_ca_norm": false,
+        "model.decoder.layers.1.pre_mlp_norm": false,
+        "model.decoder.layers.1.self_attention.q_proj": false,
+        "model.decoder.layers.1.self_attention.k_proj": false,
+        "model.decoder.layers.1.self_attention.v_proj": false,
+        "model.decoder.layers.1.self_attention.o_proj": false,
+        "model.decoder.layers.1.self_attention.rotary_emb": false,
+        "model.decoder.layers.1.cross_attention.q_proj": false,
+        "model.decoder.layers.1.cross_attention.k_proj": false,
+        "model.decoder.layers.1.cross_attention.v_proj": false,
+        "model.decoder.layers.1.cross_attention.o_proj": false,
+        "model.decoder.layers.1.cross_attention.rotary_emb": false,
+        "model.decoder.layers.1.mlp.wi_fused": false,
+        "model.decoder.layers.1.mlp.activation_fn_0": false,
+        "model.decoder.layers.1.mlp.activation_fn_1": false,
+        "model.decoder.layers.1.mlp.dropout": false,
+        "model.decoder.layers.1.mlp.wo": false,
+        "model.decoder.layers.2.pre_sa_norm": false,
+        "model.decoder.layers.2.pre_ca_norm": false,
+        "model.decoder.layers.2.pre_mlp_norm": false,
+        "model.decoder.layers.2.self_attention.q_proj": false,
+        "model.decoder.layers.2.self_attention.k_proj": false,
+        "model.decoder.layers.2.self_attention.v_proj": false,
+        "model.decoder.layers.2.self_attention.o_proj": false,
+        "model.decoder.layers.2.self_attention.rotary_emb": false,
+        "model.decoder.layers.2.cross_attention.q_proj": false,
+        "model.decoder.layers.2.cross_attention.k_proj": false,
+        "model.decoder.layers.2.cross_attention.v_proj": false,
+        "model.decoder.layers.2.cross_attention.o_proj": false,
+        "model.decoder.layers.2.cross_attention.rotary_emb": false,
+        "model.decoder.layers.2.mlp.wi_fused": false,
+        "model.decoder.layers.2.mlp.activation_fn_0": false,
+        "model.decoder.layers.2.mlp.activation_fn_1": false,
+        "model.decoder.layers.2.mlp.dropout": false,
+        "model.decoder.layers.2.mlp.wo": false,
+        "model.decoder.layers.3.pre_sa_norm": false,
+        "model.decoder.layers.3.pre_ca_norm": false,
+        "model.decoder.layers.3.pre_mlp_norm": false,
+        "model.decoder.layers.3.self_attention.q_proj": false,
+        "model.decoder.layers.3.self_attention.k_proj": false,
+        "model.decoder.layers.3.self_attention.v_proj": false,
+        "model.decoder.layers.3.self_attention.o_proj": false,
+        "model.decoder.layers.3.self_attention.rotary_emb": false,
+        "model.decoder.layers.3.cross_attention.q_proj": false,
+        "model.decoder.layers.3.cross_attention.k_proj": false,
+        "model.decoder.layers.3.cross_attention.v_proj": false,
+        "model.decoder.layers.3.cross_attention.o_proj": false,
+        "model.decoder.layers.3.cross_attention.rotary_emb": false,
+        "model.decoder.layers.3.mlp.wi_fused": false,
+        "model.decoder.layers.3.mlp.activation_fn_0": false,
+        "model.decoder.layers.3.mlp.activation_fn_1": false,
+        "model.decoder.layers.3.mlp.dropout": false,
+        "model.decoder.layers.3.mlp.wo": false,
+        "model.decoder.layers.4.pre_sa_norm": false,
+        "model.decoder.layers.4.pre_ca_norm": false,
+        "model.decoder.layers.4.pre_mlp_norm": false,
+        "model.decoder.layers.4.self_attention.q_proj": false,
+        "model.decoder.layers.4.self_attention.k_proj": false,
+        "model.decoder.layers.4.self_attention.v_proj": false,
+        "model.decoder.layers.4.self_attention.o_proj": false,
+        "model.decoder.layers.4.self_attention.rotary_emb": false,
+        "model.decoder.layers.4.cross_attention.q_proj": false,
+        "model.decoder.layers.4.cross_attention.k_proj": false,
+        "model.decoder.layers.4.cross_attention.v_proj": false,
+        "model.decoder.layers.4.cross_attention.o_proj": false,
+        "model.decoder.layers.4.cross_attention.rotary_emb": false,
+        "model.decoder.layers.4.mlp.wi_fused": false,
+        "model.decoder.layers.4.mlp.activation_fn_0": false,
+        "model.decoder.layers.4.mlp.activation_fn_1": false,
+        "model.decoder.layers.4.mlp.dropout": false,
+        "model.decoder.layers.4.mlp.wo": false,
+        "model.decoder.layers.5.pre_sa_norm": false,
+        "model.decoder.layers.5.pre_ca_norm": false,
+        "model.decoder.layers.5.pre_mlp_norm": false,
+        "model.decoder.layers.5.self_attention.q_proj": false,
+        "model.decoder.layers.5.self_attention.k_proj": false,
+        "model.decoder.layers.5.self_attention.v_proj": false,
+        "model.decoder.layers.5.self_attention.o_proj": false,
+        "model.decoder.layers.5.self_attention.rotary_emb": false,
+        "model.decoder.layers.5.cross_attention.q_proj": false,
+        "model.decoder.layers.5.cross_attention.k_proj": false,
+        "model.decoder.layers.5.cross_attention.v_proj": false,
+        "model.decoder.layers.5.cross_attention.o_proj": false,
+        "model.decoder.layers.5.cross_attention.rotary_emb": false,
+        "model.decoder.layers.5.mlp.wi_fused": false,
+        "model.decoder.layers.5.mlp.activation_fn_0": false,
+        "model.decoder.layers.5.mlp.activation_fn_1": false,
+        "model.decoder.layers.5.mlp.dropout": false,
+        "model.decoder.layers.5.mlp.wo": false,
+        "model.decoder.layers.6.pre_sa_norm": false,
+        "model.decoder.layers.6.pre_ca_norm": false,
+        "model.decoder.layers.6.pre_mlp_norm": false,
+        "model.decoder.layers.6.self_attention.q_proj": false,
+        "model.decoder.layers.6.self_attention.k_proj": false,
+        "model.decoder.layers.6.self_attention.v_proj": false,
+        "model.decoder.layers.6.self_attention.o_proj": false,
+        "model.decoder.layers.6.self_attention.rotary_emb": false,
+        "model.decoder.layers.6.cross_attention.q_proj": false,
+        "model.decoder.layers.6.cross_attention.k_proj": false,
+        "model.decoder.layers.6.cross_attention.v_proj": false,
+        "model.decoder.layers.6.cross_attention.o_proj": false,
+        "model.decoder.layers.6.cross_attention.rotary_emb": false,
+        "model.decoder.layers.6.mlp.wi_fused": false,
+        "model.decoder.layers.6.mlp.activation_fn_0": false,
+        "model.decoder.layers.6.mlp.activation_fn_1": false,
+        "model.decoder.layers.6.mlp.dropout": false,
+        "model.decoder.layers.6.mlp.wo": false,
+        "model.decoder.layers.7.pre_sa_norm": false,
+        "model.decoder.layers.7.pre_ca_norm": false,
+        "model.decoder.layers.7.pre_mlp_norm": false,
+        "model.decoder.layers.7.self_attention.q_proj": false,
+        "model.decoder.layers.7.self_attention.k_proj": false,
+        "model.decoder.layers.7.self_attention.v_proj": false,
+        "model.decoder.layers.7.self_attention.o_proj": false,
+        "model.decoder.layers.7.self_attention.rotary_emb": false,
+        "model.decoder.layers.7.cross_attention.q_proj": false,
+        "model.decoder.layers.7.cross_attention.k_proj": false,
+        "model.decoder.layers.7.cross_attention.v_proj": false,
+        "model.decoder.layers.7.cross_attention.o_proj": false,
+        "model.decoder.layers.7.cross_attention.rotary_emb": false,
+        "model.decoder.layers.7.mlp.wi_fused": false,
+        "model.decoder.layers.7.mlp.activation_fn_0": false,
+        "model.decoder.layers.7.mlp.activation_fn_1": false,
+        "model.decoder.layers.7.mlp.dropout": false,
+        "model.decoder.layers.7.mlp.wo": false,
+        "model.decoder.layers.8.pre_sa_norm": false,
+        "model.decoder.layers.8.pre_ca_norm": false,
+        "model.decoder.layers.8.pre_mlp_norm": false,
+        "model.decoder.layers.8.self_attention.q_proj": false,
+        "model.decoder.layers.8.self_attention.k_proj": false,
+        "model.decoder.layers.8.self_attention.v_proj": false,
+        "model.decoder.layers.8.self_attention.o_proj": false,
+        "model.decoder.layers.8.self_attention.rotary_emb": false,
+        "model.decoder.layers.8.cross_attention.q_proj": false,
+        "model.decoder.layers.8.cross_attention.k_proj": false,
+        "model.decoder.layers.8.cross_attention.v_proj": false,
+        "model.decoder.layers.8.cross_attention.o_proj": false,
+        "model.decoder.layers.8.cross_attention.rotary_emb": false,
+        "model.decoder.layers.8.mlp.wi_fused": false,
+        "model.decoder.layers.8.mlp.activation_fn_0": false,
+        "model.decoder.layers.8.mlp.activation_fn_1": false,
+        "model.decoder.layers.8.mlp.dropout": false,
+        "model.decoder.layers.8.mlp.wo": false,
+        "model.decoder.layers.9.pre_sa_norm": false,
+        "model.decoder.layers.9.pre_ca_norm": false,
+        "model.decoder.layers.9.pre_mlp_norm": false,
+        "model.decoder.layers.9.self_attention.q_proj": false,
+        "model.decoder.layers.9.self_attention.k_proj": false,
+        "model.decoder.layers.9.self_attention.v_proj": false,
+        "model.decoder.layers.9.self_attention.o_proj": false,
+        "model.decoder.layers.9.self_attention.rotary_emb": false,
+        "model.decoder.layers.9.cross_attention.q_proj": false,
+        "model.decoder.layers.9.cross_attention.k_proj": false,
+        "model.decoder.layers.9.cross_attention.v_proj": false,
+        "model.decoder.layers.9.cross_attention.o_proj": false,
+        "model.decoder.layers.9.cross_attention.rotary_emb": false,
+        "model.decoder.layers.9.mlp.wi_fused": false,
+        "model.decoder.layers.9.mlp.activation_fn_0": false,
+        "model.decoder.layers.9.mlp.activation_fn_1": false,
+        "model.decoder.layers.9.mlp.dropout": false,
+        "model.decoder.layers.9.mlp.wo": false,
+        "model.decoder.layers.10.pre_sa_norm": false,
+        "model.decoder.layers.10.pre_ca_norm": false,
+        "model.decoder.layers.10.pre_mlp_norm": false,
+        "model.decoder.layers.10.self_attention.q_proj": false,
+        "model.decoder.layers.10.self_attention.k_proj": false,
+        "model.decoder.layers.10.self_attention.v_proj": false,
+        "model.decoder.layers.10.self_attention.o_proj": false,
+        "model.decoder.layers.10.self_attention.rotary_emb": false,
+        "model.decoder.layers.10.cross_attention.q_proj": false,
+        "model.decoder.layers.10.cross_attention.k_proj": false,
+        "model.decoder.layers.10.cross_attention.v_proj": false,
+        "model.decoder.layers.10.cross_attention.o_proj": false,
+        "model.decoder.layers.10.cross_attention.rotary_emb": false,
+        "model.decoder.layers.10.mlp.wi_fused": false,
+        "model.decoder.layers.10.mlp.activation_fn_0": false,
+        "model.decoder.layers.10.mlp.activation_fn_1": false,
+        "model.decoder.layers.10.mlp.dropout": false,
+        "model.decoder.layers.10.mlp.wo": false,
+        "model.decoder.layers.11.pre_sa_norm": false,
+        "model.decoder.layers.11.pre_ca_norm": false,
+        "model.decoder.layers.11.pre_mlp_norm": false,
+        "model.decoder.layers.11.self_attention.q_proj": false,
+        "model.decoder.layers.11.self_attention.k_proj": false,
+        "model.decoder.layers.11.self_attention.v_proj": false,
+        "model.decoder.layers.11.self_attention.o_proj": false,
+        "model.decoder.layers.11.self_attention.rotary_emb": false,
+        "model.decoder.layers.11.cross_attention.q_proj": false,
+        "model.decoder.layers.11.cross_attention.k_proj": false,
+        "model.decoder.layers.11.cross_attention.v_proj": false,
+        "model.decoder.layers.11.cross_attention.o_proj": false,
+        "model.decoder.layers.11.cross_attention.rotary_emb": false,
+        "model.decoder.layers.11.mlp.wi_fused": false,
+        "model.decoder.layers.11.mlp.activation_fn_0": false,
+        "model.decoder.layers.11.mlp.activation_fn_1": false,
+        "model.decoder.layers.11.mlp.dropout": false,
+        "model.decoder.layers.11.mlp.wo": false,
+        "model.decoder.layers.12.pre_sa_norm": false,
+        "model.decoder.layers.12.pre_ca_norm": false,
+        "model.decoder.layers.12.pre_mlp_norm": false,
+        "model.decoder.layers.12.self_attention.q_proj": false,
+        "model.decoder.layers.12.self_attention.k_proj": false,
+        "model.decoder.layers.12.self_attention.v_proj": false,
+        "model.decoder.layers.12.self_attention.o_proj": false,
+        "model.decoder.layers.12.self_attention.rotary_emb": false,
+        "model.decoder.layers.12.cross_attention.q_proj": false,
+        "model.decoder.layers.12.cross_attention.k_proj": false,
+        "model.decoder.layers.12.cross_attention.v_proj": false,
+        "model.decoder.layers.12.cross_attention.o_proj": false,
+        "model.decoder.layers.12.cross_attention.rotary_emb": false,
+        "model.decoder.layers.12.mlp.wi_fused": false,
+        "model.decoder.layers.12.mlp.activation_fn_0": false,
+        "model.decoder.layers.12.mlp.activation_fn_1": false,
+        "model.decoder.layers.12.mlp.dropout": false,
+        "model.decoder.layers.12.mlp.wo": false,
+        "model.decoder.layers.13.pre_sa_norm": false,
+        "model.decoder.layers.13.pre_ca_norm": false,
+        "model.decoder.layers.13.pre_mlp_norm": false,
+        "model.decoder.layers.13.self_attention.q_proj": false,
+        "model.decoder.layers.13.self_attention.k_proj": false,
+        "model.decoder.layers.13.self_attention.v_proj": false,
+        "model.decoder.layers.13.self_attention.o_proj": false,
+        "model.decoder.layers.13.self_attention.rotary_emb": false,
+        "model.decoder.layers.13.cross_attention.q_proj": false,
+        "model.decoder.layers.13.cross_attention.k_proj": false,
+        "model.decoder.layers.13.cross_attention.v_proj": false,
+        "model.decoder.layers.13.cross_attention.o_proj": false,
+        "model.decoder.layers.13.cross_attention.rotary_emb": false,
+        "model.decoder.layers.13.mlp.wi_fused": false,
+        "model.decoder.layers.13.mlp.activation_fn_0": false,
+        "model.decoder.layers.13.mlp.activation_fn_1": false,
+        "model.decoder.layers.13.mlp.dropout": false,
+        "model.decoder.layers.13.mlp.wo": false,
+        "model.decoder.layers.14.pre_sa_norm": false,
+        "model.decoder.layers.14.pre_ca_norm": false,
+        "model.decoder.layers.14.pre_mlp_norm": false,
+        "model.decoder.layers.14.self_attention.q_proj": false,
+        "model.decoder.layers.14.self_attention.k_proj": false,
+        "model.decoder.layers.14.self_attention.v_proj": false,
+        "model.decoder.layers.14.self_attention.o_proj": false,
+        "model.decoder.layers.14.self_attention.rotary_emb": false,
+        "model.decoder.layers.14.cross_attention.q_proj": false,
+        "model.decoder.layers.14.cross_attention.k_proj": false,
+        "model.decoder.layers.14.cross_attention.v_proj": false,
+        "model.decoder.layers.14.cross_attention.o_proj": false,
+        "model.decoder.layers.14.cross_attention.rotary_emb": false,
+        "model.decoder.layers.14.mlp.wi_fused": false,
+        "model.decoder.layers.14.mlp.activation_fn_0": false,
+        "model.decoder.layers.14.mlp.activation_fn_1": false,
+        "model.decoder.layers.14.mlp.dropout": false,
+        "model.decoder.layers.14.mlp.wo": false,
+        "model.decoder.layers.15.pre_sa_norm": false,
+        "model.decoder.layers.15.pre_ca_norm": false,
+        "model.decoder.layers.15.pre_mlp_norm": false,
+        "model.decoder.layers.15.self_attention.q_proj": false,
+        "model.decoder.layers.15.self_attention.k_proj": false,
+        "model.decoder.layers.15.self_attention.v_proj": false,
+        "model.decoder.layers.15.self_attention.o_proj": false,
+        "model.decoder.layers.15.self_attention.rotary_emb": false,
+        "model.decoder.layers.15.cross_attention.q_proj": false,
+        "model.decoder.layers.15.cross_attention.k_proj": false,
+        "model.decoder.layers.15.cross_attention.v_proj": false,
+        "model.decoder.layers.15.cross_attention.o_proj": false,
+        "model.decoder.layers.15.cross_attention.rotary_emb": false,
+        "model.decoder.layers.15.mlp.wi_fused": false,
+        "model.decoder.layers.15.mlp.activation_fn_0": false,
+        "model.decoder.layers.15.mlp.activation_fn_1": false,
+        "model.decoder.layers.15.mlp.dropout": false,
+        "model.decoder.layers.15.mlp.wo": false,
+        "model.decoder.layers.16.pre_sa_norm": false,
+        "model.decoder.layers.16.pre_ca_norm": false,
+        "model.decoder.layers.16.pre_mlp_norm": false,
+        "model.decoder.layers.16.self_attention.q_proj": false,
+        "model.decoder.layers.16.self_attention.k_proj": false,
+        "model.decoder.layers.16.self_attention.v_proj": false,
+        "model.decoder.layers.16.self_attention.o_proj": false,
+        "model.decoder.layers.16.self_attention.rotary_emb": false,
+        "model.decoder.layers.16.cross_attention.q_proj": false,
+        "model.decoder.layers.16.cross_attention.k_proj": false,
+        "model.decoder.layers.16.cross_attention.v_proj": false,
+        "model.decoder.layers.16.cross_attention.o_proj": false,
+        "model.decoder.layers.16.cross_attention.rotary_emb": false,
+        "model.decoder.layers.16.mlp.wi_fused": false,
+        "model.decoder.layers.16.mlp.activation_fn_0": false,
+        "model.decoder.layers.16.mlp.activation_fn_1": false,
+        "model.decoder.layers.16.mlp.dropout": false,
+        "model.decoder.layers.16.mlp.wo": false,
+        "model.decoder.layers.17.pre_sa_norm": false,
+        "model.decoder.layers.17.pre_ca_norm": false,
+        "model.decoder.layers.17.pre_mlp_norm": false,
+        "model.decoder.layers.17.self_attention.q_proj": false,
+        "model.decoder.layers.17.self_attention.k_proj": false,
+        "model.decoder.layers.17.self_attention.v_proj": false,
+        "model.decoder.layers.17.self_attention.o_proj": false,
+        "model.decoder.layers.17.self_attention.rotary_emb": false,
+        "model.decoder.layers.17.cross_attention.q_proj": false,
+        "model.decoder.layers.17.cross_attention.k_proj": false,
+        "model.decoder.layers.17.cross_attention.v_proj": false,
+        "model.decoder.layers.17.cross_attention.o_proj": false,
+        "model.decoder.layers.17.cross_attention.rotary_emb": false,
+        "model.decoder.layers.17.mlp.wi_fused": false,
+        "model.decoder.layers.17.mlp.activation_fn_0": false,
+        "model.decoder.layers.17.mlp.activation_fn_1": false,
+        "model.decoder.layers.17.mlp.dropout": false,
+        "model.decoder.layers.17.mlp.wo": false,
+        "model.decoder.norm": false,
+        "model.decoder.logits_dense": false,
+        "dac_model.encoder.block.layers.0": false,
+        "dac_model.encoder.block.layers.1.block.layers.0.block.layers.0": false,
+        "dac_model.encoder.block.layers.1.block.layers.0.block.layers.1": false,
+        "dac_model.encoder.block.layers.1.block.layers.0.block.layers.2": false,
+        "dac_model.encoder.block.layers.1.block.layers.0.block.layers.3": false,
+        "dac_model.encoder.block.layers.1.block.layers.1.block.layers.0": false,
+        "dac_model.encoder.block.layers.1.block.layers.1.block.layers.1": false,
+        "dac_model.encoder.block.layers.1.block.layers.1.block.layers.2": false,
+        "dac_model.encoder.block.layers.1.block.layers.1.block.layers.3": false,
+        "dac_model.encoder.block.layers.1.block.layers.2.block.layers.0": false,
+        "dac_model.encoder.block.layers.1.block.layers.2.block.layers.1": false,
+        "dac_model.encoder.block.layers.1.block.layers.2.block.layers.2": false,
+        "dac_model.encoder.block.layers.1.block.layers.2.block.layers.3": false,
+        "dac_model.encoder.block.layers.1.block.layers.3": false,
+        "dac_model.encoder.block.layers.1.block.layers.4": false,
+        "dac_model.encoder.block.layers.2.block.layers.0.block.layers.0": false,
+        "dac_model.encoder.block.layers.2.block.layers.0.block.layers.1": false,
+        "dac_model.encoder.block.layers.2.block.layers.0.block.layers.2": false,
+        "dac_model.encoder.block.layers.2.block.layers.0.block.layers.3": false,
+        "dac_model.encoder.block.layers.2.block.layers.1.block.layers.0": false,
+        "dac_model.encoder.block.layers.2.block.layers.1.block.layers.1": false,
+        "dac_model.encoder.block.layers.2.block.layers.1.block.layers.2": false,
+        "dac_model.encoder.block.layers.2.block.layers.1.block.layers.3": false,
+        "dac_model.encoder.block.layers.2.block.layers.2.block.layers.0": false,
+        "dac_model.encoder.block.layers.2.block.layers.2.block.layers.1": false,
+        "dac_model.encoder.block.layers.2.block.layers.2.block.layers.2": false,
+        "dac_model.encoder.block.layers.2.block.layers.2.block.layers.3": false,
+        "dac_model.encoder.block.layers.2.block.layers.3": false,
+        "dac_model.encoder.block.layers.2.block.layers.4": false,
+        "dac_model.encoder.block.layers.3.block.layers.0.block.layers.0": false,
+        "dac_model.encoder.block.layers.3.block.layers.0.block.layers.1": false,
+        "dac_model.encoder.block.layers.3.block.layers.0.block.layers.2": false,
+        "dac_model.encoder.block.layers.3.block.layers.0.block.layers.3": false,
+        "dac_model.encoder.block.layers.3.block.layers.1.block.layers.0": false,
+        "dac_model.encoder.block.layers.3.block.layers.1.block.layers.1": false,
+        "dac_model.encoder.block.layers.3.block.layers.1.block.layers.2": false,
+        "dac_model.encoder.block.layers.3.block.layers.1.block.layers.3": false,
+        "dac_model.encoder.block.layers.3.block.layers.2.block.layers.0": false,
+        "dac_model.encoder.block.layers.3.block.layers.2.block.layers.1": false,
+        "dac_model.encoder.block.layers.3.block.layers.2.block.layers.2": false,
+        "dac_model.encoder.block.layers.3.block.layers.2.block.layers.3": false,
+        "dac_model.encoder.block.layers.3.block.layers.3": false,
+        "dac_model.encoder.block.layers.3.block.layers.4": false,
+        "dac_model.encoder.block.layers.4.block.layers.0.block.layers.0": false,
+        "dac_model.encoder.block.layers.4.block.layers.0.block.layers.1": false,
+        "dac_model.encoder.block.layers.4.block.layers.0.block.layers.2": false,
+        "dac_model.encoder.block.layers.4.block.layers.0.block.layers.3": false,
+        "dac_model.encoder.block.layers.4.block.layers.1.block.layers.0": false,
+        "dac_model.encoder.block.layers.4.block.layers.1.block.layers.1": false,
+        "dac_model.encoder.block.layers.4.block.layers.1.block.layers.2": false,
+        "dac_model.encoder.block.layers.4.block.layers.1.block.layers.3": false,
+        "dac_model.encoder.block.layers.4.block.layers.2.block.layers.0": false,
+        "dac_model.encoder.block.layers.4.block.layers.2.block.layers.1": false,
+        "dac_model.encoder.block.layers.4.block.layers.2.block.layers.2": false,
+        "dac_model.encoder.block.layers.4.block.layers.2.block.layers.3": false,
+        "dac_model.encoder.block.layers.4.block.layers.3": false,
+        "dac_model.encoder.block.layers.4.block.layers.4": false,
+        "dac_model.encoder.block.layers.5": false,
+        "dac_model.encoder.block.layers.6": false,
+        "dac_model.quantizer.quantizers.0.in_proj": false,
+        "dac_model.quantizer.quantizers.0.out_proj": false,
+        "dac_model.quantizer.quantizers.0.codebook": false,
+        "dac_model.quantizer.quantizers.1.in_proj": false,
+        "dac_model.quantizer.quantizers.1.out_proj": false,
+        "dac_model.quantizer.quantizers.1.codebook": false,
+        "dac_model.quantizer.quantizers.2.in_proj": false,
+        "dac_model.quantizer.quantizers.2.out_proj": false,
+        "dac_model.quantizer.quantizers.2.codebook": false,
+        "dac_model.quantizer.quantizers.3.in_proj": false,
+        "dac_model.quantizer.quantizers.3.out_proj": false,
+        "dac_model.quantizer.quantizers.3.codebook": false,
+        "dac_model.quantizer.quantizers.4.in_proj": false,
+        "dac_model.quantizer.quantizers.4.out_proj": false,
+        "dac_model.quantizer.quantizers.4.codebook": false,
+        "dac_model.quantizer.quantizers.5.in_proj": false,
+        "dac_model.quantizer.quantizers.5.out_proj": false,
+        "dac_model.quantizer.quantizers.5.codebook": false,
+        "dac_model.quantizer.quantizers.6.in_proj": false,
+        "dac_model.quantizer.quantizers.6.out_proj": false,
+        "dac_model.quantizer.quantizers.6.codebook": false,
+        "dac_model.quantizer.quantizers.7.in_proj": false,
+        "dac_model.quantizer.quantizers.7.out_proj": false,
+        "dac_model.quantizer.quantizers.7.codebook": false,
+        "dac_model.quantizer.quantizers.8.in_proj": false,
+        "dac_model.quantizer.quantizers.8.out_proj": false,
+        "dac_model.quantizer.quantizers.8.codebook": false,
+        "dac_model.decoder.model.layers.0": false,
+        "dac_model.decoder.model.layers.1.block.layers.0": false,
+        "dac_model.decoder.model.layers.1.block.layers.1": false,
+        "dac_model.decoder.model.layers.1.block.layers.2.block.layers.0": false,
+        "dac_model.decoder.model.layers.1.block.layers.2.block.layers.1": false,
+        "dac_model.decoder.model.layers.1.block.layers.2.block.layers.2": false,
+        "dac_model.decoder.model.layers.1.block.layers.2.block.layers.3": false,
+        "dac_model.decoder.model.layers.1.block.layers.3.block.layers.0": false,
+        "dac_model.decoder.model.layers.1.block.layers.3.block.layers.1": false,
+        "dac_model.decoder.model.layers.1.block.layers.3.block.layers.2": false,
+        "dac_model.decoder.model.layers.1.block.layers.3.block.layers.3": false,
+        "dac_model.decoder.model.layers.1.block.layers.4.block.layers.0": false,
+        "dac_model.decoder.model.layers.1.block.layers.4.block.layers.1": false,
+        "dac_model.decoder.model.layers.1.block.layers.4.block.layers.2": false,
+        "dac_model.decoder.model.layers.1.block.layers.4.block.layers.3": false,
+        "dac_model.decoder.model.layers.2.block.layers.0": false,
+        "dac_model.decoder.model.layers.2.block.layers.1": false,
+        "dac_model.decoder.model.layers.2.block.layers.2.block.layers.0": false,
+        "dac_model.decoder.model.layers.2.block.layers.2.block.layers.1": false,
+        "dac_model.decoder.model.layers.2.block.layers.2.block.layers.2": false,
+        "dac_model.decoder.model.layers.2.block.layers.2.block.layers.3": false,
+        "dac_model.decoder.model.layers.2.block.layers.3.block.layers.0": false,
+        "dac_model.decoder.model.layers.2.block.layers.3.block.layers.1": false,
+        "dac_model.decoder.model.layers.2.block.layers.3.block.layers.2": false,
+        "dac_model.decoder.model.layers.2.block.layers.3.block.layers.3": false,
+        "dac_model.decoder.model.layers.2.block.layers.4.block.layers.0": false,
+        "dac_model.decoder.model.layers.2.block.layers.4.block.layers.1": false,
+        "dac_model.decoder.model.layers.2.block.layers.4.block.layers.2": false,
+        "dac_model.decoder.model.layers.2.block.layers.4.block.layers.3": false,
+        "dac_model.decoder.model.layers.3.block.layers.0": false,
+        "dac_model.decoder.model.layers.3.block.layers.1": false,
+        "dac_model.decoder.model.layers.3.block.layers.2.block.layers.0": false,
+        "dac_model.decoder.model.layers.3.block.layers.2.block.layers.1": false,
+        "dac_model.decoder.model.layers.3.block.layers.2.block.layers.2": false,
+        "dac_model.decoder.model.layers.3.block.layers.2.block.layers.3": false,
+        "dac_model.decoder.model.layers.3.block.layers.3.block.layers.0": false,
+        "dac_model.decoder.model.layers.3.block.layers.3.block.layers.1": false,
+        "dac_model.decoder.model.layers.3.block.layers.3.block.layers.2": false,
+        "dac_model.decoder.model.layers.3.block.layers.3.block.layers.3": false,
+        "dac_model.decoder.model.layers.3.block.layers.4.block.layers.0": false,
+        "dac_model.decoder.model.layers.3.block.layers.4.block.layers.1": false,
+        "dac_model.decoder.model.layers.3.block.layers.4.block.layers.2": false,
+        "dac_model.decoder.model.layers.3.block.layers.4.block.layers.3": false,
+        "dac_model.decoder.model.layers.4.block.layers.0": false,
+        "dac_model.decoder.model.layers.4.block.layers.1": false,
+        "dac_model.decoder.model.layers.4.block.layers.2.block.layers.0": false,
+        "dac_model.decoder.model.layers.4.block.layers.2.block.layers.1": false,
+        "dac_model.decoder.model.layers.4.block.layers.2.block.layers.2": false,
+        "dac_model.decoder.model.layers.4.block.layers.2.block.layers.3": false,
+        "dac_model.decoder.model.layers.4.block.layers.3.block.layers.0": false,
+        "dac_model.decoder.model.layers.4.block.layers.3.block.layers.1": false,
+        "dac_model.decoder.model.layers.4.block.layers.3.block.layers.2": false,
+        "dac_model.decoder.model.layers.4.block.layers.3.block.layers.3": false,
+        "dac_model.decoder.model.layers.4.block.layers.4.block.layers.0": false,
+        "dac_model.decoder.model.layers.4.block.layers.4.block.layers.1": false,
+        "dac_model.decoder.model.layers.4.block.layers.4.block.layers.2": false,
+        "dac_model.decoder.model.layers.4.block.layers.4.block.layers.3": false,
+        "dac_model.decoder.model.layers.5": false,
+        "dac_model.decoder.model.layers.6": false,
+        "dac_model.decoder.model.layers.7": false
+    },
+    "quantization_config": {
+        "group_size": 64,
+        "bits": 4,
+        "model.encoder.embedding": false,
+        "model.encoder.dropout": false,
+        "model.encoder.layers.0.pre_sa_norm": false,
+        "model.encoder.layers.0.self_attention.q_proj": false,
+        "model.encoder.layers.0.self_attention.k_proj": false,
+        "model.encoder.layers.0.self_attention.v_proj": false,
+        "model.encoder.layers.0.self_attention.o_proj": false,
+        "model.encoder.layers.0.self_attention.rotary_emb": false,
+        "model.encoder.layers.0.post_sa_norm": false,
+        "model.encoder.layers.0.mlp.wi_fused": false,
+        "model.encoder.layers.0.mlp.activation_fn_0": false,
+        "model.encoder.layers.0.mlp.activation_fn_1": false,
+        "model.encoder.layers.0.mlp.dropout": false,
+        "model.encoder.layers.0.mlp.wo": false,
+        "model.encoder.layers.0.dropout": false,
+        "model.encoder.layers.1.pre_sa_norm": false,
+        "model.encoder.layers.1.self_attention.q_proj": false,
+        "model.encoder.layers.1.self_attention.k_proj": false,
+        "model.encoder.layers.1.self_attention.v_proj": false,
+        "model.encoder.layers.1.self_attention.o_proj": false,
+        "model.encoder.layers.1.self_attention.rotary_emb": false,
+        "model.encoder.layers.1.post_sa_norm": false,
+        "model.encoder.layers.1.mlp.wi_fused": false,
+        "model.encoder.layers.1.mlp.activation_fn_0": false,
+        "model.encoder.layers.1.mlp.activation_fn_1": false,
+        "model.encoder.layers.1.mlp.dropout": false,
+        "model.encoder.layers.1.mlp.wo": false,
+        "model.encoder.layers.1.dropout": false,
+        "model.encoder.layers.2.pre_sa_norm": false,
+        "model.encoder.layers.2.self_attention.q_proj": false,
+        "model.encoder.layers.2.self_attention.k_proj": false,
+        "model.encoder.layers.2.self_attention.v_proj": false,
+        "model.encoder.layers.2.self_attention.o_proj": false,
+        "model.encoder.layers.2.self_attention.rotary_emb": false,
+        "model.encoder.layers.2.post_sa_norm": false,
+        "model.encoder.layers.2.mlp.wi_fused": false,
+        "model.encoder.layers.2.mlp.activation_fn_0": false,
+        "model.encoder.layers.2.mlp.activation_fn_1": false,
+        "model.encoder.layers.2.mlp.dropout": false,
+        "model.encoder.layers.2.mlp.wo": false,
+        "model.encoder.layers.2.dropout": false,
+        "model.encoder.layers.3.pre_sa_norm": false,
+        "model.encoder.layers.3.self_attention.q_proj": false,
+        "model.encoder.layers.3.self_attention.k_proj": false,
+        "model.encoder.layers.3.self_attention.v_proj": false,
+        "model.encoder.layers.3.self_attention.o_proj": false,
+        "model.encoder.layers.3.self_attention.rotary_emb": false,
+        "model.encoder.layers.3.post_sa_norm": false,
+        "model.encoder.layers.3.mlp.wi_fused": false,
+        "model.encoder.layers.3.mlp.activation_fn_0": false,
+        "model.encoder.layers.3.mlp.activation_fn_1": false,
+        "model.encoder.layers.3.mlp.dropout": false,
+        "model.encoder.layers.3.mlp.wo": false,
+        "model.encoder.layers.3.dropout": false,
+        "model.encoder.layers.4.pre_sa_norm": false,
+        "model.encoder.layers.4.self_attention.q_proj": false,
+        "model.encoder.layers.4.self_attention.k_proj": false,
+        "model.encoder.layers.4.self_attention.v_proj": false,
+        "model.encoder.layers.4.self_attention.o_proj": false,
+        "model.encoder.layers.4.self_attention.rotary_emb": false,
+        "model.encoder.layers.4.post_sa_norm": false,
+        "model.encoder.layers.4.mlp.wi_fused": false,
+        "model.encoder.layers.4.mlp.activation_fn_0": false,
+        "model.encoder.layers.4.mlp.activation_fn_1": false,
+        "model.encoder.layers.4.mlp.dropout": false,
+        "model.encoder.layers.4.mlp.wo": false,
+        "model.encoder.layers.4.dropout": false,
+        "model.encoder.layers.5.pre_sa_norm": false,
+        "model.encoder.layers.5.self_attention.q_proj": false,
+        "model.encoder.layers.5.self_attention.k_proj": false,
+        "model.encoder.layers.5.self_attention.v_proj": false,
+        "model.encoder.layers.5.self_attention.o_proj": false,
+        "model.encoder.layers.5.self_attention.rotary_emb": false,
+        "model.encoder.layers.5.post_sa_norm": false,
+        "model.encoder.layers.5.mlp.wi_fused": false,
+        "model.encoder.layers.5.mlp.activation_fn_0": false,
+        "model.encoder.layers.5.mlp.activation_fn_1": false,
+        "model.encoder.layers.5.mlp.dropout": false,
+        "model.encoder.layers.5.mlp.wo": false,
+        "model.encoder.layers.5.dropout": false,
+        "model.encoder.layers.6.pre_sa_norm": false,
+        "model.encoder.layers.6.self_attention.q_proj": false,
+        "model.encoder.layers.6.self_attention.k_proj": false,
+        "model.encoder.layers.6.self_attention.v_proj": false,
+        "model.encoder.layers.6.self_attention.o_proj": false,
+        "model.encoder.layers.6.self_attention.rotary_emb": false,
+        "model.encoder.layers.6.post_sa_norm": false,
+        "model.encoder.layers.6.mlp.wi_fused": false,
+        "model.encoder.layers.6.mlp.activation_fn_0": false,
+        "model.encoder.layers.6.mlp.activation_fn_1": false,
+        "model.encoder.layers.6.mlp.dropout": false,
+        "model.encoder.layers.6.mlp.wo": false,
+        "model.encoder.layers.6.dropout": false,
+        "model.encoder.layers.7.pre_sa_norm": false,
+        "model.encoder.layers.7.self_attention.q_proj": false,
+        "model.encoder.layers.7.self_attention.k_proj": false,
+        "model.encoder.layers.7.self_attention.v_proj": false,
+        "model.encoder.layers.7.self_attention.o_proj": false,
+        "model.encoder.layers.7.self_attention.rotary_emb": false,
+        "model.encoder.layers.7.post_sa_norm": false,
+        "model.encoder.layers.7.mlp.wi_fused": false,
+        "model.encoder.layers.7.mlp.activation_fn_0": false,
+        "model.encoder.layers.7.mlp.activation_fn_1": false,
+        "model.encoder.layers.7.mlp.dropout": false,
+        "model.encoder.layers.7.mlp.wo": false,
+        "model.encoder.layers.7.dropout": false,
+        "model.encoder.layers.8.pre_sa_norm": false,
+        "model.encoder.layers.8.self_attention.q_proj": false,
+        "model.encoder.layers.8.self_attention.k_proj": false,
+        "model.encoder.layers.8.self_attention.v_proj": false,
+        "model.encoder.layers.8.self_attention.o_proj": false,
+        "model.encoder.layers.8.self_attention.rotary_emb": false,
+        "model.encoder.layers.8.post_sa_norm": false,
+        "model.encoder.layers.8.mlp.wi_fused": false,
+        "model.encoder.layers.8.mlp.activation_fn_0": false,
+        "model.encoder.layers.8.mlp.activation_fn_1": false,
+        "model.encoder.layers.8.mlp.dropout": false,
+        "model.encoder.layers.8.mlp.wo": false,
+        "model.encoder.layers.8.dropout": false,
+        "model.encoder.layers.9.pre_sa_norm": false,
+        "model.encoder.layers.9.self_attention.q_proj": false,
+        "model.encoder.layers.9.self_attention.k_proj": false,
+        "model.encoder.layers.9.self_attention.v_proj": false,
+        "model.encoder.layers.9.self_attention.o_proj": false,
+        "model.encoder.layers.9.self_attention.rotary_emb": false,
+        "model.encoder.layers.9.post_sa_norm": false,
+        "model.encoder.layers.9.mlp.wi_fused": false,
+        "model.encoder.layers.9.mlp.activation_fn_0": false,
+        "model.encoder.layers.9.mlp.activation_fn_1": false,
+        "model.encoder.layers.9.mlp.dropout": false,
+        "model.encoder.layers.9.mlp.wo": false,
+        "model.encoder.layers.9.dropout": false,
+        "model.encoder.layers.10.pre_sa_norm": false,
+        "model.encoder.layers.10.self_attention.q_proj": false,
+        "model.encoder.layers.10.self_attention.k_proj": false,
+        "model.encoder.layers.10.self_attention.v_proj": false,
+        "model.encoder.layers.10.self_attention.o_proj": false,
+        "model.encoder.layers.10.self_attention.rotary_emb": false,
+        "model.encoder.layers.10.post_sa_norm": false,
+        "model.encoder.layers.10.mlp.wi_fused": false,
+        "model.encoder.layers.10.mlp.activation_fn_0": false,
+        "model.encoder.layers.10.mlp.activation_fn_1": false,
+        "model.encoder.layers.10.mlp.dropout": false,
+        "model.encoder.layers.10.mlp.wo": false,
+        "model.encoder.layers.10.dropout": false,
+        "model.encoder.layers.11.pre_sa_norm": false,
+        "model.encoder.layers.11.self_attention.q_proj": false,
+        "model.encoder.layers.11.self_attention.k_proj": false,
+        "model.encoder.layers.11.self_attention.v_proj": false,
+        "model.encoder.layers.11.self_attention.o_proj": false,
+        "model.encoder.layers.11.self_attention.rotary_emb": false,
+        "model.encoder.layers.11.post_sa_norm": false,
+        "model.encoder.layers.11.mlp.wi_fused": false,
+        "model.encoder.layers.11.mlp.activation_fn_0": false,
+        "model.encoder.layers.11.mlp.activation_fn_1": false,
+        "model.encoder.layers.11.mlp.dropout": false,
+        "model.encoder.layers.11.mlp.wo": false,
+        "model.encoder.layers.11.dropout": false,
+        "model.encoder.norm": false,
+        "model.decoder.embeddings.0": false,
+        "model.decoder.embeddings.1": false,
+        "model.decoder.embeddings.2": false,
+        "model.decoder.embeddings.3": false,
+        "model.decoder.embeddings.4": false,
+        "model.decoder.embeddings.5": false,
+        "model.decoder.embeddings.6": false,
+        "model.decoder.embeddings.7": false,
+        "model.decoder.embeddings.8": false,
+        "model.decoder.dropout": false,
+        "model.decoder.layers.0.pre_sa_norm": false,
+        "model.decoder.layers.0.pre_ca_norm": false,
+        "model.decoder.layers.0.pre_mlp_norm": false,
+        "model.decoder.layers.0.self_attention.q_proj": false,
+        "model.decoder.layers.0.self_attention.k_proj": false,
+        "model.decoder.layers.0.self_attention.v_proj": false,
+        "model.decoder.layers.0.self_attention.o_proj": false,
+        "model.decoder.layers.0.self_attention.rotary_emb": false,
+        "model.decoder.layers.0.cross_attention.q_proj": false,
+        "model.decoder.layers.0.cross_attention.k_proj": false,
+        "model.decoder.layers.0.cross_attention.v_proj": false,
+        "model.decoder.layers.0.cross_attention.o_proj": false,
+        "model.decoder.layers.0.cross_attention.rotary_emb": false,
+        "model.decoder.layers.0.mlp.wi_fused": false,
+        "model.decoder.layers.0.mlp.activation_fn_0": false,
+        "model.decoder.layers.0.mlp.activation_fn_1": false,
+        "model.decoder.layers.0.mlp.dropout": false,
+        "model.decoder.layers.0.mlp.wo": false,
+        "model.decoder.layers.1.pre_sa_norm": false,
+        "model.decoder.layers.1.pre_ca_norm": false,
+        "model.decoder.layers.1.pre_mlp_norm": false,
+        "model.decoder.layers.1.self_attention.q_proj": false,
+        "model.decoder.layers.1.self_attention.k_proj": false,
+        "model.decoder.layers.1.self_attention.v_proj": false,
+        "model.decoder.layers.1.self_attention.o_proj": false,
+        "model.decoder.layers.1.self_attention.rotary_emb": false,
+        "model.decoder.layers.1.cross_attention.q_proj": false,
+        "model.decoder.layers.1.cross_attention.k_proj": false,
+        "model.decoder.layers.1.cross_attention.v_proj": false,
+        "model.decoder.layers.1.cross_attention.o_proj": false,
+        "model.decoder.layers.1.cross_attention.rotary_emb": false,
+        "model.decoder.layers.1.mlp.wi_fused": false,
+        "model.decoder.layers.1.mlp.activation_fn_0": false,
+        "model.decoder.layers.1.mlp.activation_fn_1": false,
+        "model.decoder.layers.1.mlp.dropout": false,
+        "model.decoder.layers.1.mlp.wo": false,
+        "model.decoder.layers.2.pre_sa_norm": false,
+        "model.decoder.layers.2.pre_ca_norm": false,
+        "model.decoder.layers.2.pre_mlp_norm": false,
+        "model.decoder.layers.2.self_attention.q_proj": false,
+        "model.decoder.layers.2.self_attention.k_proj": false,
+        "model.decoder.layers.2.self_attention.v_proj": false,
+        "model.decoder.layers.2.self_attention.o_proj": false,
+        "model.decoder.layers.2.self_attention.rotary_emb": false,
+        "model.decoder.layers.2.cross_attention.q_proj": false,
+        "model.decoder.layers.2.cross_attention.k_proj": false,
+        "model.decoder.layers.2.cross_attention.v_proj": false,
+        "model.decoder.layers.2.cross_attention.o_proj": false,
+        "model.decoder.layers.2.cross_attention.rotary_emb": false,
+        "model.decoder.layers.2.mlp.wi_fused": false,
+        "model.decoder.layers.2.mlp.activation_fn_0": false,
+        "model.decoder.layers.2.mlp.activation_fn_1": false,
+        "model.decoder.layers.2.mlp.dropout": false,
+        "model.decoder.layers.2.mlp.wo": false,
+        "model.decoder.layers.3.pre_sa_norm": false,
+        "model.decoder.layers.3.pre_ca_norm": false,
+        "model.decoder.layers.3.pre_mlp_norm": false,
+        "model.decoder.layers.3.self_attention.q_proj": false,
+        "model.decoder.layers.3.self_attention.k_proj": false,
+        "model.decoder.layers.3.self_attention.v_proj": false,
+        "model.decoder.layers.3.self_attention.o_proj": false,
+        "model.decoder.layers.3.self_attention.rotary_emb": false,
+        "model.decoder.layers.3.cross_attention.q_proj": false,
+        "model.decoder.layers.3.cross_attention.k_proj": false,
+        "model.decoder.layers.3.cross_attention.v_proj": false,
+        "model.decoder.layers.3.cross_attention.o_proj": false,
+        "model.decoder.layers.3.cross_attention.rotary_emb": false,
+        "model.decoder.layers.3.mlp.wi_fused": false,
+        "model.decoder.layers.3.mlp.activation_fn_0": false,
+        "model.decoder.layers.3.mlp.activation_fn_1": false,
+        "model.decoder.layers.3.mlp.dropout": false,
+        "model.decoder.layers.3.mlp.wo": false,
+        "model.decoder.layers.4.pre_sa_norm": false,
+        "model.decoder.layers.4.pre_ca_norm": false,
+        "model.decoder.layers.4.pre_mlp_norm": false,
+        "model.decoder.layers.4.self_attention.q_proj": false,
+        "model.decoder.layers.4.self_attention.k_proj": false,
+        "model.decoder.layers.4.self_attention.v_proj": false,
+        "model.decoder.layers.4.self_attention.o_proj": false,
+        "model.decoder.layers.4.self_attention.rotary_emb": false,
+        "model.decoder.layers.4.cross_attention.q_proj": false,
+        "model.decoder.layers.4.cross_attention.k_proj": false,
+        "model.decoder.layers.4.cross_attention.v_proj": false,
+        "model.decoder.layers.4.cross_attention.o_proj": false,
+        "model.decoder.layers.4.cross_attention.rotary_emb": false,
+        "model.decoder.layers.4.mlp.wi_fused": false,
+        "model.decoder.layers.4.mlp.activation_fn_0": false,
+        "model.decoder.layers.4.mlp.activation_fn_1": false,
+        "model.decoder.layers.4.mlp.dropout": false,
+        "model.decoder.layers.4.mlp.wo": false,
+        "model.decoder.layers.5.pre_sa_norm": false,
+        "model.decoder.layers.5.pre_ca_norm": false,
+        "model.decoder.layers.5.pre_mlp_norm": false,
+        "model.decoder.layers.5.self_attention.q_proj": false,
+        "model.decoder.layers.5.self_attention.k_proj": false,
+        "model.decoder.layers.5.self_attention.v_proj": false,
+        "model.decoder.layers.5.self_attention.o_proj": false,
+        "model.decoder.layers.5.self_attention.rotary_emb": false,
+        "model.decoder.layers.5.cross_attention.q_proj": false,
+        "model.decoder.layers.5.cross_attention.k_proj": false,
+        "model.decoder.layers.5.cross_attention.v_proj": false,
+        "model.decoder.layers.5.cross_attention.o_proj": false,
+        "model.decoder.layers.5.cross_attention.rotary_emb": false,
+        "model.decoder.layers.5.mlp.wi_fused": false,
+        "model.decoder.layers.5.mlp.activation_fn_0": false,
+        "model.decoder.layers.5.mlp.activation_fn_1": false,
+        "model.decoder.layers.5.mlp.dropout": false,
+        "model.decoder.layers.5.mlp.wo": false,
+        "model.decoder.layers.6.pre_sa_norm": false,
+        "model.decoder.layers.6.pre_ca_norm": false,
+        "model.decoder.layers.6.pre_mlp_norm": false,
+        "model.decoder.layers.6.self_attention.q_proj": false,
+        "model.decoder.layers.6.self_attention.k_proj": false,
+        "model.decoder.layers.6.self_attention.v_proj": false,
+        "model.decoder.layers.6.self_attention.o_proj": false,
+        "model.decoder.layers.6.self_attention.rotary_emb": false,
+        "model.decoder.layers.6.cross_attention.q_proj": false,
+        "model.decoder.layers.6.cross_attention.k_proj": false,
+        "model.decoder.layers.6.cross_attention.v_proj": false,
+        "model.decoder.layers.6.cross_attention.o_proj": false,
+        "model.decoder.layers.6.cross_attention.rotary_emb": false,
+        "model.decoder.layers.6.mlp.wi_fused": false,
+        "model.decoder.layers.6.mlp.activation_fn_0": false,
+        "model.decoder.layers.6.mlp.activation_fn_1": false,
+        "model.decoder.layers.6.mlp.dropout": false,
+        "model.decoder.layers.6.mlp.wo": false,
+        "model.decoder.layers.7.pre_sa_norm": false,
+        "model.decoder.layers.7.pre_ca_norm": false,
+        "model.decoder.layers.7.pre_mlp_norm": false,
+        "model.decoder.layers.7.self_attention.q_proj": false,
+        "model.decoder.layers.7.self_attention.k_proj": false,
+        "model.decoder.layers.7.self_attention.v_proj": false,
+        "model.decoder.layers.7.self_attention.o_proj": false,
+        "model.decoder.layers.7.self_attention.rotary_emb": false,
+        "model.decoder.layers.7.cross_attention.q_proj": false,
+        "model.decoder.layers.7.cross_attention.k_proj": false,
+        "model.decoder.layers.7.cross_attention.v_proj": false,
+        "model.decoder.layers.7.cross_attention.o_proj": false,
+        "model.decoder.layers.7.cross_attention.rotary_emb": false,
+        "model.decoder.layers.7.mlp.wi_fused": false,
+        "model.decoder.layers.7.mlp.activation_fn_0": false,
+        "model.decoder.layers.7.mlp.activation_fn_1": false,
+        "model.decoder.layers.7.mlp.dropout": false,
+        "model.decoder.layers.7.mlp.wo": false,
+        "model.decoder.layers.8.pre_sa_norm": false,
+        "model.decoder.layers.8.pre_ca_norm": false,
+        "model.decoder.layers.8.pre_mlp_norm": false,
+        "model.decoder.layers.8.self_attention.q_proj": false,
+        "model.decoder.layers.8.self_attention.k_proj": false,
+        "model.decoder.layers.8.self_attention.v_proj": false,
+        "model.decoder.layers.8.self_attention.o_proj": false,
+        "model.decoder.layers.8.self_attention.rotary_emb": false,
+        "model.decoder.layers.8.cross_attention.q_proj": false,
+        "model.decoder.layers.8.cross_attention.k_proj": false,
+        "model.decoder.layers.8.cross_attention.v_proj": false,
+        "model.decoder.layers.8.cross_attention.o_proj": false,
+        "model.decoder.layers.8.cross_attention.rotary_emb": false,
+        "model.decoder.layers.8.mlp.wi_fused": false,
+        "model.decoder.layers.8.mlp.activation_fn_0": false,
+        "model.decoder.layers.8.mlp.activation_fn_1": false,
+        "model.decoder.layers.8.mlp.dropout": false,
+        "model.decoder.layers.8.mlp.wo": false,
+        "model.decoder.layers.9.pre_sa_norm": false,
+        "model.decoder.layers.9.pre_ca_norm": false,
+        "model.decoder.layers.9.pre_mlp_norm": false,
+        "model.decoder.layers.9.self_attention.q_proj": false,
+        "model.decoder.layers.9.self_attention.k_proj": false,
+        "model.decoder.layers.9.self_attention.v_proj": false,
+        "model.decoder.layers.9.self_attention.o_proj": false,
+        "model.decoder.layers.9.self_attention.rotary_emb": false,
+        "model.decoder.layers.9.cross_attention.q_proj": false,
+        "model.decoder.layers.9.cross_attention.k_proj": false,
+        "model.decoder.layers.9.cross_attention.v_proj": false,
+        "model.decoder.layers.9.cross_attention.o_proj": false,
+        "model.decoder.layers.9.cross_attention.rotary_emb": false,
+        "model.decoder.layers.9.mlp.wi_fused": false,
+        "model.decoder.layers.9.mlp.activation_fn_0": false,
+        "model.decoder.layers.9.mlp.activation_fn_1": false,
+        "model.decoder.layers.9.mlp.dropout": false,
+        "model.decoder.layers.9.mlp.wo": false,
+        "model.decoder.layers.10.pre_sa_norm": false,
+        "model.decoder.layers.10.pre_ca_norm": false,
+        "model.decoder.layers.10.pre_mlp_norm": false,
+        "model.decoder.layers.10.self_attention.q_proj": false,
+        "model.decoder.layers.10.self_attention.k_proj": false,
+        "model.decoder.layers.10.self_attention.v_proj": false,
+        "model.decoder.layers.10.self_attention.o_proj": false,
+        "model.decoder.layers.10.self_attention.rotary_emb": false,
+        "model.decoder.layers.10.cross_attention.q_proj": false,
+        "model.decoder.layers.10.cross_attention.k_proj": false,
+        "model.decoder.layers.10.cross_attention.v_proj": false,
+        "model.decoder.layers.10.cross_attention.o_proj": false,
+        "model.decoder.layers.10.cross_attention.rotary_emb": false,
+        "model.decoder.layers.10.mlp.wi_fused": false,
+        "model.decoder.layers.10.mlp.activation_fn_0": false,
+        "model.decoder.layers.10.mlp.activation_fn_1": false,
+        "model.decoder.layers.10.mlp.dropout": false,
+        "model.decoder.layers.10.mlp.wo": false,
+        "model.decoder.layers.11.pre_sa_norm": false,
+        "model.decoder.layers.11.pre_ca_norm": false,
+        "model.decoder.layers.11.pre_mlp_norm": false,
+        "model.decoder.layers.11.self_attention.q_proj": false,
+        "model.decoder.layers.11.self_attention.k_proj": false,
+        "model.decoder.layers.11.self_attention.v_proj": false,
+        "model.decoder.layers.11.self_attention.o_proj": false,
+        "model.decoder.layers.11.self_attention.rotary_emb": false,
+        "model.decoder.layers.11.cross_attention.q_proj": false,
+        "model.decoder.layers.11.cross_attention.k_proj": false,
+        "model.decoder.layers.11.cross_attention.v_proj": false,
+        "model.decoder.layers.11.cross_attention.o_proj": false,
+        "model.decoder.layers.11.cross_attention.rotary_emb": false,
+        "model.decoder.layers.11.mlp.wi_fused": false,
+        "model.decoder.layers.11.mlp.activation_fn_0": false,
+        "model.decoder.layers.11.mlp.activation_fn_1": false,
+        "model.decoder.layers.11.mlp.dropout": false,
+        "model.decoder.layers.11.mlp.wo": false,
+        "model.decoder.layers.12.pre_sa_norm": false,
+        "model.decoder.layers.12.pre_ca_norm": false,
+        "model.decoder.layers.12.pre_mlp_norm": false,
+        "model.decoder.layers.12.self_attention.q_proj": false,
+        "model.decoder.layers.12.self_attention.k_proj": false,
+        "model.decoder.layers.12.self_attention.v_proj": false,
+        "model.decoder.layers.12.self_attention.o_proj": false,
+        "model.decoder.layers.12.self_attention.rotary_emb": false,
+        "model.decoder.layers.12.cross_attention.q_proj": false,
+        "model.decoder.layers.12.cross_attention.k_proj": false,
+        "model.decoder.layers.12.cross_attention.v_proj": false,
+        "model.decoder.layers.12.cross_attention.o_proj": false,
+        "model.decoder.layers.12.cross_attention.rotary_emb": false,
+        "model.decoder.layers.12.mlp.wi_fused": false,
+        "model.decoder.layers.12.mlp.activation_fn_0": false,
+        "model.decoder.layers.12.mlp.activation_fn_1": false,
+        "model.decoder.layers.12.mlp.dropout": false,
+        "model.decoder.layers.12.mlp.wo": false,
+        "model.decoder.layers.13.pre_sa_norm": false,
+        "model.decoder.layers.13.pre_ca_norm": false,
+        "model.decoder.layers.13.pre_mlp_norm": false,
+        "model.decoder.layers.13.self_attention.q_proj": false,
+        "model.decoder.layers.13.self_attention.k_proj": false,
+        "model.decoder.layers.13.self_attention.v_proj": false,
+        "model.decoder.layers.13.self_attention.o_proj": false,
+        "model.decoder.layers.13.self_attention.rotary_emb": false,
+        "model.decoder.layers.13.cross_attention.q_proj": false,
+        "model.decoder.layers.13.cross_attention.k_proj": false,
+        "model.decoder.layers.13.cross_attention.v_proj": false,
+        "model.decoder.layers.13.cross_attention.o_proj": false,
+        "model.decoder.layers.13.cross_attention.rotary_emb": false,
+        "model.decoder.layers.13.mlp.wi_fused": false,
+        "model.decoder.layers.13.mlp.activation_fn_0": false,
+        "model.decoder.layers.13.mlp.activation_fn_1": false,
+        "model.decoder.layers.13.mlp.dropout": false,
+        "model.decoder.layers.13.mlp.wo": false,
+        "model.decoder.layers.14.pre_sa_norm": false,
+        "model.decoder.layers.14.pre_ca_norm": false,
+        "model.decoder.layers.14.pre_mlp_norm": false,
+        "model.decoder.layers.14.self_attention.q_proj": false,
+        "model.decoder.layers.14.self_attention.k_proj": false,
+        "model.decoder.layers.14.self_attention.v_proj": false,
+        "model.decoder.layers.14.self_attention.o_proj": false,
+        "model.decoder.layers.14.self_attention.rotary_emb": false,
+        "model.decoder.layers.14.cross_attention.q_proj": false,
+        "model.decoder.layers.14.cross_attention.k_proj": false,
+        "model.decoder.layers.14.cross_attention.v_proj": false,
+        "model.decoder.layers.14.cross_attention.o_proj": false,
+        "model.decoder.layers.14.cross_attention.rotary_emb": false,
+        "model.decoder.layers.14.mlp.wi_fused": false,
+        "model.decoder.layers.14.mlp.activation_fn_0": false,
+        "model.decoder.layers.14.mlp.activation_fn_1": false,
+        "model.decoder.layers.14.mlp.dropout": false,
+        "model.decoder.layers.14.mlp.wo": false,
+        "model.decoder.layers.15.pre_sa_norm": false,
+        "model.decoder.layers.15.pre_ca_norm": false,
+        "model.decoder.layers.15.pre_mlp_norm": false,
+        "model.decoder.layers.15.self_attention.q_proj": false,
+        "model.decoder.layers.15.self_attention.k_proj": false,
+        "model.decoder.layers.15.self_attention.v_proj": false,
+        "model.decoder.layers.15.self_attention.o_proj": false,
+        "model.decoder.layers.15.self_attention.rotary_emb": false,
+        "model.decoder.layers.15.cross_attention.q_proj": false,
+        "model.decoder.layers.15.cross_attention.k_proj": false,
+        "model.decoder.layers.15.cross_attention.v_proj": false,
+        "model.decoder.layers.15.cross_attention.o_proj": false,
+        "model.decoder.layers.15.cross_attention.rotary_emb": false,
+        "model.decoder.layers.15.mlp.wi_fused": false,
+        "model.decoder.layers.15.mlp.activation_fn_0": false,
+        "model.decoder.layers.15.mlp.activation_fn_1": false,
+        "model.decoder.layers.15.mlp.dropout": false,
+        "model.decoder.layers.15.mlp.wo": false,
+        "model.decoder.layers.16.pre_sa_norm": false,
+        "model.decoder.layers.16.pre_ca_norm": false,
+        "model.decoder.layers.16.pre_mlp_norm": false,
+        "model.decoder.layers.16.self_attention.q_proj": false,
+        "model.decoder.layers.16.self_attention.k_proj": false,
+        "model.decoder.layers.16.self_attention.v_proj": false,
+        "model.decoder.layers.16.self_attention.o_proj": false,
+        "model.decoder.layers.16.self_attention.rotary_emb": false,
+        "model.decoder.layers.16.cross_attention.q_proj": false,
+        "model.decoder.layers.16.cross_attention.k_proj": false,
+        "model.decoder.layers.16.cross_attention.v_proj": false,
+        "model.decoder.layers.16.cross_attention.o_proj": false,
+        "model.decoder.layers.16.cross_attention.rotary_emb": false,
+        "model.decoder.layers.16.mlp.wi_fused": false,
+        "model.decoder.layers.16.mlp.activation_fn_0": false,
+        "model.decoder.layers.16.mlp.activation_fn_1": false,
+        "model.decoder.layers.16.mlp.dropout": false,
+        "model.decoder.layers.16.mlp.wo": false,
+        "model.decoder.layers.17.pre_sa_norm": false,
+        "model.decoder.layers.17.pre_ca_norm": false,
+        "model.decoder.layers.17.pre_mlp_norm": false,
+        "model.decoder.layers.17.self_attention.q_proj": false,
+        "model.decoder.layers.17.self_attention.k_proj": false,
+        "model.decoder.layers.17.self_attention.v_proj": false,
+        "model.decoder.layers.17.self_attention.o_proj": false,
+        "model.decoder.layers.17.self_attention.rotary_emb": false,
+        "model.decoder.layers.17.cross_attention.q_proj": false,
+        "model.decoder.layers.17.cross_attention.k_proj": false,
+        "model.decoder.layers.17.cross_attention.v_proj": false,
+        "model.decoder.layers.17.cross_attention.o_proj": false,
+        "model.decoder.layers.17.cross_attention.rotary_emb": false,
+        "model.decoder.layers.17.mlp.wi_fused": false,
+        "model.decoder.layers.17.mlp.activation_fn_0": false,
+        "model.decoder.layers.17.mlp.activation_fn_1": false,
+        "model.decoder.layers.17.mlp.dropout": false,
+        "model.decoder.layers.17.mlp.wo": false,
+        "model.decoder.norm": false,
+        "model.decoder.logits_dense": false,
+        "dac_model.encoder.block.layers.0": false,
+        "dac_model.encoder.block.layers.1.block.layers.0.block.layers.0": false,
+        "dac_model.encoder.block.layers.1.block.layers.0.block.layers.1": false,
+        "dac_model.encoder.block.layers.1.block.layers.0.block.layers.2": false,
+        "dac_model.encoder.block.layers.1.block.layers.0.block.layers.3": false,
+        "dac_model.encoder.block.layers.1.block.layers.1.block.layers.0": false,
+        "dac_model.encoder.block.layers.1.block.layers.1.block.layers.1": false,
+        "dac_model.encoder.block.layers.1.block.layers.1.block.layers.2": false,
+        "dac_model.encoder.block.layers.1.block.layers.1.block.layers.3": false,
+        "dac_model.encoder.block.layers.1.block.layers.2.block.layers.0": false,
+        "dac_model.encoder.block.layers.1.block.layers.2.block.layers.1": false,
+        "dac_model.encoder.block.layers.1.block.layers.2.block.layers.2": false,
+        "dac_model.encoder.block.layers.1.block.layers.2.block.layers.3": false,
+        "dac_model.encoder.block.layers.1.block.layers.3": false,
+        "dac_model.encoder.block.layers.1.block.layers.4": false,
+        "dac_model.encoder.block.layers.2.block.layers.0.block.layers.0": false,
+        "dac_model.encoder.block.layers.2.block.layers.0.block.layers.1": false,
+        "dac_model.encoder.block.layers.2.block.layers.0.block.layers.2": false,
+        "dac_model.encoder.block.layers.2.block.layers.0.block.layers.3": false,
+        "dac_model.encoder.block.layers.2.block.layers.1.block.layers.0": false,
+        "dac_model.encoder.block.layers.2.block.layers.1.block.layers.1": false,
+        "dac_model.encoder.block.layers.2.block.layers.1.block.layers.2": false,
+        "dac_model.encoder.block.layers.2.block.layers.1.block.layers.3": false,
+        "dac_model.encoder.block.layers.2.block.layers.2.block.layers.0": false,
+        "dac_model.encoder.block.layers.2.block.layers.2.block.layers.1": false,
+        "dac_model.encoder.block.layers.2.block.layers.2.block.layers.2": false,
+        "dac_model.encoder.block.layers.2.block.layers.2.block.layers.3": false,
+        "dac_model.encoder.block.layers.2.block.layers.3": false,
+        "dac_model.encoder.block.layers.2.block.layers.4": false,
+        "dac_model.encoder.block.layers.3.block.layers.0.block.layers.0": false,
+        "dac_model.encoder.block.layers.3.block.layers.0.block.layers.1": false,
+        "dac_model.encoder.block.layers.3.block.layers.0.block.layers.2": false,
+        "dac_model.encoder.block.layers.3.block.layers.0.block.layers.3": false,
+        "dac_model.encoder.block.layers.3.block.layers.1.block.layers.0": false,
+        "dac_model.encoder.block.layers.3.block.layers.1.block.layers.1": false,
+        "dac_model.encoder.block.layers.3.block.layers.1.block.layers.2": false,
+        "dac_model.encoder.block.layers.3.block.layers.1.block.layers.3": false,
+        "dac_model.encoder.block.layers.3.block.layers.2.block.layers.0": false,
+        "dac_model.encoder.block.layers.3.block.layers.2.block.layers.1": false,
+        "dac_model.encoder.block.layers.3.block.layers.2.block.layers.2": false,
+        "dac_model.encoder.block.layers.3.block.layers.2.block.layers.3": false,
+        "dac_model.encoder.block.layers.3.block.layers.3": false,
+        "dac_model.encoder.block.layers.3.block.layers.4": false,
+        "dac_model.encoder.block.layers.4.block.layers.0.block.layers.0": false,
+        "dac_model.encoder.block.layers.4.block.layers.0.block.layers.1": false,
+        "dac_model.encoder.block.layers.4.block.layers.0.block.layers.2": false,
+        "dac_model.encoder.block.layers.4.block.layers.0.block.layers.3": false,
+        "dac_model.encoder.block.layers.4.block.layers.1.block.layers.0": false,
+        "dac_model.encoder.block.layers.4.block.layers.1.block.layers.1": false,
+        "dac_model.encoder.block.layers.4.block.layers.1.block.layers.2": false,
+        "dac_model.encoder.block.layers.4.block.layers.1.block.layers.3": false,
+        "dac_model.encoder.block.layers.4.block.layers.2.block.layers.0": false,
+        "dac_model.encoder.block.layers.4.block.layers.2.block.layers.1": false,
+        "dac_model.encoder.block.layers.4.block.layers.2.block.layers.2": false,
+        "dac_model.encoder.block.layers.4.block.layers.2.block.layers.3": false,
+        "dac_model.encoder.block.layers.4.block.layers.3": false,
+        "dac_model.encoder.block.layers.4.block.layers.4": false,
+        "dac_model.encoder.block.layers.5": false,
+        "dac_model.encoder.block.layers.6": false,
+        "dac_model.quantizer.quantizers.0.in_proj": false,
+        "dac_model.quantizer.quantizers.0.out_proj": false,
+        "dac_model.quantizer.quantizers.0.codebook": false,
+        "dac_model.quantizer.quantizers.1.in_proj": false,
+        "dac_model.quantizer.quantizers.1.out_proj": false,
+        "dac_model.quantizer.quantizers.1.codebook": false,
+        "dac_model.quantizer.quantizers.2.in_proj": false,
+        "dac_model.quantizer.quantizers.2.out_proj": false,
+        "dac_model.quantizer.quantizers.2.codebook": false,
+        "dac_model.quantizer.quantizers.3.in_proj": false,
+        "dac_model.quantizer.quantizers.3.out_proj": false,
+        "dac_model.quantizer.quantizers.3.codebook": false,
+        "dac_model.quantizer.quantizers.4.in_proj": false,
+        "dac_model.quantizer.quantizers.4.out_proj": false,
+        "dac_model.quantizer.quantizers.4.codebook": false,
+        "dac_model.quantizer.quantizers.5.in_proj": false,
+        "dac_model.quantizer.quantizers.5.out_proj": false,
+        "dac_model.quantizer.quantizers.5.codebook": false,
+        "dac_model.quantizer.quantizers.6.in_proj": false,
+        "dac_model.quantizer.quantizers.6.out_proj": false,
+        "dac_model.quantizer.quantizers.6.codebook": false,
+        "dac_model.quantizer.quantizers.7.in_proj": false,
+        "dac_model.quantizer.quantizers.7.out_proj": false,
+        "dac_model.quantizer.quantizers.7.codebook": false,
+        "dac_model.quantizer.quantizers.8.in_proj": false,
+        "dac_model.quantizer.quantizers.8.out_proj": false,
+        "dac_model.quantizer.quantizers.8.codebook": false,
+        "dac_model.decoder.model.layers.0": false,
+        "dac_model.decoder.model.layers.1.block.layers.0": false,
+        "dac_model.decoder.model.layers.1.block.layers.1": false,
+        "dac_model.decoder.model.layers.1.block.layers.2.block.layers.0": false,
+        "dac_model.decoder.model.layers.1.block.layers.2.block.layers.1": false,
+        "dac_model.decoder.model.layers.1.block.layers.2.block.layers.2": false,
+        "dac_model.decoder.model.layers.1.block.layers.2.block.layers.3": false,
+        "dac_model.decoder.model.layers.1.block.layers.3.block.layers.0": false,
+        "dac_model.decoder.model.layers.1.block.layers.3.block.layers.1": false,
+        "dac_model.decoder.model.layers.1.block.layers.3.block.layers.2": false,
+        "dac_model.decoder.model.layers.1.block.layers.3.block.layers.3": false,
+        "dac_model.decoder.model.layers.1.block.layers.4.block.layers.0": false,
+        "dac_model.decoder.model.layers.1.block.layers.4.block.layers.1": false,
+        "dac_model.decoder.model.layers.1.block.layers.4.block.layers.2": false,
+        "dac_model.decoder.model.layers.1.block.layers.4.block.layers.3": false,
+        "dac_model.decoder.model.layers.2.block.layers.0": false,
+        "dac_model.decoder.model.layers.2.block.layers.1": false,
+        "dac_model.decoder.model.layers.2.block.layers.2.block.layers.0": false,
+        "dac_model.decoder.model.layers.2.block.layers.2.block.layers.1": false,
+        "dac_model.decoder.model.layers.2.block.layers.2.block.layers.2": false,
+        "dac_model.decoder.model.layers.2.block.layers.2.block.layers.3": false,
+        "dac_model.decoder.model.layers.2.block.layers.3.block.layers.0": false,
+        "dac_model.decoder.model.layers.2.block.layers.3.block.layers.1": false,
+        "dac_model.decoder.model.layers.2.block.layers.3.block.layers.2": false,
+        "dac_model.decoder.model.layers.2.block.layers.3.block.layers.3": false,
+        "dac_model.decoder.model.layers.2.block.layers.4.block.layers.0": false,
+        "dac_model.decoder.model.layers.2.block.layers.4.block.layers.1": false,
+        "dac_model.decoder.model.layers.2.block.layers.4.block.layers.2": false,
+        "dac_model.decoder.model.layers.2.block.layers.4.block.layers.3": false,
+        "dac_model.decoder.model.layers.3.block.layers.0": false,
+        "dac_model.decoder.model.layers.3.block.layers.1": false,
+        "dac_model.decoder.model.layers.3.block.layers.2.block.layers.0": false,
+        "dac_model.decoder.model.layers.3.block.layers.2.block.layers.1": false,
+        "dac_model.decoder.model.layers.3.block.layers.2.block.layers.2": false,
+        "dac_model.decoder.model.layers.3.block.layers.2.block.layers.3": false,
+        "dac_model.decoder.model.layers.3.block.layers.3.block.layers.0": false,
+        "dac_model.decoder.model.layers.3.block.layers.3.block.layers.1": false,
+        "dac_model.decoder.model.layers.3.block.layers.3.block.layers.2": false,
+        "dac_model.decoder.model.layers.3.block.layers.3.block.layers.3": false,
+        "dac_model.decoder.model.layers.3.block.layers.4.block.layers.0": false,
+        "dac_model.decoder.model.layers.3.block.layers.4.block.layers.1": false,
+        "dac_model.decoder.model.layers.3.block.layers.4.block.layers.2": false,
+        "dac_model.decoder.model.layers.3.block.layers.4.block.layers.3": false,
+        "dac_model.decoder.model.layers.4.block.layers.0": false,
+        "dac_model.decoder.model.layers.4.block.layers.1": false,
+        "dac_model.decoder.model.layers.4.block.layers.2.block.layers.0": false,
+        "dac_model.decoder.model.layers.4.block.layers.2.block.layers.1": false,
+        "dac_model.decoder.model.layers.4.block.layers.2.block.layers.2": false,
+        "dac_model.decoder.model.layers.4.block.layers.2.block.layers.3": false,
+        "dac_model.decoder.model.layers.4.block.layers.3.block.layers.0": false,
+        "dac_model.decoder.model.layers.4.block.layers.3.block.layers.1": false,
+        "dac_model.decoder.model.layers.4.block.layers.3.block.layers.2": false,
+        "dac_model.decoder.model.layers.4.block.layers.3.block.layers.3": false,
+        "dac_model.decoder.model.layers.4.block.layers.4.block.layers.0": false,
+        "dac_model.decoder.model.layers.4.block.layers.4.block.layers.1": false,
+        "dac_model.decoder.model.layers.4.block.layers.4.block.layers.2": false,
+        "dac_model.decoder.model.layers.4.block.layers.4.block.layers.3": false,
+        "dac_model.decoder.model.layers.5": false,
+        "dac_model.decoder.model.layers.6": false,
+        "dac_model.decoder.model.layers.7": false
+    },
+    "training": {},
+    "version": "0.1"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0a027738bc5a2361f2134f3bf372e4a5923133b13a31c326425c715a32127a6
+size 3222361673

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,350 @@

+{
+    "metadata": {
+        "total_size": 3222321152
+    },
+    "weight_map": {
+        "decoder.embeddings.0.weight": "model.safetensors",
+        "decoder.embeddings.1.weight": "model.safetensors",
+        "decoder.embeddings.2.weight": "model.safetensors",
+        "decoder.embeddings.3.weight": "model.safetensors",
+        "decoder.embeddings.4.weight": "model.safetensors",
+        "decoder.embeddings.5.weight": "model.safetensors",
+        "decoder.embeddings.6.weight": "model.safetensors",
+        "decoder.embeddings.7.weight": "model.safetensors",
+        "decoder.embeddings.8.weight": "model.safetensors",
+        "decoder.layers.0.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.0.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.0.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.0.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.0.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.0.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.0.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.0.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.0.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.0.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.0.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.0.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.0.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.1.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.1.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.1.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.1.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.1.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.1.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.1.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.1.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.1.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.1.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.1.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.1.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.1.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.10.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.10.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.10.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.10.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.10.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.10.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.10.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.10.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.10.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.10.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.10.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.10.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.10.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.11.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.11.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.11.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.11.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.11.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.11.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.11.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.11.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.11.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.11.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.11.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.11.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.11.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.12.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.12.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.12.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.12.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.12.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.12.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.12.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.12.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.12.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.12.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.12.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.12.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.12.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.13.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.13.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.13.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.13.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.13.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.13.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.13.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.13.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.13.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.13.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.13.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.13.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.13.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.14.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.14.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.14.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.14.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.14.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.14.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.14.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.14.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.14.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.14.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.14.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.14.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.14.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.15.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.15.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.15.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.15.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.15.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.15.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.15.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.15.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.15.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.15.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.15.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.15.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.15.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.16.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.16.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.16.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.16.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.16.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.16.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.16.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.16.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.16.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.16.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.16.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.16.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.16.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.17.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.17.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.17.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.17.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.17.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.17.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.17.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.17.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.17.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.17.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.17.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.17.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.17.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.2.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.2.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.2.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.2.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.2.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.2.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.2.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.2.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.2.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.2.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.2.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.2.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.2.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.3.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.3.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.3.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.3.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.3.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.3.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.3.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.3.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.3.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.3.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.3.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.3.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.3.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.4.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.4.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.4.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.4.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.4.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.4.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.4.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.4.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.4.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.4.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.4.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.4.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.4.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.5.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.5.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.5.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.5.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.5.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.5.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.5.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.5.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.5.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.5.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.5.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.5.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.5.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.6.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.6.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.6.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.6.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.6.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.6.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.6.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.6.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.6.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.6.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.6.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.6.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.6.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.7.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.7.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.7.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.7.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.7.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.7.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.7.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.7.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.7.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.7.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.7.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.7.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.7.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.8.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.8.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.8.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.8.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.8.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.8.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.8.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.8.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.8.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.8.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.8.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.8.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.8.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.9.cross_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.9.cross_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.9.cross_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.9.cross_attention.v_proj.weight": "model.safetensors",
+        "decoder.layers.9.mlp.wi_fused.weight": "model.safetensors",
+        "decoder.layers.9.mlp.wo.weight": "model.safetensors",
+        "decoder.layers.9.pre_ca_norm.weight": "model.safetensors",
+        "decoder.layers.9.pre_mlp_norm.weight": "model.safetensors",
+        "decoder.layers.9.pre_sa_norm.weight": "model.safetensors",
+        "decoder.layers.9.self_attention.k_proj.weight": "model.safetensors",
+        "decoder.layers.9.self_attention.o_proj.weight": "model.safetensors",
+        "decoder.layers.9.self_attention.q_proj.weight": "model.safetensors",
+        "decoder.layers.9.self_attention.v_proj.weight": "model.safetensors",
+        "decoder.logits_dense.weight": "model.safetensors",
+        "decoder.norm.weight": "model.safetensors",
+        "encoder.embedding.weight": "model.safetensors",
+        "encoder.layers.0.mlp.wi_fused.weight": "model.safetensors",
+        "encoder.layers.0.mlp.wo.weight": "model.safetensors",
+        "encoder.layers.0.post_sa_norm.weight": "model.safetensors",
+        "encoder.layers.0.pre_sa_norm.weight": "model.safetensors",
+        "encoder.layers.0.self_attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.0.self_attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.0.self_attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.0.self_attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.1.mlp.wi_fused.weight": "model.safetensors",
+        "encoder.layers.1.mlp.wo.weight": "model.safetensors",
+        "encoder.layers.1.post_sa_norm.weight": "model.safetensors",
+        "encoder.layers.1.pre_sa_norm.weight": "model.safetensors",
+        "encoder.layers.1.self_attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.1.self_attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.1.self_attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.1.self_attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.10.mlp.wi_fused.weight": "model.safetensors",
+        "encoder.layers.10.mlp.wo.weight": "model.safetensors",
+        "encoder.layers.10.post_sa_norm.weight": "model.safetensors",
+        "encoder.layers.10.pre_sa_norm.weight": "model.safetensors",
+        "encoder.layers.10.self_attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.10.self_attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.10.self_attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.10.self_attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.11.mlp.wi_fused.weight": "model.safetensors",
+        "encoder.layers.11.mlp.wo.weight": "model.safetensors",
+        "encoder.layers.11.post_sa_norm.weight": "model.safetensors",
+        "encoder.layers.11.pre_sa_norm.weight": "model.safetensors",
+        "encoder.layers.11.self_attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.11.self_attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.11.self_attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.11.self_attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.2.mlp.wi_fused.weight": "model.safetensors",
+        "encoder.layers.2.mlp.wo.weight": "model.safetensors",
+        "encoder.layers.2.post_sa_norm.weight": "model.safetensors",
+        "encoder.layers.2.pre_sa_norm.weight": "model.safetensors",
+        "encoder.layers.2.self_attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.2.self_attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.2.self_attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.2.self_attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.3.mlp.wi_fused.weight": "model.safetensors",
+        "encoder.layers.3.mlp.wo.weight": "model.safetensors",
+        "encoder.layers.3.post_sa_norm.weight": "model.safetensors",
+        "encoder.layers.3.pre_sa_norm.weight": "model.safetensors",
+        "encoder.layers.3.self_attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.3.self_attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.3.self_attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.3.self_attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.4.mlp.wi_fused.weight": "model.safetensors",
+        "encoder.layers.4.mlp.wo.weight": "model.safetensors",
+        "encoder.layers.4.post_sa_norm.weight": "model.safetensors",
+        "encoder.layers.4.pre_sa_norm.weight": "model.safetensors",
+        "encoder.layers.4.self_attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.4.self_attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.4.self_attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.4.self_attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.5.mlp.wi_fused.weight": "model.safetensors",
+        "encoder.layers.5.mlp.wo.weight": "model.safetensors",
+        "encoder.layers.5.post_sa_norm.weight": "model.safetensors",
+        "encoder.layers.5.pre_sa_norm.weight": "model.safetensors",
+        "encoder.layers.5.self_attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.5.self_attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.5.self_attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.5.self_attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.6.mlp.wi_fused.weight": "model.safetensors",
+        "encoder.layers.6.mlp.wo.weight": "model.safetensors",
+        "encoder.layers.6.post_sa_norm.weight": "model.safetensors",
+        "encoder.layers.6.pre_sa_norm.weight": "model.safetensors",
+        "encoder.layers.6.self_attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.6.self_attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.6.self_attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.6.self_attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.7.mlp.wi_fused.weight": "model.safetensors",
+        "encoder.layers.7.mlp.wo.weight": "model.safetensors",
+        "encoder.layers.7.post_sa_norm.weight": "model.safetensors",
+        "encoder.layers.7.pre_sa_norm.weight": "model.safetensors",
+        "encoder.layers.7.self_attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.7.self_attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.7.self_attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.7.self_attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.8.mlp.wi_fused.weight": "model.safetensors",
+        "encoder.layers.8.mlp.wo.weight": "model.safetensors",
+        "encoder.layers.8.post_sa_norm.weight": "model.safetensors",
+        "encoder.layers.8.pre_sa_norm.weight": "model.safetensors",
+        "encoder.layers.8.self_attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.8.self_attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.8.self_attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.8.self_attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.9.mlp.wi_fused.weight": "model.safetensors",
+        "encoder.layers.9.mlp.wo.weight": "model.safetensors",
+        "encoder.layers.9.post_sa_norm.weight": "model.safetensors",
+        "encoder.layers.9.pre_sa_norm.weight": "model.safetensors",
+        "encoder.layers.9.self_attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.9.self_attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.9.self_attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.9.self_attention.v_proj.weight": "model.safetensors",
+        "encoder.norm.weight": "model.safetensors"
+    }
+}