diff --git a/README.md b/README.md
new file mode 100644
index 0000000000000000000000000000000000000000..bc5f30d6632ac0efdc7be2e9095e9e9579af2e33
--- /dev/null
+++ b/README.md
@@ -0,0 +1,199 @@
+---
+library_name: transformers
+tags: []
+---
+
+# Model Card for Model ID
+
+<!-- Provide a quick summary of what the model is/does. -->
+
+
+
+## Model Details
+
+### Model Description
+
+<!-- Provide a longer summary of what this model is. -->
+
+This is the model card of a 🤗 transformers model that has been pushed on the Hub. This model card has been automatically generated.
+
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+
+### Model Sources [optional]
+
+<!-- Provide the basic links for the model. -->
+
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+
+## Uses
+
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+
+### Direct Use
+
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+
+[More Information Needed]
+
+### Downstream Use [optional]
+
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+
+[More Information Needed]
+
+### Out-of-Scope Use
+
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+
+[More Information Needed]
+
+## Bias, Risks, and Limitations
+
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+
+[More Information Needed]
+
+### Recommendations
+
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+
+## How to Get Started with the Model
+
+Use the code below to get started with the model.
+
+[More Information Needed]
+
+## Training Details
+
+### Training Data
+
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+
+[More Information Needed]
+
+### Training Procedure
+
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+
+#### Preprocessing [optional]
+
+[More Information Needed]
+
+
+#### Training Hyperparameters
+
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+
+#### Speeds, Sizes, Times [optional]
+
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+
+[More Information Needed]
+
+## Evaluation
+
+<!-- This section describes the evaluation protocols and provides the results. -->
+
+### Testing Data, Factors & Metrics
+
+#### Testing Data
+
+<!-- This should link to a Dataset Card if possible. -->
+
+[More Information Needed]
+
+#### Factors
+
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+
+[More Information Needed]
+
+#### Metrics
+
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+
+[More Information Needed]
+
+### Results
+
+[More Information Needed]
+
+#### Summary
+
+
+
+## Model Examination [optional]
+
+<!-- Relevant interpretability work for the model goes here -->
+
+[More Information Needed]
+
+## Environmental Impact
+
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+
+## Technical Specifications [optional]
+
+### Model Architecture and Objective
+
+[More Information Needed]
+
+### Compute Infrastructure
+
+[More Information Needed]
+
+#### Hardware
+
+[More Information Needed]
+
+#### Software
+
+[More Information Needed]
+
+## Citation [optional]
+
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+
+**BibTeX:**
+
+[More Information Needed]
+
+**APA:**
+
+[More Information Needed]
+
+## Glossary [optional]
+
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+
+[More Information Needed]
+
+## More Information [optional]
+
+[More Information Needed]
+
+## Model Card Authors [optional]
+
+[More Information Needed]
+
+## Model Card Contact
+
+[More Information Needed]
\ No newline at end of file
diff --git a/config.json b/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..e9d83e31e531b45180aa4e91e25904a2d2bf4998
--- /dev/null
+++ b/config.json
@@ -0,0 +1,80 @@
+{
+  "architectures": [
+    "GptOssForCausalLM"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "eos_token_id": 200002,
+  "experts_per_token": 4,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2880,
+  "initial_context_length": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 2880,
+  "layer_types": [
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 131072,
+  "model_type": "gpt_oss",
+  "num_attention_heads": 64,
+  "num_experts_per_tok": 4,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "num_local_experts": 128,
+  "output_router_logits": false,
+  "pad_token_id": 199999,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "beta_fast": 32.0,
+    "beta_slow": 1.0,
+    "factor": 32.0,
+    "original_max_position_embeddings": 4096,
+    "rope_type": "yarn",
+    "truncate": false
+  },
+  "rope_theta": 150000,
+  "router_aux_loss_coef": 0.9,
+  "sliding_window": 128,
+  "swiglu_limit": 7.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.4",
+  "use_cache": false,
+  "vocab_size": 201088
+}
diff --git a/generation_config.json b/generation_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..8a4e0a9189e635c3e9649fdfc83d8b808bb21dd9
--- /dev/null
+++ b/generation_config.json
@@ -0,0 +1,10 @@
+{
+  "bos_token_id": 199998,
+  "do_sample": true,
+  "eos_token_id": [
+    200002,
+    199999
+  ],
+  "pad_token_id": 199999,
+  "transformers_version": "4.55.4"
+}
diff --git a/model-00001-of-00074.safetensors b/model-00001-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5a27117d53a87bd51b890d8718f1912df46dc1e9
--- /dev/null
+++ b/model-00001-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5a58d9516012a9475ad2f1e2b20b2cca1e708d8aae30c53751284ae1fa1bc0b8
+size 8493465752
diff --git a/model-00002-of-00074.safetensors b/model-00002-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..55b3cc2c340acd57a37e5e98a279385341a9cc0a
--- /dev/null
+++ b/model-00002-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:72fa273d1b2f70327031f703dee465e473c220336e153c51a4b42fe12b48a1e8
+size 2427160000
diff --git a/model-00003-of-00074.safetensors b/model-00003-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..d05d39210b10e7eff431203be47fe71e1438e03f
--- /dev/null
+++ b/model-00003-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ed46ff12341392514bb9d3f18be5abcca273ac0be63f39bcfc62db96d6820dbb
+size 8493465752
diff --git a/model-00004-of-00074.safetensors b/model-00004-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..531009ffca093a9a01cb38178e29609006746be2
--- /dev/null
+++ b/model-00004-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:16282f8d19cd5daa6ddead86e32642b1fbc6d638eb26f5c0ed82152a6949ebc8
+size 4358856984
diff --git a/model-00005-of-00074.safetensors b/model-00005-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..136cddbbdd87fd80c310d17ef0f3f0610d4eda53
--- /dev/null
+++ b/model-00005-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dc2a9dd898d1beff7a7257c588898bdf6069b6f53204b6c2dbd6382f2c7a668e
+size 8493465752
diff --git a/model-00006-of-00074.safetensors b/model-00006-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..9c28de297158693075e8a93cdf63e7e58dfa012a
--- /dev/null
+++ b/model-00006-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0ce44c5ea95e576052468e2320986973516e1f576503c8ce3a145f669b7aaef3
+size 4358856984
diff --git a/model-00007-of-00074.safetensors b/model-00007-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..bd77770206451f3e9b1a880f9b851612d13bed1b
--- /dev/null
+++ b/model-00007-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:59d7649237af87b2e58580ecf3de03bd14ceb3600849b8379a74ba5152324f54
+size 8493465752
diff --git a/model-00008-of-00074.safetensors b/model-00008-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..696ab8e0c1f7071653b39ab3d15ea2e44cdb4a1f
--- /dev/null
+++ b/model-00008-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0987bca272b5854434cd434b50b908b212a8e518b6494a6dcb422942821f4c24
+size 4358856984
diff --git a/model-00009-of-00074.safetensors b/model-00009-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5e9978cef75f5f77ca52390e37a431c224390714
--- /dev/null
+++ b/model-00009-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:92b16fd3e37c2ff1b0219768da7aa42bad7b8ae4acd87a3fe85908f9ac36628f
+size 8493465752
diff --git a/model-00010-of-00074.safetensors b/model-00010-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..399bafbacc3c0da7a92d12731371e71544b2d7b0
--- /dev/null
+++ b/model-00010-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eab6bc7a8b79391b365054bc906a666dc738396c92a9a017968a55e94f78afe5
+size 4358856984
diff --git a/model-00011-of-00074.safetensors b/model-00011-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..041dd2e8d4a7e42f7562e38b2300c9ef61b5126d
--- /dev/null
+++ b/model-00011-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:05838f093600a2dd774eb92597a44e6131bd4d3e349e35970e7b2bfece0974d2
+size 8493465752
diff --git a/model-00012-of-00074.safetensors b/model-00012-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..2c1643293708c52a3c662c52dab3d9da4d60d871
--- /dev/null
+++ b/model-00012-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:754abc272edbe33a87f23947b7d3ca61661bbe249c1cd5a7dcde6d780eb9d6ec
+size 4358856984
diff --git a/model-00013-of-00074.safetensors b/model-00013-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..88c0424a63a59d0c6b98298f0218320f62968325
--- /dev/null
+++ b/model-00013-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:699fe06320ec22f15251545fbc98d71034195656bced851b534114ff0af15696
+size 8493465752
diff --git a/model-00014-of-00074.safetensors b/model-00014-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..2d81e8ed7dee767a19a2944f073aca542b2af2e0
--- /dev/null
+++ b/model-00014-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e898528aa7d77a9533187342adbf06b074c08c0af42faed42f144bd09343694
+size 4358856984
diff --git a/model-00015-of-00074.safetensors b/model-00015-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..37ae2febf50444f8fe1b86ec0b0f65186f2500a2
--- /dev/null
+++ b/model-00015-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:12c9e66f444977fa18d207aa3b726f815375bbfc41c8912a8975cca19ea064f7
+size 8493465752
diff --git a/model-00016-of-00074.safetensors b/model-00016-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..2206f3b99d54d04b172c145aa980bf0dfa787ab9
--- /dev/null
+++ b/model-00016-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2124b9d8ed57324d34486f6c7375a02c8b254e25a1a6b4fbbf8affa3e4b540d1
+size 4358856984
diff --git a/model-00017-of-00074.safetensors b/model-00017-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..98e735fdd429edc057e2094f276c4d638f763226
--- /dev/null
+++ b/model-00017-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6515e1a21fee029cd583e4f01988072a38b57896be5080fc5fbcf08ded47f33
+size 8493465752
diff --git a/model-00018-of-00074.safetensors b/model-00018-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..e1d7f18bb800ebe9e80e720d0aa5201dd93193d1
--- /dev/null
+++ b/model-00018-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:82afe4c066eedad7bda8c8a1c7b2f8f80c83563ab3a35b05471645a6f62dbf7c
+size 4358856984
diff --git a/model-00019-of-00074.safetensors b/model-00019-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..b8bc3e84052d9a1801d93dac700268ca320961d7
--- /dev/null
+++ b/model-00019-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:467c81acf08952bc05d8fcb4d0decfdbbd94c39194ab1b820ce09b72936bac8f
+size 8493465752
diff --git a/model-00020-of-00074.safetensors b/model-00020-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5bc0f8359dc7e3f9335dab764c0aa9367677bae8
--- /dev/null
+++ b/model-00020-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f80bf1b18b58891a40258d6cd41ec0d33db43c0f817c6b591e0946baa9a38970
+size 4358856984
diff --git a/model-00021-of-00074.safetensors b/model-00021-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..963375e2d75295a8073e89f0ac2559cfef2ced07
--- /dev/null
+++ b/model-00021-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b26199532046646414af05b2658e4ffcb58311ea0d024c19d5e68d2756115679
+size 8493465760
diff --git a/model-00022-of-00074.safetensors b/model-00022-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..b6b56f10ea4add3e182b5e7e3994e4a0b5fb9274
--- /dev/null
+++ b/model-00022-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bfd121aaf27965f899b3afecb9b74919d790a7fddc4fbcf58f28539b3f7a63e9
+size 4358856960
diff --git a/model-00023-of-00074.safetensors b/model-00023-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..2267d39e69f50edaa32fe9ff79bffd5394cdfdab
--- /dev/null
+++ b/model-00023-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5b1eab87904e166a0a7c113e956eaa40221d450f1015a2cc5562572c8aea55b4
+size 8493465760
diff --git a/model-00024-of-00074.safetensors b/model-00024-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..20032266cc4016f11912dee2341733365f46a8e7
--- /dev/null
+++ b/model-00024-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f0cbfea777e9959f3c37aa7622b8e31999551df4612b1880588e730d2390a441
+size 4358857000
diff --git a/model-00025-of-00074.safetensors b/model-00025-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..d98691806be13aa43f47789783259efc887f4120
--- /dev/null
+++ b/model-00025-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dd8c2465ba690024a585388c8803d8681fb53cdeba7f604d58e94efc95eb6046
+size 8493465760
diff --git a/model-00026-of-00074.safetensors b/model-00026-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..18821ea35c1e927153e9cb14e2f0eab74a91bd89
--- /dev/null
+++ b/model-00026-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:73e5861917c9498ea4bbb8a0b09c413ae088e57b345bff157b6ed1163c1a9433
+size 4358857000
diff --git a/model-00027-of-00074.safetensors b/model-00027-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..8ea2449ed6d456e885d30f909c681fdb5f86ec73
--- /dev/null
+++ b/model-00027-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e3a2259ceff5378b1f02c4d5d522fcbf282363843a3d8aa606e60fa1a71c628
+size 8493465760
diff --git a/model-00028-of-00074.safetensors b/model-00028-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..84e29e4014cd25238f4d5db396c7dc2ec4dc333a
--- /dev/null
+++ b/model-00028-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9f000d3594d4ca9ee38c713e25cfab795886c61df3916560fccbd3d9f62b04ab
+size 4358857000
diff --git a/model-00029-of-00074.safetensors b/model-00029-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..7d2d000f5f2cb1eba8500268edce717cec27aa7b
--- /dev/null
+++ b/model-00029-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:50ec00107dcd0b09ab96dbb986c4cee2558d5bee5bacc7709515b21fc749557b
+size 8493465760
diff --git a/model-00030-of-00074.safetensors b/model-00030-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..f016c3e478d55ffc422a13f58b4c4f17c861036b
--- /dev/null
+++ b/model-00030-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3a7701b3d7d8aa2c51a9c4122a4103a7e679da59fc13e6aac7e44095990d75b7
+size 4358857000
diff --git a/model-00031-of-00074.safetensors b/model-00031-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..61ef5e04366a86f6532cea359f873be5fed3722c
--- /dev/null
+++ b/model-00031-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2744b21cbb958f8c1a503c29777c7a383a919e62ef3b23b13f0d49a1eb4f00d6
+size 8493465760
diff --git a/model-00032-of-00074.safetensors b/model-00032-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..0d477a91181de2644b912a5be7a4821067e58815
--- /dev/null
+++ b/model-00032-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ae50ef0ed95a565d48f186576a3dd5d970acad5b271603700e134f907594a0f4
+size 4358857000
diff --git a/model-00033-of-00074.safetensors b/model-00033-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..854614500be71db61acaf266a55d9a13bf9dae22
--- /dev/null
+++ b/model-00033-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:10884a54ff443dd79bbf1dadaa70a8a0a7e7dc206cee4d9158e72308234a5374
+size 8493465760
diff --git a/model-00034-of-00074.safetensors b/model-00034-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..95b383c39be2a8580a4cc6b0aab7c332b75612d3
--- /dev/null
+++ b/model-00034-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:07887a15ec88d84d471bab2d042c4cbb31de7143b4411f7027318b9d1b3c5bc7
+size 4358857000
diff --git a/model-00035-of-00074.safetensors b/model-00035-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..eb5551bbd4002794a242cd2086823c259f926722
--- /dev/null
+++ b/model-00035-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ef892006af4524d104ac0b9fa0693b414644316a2e9e7ca7ba118daf35ad81d0
+size 8493465760
diff --git a/model-00036-of-00074.safetensors b/model-00036-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..b2894a1c2b17f7b48d41f77fd64ed221287b1826
--- /dev/null
+++ b/model-00036-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6dccf78d9dddd2810ff15af94403cdf34f54ea51eaad6d2a15f6ef93775d29fb
+size 4358857000
diff --git a/model-00037-of-00074.safetensors b/model-00037-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..029d7bc41b32f45670ceb2c445d1261aaddc5f42
--- /dev/null
+++ b/model-00037-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:804cf37a121e13a36bc0edd5b7bb96d158cc631574688f9f16f329c1a6f6cc8a
+size 8493465760
diff --git a/model-00038-of-00074.safetensors b/model-00038-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..001d7899403cd187ea69d1868630b3827fc127d6
--- /dev/null
+++ b/model-00038-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ed7a6a1f08e78ed4a9defe3b4edc13e387083caa44a4651a0c7bcc893cd944cb
+size 4358857000
diff --git a/model-00039-of-00074.safetensors b/model-00039-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..396628f5ea9905a40e5f2f82472ac97ae0b5b935
--- /dev/null
+++ b/model-00039-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:25929707b67b0d0cd6e34c383ace511325bcdfa33f1142d4cc24492bc11cdd81
+size 8493465760
diff --git a/model-00040-of-00074.safetensors b/model-00040-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..6fc35a472b10c07316f4da52277d8e84a5413607
--- /dev/null
+++ b/model-00040-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:08c59f4aac337b45ef6022fe8d4b12ad0638622038a596601cb6429a60479ad1
+size 4358857000
diff --git a/model-00041-of-00074.safetensors b/model-00041-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..ed2661f65abd900dcfbd7f01ac45d0c69211a8a3
--- /dev/null
+++ b/model-00041-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f96ab7f8e191032dfae238e00b7a5ceb31e49635f36dcd1a8f95f8fd55d27009
+size 8493465760
diff --git a/model-00042-of-00074.safetensors b/model-00042-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..9fe8974809a4aaf89d89da62be4741b5048601ba
--- /dev/null
+++ b/model-00042-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4d9c875504a0e7c9d234e3ee27f69ada18fd905e9c40efb4a59b601278129ee6
+size 4358857000
diff --git a/model-00043-of-00074.safetensors b/model-00043-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..0b55f690a8e4430e69d3232b6e15cd485fa5f009
--- /dev/null
+++ b/model-00043-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d69400e5ab5e5f9874bac85d610f665574ac38e6fb41aafe9b872f0045b2cfe2
+size 8493465760
diff --git a/model-00044-of-00074.safetensors b/model-00044-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..da6f5166a6468c637be69f243412139f026f75d4
--- /dev/null
+++ b/model-00044-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:32caa89a42c8771eb78f891c5129904488834b3cf0b8090e9d728f277c299f13
+size 4358857000
diff --git a/model-00045-of-00074.safetensors b/model-00045-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..037ef4b892a0447f530cb7fa4fd0128db07e0aee
--- /dev/null
+++ b/model-00045-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b72d1aad5d359ab7fdc916771348aa75bd7b2e66071cb108f89187d81c9b902f
+size 8493465760
diff --git a/model-00046-of-00074.safetensors b/model-00046-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..cd3dbe1c56a7334e318e766c60f04d621094eb4d
--- /dev/null
+++ b/model-00046-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0b526636103f3a834d8fb12afaa22110401fb661443a61cdb29764d657009210
+size 4358857000
diff --git a/model-00047-of-00074.safetensors b/model-00047-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..4f98db4bce4cf36dc7552768252f3038b072f586
--- /dev/null
+++ b/model-00047-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b436d101eb8f11ca1fee1ffd0a3b6b13656db80145638d4a96cb0e082b97bcd7
+size 8493465760
diff --git a/model-00048-of-00074.safetensors b/model-00048-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..56b2f983363b31296018ccb6cc9dee19c18cb07e
--- /dev/null
+++ b/model-00048-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8df3e7c500420f05430617089a6fde515389917e0d9b826c64a87957213e980f
+size 4358857000
diff --git a/model-00049-of-00074.safetensors b/model-00049-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..14efdee4f5d6b33201bfba07a7c20540fde03d2c
--- /dev/null
+++ b/model-00049-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fd2b5f82e2c634c4b787ede1b80e97d17d95d9139ad7cb8a45c2eb9cc06699aa
+size 8493465760
diff --git a/model-00050-of-00074.safetensors b/model-00050-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..8b0cfe18b0857fe544dc5cf988af4f5c2b45dfbe
--- /dev/null
+++ b/model-00050-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:27359ee9db15cdeb717ada19348464f2e5bc72ac5331cbbee9ac7d1afca90acb
+size 4358857000
diff --git a/model-00051-of-00074.safetensors b/model-00051-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..7fcbc96a4da3921b1d40b5c501f904606039886e
--- /dev/null
+++ b/model-00051-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:db79e04b3c6cbbd3c25e077124138961167a19224a87b60dfa42dcb60eb78515
+size 8493465760
diff --git a/model-00052-of-00074.safetensors b/model-00052-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..857a8f1bd5774837fafe46fd1c7c22aa40d34670
--- /dev/null
+++ b/model-00052-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d926f852d6db09b7451b6f326469a5fb6123f94bec97fa17914ec97aa2279e18
+size 4358857000
diff --git a/model-00053-of-00074.safetensors b/model-00053-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..9759d25c2b160f56cf1eeb8dc3c4b35457bb4e96
--- /dev/null
+++ b/model-00053-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3bfadd789d34e8a69b5c1d238c9b7e0815e09012aaa3dafabb4694de7db130f5
+size 8493465760
diff --git a/model-00054-of-00074.safetensors b/model-00054-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..d2e52f15b55a0162c2eab116dff0252924693b38
--- /dev/null
+++ b/model-00054-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:29dcb47477b969d8a2b8f8da95c2d3e9f949d90a5fd0974fa15352349da0f290
+size 4358857000
diff --git a/model-00055-of-00074.safetensors b/model-00055-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..0854539b5a1253eb339a930e5dad81b2685c9ec6
--- /dev/null
+++ b/model-00055-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:14ff6170f2be1d1751d0f79b0425091b573b6f521198e06f17c30658b7123549
+size 8493465760
diff --git a/model-00056-of-00074.safetensors b/model-00056-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..4f29cf3698f30f347cb946f9965f6ecff41eaea4
--- /dev/null
+++ b/model-00056-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8bbe7463f3cee9344e3ec9277f26d193c64c694f097f588fa2834aee948cbbe1
+size 4358857000
diff --git a/model-00057-of-00074.safetensors b/model-00057-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..f4bfe1d60be7b5b8a062bd6245a464edfb400ac5
--- /dev/null
+++ b/model-00057-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2cc2bc0909b80be5e00c4075d847068ad9df84ecfe6a52431df5dd812c8a8c34
+size 8493465760
diff --git a/model-00058-of-00074.safetensors b/model-00058-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5ab57e954d48276f3ea4963084239ba39cfbccf3
--- /dev/null
+++ b/model-00058-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0517da22ddb803ecae8aa4c53a81b3f855d6b82e400ea5a2a9c0d39e43b7ac28
+size 4358857000
diff --git a/model-00059-of-00074.safetensors b/model-00059-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..29fee0ad26136e2dd2518980f3a3ecfd70c7ccd9
--- /dev/null
+++ b/model-00059-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:53d273aa302b98a06cac68817e25c0b9807bce2551d8ee7ec7964a13642cd55c
+size 8493465760
diff --git a/model-00060-of-00074.safetensors b/model-00060-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..0916efe728ab2a2876b1f6a5c68ef061f9ed8f2e
--- /dev/null
+++ b/model-00060-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3832da7324e9790f6a0598cece59809285d9151fda01f77d999b61e6549b408a
+size 4358857000
diff --git a/model-00061-of-00074.safetensors b/model-00061-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..47ea866a1208d4a7befc4a2686c5ee0fd3758623
--- /dev/null
+++ b/model-00061-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0b444e27db17c0b6812ef65d87ac5e099e4b297c60be4637f08b6549baef501c
+size 8493465760
diff --git a/model-00062-of-00074.safetensors b/model-00062-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..e821d47fb908d744a597ea97ea96f42f7c910410
--- /dev/null
+++ b/model-00062-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f5e4a1d8b5def1401881b02f3b26f32618f77b7cedcb74a4d40d42377d316bc
+size 4358857000
diff --git a/model-00063-of-00074.safetensors b/model-00063-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..1f1b41543a0c673cd200381568c9423a4266b784
--- /dev/null
+++ b/model-00063-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f64d267ebcfcd109d191ed3f92e3249765c263120c3c3601e6d9bbec5d8e988c
+size 8493465760
diff --git a/model-00064-of-00074.safetensors b/model-00064-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..08e9855840f1ecef94552abdca2b494fd54d6354
--- /dev/null
+++ b/model-00064-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9ebe3ae6ed8c362d3921b10527394b6341c68499d9cbc747c2bf65d7ee511bcb
+size 4358857000
diff --git a/model-00065-of-00074.safetensors b/model-00065-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..9a1a3ea3ea974d6753ecfae5e7537516dba8e1b7
--- /dev/null
+++ b/model-00065-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3a93c55a2a50fc2925b5c2db2d9a3f202030ba299f1eef89dd9bbe99f6508630
+size 8493465760
diff --git a/model-00066-of-00074.safetensors b/model-00066-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..f552b0190c19d14cc7452380c35e255ed3f1201a
--- /dev/null
+++ b/model-00066-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eb993ef92b9534f437f27a25db9605b07cd2e18bd118d29b00a776e46848156b
+size 4358857000
diff --git a/model-00067-of-00074.safetensors b/model-00067-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..eca62c24ac805e56e530de0f2d362ec47a0f6cae
--- /dev/null
+++ b/model-00067-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fe4cf3edc2e7debb7528c2196818f77a64a16611289dcc2360b8d9c28e2c7ad4
+size 8493465760
diff --git a/model-00068-of-00074.safetensors b/model-00068-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..3e6c2ff91fce5deb6acb9dc6c36d1c66ac8bfc58
--- /dev/null
+++ b/model-00068-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8e790ebecba885d421cdeb98d36ca3a572f9c14b12cb120bddda12a96b47348c
+size 4358857000
diff --git a/model-00069-of-00074.safetensors b/model-00069-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..0b37e4b300d2260d6dd6d234a65ee0cba299f683
--- /dev/null
+++ b/model-00069-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:816a2afe992945a2faed61cd55bb748cfd2eb3b3973dce46fb528179ea636b75
+size 8493465760
diff --git a/model-00070-of-00074.safetensors b/model-00070-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..0d39f21d243b96c0f35a4d2fca1246b4f0ee8f0d
--- /dev/null
+++ b/model-00070-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c741ae6c23bcc2ea8d078e53ab86c750996c4f48df207d128e6d085a3270d5ae
+size 4358857000
diff --git a/model-00071-of-00074.safetensors b/model-00071-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5cf6b5bba174f56803c87616154290c8ad1895f1
--- /dev/null
+++ b/model-00071-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6a17fda71ea84a4047e150c0a8969d849f002e9a471f0572c856b13f1b1310bf
+size 8493465760
diff --git a/model-00072-of-00074.safetensors b/model-00072-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..ce67341ad9aaf7880b41a94b4a9c744437ae8faf
--- /dev/null
+++ b/model-00072-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:244a53e3d7b689178ef20c4dd4b874695101a54ff081e209f7a1db67bac8027a
+size 4358857000
diff --git a/model-00073-of-00074.safetensors b/model-00073-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5368c362500b07125c9175d55da5d4f0a4d127f9
--- /dev/null
+++ b/model-00073-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d7eec59cc8f3c78fd0c26bbf021f9465959a746e9d94141677850799d5f2e7ed
+size 4248242504
diff --git a/model-00074-of-00074.safetensors b/model-00074-of-00074.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..a3f85180d0eefd509e54f20d79cf2daf861de8de
--- /dev/null
+++ b/model-00074-of-00074.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5b3b007f446790ffd2913062a538b5c92afd9b1561efecce3f986b8c83f35eeb
+size 2316533888
diff --git a/model.safetensors.index.json b/model.safetensors.index.json
new file mode 100644
index 0000000000000000000000000000000000000000..11f807d86311a527e17d50ab0ea92f0285b86a56
--- /dev/null
+++ b/model.safetensors.index.json
@@ -0,0 +1,623 @@
+{
+  "metadata": {
+    "total_parameters": 116829156672,
+    "total_size": 467316626688
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00074-of-00074.safetensors",
+    "model.embed_tokens.weight": "model-00002-of-00074.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00004-of-00074.safetensors",
+    "model.layers.0.mlp.experts.down_proj": "model-00004-of-00074.safetensors",
+    "model.layers.0.mlp.experts.down_proj_bias": "model-00004-of-00074.safetensors",
+    "model.layers.0.mlp.experts.gate_up_proj": "model-00001-of-00074.safetensors",
+    "model.layers.0.mlp.experts.gate_up_proj_bias": "model-00002-of-00074.safetensors",
+    "model.layers.0.mlp.router.bias": "model-00002-of-00074.safetensors",
+    "model.layers.0.mlp.router.weight": "model-00002-of-00074.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00004-of-00074.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00002-of-00074.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00002-of-00074.safetensors",
+    "model.layers.0.self_attn.o_proj.bias": "model-00002-of-00074.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00002-of-00074.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00002-of-00074.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00002-of-00074.safetensors",
+    "model.layers.0.self_attn.sinks": "model-00002-of-00074.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00002-of-00074.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00002-of-00074.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00006-of-00074.safetensors",
+    "model.layers.1.mlp.experts.down_proj": "model-00006-of-00074.safetensors",
+    "model.layers.1.mlp.experts.down_proj_bias": "model-00006-of-00074.safetensors",
+    "model.layers.1.mlp.experts.gate_up_proj": "model-00003-of-00074.safetensors",
+    "model.layers.1.mlp.experts.gate_up_proj_bias": "model-00004-of-00074.safetensors",
+    "model.layers.1.mlp.router.bias": "model-00004-of-00074.safetensors",
+    "model.layers.1.mlp.router.weight": "model-00004-of-00074.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00006-of-00074.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00004-of-00074.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00004-of-00074.safetensors",
+    "model.layers.1.self_attn.o_proj.bias": "model-00004-of-00074.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00004-of-00074.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00004-of-00074.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00004-of-00074.safetensors",
+    "model.layers.1.self_attn.sinks": "model-00004-of-00074.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00004-of-00074.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00004-of-00074.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00024-of-00074.safetensors",
+    "model.layers.10.mlp.experts.down_proj": "model-00024-of-00074.safetensors",
+    "model.layers.10.mlp.experts.down_proj_bias": "model-00024-of-00074.safetensors",
+    "model.layers.10.mlp.experts.gate_up_proj": "model-00021-of-00074.safetensors",
+    "model.layers.10.mlp.experts.gate_up_proj_bias": "model-00022-of-00074.safetensors",
+    "model.layers.10.mlp.router.bias": "model-00022-of-00074.safetensors",
+    "model.layers.10.mlp.router.weight": "model-00022-of-00074.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00024-of-00074.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00022-of-00074.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00022-of-00074.safetensors",
+    "model.layers.10.self_attn.o_proj.bias": "model-00022-of-00074.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00022-of-00074.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00022-of-00074.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00022-of-00074.safetensors",
+    "model.layers.10.self_attn.sinks": "model-00022-of-00074.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00022-of-00074.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00022-of-00074.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00026-of-00074.safetensors",
+    "model.layers.11.mlp.experts.down_proj": "model-00026-of-00074.safetensors",
+    "model.layers.11.mlp.experts.down_proj_bias": "model-00026-of-00074.safetensors",
+    "model.layers.11.mlp.experts.gate_up_proj": "model-00023-of-00074.safetensors",
+    "model.layers.11.mlp.experts.gate_up_proj_bias": "model-00024-of-00074.safetensors",
+    "model.layers.11.mlp.router.bias": "model-00024-of-00074.safetensors",
+    "model.layers.11.mlp.router.weight": "model-00024-of-00074.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00026-of-00074.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00024-of-00074.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00024-of-00074.safetensors",
+    "model.layers.11.self_attn.o_proj.bias": "model-00024-of-00074.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00024-of-00074.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00024-of-00074.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00024-of-00074.safetensors",
+    "model.layers.11.self_attn.sinks": "model-00024-of-00074.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00024-of-00074.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00024-of-00074.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00028-of-00074.safetensors",
+    "model.layers.12.mlp.experts.down_proj": "model-00028-of-00074.safetensors",
+    "model.layers.12.mlp.experts.down_proj_bias": "model-00028-of-00074.safetensors",
+    "model.layers.12.mlp.experts.gate_up_proj": "model-00025-of-00074.safetensors",
+    "model.layers.12.mlp.experts.gate_up_proj_bias": "model-00026-of-00074.safetensors",
+    "model.layers.12.mlp.router.bias": "model-00026-of-00074.safetensors",
+    "model.layers.12.mlp.router.weight": "model-00026-of-00074.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00028-of-00074.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00026-of-00074.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00026-of-00074.safetensors",
+    "model.layers.12.self_attn.o_proj.bias": "model-00026-of-00074.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00026-of-00074.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00026-of-00074.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00026-of-00074.safetensors",
+    "model.layers.12.self_attn.sinks": "model-00026-of-00074.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00026-of-00074.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00026-of-00074.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00030-of-00074.safetensors",
+    "model.layers.13.mlp.experts.down_proj": "model-00030-of-00074.safetensors",
+    "model.layers.13.mlp.experts.down_proj_bias": "model-00030-of-00074.safetensors",
+    "model.layers.13.mlp.experts.gate_up_proj": "model-00027-of-00074.safetensors",
+    "model.layers.13.mlp.experts.gate_up_proj_bias": "model-00028-of-00074.safetensors",
+    "model.layers.13.mlp.router.bias": "model-00028-of-00074.safetensors",
+    "model.layers.13.mlp.router.weight": "model-00028-of-00074.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00030-of-00074.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00028-of-00074.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00028-of-00074.safetensors",
+    "model.layers.13.self_attn.o_proj.bias": "model-00028-of-00074.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00028-of-00074.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00028-of-00074.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00028-of-00074.safetensors",
+    "model.layers.13.self_attn.sinks": "model-00028-of-00074.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00028-of-00074.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00028-of-00074.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00032-of-00074.safetensors",
+    "model.layers.14.mlp.experts.down_proj": "model-00032-of-00074.safetensors",
+    "model.layers.14.mlp.experts.down_proj_bias": "model-00032-of-00074.safetensors",
+    "model.layers.14.mlp.experts.gate_up_proj": "model-00029-of-00074.safetensors",
+    "model.layers.14.mlp.experts.gate_up_proj_bias": "model-00030-of-00074.safetensors",
+    "model.layers.14.mlp.router.bias": "model-00030-of-00074.safetensors",
+    "model.layers.14.mlp.router.weight": "model-00030-of-00074.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00032-of-00074.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00030-of-00074.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00030-of-00074.safetensors",
+    "model.layers.14.self_attn.o_proj.bias": "model-00030-of-00074.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00030-of-00074.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00030-of-00074.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00030-of-00074.safetensors",
+    "model.layers.14.self_attn.sinks": "model-00030-of-00074.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00030-of-00074.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00030-of-00074.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00034-of-00074.safetensors",
+    "model.layers.15.mlp.experts.down_proj": "model-00034-of-00074.safetensors",
+    "model.layers.15.mlp.experts.down_proj_bias": "model-00034-of-00074.safetensors",
+    "model.layers.15.mlp.experts.gate_up_proj": "model-00031-of-00074.safetensors",
+    "model.layers.15.mlp.experts.gate_up_proj_bias": "model-00032-of-00074.safetensors",
+    "model.layers.15.mlp.router.bias": "model-00032-of-00074.safetensors",
+    "model.layers.15.mlp.router.weight": "model-00032-of-00074.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00034-of-00074.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00032-of-00074.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00032-of-00074.safetensors",
+    "model.layers.15.self_attn.o_proj.bias": "model-00032-of-00074.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00032-of-00074.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00032-of-00074.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00032-of-00074.safetensors",
+    "model.layers.15.self_attn.sinks": "model-00032-of-00074.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00032-of-00074.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00032-of-00074.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00036-of-00074.safetensors",
+    "model.layers.16.mlp.experts.down_proj": "model-00036-of-00074.safetensors",
+    "model.layers.16.mlp.experts.down_proj_bias": "model-00036-of-00074.safetensors",
+    "model.layers.16.mlp.experts.gate_up_proj": "model-00033-of-00074.safetensors",
+    "model.layers.16.mlp.experts.gate_up_proj_bias": "model-00034-of-00074.safetensors",
+    "model.layers.16.mlp.router.bias": "model-00034-of-00074.safetensors",
+    "model.layers.16.mlp.router.weight": "model-00034-of-00074.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00036-of-00074.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00034-of-00074.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00034-of-00074.safetensors",
+    "model.layers.16.self_attn.o_proj.bias": "model-00034-of-00074.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00034-of-00074.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00034-of-00074.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00034-of-00074.safetensors",
+    "model.layers.16.self_attn.sinks": "model-00034-of-00074.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00034-of-00074.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00034-of-00074.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00038-of-00074.safetensors",
+    "model.layers.17.mlp.experts.down_proj": "model-00038-of-00074.safetensors",
+    "model.layers.17.mlp.experts.down_proj_bias": "model-00038-of-00074.safetensors",
+    "model.layers.17.mlp.experts.gate_up_proj": "model-00035-of-00074.safetensors",
+    "model.layers.17.mlp.experts.gate_up_proj_bias": "model-00036-of-00074.safetensors",
+    "model.layers.17.mlp.router.bias": "model-00036-of-00074.safetensors",
+    "model.layers.17.mlp.router.weight": "model-00036-of-00074.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00038-of-00074.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00036-of-00074.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00036-of-00074.safetensors",
+    "model.layers.17.self_attn.o_proj.bias": "model-00036-of-00074.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00036-of-00074.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00036-of-00074.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00036-of-00074.safetensors",
+    "model.layers.17.self_attn.sinks": "model-00036-of-00074.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00036-of-00074.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00036-of-00074.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00040-of-00074.safetensors",
+    "model.layers.18.mlp.experts.down_proj": "model-00040-of-00074.safetensors",
+    "model.layers.18.mlp.experts.down_proj_bias": "model-00040-of-00074.safetensors",
+    "model.layers.18.mlp.experts.gate_up_proj": "model-00037-of-00074.safetensors",
+    "model.layers.18.mlp.experts.gate_up_proj_bias": "model-00038-of-00074.safetensors",
+    "model.layers.18.mlp.router.bias": "model-00038-of-00074.safetensors",
+    "model.layers.18.mlp.router.weight": "model-00038-of-00074.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00040-of-00074.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00038-of-00074.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00038-of-00074.safetensors",
+    "model.layers.18.self_attn.o_proj.bias": "model-00038-of-00074.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00038-of-00074.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00038-of-00074.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00038-of-00074.safetensors",
+    "model.layers.18.self_attn.sinks": "model-00038-of-00074.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00038-of-00074.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00038-of-00074.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00042-of-00074.safetensors",
+    "model.layers.19.mlp.experts.down_proj": "model-00042-of-00074.safetensors",
+    "model.layers.19.mlp.experts.down_proj_bias": "model-00042-of-00074.safetensors",
+    "model.layers.19.mlp.experts.gate_up_proj": "model-00039-of-00074.safetensors",
+    "model.layers.19.mlp.experts.gate_up_proj_bias": "model-00040-of-00074.safetensors",
+    "model.layers.19.mlp.router.bias": "model-00040-of-00074.safetensors",
+    "model.layers.19.mlp.router.weight": "model-00040-of-00074.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00042-of-00074.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00040-of-00074.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00040-of-00074.safetensors",
+    "model.layers.19.self_attn.o_proj.bias": "model-00040-of-00074.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00040-of-00074.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00040-of-00074.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00040-of-00074.safetensors",
+    "model.layers.19.self_attn.sinks": "model-00040-of-00074.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00040-of-00074.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00040-of-00074.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00008-of-00074.safetensors",
+    "model.layers.2.mlp.experts.down_proj": "model-00008-of-00074.safetensors",
+    "model.layers.2.mlp.experts.down_proj_bias": "model-00008-of-00074.safetensors",
+    "model.layers.2.mlp.experts.gate_up_proj": "model-00005-of-00074.safetensors",
+    "model.layers.2.mlp.experts.gate_up_proj_bias": "model-00006-of-00074.safetensors",
+    "model.layers.2.mlp.router.bias": "model-00006-of-00074.safetensors",
+    "model.layers.2.mlp.router.weight": "model-00006-of-00074.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00008-of-00074.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00006-of-00074.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00006-of-00074.safetensors",
+    "model.layers.2.self_attn.o_proj.bias": "model-00006-of-00074.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00006-of-00074.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00006-of-00074.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00006-of-00074.safetensors",
+    "model.layers.2.self_attn.sinks": "model-00006-of-00074.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00006-of-00074.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00006-of-00074.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00044-of-00074.safetensors",
+    "model.layers.20.mlp.experts.down_proj": "model-00044-of-00074.safetensors",
+    "model.layers.20.mlp.experts.down_proj_bias": "model-00044-of-00074.safetensors",
+    "model.layers.20.mlp.experts.gate_up_proj": "model-00041-of-00074.safetensors",
+    "model.layers.20.mlp.experts.gate_up_proj_bias": "model-00042-of-00074.safetensors",
+    "model.layers.20.mlp.router.bias": "model-00042-of-00074.safetensors",
+    "model.layers.20.mlp.router.weight": "model-00042-of-00074.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00044-of-00074.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00042-of-00074.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00042-of-00074.safetensors",
+    "model.layers.20.self_attn.o_proj.bias": "model-00042-of-00074.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00042-of-00074.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00042-of-00074.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00042-of-00074.safetensors",
+    "model.layers.20.self_attn.sinks": "model-00042-of-00074.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00042-of-00074.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00042-of-00074.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00046-of-00074.safetensors",
+    "model.layers.21.mlp.experts.down_proj": "model-00046-of-00074.safetensors",
+    "model.layers.21.mlp.experts.down_proj_bias": "model-00046-of-00074.safetensors",
+    "model.layers.21.mlp.experts.gate_up_proj": "model-00043-of-00074.safetensors",
+    "model.layers.21.mlp.experts.gate_up_proj_bias": "model-00044-of-00074.safetensors",
+    "model.layers.21.mlp.router.bias": "model-00044-of-00074.safetensors",
+    "model.layers.21.mlp.router.weight": "model-00044-of-00074.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00046-of-00074.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00044-of-00074.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00044-of-00074.safetensors",
+    "model.layers.21.self_attn.o_proj.bias": "model-00044-of-00074.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00044-of-00074.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00044-of-00074.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00044-of-00074.safetensors",
+    "model.layers.21.self_attn.sinks": "model-00044-of-00074.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00044-of-00074.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00044-of-00074.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00048-of-00074.safetensors",
+    "model.layers.22.mlp.experts.down_proj": "model-00048-of-00074.safetensors",
+    "model.layers.22.mlp.experts.down_proj_bias": "model-00048-of-00074.safetensors",
+    "model.layers.22.mlp.experts.gate_up_proj": "model-00045-of-00074.safetensors",
+    "model.layers.22.mlp.experts.gate_up_proj_bias": "model-00046-of-00074.safetensors",
+    "model.layers.22.mlp.router.bias": "model-00046-of-00074.safetensors",
+    "model.layers.22.mlp.router.weight": "model-00046-of-00074.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00048-of-00074.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00046-of-00074.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00046-of-00074.safetensors",
+    "model.layers.22.self_attn.o_proj.bias": "model-00046-of-00074.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00046-of-00074.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00046-of-00074.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00046-of-00074.safetensors",
+    "model.layers.22.self_attn.sinks": "model-00046-of-00074.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00046-of-00074.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00046-of-00074.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00050-of-00074.safetensors",
+    "model.layers.23.mlp.experts.down_proj": "model-00050-of-00074.safetensors",
+    "model.layers.23.mlp.experts.down_proj_bias": "model-00050-of-00074.safetensors",
+    "model.layers.23.mlp.experts.gate_up_proj": "model-00047-of-00074.safetensors",
+    "model.layers.23.mlp.experts.gate_up_proj_bias": "model-00048-of-00074.safetensors",
+    "model.layers.23.mlp.router.bias": "model-00048-of-00074.safetensors",
+    "model.layers.23.mlp.router.weight": "model-00048-of-00074.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00050-of-00074.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00048-of-00074.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00048-of-00074.safetensors",
+    "model.layers.23.self_attn.o_proj.bias": "model-00048-of-00074.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00048-of-00074.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00048-of-00074.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00048-of-00074.safetensors",
+    "model.layers.23.self_attn.sinks": "model-00048-of-00074.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00048-of-00074.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00048-of-00074.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00052-of-00074.safetensors",
+    "model.layers.24.mlp.experts.down_proj": "model-00052-of-00074.safetensors",
+    "model.layers.24.mlp.experts.down_proj_bias": "model-00052-of-00074.safetensors",
+    "model.layers.24.mlp.experts.gate_up_proj": "model-00049-of-00074.safetensors",
+    "model.layers.24.mlp.experts.gate_up_proj_bias": "model-00050-of-00074.safetensors",
+    "model.layers.24.mlp.router.bias": "model-00050-of-00074.safetensors",
+    "model.layers.24.mlp.router.weight": "model-00050-of-00074.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00052-of-00074.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00050-of-00074.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00050-of-00074.safetensors",
+    "model.layers.24.self_attn.o_proj.bias": "model-00050-of-00074.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00050-of-00074.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00050-of-00074.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00050-of-00074.safetensors",
+    "model.layers.24.self_attn.sinks": "model-00050-of-00074.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00050-of-00074.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00050-of-00074.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00054-of-00074.safetensors",
+    "model.layers.25.mlp.experts.down_proj": "model-00054-of-00074.safetensors",
+    "model.layers.25.mlp.experts.down_proj_bias": "model-00054-of-00074.safetensors",
+    "model.layers.25.mlp.experts.gate_up_proj": "model-00051-of-00074.safetensors",
+    "model.layers.25.mlp.experts.gate_up_proj_bias": "model-00052-of-00074.safetensors",
+    "model.layers.25.mlp.router.bias": "model-00052-of-00074.safetensors",
+    "model.layers.25.mlp.router.weight": "model-00052-of-00074.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00054-of-00074.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00052-of-00074.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00052-of-00074.safetensors",
+    "model.layers.25.self_attn.o_proj.bias": "model-00052-of-00074.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00052-of-00074.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00052-of-00074.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00052-of-00074.safetensors",
+    "model.layers.25.self_attn.sinks": "model-00052-of-00074.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00052-of-00074.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00052-of-00074.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00056-of-00074.safetensors",
+    "model.layers.26.mlp.experts.down_proj": "model-00056-of-00074.safetensors",
+    "model.layers.26.mlp.experts.down_proj_bias": "model-00056-of-00074.safetensors",
+    "model.layers.26.mlp.experts.gate_up_proj": "model-00053-of-00074.safetensors",
+    "model.layers.26.mlp.experts.gate_up_proj_bias": "model-00054-of-00074.safetensors",
+    "model.layers.26.mlp.router.bias": "model-00054-of-00074.safetensors",
+    "model.layers.26.mlp.router.weight": "model-00054-of-00074.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00056-of-00074.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00054-of-00074.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00054-of-00074.safetensors",
+    "model.layers.26.self_attn.o_proj.bias": "model-00054-of-00074.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00054-of-00074.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00054-of-00074.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00054-of-00074.safetensors",
+    "model.layers.26.self_attn.sinks": "model-00054-of-00074.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00054-of-00074.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00054-of-00074.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00058-of-00074.safetensors",
+    "model.layers.27.mlp.experts.down_proj": "model-00058-of-00074.safetensors",
+    "model.layers.27.mlp.experts.down_proj_bias": "model-00058-of-00074.safetensors",
+    "model.layers.27.mlp.experts.gate_up_proj": "model-00055-of-00074.safetensors",
+    "model.layers.27.mlp.experts.gate_up_proj_bias": "model-00056-of-00074.safetensors",
+    "model.layers.27.mlp.router.bias": "model-00056-of-00074.safetensors",
+    "model.layers.27.mlp.router.weight": "model-00056-of-00074.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00058-of-00074.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00056-of-00074.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00056-of-00074.safetensors",
+    "model.layers.27.self_attn.o_proj.bias": "model-00056-of-00074.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00056-of-00074.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00056-of-00074.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00056-of-00074.safetensors",
+    "model.layers.27.self_attn.sinks": "model-00056-of-00074.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00056-of-00074.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00056-of-00074.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00060-of-00074.safetensors",
+    "model.layers.28.mlp.experts.down_proj": "model-00060-of-00074.safetensors",
+    "model.layers.28.mlp.experts.down_proj_bias": "model-00060-of-00074.safetensors",
+    "model.layers.28.mlp.experts.gate_up_proj": "model-00057-of-00074.safetensors",
+    "model.layers.28.mlp.experts.gate_up_proj_bias": "model-00058-of-00074.safetensors",
+    "model.layers.28.mlp.router.bias": "model-00058-of-00074.safetensors",
+    "model.layers.28.mlp.router.weight": "model-00058-of-00074.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00060-of-00074.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00058-of-00074.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00058-of-00074.safetensors",
+    "model.layers.28.self_attn.o_proj.bias": "model-00058-of-00074.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00058-of-00074.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00058-of-00074.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00058-of-00074.safetensors",
+    "model.layers.28.self_attn.sinks": "model-00058-of-00074.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00058-of-00074.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00058-of-00074.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00062-of-00074.safetensors",
+    "model.layers.29.mlp.experts.down_proj": "model-00062-of-00074.safetensors",
+    "model.layers.29.mlp.experts.down_proj_bias": "model-00062-of-00074.safetensors",
+    "model.layers.29.mlp.experts.gate_up_proj": "model-00059-of-00074.safetensors",
+    "model.layers.29.mlp.experts.gate_up_proj_bias": "model-00060-of-00074.safetensors",
+    "model.layers.29.mlp.router.bias": "model-00060-of-00074.safetensors",
+    "model.layers.29.mlp.router.weight": "model-00060-of-00074.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00062-of-00074.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00060-of-00074.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00060-of-00074.safetensors",
+    "model.layers.29.self_attn.o_proj.bias": "model-00060-of-00074.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00060-of-00074.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00060-of-00074.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00060-of-00074.safetensors",
+    "model.layers.29.self_attn.sinks": "model-00060-of-00074.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00060-of-00074.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00060-of-00074.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00010-of-00074.safetensors",
+    "model.layers.3.mlp.experts.down_proj": "model-00010-of-00074.safetensors",
+    "model.layers.3.mlp.experts.down_proj_bias": "model-00010-of-00074.safetensors",
+    "model.layers.3.mlp.experts.gate_up_proj": "model-00007-of-00074.safetensors",
+    "model.layers.3.mlp.experts.gate_up_proj_bias": "model-00008-of-00074.safetensors",
+    "model.layers.3.mlp.router.bias": "model-00008-of-00074.safetensors",
+    "model.layers.3.mlp.router.weight": "model-00008-of-00074.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00010-of-00074.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00008-of-00074.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00008-of-00074.safetensors",
+    "model.layers.3.self_attn.o_proj.bias": "model-00008-of-00074.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00008-of-00074.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00008-of-00074.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00008-of-00074.safetensors",
+    "model.layers.3.self_attn.sinks": "model-00008-of-00074.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00008-of-00074.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00008-of-00074.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00064-of-00074.safetensors",
+    "model.layers.30.mlp.experts.down_proj": "model-00064-of-00074.safetensors",
+    "model.layers.30.mlp.experts.down_proj_bias": "model-00064-of-00074.safetensors",
+    "model.layers.30.mlp.experts.gate_up_proj": "model-00061-of-00074.safetensors",
+    "model.layers.30.mlp.experts.gate_up_proj_bias": "model-00062-of-00074.safetensors",
+    "model.layers.30.mlp.router.bias": "model-00062-of-00074.safetensors",
+    "model.layers.30.mlp.router.weight": "model-00062-of-00074.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00064-of-00074.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00062-of-00074.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00062-of-00074.safetensors",
+    "model.layers.30.self_attn.o_proj.bias": "model-00062-of-00074.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00062-of-00074.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00062-of-00074.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00062-of-00074.safetensors",
+    "model.layers.30.self_attn.sinks": "model-00062-of-00074.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00062-of-00074.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00062-of-00074.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00066-of-00074.safetensors",
+    "model.layers.31.mlp.experts.down_proj": "model-00066-of-00074.safetensors",
+    "model.layers.31.mlp.experts.down_proj_bias": "model-00066-of-00074.safetensors",
+    "model.layers.31.mlp.experts.gate_up_proj": "model-00063-of-00074.safetensors",
+    "model.layers.31.mlp.experts.gate_up_proj_bias": "model-00064-of-00074.safetensors",
+    "model.layers.31.mlp.router.bias": "model-00064-of-00074.safetensors",
+    "model.layers.31.mlp.router.weight": "model-00064-of-00074.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00066-of-00074.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00064-of-00074.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00064-of-00074.safetensors",
+    "model.layers.31.self_attn.o_proj.bias": "model-00064-of-00074.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00064-of-00074.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00064-of-00074.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00064-of-00074.safetensors",
+    "model.layers.31.self_attn.sinks": "model-00064-of-00074.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00064-of-00074.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00064-of-00074.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00068-of-00074.safetensors",
+    "model.layers.32.mlp.experts.down_proj": "model-00068-of-00074.safetensors",
+    "model.layers.32.mlp.experts.down_proj_bias": "model-00068-of-00074.safetensors",
+    "model.layers.32.mlp.experts.gate_up_proj": "model-00065-of-00074.safetensors",
+    "model.layers.32.mlp.experts.gate_up_proj_bias": "model-00066-of-00074.safetensors",
+    "model.layers.32.mlp.router.bias": "model-00066-of-00074.safetensors",
+    "model.layers.32.mlp.router.weight": "model-00066-of-00074.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00068-of-00074.safetensors",
+    "model.layers.32.self_attn.k_proj.bias": "model-00066-of-00074.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00066-of-00074.safetensors",
+    "model.layers.32.self_attn.o_proj.bias": "model-00066-of-00074.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00066-of-00074.safetensors",
+    "model.layers.32.self_attn.q_proj.bias": "model-00066-of-00074.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00066-of-00074.safetensors",
+    "model.layers.32.self_attn.sinks": "model-00066-of-00074.safetensors",
+    "model.layers.32.self_attn.v_proj.bias": "model-00066-of-00074.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00066-of-00074.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00070-of-00074.safetensors",
+    "model.layers.33.mlp.experts.down_proj": "model-00070-of-00074.safetensors",
+    "model.layers.33.mlp.experts.down_proj_bias": "model-00070-of-00074.safetensors",
+    "model.layers.33.mlp.experts.gate_up_proj": "model-00067-of-00074.safetensors",
+    "model.layers.33.mlp.experts.gate_up_proj_bias": "model-00068-of-00074.safetensors",
+    "model.layers.33.mlp.router.bias": "model-00068-of-00074.safetensors",
+    "model.layers.33.mlp.router.weight": "model-00068-of-00074.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00070-of-00074.safetensors",
+    "model.layers.33.self_attn.k_proj.bias": "model-00068-of-00074.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00068-of-00074.safetensors",
+    "model.layers.33.self_attn.o_proj.bias": "model-00068-of-00074.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00068-of-00074.safetensors",
+    "model.layers.33.self_attn.q_proj.bias": "model-00068-of-00074.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00068-of-00074.safetensors",
+    "model.layers.33.self_attn.sinks": "model-00068-of-00074.safetensors",
+    "model.layers.33.self_attn.v_proj.bias": "model-00068-of-00074.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00068-of-00074.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00072-of-00074.safetensors",
+    "model.layers.34.mlp.experts.down_proj": "model-00072-of-00074.safetensors",
+    "model.layers.34.mlp.experts.down_proj_bias": "model-00072-of-00074.safetensors",
+    "model.layers.34.mlp.experts.gate_up_proj": "model-00069-of-00074.safetensors",
+    "model.layers.34.mlp.experts.gate_up_proj_bias": "model-00070-of-00074.safetensors",
+    "model.layers.34.mlp.router.bias": "model-00070-of-00074.safetensors",
+    "model.layers.34.mlp.router.weight": "model-00070-of-00074.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00072-of-00074.safetensors",
+    "model.layers.34.self_attn.k_proj.bias": "model-00070-of-00074.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00070-of-00074.safetensors",
+    "model.layers.34.self_attn.o_proj.bias": "model-00070-of-00074.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00070-of-00074.safetensors",
+    "model.layers.34.self_attn.q_proj.bias": "model-00070-of-00074.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00070-of-00074.safetensors",
+    "model.layers.34.self_attn.sinks": "model-00070-of-00074.safetensors",
+    "model.layers.34.self_attn.v_proj.bias": "model-00070-of-00074.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00070-of-00074.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00073-of-00074.safetensors",
+    "model.layers.35.mlp.experts.down_proj": "model-00073-of-00074.safetensors",
+    "model.layers.35.mlp.experts.down_proj_bias": "model-00073-of-00074.safetensors",
+    "model.layers.35.mlp.experts.gate_up_proj": "model-00071-of-00074.safetensors",
+    "model.layers.35.mlp.experts.gate_up_proj_bias": "model-00072-of-00074.safetensors",
+    "model.layers.35.mlp.router.bias": "model-00072-of-00074.safetensors",
+    "model.layers.35.mlp.router.weight": "model-00072-of-00074.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00073-of-00074.safetensors",
+    "model.layers.35.self_attn.k_proj.bias": "model-00072-of-00074.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00072-of-00074.safetensors",
+    "model.layers.35.self_attn.o_proj.bias": "model-00072-of-00074.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00072-of-00074.safetensors",
+    "model.layers.35.self_attn.q_proj.bias": "model-00072-of-00074.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00072-of-00074.safetensors",
+    "model.layers.35.self_attn.sinks": "model-00072-of-00074.safetensors",
+    "model.layers.35.self_attn.v_proj.bias": "model-00072-of-00074.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00072-of-00074.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00012-of-00074.safetensors",
+    "model.layers.4.mlp.experts.down_proj": "model-00012-of-00074.safetensors",
+    "model.layers.4.mlp.experts.down_proj_bias": "model-00012-of-00074.safetensors",
+    "model.layers.4.mlp.experts.gate_up_proj": "model-00009-of-00074.safetensors",
+    "model.layers.4.mlp.experts.gate_up_proj_bias": "model-00010-of-00074.safetensors",
+    "model.layers.4.mlp.router.bias": "model-00010-of-00074.safetensors",
+    "model.layers.4.mlp.router.weight": "model-00010-of-00074.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00012-of-00074.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00010-of-00074.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00010-of-00074.safetensors",
+    "model.layers.4.self_attn.o_proj.bias": "model-00010-of-00074.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00010-of-00074.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00010-of-00074.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00010-of-00074.safetensors",
+    "model.layers.4.self_attn.sinks": "model-00010-of-00074.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00010-of-00074.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00010-of-00074.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00014-of-00074.safetensors",
+    "model.layers.5.mlp.experts.down_proj": "model-00014-of-00074.safetensors",
+    "model.layers.5.mlp.experts.down_proj_bias": "model-00014-of-00074.safetensors",
+    "model.layers.5.mlp.experts.gate_up_proj": "model-00011-of-00074.safetensors",
+    "model.layers.5.mlp.experts.gate_up_proj_bias": "model-00012-of-00074.safetensors",
+    "model.layers.5.mlp.router.bias": "model-00012-of-00074.safetensors",
+    "model.layers.5.mlp.router.weight": "model-00012-of-00074.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00014-of-00074.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00012-of-00074.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00012-of-00074.safetensors",
+    "model.layers.5.self_attn.o_proj.bias": "model-00012-of-00074.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00012-of-00074.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00012-of-00074.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00012-of-00074.safetensors",
+    "model.layers.5.self_attn.sinks": "model-00012-of-00074.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00012-of-00074.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00012-of-00074.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00016-of-00074.safetensors",
+    "model.layers.6.mlp.experts.down_proj": "model-00016-of-00074.safetensors",
+    "model.layers.6.mlp.experts.down_proj_bias": "model-00016-of-00074.safetensors",
+    "model.layers.6.mlp.experts.gate_up_proj": "model-00013-of-00074.safetensors",
+    "model.layers.6.mlp.experts.gate_up_proj_bias": "model-00014-of-00074.safetensors",
+    "model.layers.6.mlp.router.bias": "model-00014-of-00074.safetensors",
+    "model.layers.6.mlp.router.weight": "model-00014-of-00074.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00016-of-00074.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00014-of-00074.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00014-of-00074.safetensors",
+    "model.layers.6.self_attn.o_proj.bias": "model-00014-of-00074.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00014-of-00074.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00014-of-00074.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00014-of-00074.safetensors",
+    "model.layers.6.self_attn.sinks": "model-00014-of-00074.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00014-of-00074.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00014-of-00074.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00018-of-00074.safetensors",
+    "model.layers.7.mlp.experts.down_proj": "model-00018-of-00074.safetensors",
+    "model.layers.7.mlp.experts.down_proj_bias": "model-00018-of-00074.safetensors",
+    "model.layers.7.mlp.experts.gate_up_proj": "model-00015-of-00074.safetensors",
+    "model.layers.7.mlp.experts.gate_up_proj_bias": "model-00016-of-00074.safetensors",
+    "model.layers.7.mlp.router.bias": "model-00016-of-00074.safetensors",
+    "model.layers.7.mlp.router.weight": "model-00016-of-00074.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00018-of-00074.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00016-of-00074.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00016-of-00074.safetensors",
+    "model.layers.7.self_attn.o_proj.bias": "model-00016-of-00074.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00016-of-00074.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00016-of-00074.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00016-of-00074.safetensors",
+    "model.layers.7.self_attn.sinks": "model-00016-of-00074.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00016-of-00074.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00016-of-00074.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00020-of-00074.safetensors",
+    "model.layers.8.mlp.experts.down_proj": "model-00020-of-00074.safetensors",
+    "model.layers.8.mlp.experts.down_proj_bias": "model-00020-of-00074.safetensors",
+    "model.layers.8.mlp.experts.gate_up_proj": "model-00017-of-00074.safetensors",
+    "model.layers.8.mlp.experts.gate_up_proj_bias": "model-00018-of-00074.safetensors",
+    "model.layers.8.mlp.router.bias": "model-00018-of-00074.safetensors",
+    "model.layers.8.mlp.router.weight": "model-00018-of-00074.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00020-of-00074.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00018-of-00074.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00018-of-00074.safetensors",
+    "model.layers.8.self_attn.o_proj.bias": "model-00018-of-00074.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00018-of-00074.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00018-of-00074.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00018-of-00074.safetensors",
+    "model.layers.8.self_attn.sinks": "model-00018-of-00074.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00018-of-00074.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00018-of-00074.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00022-of-00074.safetensors",
+    "model.layers.9.mlp.experts.down_proj": "model-00022-of-00074.safetensors",
+    "model.layers.9.mlp.experts.down_proj_bias": "model-00022-of-00074.safetensors",
+    "model.layers.9.mlp.experts.gate_up_proj": "model-00019-of-00074.safetensors",
+    "model.layers.9.mlp.experts.gate_up_proj_bias": "model-00020-of-00074.safetensors",
+    "model.layers.9.mlp.router.bias": "model-00020-of-00074.safetensors",
+    "model.layers.9.mlp.router.weight": "model-00020-of-00074.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00022-of-00074.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00020-of-00074.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00020-of-00074.safetensors",
+    "model.layers.9.self_attn.o_proj.bias": "model-00020-of-00074.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00020-of-00074.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00020-of-00074.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00020-of-00074.safetensors",
+    "model.layers.9.self_attn.sinks": "model-00020-of-00074.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00020-of-00074.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00020-of-00074.safetensors",
+    "model.norm.weight": "model-00073-of-00074.safetensors"
+  }
+}