jobs-git

igitman commited on Apr 27

Commit

3fafc9f

verified ·

0 Parent(s):

Duplicate from nvidia/OpenMath-Nemotron-32B

Browse files

Co-authored-by: Igor Gitman <[email protected]>

Files changed (23) hide show

.gitattributes +37 -0
BIAS.md +4 -0
EXPLAINABILITY.md +13 -0
PRIVACY.md +9 -0
README.md +218 -0
SAFETY.md +6 -0
added_tokens.json +24 -0
config.json +29 -0
generation_config.json +6 -0
merges.txt +0 -0
model-00001-of-00007.safetensors +3 -0
model-00002-of-00007.safetensors +3 -0
model-00003-of-00007.safetensors +3 -0
model-00004-of-00007.safetensors +3 -0
model-00005-of-00007.safetensors +3 -0
model-00006-of-00007.safetensors +3 -0
model-00007-of-00007.safetensors +3 -0
model.safetensors.index.json +778 -0
results.png +3 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +208 -0
vocab.json +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,37 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
+results.png filter=lfs diff=lfs merge=lfs -text

BIAS.md ADDED Viewed

	@@ -0,0 +1,4 @@

+Field                                                                                               |  Response
+:---------------------------------------------------------------------------------------------------|:---------------
+Participation considerations from adversely impacted groups [protected classes](https://www.senate.ca.gov/content/protected-classes) in model design and testing:  |  None
+Measures taken to mitigate against unwanted bias:                                                   |  None

EXPLAINABILITY.md ADDED Viewed

	@@ -0,0 +1,13 @@

+Field                                                                                                  |  Response
+:------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------
+Intended Domain:                                                                   |  Text generation, reasoning, solving mathematical problems.
+Model Type:                                                                                            |  Text-to-text transformer
+Intended Users:                                                                                        |  This model is intended for developers, researchers, and customers building/utilizing LLMs.
+Output:                                                                                                |  Text String(s)
+Describe how the model works:                                                                          |  Generates text by predicting the next word or token based on the context provided in the input sequence using multiple self-attention layers.
+Name the adversely impacted groups this has been tested to deliver comparable outcomes regardless of:  |  Not Applicable
+Technical Limitations & Mitigation:                                                                    |  The model was optimized for solving mathematical problems and thus might not be able to provide adequate answers for non-mathematical queries.  The model was trained on questions with verifiable final answers, and thus may not be able to prove theorems.
+Verified to have met prescribed NVIDIA quality standards:  |  Yes
+Performance Metrics:                                                                                   |  Accuracy
+Potential Known Risks:                                                                                 |  The model was optimized explicitly for solving mathematical problems and as such is more susceptible to prompt injection and jailbreaking in various forms as a result of its training. This means that the model should be paired with additional rails or system filtering to limit exposure to instructions from malicious sources -- either directly or indirectly by retrieval (e.g. via visiting a website) -- as they may yield outputs that can lead to harmful, system-level outcomes up to and including remote code execution in agentic systems when effective security controls including guardrails are not in place. The model was trained on data that contains toxic language and societal biases originally crawled from the internet. Therefore, the model may amplify those biases and return toxic responses especially when prompted with toxic prompts. The model may generate answers that may be inaccurate, omit key information, or include irrelevant or redundant text producing socially unacceptable or undesirable text, even if the prompt itself does not include anything explicitly offensive.
+Licensing:                                                                                             | Use of this model is governed by [CC-BY-4.0]((https://creativecommons.org/licenses/by/4.0/)) license. Additional Information: [Apache License Version 2.0](https://huggingface.co/Qwen/Qwen2.5-Math-1.5B/blob/main/LICENSE)

PRIVACY.md ADDED Viewed

	@@ -0,0 +1,9 @@

+Field                                                                                                                              |  Response
+:----------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------
+Generatable or reverse engineerable personal data?                                                                                 |  None
+Personal data used to create this model?                                                                                           |  None Known
+How often is dataset reviewed?                                                                                                     |  Before Release
+Is there provenance for all datasets used in training?                                                                             |  Yes
+Does data labeling (annotation, metadata) comply with privacy laws?                                                                |  Yes
+Is data compliant with data subject requests for data correction or removal, if such a request was made?                           |  No, not possible with externally-sourced data.
+Applicable Privacy Policy                                                                                                           |  https://www.nvidia.com/en-us/about-nvidia/privacy-policy/

README.md ADDED Viewed

	@@ -0,0 +1,218 @@

+---
+license: cc-by-4.0
+base_model:
+- Qwen/Qwen2.5-32B
+datasets:
+- nvidia/OpenMathReasoning
+language:
+- en
+tags:
+- nvidia
+- math
+library_name: transformers
+---
+# OpenMath-Nemotron-32B
+OpenMath-Nemotron-32B is created by finetuning [Qwen/Qwen2.5-32B](https://huggingface.co/Qwen/Qwen2.5-32B) on [OpenMathReasoning](https://huggingface.co/datasets/nvidia/OpenMathReasoning) dataset.
+This model is ready for commercial use.
+![Evaluation Results](./results.png)
+OpenMath-Nemotron models achieve state-of-the-art results on popular mathematical benchmarks. We present metrics as pass@1 (maj@64) where pass@1
+is an average accuracy across 64 generations and maj@64 is the result of majority voting.
+Please see our [paper](https://arxiv.org/abs/2504.16891) for more details on the evaluation setup.
+| Model                         | AIME24 |  AIME25     |  HMMT-24-25     | HLE-Math    |
+|-------------------------------|-----------------|-------|-------|-------------|
+| DeepSeek-R1-Distill-Qwen-1.5B | 26.8 (60.0)     | 21.4 (36.7) | 14.2 (26.5) | 2.9 (5.0)   |
+| [OpenMath-Nemotron-1.5B](https://huggingface.co/nvidia/OpenMath-Nemotron-1.5B) CoT   | 61.6 (80.0)     | 49.5 (66.7) | 39.9 (53.6) | 5.4 (5.4)   |
+| [OpenMath-Nemotron-1.5B](https://huggingface.co/nvidia/OpenMath-Nemotron-1.5B) TIR   | 52.0 (83.3)     | 39.7 (70.0) | 37.2 (60.7) | 2.5 (6.2)   |
+| + Self GenSelect              | 83.3            | 70.0  | 62.2  | 7.9         |
+| + 32B GenSelect               | 83.3            | 70.0  | 62.8  | 8.3         |
+| DeepSeek-R1-Distill-Qwen-7B  | 54.4 (80.0)     | 38.6 (53.3) | 30.6 (42.9) | 3.3 (5.2)   |
+| [OpenMath-Nemotron-7B](https://huggingface.co/nvidia/OpenMath-Nemotron-7B) CoT    | 74.8 (80.0)     | 61.2 (76.7) | 49.7 (57.7) | 6.6 (6.6)   |
+| [OpenMath-Nemotron-7B](https://huggingface.co/nvidia/OpenMath-Nemotron-7B) TIR    | 72.9 (83.3)     | 57.5 (76.7) | 54.6 (66.3) | 7.8 (10.8)  |
+| + Self GenSelect              | 86.7            | 76.7  | 68.4  | 11.5        |
+| + 32B GenSelect               | 86.7            | 76.7  | 69.9  | 11.9        |
+| DeepSeek-R1-Distill-Qwen-14B | 65.8 (80.0)     | 48.4 (60.0) | 40.1 (52.0) | 4.2 (4.8)   |
+| [OpenMath-Nemotron-14B-MIX (kaggle)](https://huggingface.co/nvidia/OpenMath-Nemotron-14B-Kaggle) | 73.7 (86.7) | 57.9 (73.3) | 50.5 (64.8) | 5.7 (6.5)   |
+| [OpenMath-Nemotron-14B](https://huggingface.co/nvidia/OpenMath-Nemotron-14B) CoT   | 76.3 (83.3)     | 63.0 (76.7) | 52.1 (60.7) | 7.5 (7.6)   |
+| [OpenMath-Nemotron-14B](https://huggingface.co/nvidia/OpenMath-Nemotron-14B) TIR   | 76.3 (86.7)     | 61.3 (76.7) | 58.6 (70.9) | 9.5 (11.5)  |
+| + Self GenSelect              | 86.7            | 76.7  | 72.4  | 14.1        |
+| + 32B GenSelect               | 90.0            | 76.7  | 71.9  | 13.7        |
+| QwQ-32B                       | 78.1 (86.7)     | 66.5 (76.7) | 55.9 (63.3) | 9.0 (9.5)   |
+| DeepSeek-R1-Distill-Qwen-32B | 66.9 (83.3)     | 51.8 (73.3) | 39.9 (51.0) | 4.8 (6.0)   |
+| [OpenMath-Nemotron-32B](https://huggingface.co/nvidia/OpenMath-Nemotron-32B) CoT   | 76.5 (86.7)     | 62.5 (73.3) | 53.0 (59.2) | 8.3 (8.3)   |
+| [OpenMath-Nemotron-32B](https://huggingface.co/nvidia/OpenMath-Nemotron-32B) TIR   | 78.4 (93.3)     | 64.2 (76.7) | 59.7 (70.9) | 9.2 (12.5)  |
+| + Self GenSelect              | 93.3            | 80.0  | 73.5  | 15.7        |
+| DeepSeek-R1                   | 79.1 (86.7)     | 64.3 (73.3) | 53.0 (59.2) | 10.5 (11.4) |
+We used [a version of OpenMath-Nemotron-14B](https://huggingface.co/nvidia/OpenMath-Nemotron-14B-Kaggle) model to secure
+the first place in [AIMO-2 Kaggle competition](https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/leaderboard)!
+## Reproducing our results
+The pipeline we used to produce the data and models is fully open-sourced!
+- [Code](https://github.com/NVIDIA/NeMo-Skills)
+- [Models](https://huggingface.co/collections/nvidia/openmathreasoning-68072c0154a5099573d2e730)
+- [Dataset](https://huggingface.co/datasets/nvidia/OpenMathReasoning)
+- [Paper](https://arxiv.org/abs/2504.16891)
+We provide [all instructions](https://nvidia.github.io/NeMo-Skills/openmathreasoning1/)
+to fully reproduce our results, including data generation.
+# How to use the models?
+Our models can be used in 3 inference modes: chain-of-thought (CoT), tool-integrated reasoning (TIR) and generative solution selection (GenSelect).
+To run inference with CoT mode, you can use this example code snippet.
+```python
+import transformers
+import torch
+model_id = "nvidia/OpenMath-Nemotron-32B"
+pipeline = transformers.pipeline(
+    "text-generation",
+    model=model_id,
+    model_kwargs={"torch_dtype": torch.bfloat16},
+    device_map="auto",
+)
+messages = [
+    {
+        "role": "user",
+        "content": "Solve the following math problem. Make sure to put the answer (and only answer) inside \\boxed{}.\n\n" +
+        "What is the minimum value of $a^2+6a-7$?"},
+]
+outputs = pipeline(
+    messages,
+    max_new_tokens=4096,
+)
+print(outputs[0]["generated_text"][-1]['content'])
+```
+To run inference with TIR or GenSelect modes, we highly recommend to use our
+[reference implementation in NeMo-Skills](https://nvidia.github.io/NeMo-Skills/openmathreasoning1/evaluation/).
+Please note that these models have not been instruction tuned on general data and thus might not provide good answers outside of math domain.
+## Citation
+If you find our work useful, please consider citing us!
+```bibtex
+@article{moshkov2025aimo2,
+  title   = {AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset},
+  author  = {Ivan Moshkov and Darragh Hanley and Ivan Sorokin and Shubham Toshniwal and Christof Henkel and Benedikt Schifferer and Wei Du and Igor Gitman},
+  year    = {2025},
+  journal = {arXiv preprint arXiv:2504.16891}
+}
+```
+## Additional information
+### License/Terms of Use: <br>
+GOVERNING TERMS: Use of this model is governed by [CC-BY-4.0](https://creativecommons.org/licenses/by/4.0/legalcode.en).
+Additional Information: [Apache License Version 2.0](https://huggingface.co/Qwen/Qwen2.5-Math-1.5B/blob/main/LICENSE).
+### Deployment Geography:
+Global <br>
+### Use Case: <br>
+This model is intended to facilitate research in the area of mathematical reasoning.
+### Release Date:  <br>
+Huggingface 04/23/2025 <br>
+## Model Architecture: <br>
+**Architecture Type:** Transformer decoder-only language model  <br>
+**Network Architecture:** Qwen2.5 <br>
+**This model was developed based on Qwen2.5-1.5B <br>
+** This model has 1.5B of model parameters. <br>
+## Input: <br>
+**Input Type(s):** Text <br>
+**Input Format(s):** String <br>
+**Input Parameters:** One-Dimensional (1D) <br>
+**Other Properties Related to Input:** Context length up to 131,072 tokens <br>
+## Output: <br>
+**Output Type(s):** Text <br>
+**Output Format:** String <br>
+**Output Parameters:** One-Dimensional (1D) <br>
+**Other Properties Related to Output:** Context length up to 131,072 tokens <br>
+Our AI models are designed and/or optimized to run on NVIDIA GPU-accelerated systems. By leveraging NVIDIA’s hardware (e.g. GPU cores) and software frameworks (e.g., CUDA libraries), the model achieves faster training and inference times compared to CPU-only solutions. <br>
+## Software Integration : <br>
+**Runtime Engine(s):** <br>
+* Tensor RT / Triton <br>
+**Supported Hardware Microarchitecture Compatibility:** <br>
+* NVIDIA Ampere <br>
+* NVIDIA Hopper <br>
+**Preferred Operating System(s):** <br>
+* Linux <br>
+## Model Version(s):
+[OpenMath-Nemotron-1.5B](https://huggingface.co/nvidia/OpenMath-Nemotron-1.5B)
+[OpenMath-Nemotron-7B](https://huggingface.co/nvidia/OpenMath-Nemotron-7B)
+[OpenMath-Nemotron-14B](https://huggingface.co/nvidia/OpenMath-Nemotron-14B)
+[OpenMath-Nemotron-32B](https://huggingface.co/nvidia/OpenMath-Nemotron-32B)
+# Ethical Considerations:
+NVIDIA believes Trustworthy AI is a shared responsibility and we have established policies and practices to enable development for a wide array of AI applications.  When downloaded or used in accordance with our terms of service, developers should work with their internal model team to ensure this model meets requirements for the relevant industry and use case and addresses unforeseen product misuse.
+For more detailed information on ethical considerations for this model, please see the Model Card++ [Explainability](./EXPLAINABILITY.md), [Bias](./BIAS.md), [Safety & Security](./SAFETY.md), and [Privacy](./PRIVACY.md) Subcards.
+Please report security vulnerabilities or NVIDIA AI Concerns [here](https://www.nvidia.com/en-us/support/submit-security-vulnerability/).

SAFETY.md ADDED Viewed

	@@ -0,0 +1,6 @@

+Field                                               |  Response
+:---------------------------------------------------|:----------------------------------
+Model Application(s):                               |  Text generation, reasoning, solving mathematical problems.
+Use Case Restrictions:                              |  Use of this model is governed by [CC-BY-4.0](https://creativecommons.org/licenses/by/4.0/) license
+Model and dataset restrictions:                     |  The Principle of least privilege (PoLP) is applied limiting access for dataset generation. Restrictions enforce dataset access during training, and dataset license constraints adhered to. Model checkpoints are made available on Hugging Face.
+Use Case Restrictions:                              |  Use of this model is governed by [CC-BY-4.0]((https://creativecommons.org/licenses/by/4.0/)) license. Additional Information: [Apache License Version 2.0](https://huggingface.co/Qwen/Qwen2.5-Math-1.5B/blob/main/LICENSE)

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "nvidia/OpenMath-Nemotron-32B",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 5120,
+  "initializer_range": 0.02,
+  "intermediate_size": 27648,
+  "max_position_embeddings": 131072,
+  "max_window_layers": 70,
+  "model_type": "qwen2",
+  "num_attention_heads": 40,
+  "num_hidden_layers": 64,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.47.1",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "transformers_version": "4.47.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:706d0030bb5cdc82069a5e14b543de2797dfc62e63f12b21a2851c6fb1342ee2
+size 9767790336

model-00002-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:219f15c532475efc733e41bd96cc75cac9a018c54340c335280971115d366435
+size 9752118784

model-00003-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34b14ffb823dd9b1fd4d98703ed9fec15ba54c19c03dc35732bc4a31dfef9691
+size 9752118816

model-00004-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3765102f90b774e9148df176a5e417b46de4c7af27b195b8a1841a36f5d450b0
+size 9752118816

model-00005-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f582d1fcd0a088da20f9c184179c63b2f99b8fa999524fe3e87a8e8ea0e3d1ac
+size 9752118816

model-00006-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9997357f519fdb9c24f6a3127f2aa09e543e52be9d6adbbe71224060004dc257
+size 9752118816

model-00007-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d659b0d09239b3af1f0d86e0a17dd7dba77c0cfef37703835c5d7dd0b5ded88f
+size 6999457200

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,778 @@

+{
+  "metadata": {
+    "total_size": 65527752704
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00007-of-00007.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.38.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.38.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.38.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.40.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.48.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.48.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.48.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.48.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.48.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.48.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.48.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.48.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.48.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.48.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.48.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.48.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.49.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.50.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.58.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.58.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.58.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.58.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.58.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.58.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.58.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.58.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.58.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.58.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.58.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.58.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.59.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.k_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.q_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.v_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.60.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.k_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.q_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.v_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.k_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.q_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.v_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.k_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.q_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.v_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.k_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.q_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.v_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.norm.weight": "model-00007-of-00007.safetensors"
+  }
+}

results.png ADDED Viewed

Git LFS Details

SHA256: a8115e5e3cebce5d165e72dc1ea1dde8ba7cf0af837c57f137c891159f5a8176
Pointer size: 131 Bytes
Size of remote file: 219 kB

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
+size 11421896

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if messages[0]['role'] == 'system' %}\n    {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}\n{%- else %}\n    {{- '<|im_start|>system\n<|im_end|>\n' }}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == 'user') or (message.role == 'system' and not loop.first) or (message.role == 'assistant') %}\n        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\n' }}\n{%- endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff