Training complete with QLoRA

Browse files

Files changed (7) hide show

model-00001-of-00006.safetensors +2 -2
model-00002-of-00006.safetensors +2 -2
model-00003-of-00006.safetensors +1 -1
model-00004-of-00006.safetensors +1 -1
model-00005-of-00006.safetensors +1 -1
model-00006-of-00006.safetensors +2 -2
model.safetensors.index.json +121 -121

model-00001-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34c2e9a997757bf5db3e8d86a2bbce2e5c7aeb41371438dcd96fd835de10a063
-size 4919438192

 version https://git-lfs.github.com/spec/v1
+oid sha256:747398eda77847ce76901386a65d1f86bfa37304dbc32877ee3e42a3ebd571eb
+size 4986211280

model-00002-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf93695cad9b572d9f2720c207ebe9dd269b60c14abf46e77415c0d43d326174
-size 4954847368

 version https://git-lfs.github.com/spec/v1
+oid sha256:83a2c4c011f62acee072f602db5270f6eba773b07aebe5c9d2717292b7d6fafa
+size 4954847344

model-00003-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47df37b436ed33974becf715e8193a883312731ae334af0f98de878d266cbc2e
 size 4954847392

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb743cec08fcc24dbd242fdfae2bd1b8f2b95abdcd55fee7bd2d9e03749d364c
 size 4954847392

model-00004-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5baa281f7b8bdef7479b5b99f671c5791706483d9df0fb2204985b8f4f1fd772
 size 4954847392

 version https://git-lfs.github.com/spec/v1
+oid sha256:110349d00711187d77bc2e6a40e58a7b8a4b647da9ba014acd87bc410e18738f
 size 4954847392

model-00005-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6aee3d4969d2d16a71fabd748e344e9451bf79bd4c2110325f74f4d35fcf695e
 size 4954847392

 version https://git-lfs.github.com/spec/v1
+oid sha256:723d03ccfe8690ac3735177c085528fafe809c9f91552c634b3db97564a4141e
 size 4954847392

model-00006-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be04960742eb812e639f664e5f29c04f22d793e871d671df7f06ea2c31b94488
-size 2076310288

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ef1ac4a8f850f989ea7fee95795c24fd452351c8d9af18b5a483c5cd56f2d59
+size 4734533160

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 26815071488
   },
   "weight_map": {
     "lm_head.weight": "model-00006-of-00006.safetensors",
@@ -89,11 +89,11 @@
     "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00006.safetensors",
     "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00002-of-00006.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
     "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00006.safetensors",
     "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
@@ -101,30 +101,30 @@
     "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00006.safetensors",
     "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00002-of-00006.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
-    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00006.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00006.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00006.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.17.input_layernorm.weight": "model-00003-of-00006.safetensors",
     "model.layers.17.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.17.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.17.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.17.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
-    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00006.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00006.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00006.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.18.input_layernorm.weight": "model-00003-of-00006.safetensors",
     "model.layers.18.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.18.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
@@ -209,11 +209,11 @@
     "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00006.safetensors",
     "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00003-of-00006.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
     "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00006.safetensors",
     "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
@@ -221,30 +221,30 @@
     "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00006.safetensors",
     "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00003-of-00006.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00006.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00006.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00006.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.26.input_layernorm.weight": "model-00004-of-00006.safetensors",
     "model.layers.26.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.26.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.26.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.26.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00006.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00006.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00006.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00004-of-00006.safetensors",
     "model.layers.27.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.27.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
@@ -329,11 +329,11 @@
     "model.layers.32.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.32.self_attn.v_proj.bias": "model-00004-of-00006.safetensors",
     "model.layers.32.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.33.input_layernorm.weight": "model-00004-of-00006.safetensors",
-    "model.layers.33.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.33.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.33.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.33.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
     "model.layers.33.self_attn.k_proj.bias": "model-00004-of-00006.safetensors",
     "model.layers.33.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.33.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
@@ -341,30 +341,30 @@
     "model.layers.33.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.33.self_attn.v_proj.bias": "model-00004-of-00006.safetensors",
     "model.layers.33.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.34.input_layernorm.weight": "model-00004-of-00006.safetensors",
-    "model.layers.34.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.34.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.34.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.34.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
-    "model.layers.34.self_attn.k_proj.bias": "model-00004-of-00006.safetensors",
-    "model.layers.34.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.34.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.34.self_attn.q_proj.bias": "model-00004-of-00006.safetensors",
-    "model.layers.34.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.34.self_attn.v_proj.bias": "model-00004-of-00006.safetensors",
-    "model.layers.34.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.35.input_layernorm.weight": "model-00005-of-00006.safetensors",
     "model.layers.35.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.35.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.35.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.35.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
-    "model.layers.35.self_attn.k_proj.bias": "model-00004-of-00006.safetensors",
-    "model.layers.35.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.35.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.35.self_attn.q_proj.bias": "model-00004-of-00006.safetensors",
-    "model.layers.35.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.35.self_attn.v_proj.bias": "model-00004-of-00006.safetensors",
-    "model.layers.35.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.36.input_layernorm.weight": "model-00005-of-00006.safetensors",
     "model.layers.36.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.36.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
@@ -449,11 +449,11 @@
     "model.layers.41.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.41.self_attn.v_proj.bias": "model-00005-of-00006.safetensors",
     "model.layers.41.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.42.input_layernorm.weight": "model-00005-of-00006.safetensors",
-    "model.layers.42.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.42.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.42.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.42.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
     "model.layers.42.self_attn.k_proj.bias": "model-00005-of-00006.safetensors",
     "model.layers.42.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.42.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
@@ -461,30 +461,30 @@
     "model.layers.42.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.42.self_attn.v_proj.bias": "model-00005-of-00006.safetensors",
     "model.layers.42.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.43.input_layernorm.weight": "model-00005-of-00006.safetensors",
-    "model.layers.43.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.43.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.43.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.43.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
-    "model.layers.43.self_attn.k_proj.bias": "model-00005-of-00006.safetensors",
-    "model.layers.43.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.43.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.43.self_attn.q_proj.bias": "model-00005-of-00006.safetensors",
-    "model.layers.43.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.43.self_attn.v_proj.bias": "model-00005-of-00006.safetensors",
-    "model.layers.43.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.44.input_layernorm.weight": "model-00006-of-00006.safetensors",
     "model.layers.44.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.44.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.44.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.44.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
-    "model.layers.44.self_attn.k_proj.bias": "model-00005-of-00006.safetensors",
-    "model.layers.44.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.44.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.44.self_attn.q_proj.bias": "model-00005-of-00006.safetensors",
-    "model.layers.44.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.44.self_attn.v_proj.bias": "model-00005-of-00006.safetensors",
-    "model.layers.44.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.45.input_layernorm.weight": "model-00006-of-00006.safetensors",
     "model.layers.45.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.45.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
@@ -533,11 +533,11 @@
     "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00006.safetensors",
     "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00001-of-00006.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
     "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00006.safetensors",
     "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
@@ -545,30 +545,30 @@
     "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00006.safetensors",
     "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00001-of-00006.safetensors",
-    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
-    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00006.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00006.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00006.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.8.input_layernorm.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
-    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00006.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00006.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00006.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.9.input_layernorm.weight": "model-00002-of-00006.safetensors",
     "model.layers.9.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",

 {
   "metadata": {
+    "total_size": 29540067328
   },
   "weight_map": {
     "lm_head.weight": "model-00006-of-00006.safetensors",
     "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00006.safetensors",
     "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
     "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00006.safetensors",
     "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00006.safetensors",
     "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.17.input_layernorm.weight": "model-00003-of-00006.safetensors",
     "model.layers.17.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.17.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.17.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.17.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.18.input_layernorm.weight": "model-00003-of-00006.safetensors",
     "model.layers.18.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.18.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00006.safetensors",
     "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
     "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00006.safetensors",
     "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00006.safetensors",
     "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00004-of-00006.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00004-of-00006.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00004-of-00006.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.26.input_layernorm.weight": "model-00004-of-00006.safetensors",
     "model.layers.26.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.26.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.26.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.26.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00004-of-00006.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00004-of-00006.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00004-of-00006.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00004-of-00006.safetensors",
     "model.layers.27.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.27.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.32.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.32.self_attn.v_proj.bias": "model-00004-of-00006.safetensors",
     "model.layers.32.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
     "model.layers.33.self_attn.k_proj.bias": "model-00004-of-00006.safetensors",
     "model.layers.33.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.33.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.33.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.33.self_attn.v_proj.bias": "model-00004-of-00006.safetensors",
     "model.layers.33.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.34.self_attn.k_proj.bias": "model-00005-of-00006.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.34.self_attn.q_proj.bias": "model-00005-of-00006.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.34.self_attn.v_proj.bias": "model-00005-of-00006.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.35.input_layernorm.weight": "model-00005-of-00006.safetensors",
     "model.layers.35.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.35.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.35.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.35.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.35.self_attn.k_proj.bias": "model-00005-of-00006.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.35.self_attn.q_proj.bias": "model-00005-of-00006.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.35.self_attn.v_proj.bias": "model-00005-of-00006.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.36.input_layernorm.weight": "model-00005-of-00006.safetensors",
     "model.layers.36.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.36.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.41.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.41.self_attn.v_proj.bias": "model-00005-of-00006.safetensors",
     "model.layers.41.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.42.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.42.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.42.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.42.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
     "model.layers.42.self_attn.k_proj.bias": "model-00005-of-00006.safetensors",
     "model.layers.42.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.42.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.42.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.42.self_attn.v_proj.bias": "model-00005-of-00006.safetensors",
     "model.layers.42.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.43.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.43.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.43.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.43.self_attn.k_proj.bias": "model-00006-of-00006.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.43.self_attn.q_proj.bias": "model-00006-of-00006.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.43.self_attn.v_proj.bias": "model-00006-of-00006.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.44.input_layernorm.weight": "model-00006-of-00006.safetensors",
     "model.layers.44.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.44.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.44.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.44.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.44.self_attn.k_proj.bias": "model-00006-of-00006.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.44.self_attn.q_proj.bias": "model-00006-of-00006.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.44.self_attn.v_proj.bias": "model-00006-of-00006.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.45.input_layernorm.weight": "model-00006-of-00006.safetensors",
     "model.layers.45.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.45.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00006.safetensors",
     "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
     "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00006.safetensors",
     "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00006.safetensors",
     "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.input_layernorm.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.9.input_layernorm.weight": "model-00002-of-00006.safetensors",
     "model.layers.9.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",