diff --git "a/logs.txt" "b/logs.txt"
new file mode 100644--- /dev/null
+++ "b/logs.txt"
@@ -0,0 +1,727 @@
+/home/junrushao/micromamba/envs/python311/bin/python -m mlc_chat gen_config /opt/scratch/assets/starcoder --quantization q3f16_1 --conv-template LM --output /home/junrushao/tmp/tmpq64f2pg_ --context-window-size 8192
+[2024-01-08 19:22:37] INFO auto_config.py:115: Found model configuration: /opt/scratch/assets/starcoder/config.json
+[2024-01-08 19:22:37] INFO auto_config.py:151: Found model type: gpt_bigcode. Use `--model-type` to override.
+[2024-01-08 19:22:37] INFO gpt_bigcode_model.py:41: context_window_size not found in config.json. Falling back to n_positions (8192)
+[2024-01-08 19:22:37] INFO gpt_bigcode_model.py:54: prefill_chunk_size defaults to context_window_size (8192)
+[2024-01-08 19:22:37] INFO compiler_flags.py:118: Overriding context_window_size from 8192 to 8192
+[2024-01-08 19:22:37] INFO gen_config.py:117: [generation_config.json] Setting bos_token_id: 0
+[2024-01-08 19:22:37] INFO gen_config.py:117: [generation_config.json] Setting eos_token_id: 0
+[2024-01-08 19:22:37] INFO gen_config.py:131: Not found tokenizer config: /opt/scratch/assets/starcoder/tokenizer.model
+[2024-01-08 19:22:37] INFO gen_config.py:129: Found tokenizer config: /opt/scratch/assets/starcoder/tokenizer.json. Copying to /home/junrushao/tmp/tmpq64f2pg_/tokenizer.json
+[2024-01-08 19:22:37] INFO gen_config.py:129: Found tokenizer config: /opt/scratch/assets/starcoder/vocab.json. Copying to /home/junrushao/tmp/tmpq64f2pg_/vocab.json
+[2024-01-08 19:22:37] INFO gen_config.py:129: Found tokenizer config: /opt/scratch/assets/starcoder/merges.txt. Copying to /home/junrushao/tmp/tmpq64f2pg_/merges.txt
+[2024-01-08 19:22:37] INFO gen_config.py:131: Not found tokenizer config: /opt/scratch/assets/starcoder/added_tokens.json
+[2024-01-08 19:22:37] INFO gen_config.py:129: Found tokenizer config: /opt/scratch/assets/starcoder/tokenizer_config.json. Copying to /home/junrushao/tmp/tmpq64f2pg_/tokenizer_config.json
+[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting pad_token_id: 0
+[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting temperature: 0.7
+[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting repetition_penalty: 1.0
+[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting top_p: 0.95
+[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting mean_gen_len: 128
+[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting max_gen_len: 512
+[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting shift_fill_factor: 0.3
+[2024-01-08 19:22:37] INFO gen_config.py:159: Dumping configuration file to: /home/junrushao/tmp/tmpq64f2pg_/mlc-chat-config.json
+/home/junrushao/micromamba/envs/python311/bin/python -m mlc_chat convert_weight /opt/scratch/assets/starcoder --quantization q3f16_1 --source-format auto --output /home/junrushao/tmp/tmpq64f2pg_
+[2024-01-08 19:22:38] INFO auto_config.py:115: Found model configuration: /opt/scratch/assets/starcoder/config.json
+[2024-01-08 19:22:39] INFO auto_device.py:76: Found device: cuda:0
+[2024-01-08 19:22:39] INFO auto_device.py:76: Found device: cuda:1
+[2024-01-08 19:22:39] INFO auto_device.py:76: Found device: cuda:2
+[2024-01-08 19:22:39] INFO auto_device.py:76: Found device: cuda:3
+[2024-01-08 19:22:39] INFO auto_device.py:85: Not found device: rocm:0
+[2024-01-08 19:22:40] INFO auto_device.py:85: Not found device: metal:0
+[2024-01-08 19:22:40] INFO auto_device.py:85: Not found device: vulkan:0
+[2024-01-08 19:22:40] INFO auto_device.py:85: Not found device: opencl:0
+[2024-01-08 19:22:40] INFO auto_device.py:33: Using device: cuda:0
+[2024-01-08 19:22:40] INFO auto_weight.py:70: Finding weights in: /opt/scratch/assets/starcoder
+[2024-01-08 19:22:40] INFO auto_weight.py:120: Found source weight format: huggingface-torch. Source configuration: /opt/scratch/assets/starcoder/pytorch_model.bin.index.json
+[2024-01-08 19:22:40] INFO auto_weight.py:167: Not found Huggingface Safetensor
+[2024-01-08 19:22:40] INFO auto_weight.py:106: Using source weight configuration: /opt/scratch/assets/starcoder/pytorch_model.bin.index.json. Use `--source` to override.
+[2024-01-08 19:22:40] INFO auto_weight.py:110: Using source weight format: huggingface-torch. Use `--source-format` to override.
+[2024-01-08 19:22:40] INFO auto_config.py:151: Found model type: gpt_bigcode. Use `--model-type` to override.
+[2024-01-08 19:22:40] INFO gpt_bigcode_model.py:41: context_window_size not found in config.json. Falling back to n_positions (8192)
+[2024-01-08 19:22:40] INFO gpt_bigcode_model.py:54: prefill_chunk_size defaults to context_window_size (8192)
+Weight conversion with arguments:
+  --config          /opt/scratch/assets/starcoder/config.json
+  --quantization    GroupQuantize(name='q3f16_1', kind='group-quant', group_size=40, quantize_dtype='int3', storage_dtype='uint32', model_dtype='float16', num_elem_per_storage=10, num_storage_per_group=4, max_int_value=3)
+  --model-type      gpt_bigcode
+  --device          cuda:0
+  --source          /opt/scratch/assets/starcoder/pytorch_model.bin.index.json
+  --source-format   huggingface-torch
+  --output          /home/junrushao/tmp/tmpq64f2pg_
+
  0%|                                                                                                                                                                                                                | 0/485 [00:00<?, ?it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:45] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00007-of-00007.bin
+
  0%|                                                                                                                                                                                                                | 0/485 [00:00<?, ?it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:50] INFO group_quantization.py:212: Compiling quantize function for key: (49152, 6144, 'float16', 'cuda')
+
  0%|                                                                                                                                                                                                                | 0/485 [00:05<?, ?it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:51] INFO huggingface_loader.py:121: [Quantized] Parameter: "lm_head.q_weight", shape: (49152, 616), dtype: uint32
+
  0%|                                                                                                                                                                                                                | 0/485 [00:06<?, ?it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:51] INFO huggingface_loader.py:121: [Quantized] Parameter: "lm_head.q_scale", shape: (49152, 154), dtype: float16
+
  0%|                                                                                                                                                                                                                | 0/485 [00:06<?, ?it/s]
  0%|▍                                                                                                                                                                                                       | 1/485 [00:06<52:18,  6.48s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:51] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.38.attn.c_proj.bias", shape: (6144,), dtype: float16
+
  0%|▍                                                                                                                                                                                                       | 1/485 [00:06<52:18,  6.48s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:51] INFO group_quantization.py:212: Compiling quantize function for key: (6144, 6144, 'float16', 'cuda')
+
  0%|▍                                                                                                                                                                                                       | 1/485 [00:06<52:18,  6.48s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:52] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.38.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
  0%|▍                                                                                                                                                                                                       | 1/485 [00:07<52:18,  6.48s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:52] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.38.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
  0%|▍                                                                                                                                                                                                       | 1/485 [00:07<52:18,  6.48s/it]
  1%|█▏                                                                                                                                                                                                      | 3/485 [00:07<15:27,  1.92s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:52] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.38.ln_2.bias", shape: (6144,), dtype: float16
+
  1%|█▏                                                                                                                                                                                                      | 3/485 [00:07<15:27,  1.92s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:52] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.38.ln_2.weight", shape: (6144,), dtype: float16
+
  1%|█▏                                                                                                                                                                                                      | 3/485 [00:07<15:27,  1.92s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:52] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.38.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
  1%|█▏                                                                                                                                                                                                      | 3/485 [00:07<15:27,  1.92s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:52] INFO group_quantization.py:212: Compiling quantize function for key: (24576, 6144, 'float16', 'cuda')
+
  1%|█▏                                                                                                                                                                                                      | 3/485 [00:07<15:27,  1.92s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:53] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.38.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
  1%|█▏                                                                                                                                                                                                      | 3/485 [00:08<15:27,  1.92s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:53] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.38.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
  1%|█▏                                                                                                                                                                                                      | 3/485 [00:08<15:27,  1.92s/it]
  1%|██▉                                                                                                                                                                                                     | 7/485 [00:08<06:26,  1.24it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:53] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.38.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
  1%|██▉                                                                                                                                                                                                     | 7/485 [00:08<06:26,  1.24it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:54] INFO group_quantization.py:212: Compiling quantize function for key: (6144, 24576, 'float16', 'cuda')
+
  1%|██▉                                                                                                                                                                                                     | 7/485 [00:08<06:26,  1.24it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:54] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.38.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
  1%|██▉                                                                                                                                                                                                     | 7/485 [00:09<06:26,  1.24it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:54] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.38.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
  1%|██▉                                                                                                                                                                                                     | 7/485 [00:09<06:26,  1.24it/s]
  2%|███▋                                                                                                                                                                                                    | 9/485 [00:09<05:45,  1.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:54] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.39.attn.c_attn.bias", shape: (6400,), dtype: float16
+
  2%|███▋                                                                                                                                                                                                    | 9/485 [00:09<05:45,  1.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:54] INFO group_quantization.py:212: Compiling quantize function for key: (6400, 6144, 'float16', 'cuda')
+
  2%|███▋                                                                                                                                                                                                    | 9/485 [00:09<05:45,  1.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.39.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
  2%|███▋                                                                                                                                                                                                    | 9/485 [00:10<05:45,  1.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.39.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
  2%|███▋                                                                                                                                                                                                    | 9/485 [00:10<05:45,  1.38it/s]
  2%|████▌                                                                                                                                                                                                  | 11/485 [00:10<04:44,  1.66it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.39.attn.c_proj.bias", shape: (6144,), dtype: float16
+
  2%|████▌                                                                                                                                                                                                  | 11/485 [00:10<04:44,  1.66it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.39.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
  2%|████▌                                                                                                                                                                                                  | 11/485 [00:10<04:44,  1.66it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.39.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
  2%|████▌                                                                                                                                                                                                  | 11/485 [00:10<04:44,  1.66it/s]
  3%|█████▎                                                                                                                                                                                                 | 13/485 [00:10<03:26,  2.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.39.ln_1.bias", shape: (6144,), dtype: float16
+
  3%|█████▎                                                                                                                                                                                                 | 13/485 [00:10<03:26,  2.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.39.ln_1.weight", shape: (6144,), dtype: float16
+
  3%|█████▎                                                                                                                                                                                                 | 13/485 [00:10<03:26,  2.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.39.ln_2.bias", shape: (6144,), dtype: float16
+
  3%|█████▎                                                                                                                                                                                                 | 13/485 [00:10<03:26,  2.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.39.ln_2.weight", shape: (6144,), dtype: float16
+
  3%|█████▎                                                                                                                                                                                                 | 13/485 [00:10<03:26,  2.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.39.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
  3%|█████▎                                                                                                                                                                                                 | 13/485 [00:10<03:26,  2.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.39.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
  3%|█████▎                                                                                                                                                                                                 | 13/485 [00:10<03:26,  2.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.39.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
  3%|█████▎                                                                                                                                                                                                 | 13/485 [00:10<03:26,  2.28it/s]
  4%|███████▊                                                                                                                                                                                               | 19/485 [00:10<01:54,  4.06it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.39.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
  4%|███████▊                                                                                                                                                                                               | 19/485 [00:10<01:54,  4.06it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.39.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
  4%|███████▊                                                                                                                                                                                               | 19/485 [00:11<01:54,  4.06it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.39.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
  4%|███████▊                                                                                                                                                                                               | 19/485 [00:11<01:54,  4.06it/s]
  4%|████████▌                                                                                                                                                                                              | 21/485 [00:11<02:04,  3.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:56] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.ln_f.bias", shape: (6144,), dtype: float16
+
  4%|████████▌                                                                                                                                                                                              | 21/485 [00:11<02:04,  3.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:56] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.ln_f.weight", shape: (6144,), dtype: float16
+
  4%|████████▌                                                                                                                                                                                              | 21/485 [00:11<02:04,  3.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:56] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00007-of-00007.bin
+
  4%|████████▌                                                                                                                                                                                              | 21/485 [00:11<02:04,  3.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:22:56] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00001-of-00007.bin
+
  4%|████████▌                                                                                                                                                                                              | 21/485 [00:11<02:04,  3.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.attn.c_attn.bias", shape: (6400,), dtype: float16
+
  4%|████████▌                                                                                                                                                                                              | 21/485 [00:17<02:04,  3.72it/s]
  5%|█████████▊                                                                                                                                                                                             | 24/485 [00:17<06:25,  1.20it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.0.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
  5%|█████████▊                                                                                                                                                                                             | 24/485 [00:17<06:25,  1.20it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.0.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
  5%|█████████▊                                                                                                                                                                                             | 24/485 [00:17<06:25,  1.20it/s]
  5%|██████████▎                                                                                                                                                                                            | 25/485 [00:17<05:43,  1.34it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.attn.c_proj.bias", shape: (6144,), dtype: float16
+
  5%|██████████▎                                                                                                                                                                                            | 25/485 [00:17<05:43,  1.34it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.0.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
  5%|██████████▎                                                                                                                                                                                            | 25/485 [00:18<05:43,  1.34it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.0.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
  5%|██████████▎                                                                                                                                                                                            | 25/485 [00:18<05:43,  1.34it/s]
  6%|███████████                                                                                                                                                                                            | 27/485 [00:18<04:19,  1.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.ln_1.bias", shape: (6144,), dtype: float16
+
  6%|███████████                                                                                                                                                                                            | 27/485 [00:18<04:19,  1.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.ln_1.weight", shape: (6144,), dtype: float16
+
  6%|███████████                                                                                                                                                                                            | 27/485 [00:18<04:19,  1.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.ln_2.bias", shape: (6144,), dtype: float16
+
  6%|███████████                                                                                                                                                                                            | 27/485 [00:18<04:19,  1.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.ln_2.weight", shape: (6144,), dtype: float16
+
  6%|███████████                                                                                                                                                                                            | 27/485 [00:18<04:19,  1.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
  6%|███████████                                                                                                                                                                                            | 27/485 [00:18<04:19,  1.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.0.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
  6%|███████████                                                                                                                                                                                            | 27/485 [00:18<04:19,  1.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.0.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
  6%|███████████                                                                                                                                                                                            | 27/485 [00:18<04:19,  1.77it/s]
  7%|█████████████▌                                                                                                                                                                                         | 33/485 [00:18<02:24,  3.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
  7%|█████████████▌                                                                                                                                                                                         | 33/485 [00:18<02:24,  3.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.0.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
  7%|█████████████▌                                                                                                                                                                                         | 33/485 [00:19<02:24,  3.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.0.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
  7%|█████████████▌                                                                                                                                                                                         | 33/485 [00:19<02:24,  3.14it/s]
  7%|██████████████▎                                                                                                                                                                                        | 35/485 [00:19<02:26,  3.06it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.attn.c_attn.bias", shape: (6400,), dtype: float16
+
  7%|██████████████▎                                                                                                                                                                                        | 35/485 [00:19<02:26,  3.06it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.1.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
  7%|██████████████▎                                                                                                                                                                                        | 35/485 [00:19<02:26,  3.06it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.1.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
  7%|██████████████▎                                                                                                                                                                                        | 35/485 [00:19<02:26,  3.06it/s]
  8%|███████████████▏                                                                                                                                                                                       | 37/485 [00:19<02:01,  3.68it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.attn.c_proj.bias", shape: (6144,), dtype: float16
+
  8%|███████████████▏                                                                                                                                                                                       | 37/485 [00:19<02:01,  3.68it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.1.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
  8%|███████████████▏                                                                                                                                                                                       | 37/485 [00:19<02:01,  3.68it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.1.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
  8%|███████████████▏                                                                                                                                                                                       | 37/485 [00:19<02:01,  3.68it/s]
  8%|████████████████                                                                                                                                                                                       | 39/485 [00:19<01:40,  4.45it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.ln_1.bias", shape: (6144,), dtype: float16
+
  8%|████████████████                                                                                                                                                                                       | 39/485 [00:19<01:40,  4.45it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.ln_1.weight", shape: (6144,), dtype: float16
+
  8%|████████████████                                                                                                                                                                                       | 39/485 [00:19<01:40,  4.45it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.ln_2.bias", shape: (6144,), dtype: float16
+
  8%|████████████████                                                                                                                                                                                       | 39/485 [00:19<01:40,  4.45it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.ln_2.weight", shape: (6144,), dtype: float16
+
  8%|████████████████                                                                                                                                                                                       | 39/485 [00:19<01:40,  4.45it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
  8%|████████████████                                                                                                                                                                                       | 39/485 [00:19<01:40,  4.45it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:05] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.1.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
  8%|████████████████                                                                                                                                                                                       | 39/485 [00:20<01:40,  4.45it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:05] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.1.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
  8%|████████████████                                                                                                                                                                                       | 39/485 [00:20<01:40,  4.45it/s]
  9%|██████████████████▍                                                                                                                                                                                    | 45/485 [00:20<01:12,  6.10it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:05] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
  9%|██████████████████▍                                                                                                                                                                                    | 45/485 [00:20<01:12,  6.10it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:06] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.1.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
  9%|██████████████████▍                                                                                                                                                                                    | 45/485 [00:21<01:12,  6.10it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:06] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.1.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
  9%|██████████████████▍                                                                                                                                                                                    | 45/485 [00:21<01:12,  6.10it/s]
 10%|███████████████████▎                                                                                                                                                                                   | 47/485 [00:21<01:29,  4.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 10%|███████████████████▎                                                                                                                                                                                   | 47/485 [00:21<01:29,  4.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:06] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.2.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 10%|███████████████████▎                                                                                                                                                                                   | 47/485 [00:21<01:29,  4.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:06] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.2.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 10%|███████████████████▎                                                                                                                                                                                   | 47/485 [00:21<01:29,  4.91it/s]
 10%|████████████████████                                                                                                                                                                                   | 49/485 [00:21<01:17,  5.64it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 10%|████████████████████                                                                                                                                                                                   | 49/485 [00:21<01:17,  5.64it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:06] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.2.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 10%|████████████████████                                                                                                                                                                                   | 49/485 [00:21<01:17,  5.64it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:06] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.2.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 10%|████████████████████                                                                                                                                                                                   | 49/485 [00:21<01:17,  5.64it/s]
 11%|████████████████████▉                                                                                                                                                                                  | 51/485 [00:21<01:06,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.ln_1.bias", shape: (6144,), dtype: float16
+
 11%|████████████████████▉                                                                                                                                                                                  | 51/485 [00:21<01:06,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.ln_1.weight", shape: (6144,), dtype: float16
+
 11%|████████████████████▉                                                                                                                                                                                  | 51/485 [00:21<01:06,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.ln_2.bias", shape: (6144,), dtype: float16
+
 11%|████████████████████▉                                                                                                                                                                                  | 51/485 [00:21<01:06,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.ln_2.weight", shape: (6144,), dtype: float16
+
 11%|████████████████████▉                                                                                                                                                                                  | 51/485 [00:21<01:06,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 11%|████████████████████▉                                                                                                                                                                                  | 51/485 [00:21<01:06,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:07] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.2.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 11%|████████████████████▉                                                                                                                                                                                  | 51/485 [00:22<01:06,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:07] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.2.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 11%|████████████████████▉                                                                                                                                                                                  | 51/485 [00:22<01:06,  6.49it/s]
 12%|███████████████████████▍                                                                                                                                                                               | 57/485 [00:22<00:55,  7.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:07] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 12%|███████████████████████▍                                                                                                                                                                               | 57/485 [00:22<00:55,  7.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:07] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.2.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 12%|███████████████████████▍                                                                                                                                                                               | 57/485 [00:22<00:55,  7.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:07] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.2.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 12%|███████████████████████▍                                                                                                                                                                               | 57/485 [00:22<00:55,  7.72it/s]
 12%|████████████████████████▏                                                                                                                                                                              | 59/485 [00:22<01:12,  5.87it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:07] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 12%|████████████████████████▏                                                                                                                                                                              | 59/485 [00:22<01:12,  5.87it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:08] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.3.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 12%|████████████████████████▏                                                                                                                                                                              | 59/485 [00:22<01:12,  5.87it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:08] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.3.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 12%|████████████████████████▏                                                                                                                                                                              | 59/485 [00:22<01:12,  5.87it/s]
 13%|█████████████████████████                                                                                                                                                                              | 61/485 [00:22<01:04,  6.57it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 13%|█████████████████████████                                                                                                                                                                              | 61/485 [00:22<01:04,  6.57it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:08] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.3.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 13%|█████████████████████████                                                                                                                                                                              | 61/485 [00:23<01:04,  6.57it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:08] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.3.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 13%|█████████████████████████                                                                                                                                                                              | 61/485 [00:23<01:04,  6.57it/s]
 13%|█████████████████████████▊                                                                                                                                                                             | 63/485 [00:23<00:57,  7.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.ln_1.bias", shape: (6144,), dtype: float16
+
 13%|█████████████████████████▊                                                                                                                                                                             | 63/485 [00:23<00:57,  7.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.ln_1.weight", shape: (6144,), dtype: float16
+
 13%|█████████████████████████▊                                                                                                                                                                             | 63/485 [00:23<00:57,  7.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.ln_2.bias", shape: (6144,), dtype: float16
+
 13%|█████████████████████████▊                                                                                                                                                                             | 63/485 [00:23<00:57,  7.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.ln_2.weight", shape: (6144,), dtype: float16
+
 13%|█████████████████████████▊                                                                                                                                                                             | 63/485 [00:23<00:57,  7.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 13%|█████████████████████████▊                                                                                                                                                                             | 63/485 [00:23<00:57,  7.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:08] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.3.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 13%|█████████████████████████▊                                                                                                                                                                             | 63/485 [00:23<00:57,  7.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:08] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.3.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 13%|█████████████████████████▊                                                                                                                                                                             | 63/485 [00:23<00:57,  7.37it/s]
 14%|████████████████████████████▎                                                                                                                                                                          | 69/485 [00:23<00:49,  8.33it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 14%|████████████████████████████▎                                                                                                                                                                          | 69/485 [00:23<00:49,  8.33it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:09] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.3.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 14%|████████████████████████████▎                                                                                                                                                                          | 69/485 [00:24<00:49,  8.33it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:09] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.3.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 14%|████████████████████████████▎                                                                                                                                                                          | 69/485 [00:24<00:49,  8.33it/s]
 15%|█████████████████████████████▏                                                                                                                                                                         | 71/485 [00:24<01:06,  6.27it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 15%|█████████████████████████████▏                                                                                                                                                                         | 71/485 [00:24<01:06,  6.27it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:09] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.4.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 15%|█████████████████████████████▏                                                                                                                                                                         | 71/485 [00:24<01:06,  6.27it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:09] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.4.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 15%|█████████████████████████████▏                                                                                                                                                                         | 71/485 [00:24<01:06,  6.27it/s]
 15%|█████████████████████████████▉                                                                                                                                                                         | 73/485 [00:24<00:58,  6.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 15%|█████████████████████████████▉                                                                                                                                                                         | 73/485 [00:24<00:58,  6.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:09] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.4.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 15%|█████████████████████████████▉                                                                                                                                                                         | 73/485 [00:24<00:58,  6.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:09] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.4.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 15%|█████████████████████████████▉                                                                                                                                                                         | 73/485 [00:24<00:58,  6.99it/s]
 15%|██████████████████████████████▊                                                                                                                                                                        | 75/485 [00:24<00:52,  7.84it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.ln_1.bias", shape: (6144,), dtype: float16
+
 15%|██████████████████████████████▊                                                                                                                                                                        | 75/485 [00:24<00:52,  7.84it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.ln_1.weight", shape: (6144,), dtype: float16
+
 15%|██████████████████████████████▊                                                                                                                                                                        | 75/485 [00:24<00:52,  7.84it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.ln_2.bias", shape: (6144,), dtype: float16
+
 15%|██████████████████████████████▊                                                                                                                                                                        | 75/485 [00:24<00:52,  7.84it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.ln_2.weight", shape: (6144,), dtype: float16
+
 15%|██████████████████████████████▊                                                                                                                                                                        | 75/485 [00:24<00:52,  7.84it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 15%|██████████████████████████████▊                                                                                                                                                                        | 75/485 [00:24<00:52,  7.84it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:10] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.4.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 15%|██████████████████████████████▊                                                                                                                                                                        | 75/485 [00:25<00:52,  7.84it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:10] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.4.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 15%|██████████████████████████████▊                                                                                                                                                                        | 75/485 [00:25<00:52,  7.84it/s]
 17%|█████████████████████████████████▏                                                                                                                                                                     | 81/485 [00:25<00:49,  8.20it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:10] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 17%|█████████████████████████████████▏                                                                                                                                                                     | 81/485 [00:25<00:49,  8.20it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:11] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.4.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 17%|█████████████████████████████████▏                                                                                                                                                                     | 81/485 [00:26<00:49,  8.20it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:11] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.4.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 17%|██████████████████���██████████████▏                                                                                                                                                                     | 81/485 [00:26<00:49,  8.20it/s]
 17%|██████████████████████████████████                                                                                                                                                                     | 83/485 [00:26<01:07,  5.95it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 17%|██████████████████████████████████                                                                                                                                                                     | 83/485 [00:26<01:07,  5.95it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:11] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.5.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 17%|██████████████████████████████████                                                                                                                                                                     | 83/485 [00:26<01:07,  5.95it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:11] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.5.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 17%|██████████████████████████████████                                                                                                                                                                     | 83/485 [00:26<01:07,  5.95it/s]
 18%|██████████████████████████████████▉                                                                                                                                                                    | 85/485 [00:26<01:00,  6.59it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 18%|██████████████████████████████████▉                                                                                                                                                                    | 85/485 [00:26<01:00,  6.59it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:11] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.5.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 18%|██████████████████████████████████▉                                                                                                                                                                    | 85/485 [00:26<01:00,  6.59it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:11] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.5.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 18%|██████████████████████████████████▉                                                                                                                                                                    | 85/485 [00:26<01:00,  6.59it/s]
 18%|████████���██████████████████████████▋                                                                                                                                                                   | 87/485 [00:26<00:54,  7.25it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.ln_1.bias", shape: (6144,), dtype: float16
+
 18%|███████████████████████████████████▋                                                                                                                                                                   | 87/485 [00:26<00:54,  7.25it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.ln_1.weight", shape: (6144,), dtype: float16
+
 18%|███████████████████████████████████▋                                                                                                                                                                   | 87/485 [00:26<00:54,  7.25it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.ln_2.bias", shape: (6144,), dtype: float16
+
 18%|███████████████████████████████████▋                                                                                                                                                                   | 87/485 [00:26<00:54,  7.25it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.ln_2.weight", shape: (6144,), dtype: float16
+
 18%|███████████████████████████████████▋                                                                                                                                                                   | 87/485 [00:26<00:54,  7.25it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 18%|███████████████████████████████████▋                                                                                                                                                                   | 87/485 [00:26<00:54,  7.25it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:12] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.5.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 18%|███████████████████████████████████▋                                                                                                                                                                   | 87/485 [00:27<00:54,  7.25it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:12] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.5.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 18%|███████████████████████████████████▋                                                                                                                                                                   | 87/485 [00:27<00:54,  7.25it/s]
 19%|██████████████████████████████████████▏                                                                                                                                                                | 93/485 [00:27<00:50,  7.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:12] INFO group_quantization.py:212: Compiling quantize function for key: (8192, 6144, 'float16', 'cuda')
+
 19%|██████████████████████████████████████▏                                                                                                                                                                | 93/485 [00:27<00:50,  7.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.wpe.q_weight", shape: (8192, 616), dtype: uint32
+
 19%|██████████████████████████████████████▏                                                                                                                                                                | 93/485 [00:27<00:50,  7.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.wpe.q_scale", shape: (8192, 154), dtype: float16
+
 19%|██████████████████████████████████████▏                                                                                                                                                                | 93/485 [00:27<00:50,  7.82it/s]
 19%|██████████████████████████████████████▌                                                                                                                                                                | 94/485 [00:27<01:14,  5.21it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:14] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.wte.q_weight", shape: (49152, 616), dtype: uint32
+
 19%|██████████████████████████████████████▌                                                                                                                                                                | 94/485 [00:29<01:14,  5.21it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:14] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.wte.q_scale", shape: (49152, 154), dtype: float16
+
 19%|██████████████████████████████████████▌                                                                                                                                                                | 94/485 [00:29<01:14,  5.21it/s]
 20%|██████████████████████████████████████▉                                                                                                                                                                | 95/485 [00:29<02:18,  2.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:14] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00001-of-00007.bin
+
 20%|██████████████████████████████████████▉                                                                                                                                                                | 95/485 [00:29<02:18,  2.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:14] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00002-of-00007.bin
+
 20%|██████████████████████████████████████▉                                                                                                                                                                | 95/485 [00:29<02:18,  2.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 20%|██████████████████████████████████████▉                                                                                                                                                                | 95/485 [00:35<02:18,  2.82it/s]
 20%|███████████████████████████████████████▍                                                                                                                                                               | 96/485 [00:35<08:21,  1.29s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.10.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 20%|███████████████████████████████████████▍                                                                                                                                                               | 96/485 [00:35<08:21,  1.29s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.10.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 20%|███████████████████████████████████████▍                                                                                                                                                               | 96/485 [00:35<08:21,  1.29s/it]
 20%|███████████████████████████████████████▊                                                                                                                                                               | 97/485 [00:35<06:58,  1.08s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 20%|███████████████████████████████████████▊                                                                                                                                                               | 97/485 [00:35<06:58,  1.08s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.10.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 20%|███████████████████████████████████████▊                                                                                                                                                               | 97/485 [00:35<06:58,  1.08s/it]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.10.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 20%|███████████████████████████████████████▊                                                                                                                                                               | 97/485 [00:35<06:58,  1.08s/it]
 20%|████████████████████████████████████████▌                                                                                                                                                              | 99/485 [00:35<04:42,  1.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.ln_1.bias", shape: (6144,), dtype: float16
+
 20%|████████████████████████████████████████▌                                                                                                                                                              | 99/485 [00:35<04:42,  1.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.ln_1.weight", shape: (6144,), dtype: float16
+
 20%|████████████████████████████████████████▌                                                                                                                                                              | 99/485 [00:35<04:42,  1.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.ln_2.bias", shape: (6144,), dtype: float16
+
 20%|████████████████████████████████████████▌                                                                                                                                                              | 99/485 [00:35<04:42,  1.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.ln_2.weight", shape: (6144,), dtype: float16
+
 20%|████████████████████████████████████████▌                                                                                                                                                              | 99/485 [00:35<04:42,  1.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 20%|████████████████████████████████████████▌                                                                                                                                                              | 99/485 [00:35<04:42,  1.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.10.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 20%|████████████████████████████████████████▌                                                                                                                                                              | 99/485 [00:36<04:42,  1.37it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.10.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 20%|████████████████████████████████████████▌                                                                                                                                                              | 99/485 [00:36<04:42,  1.37it/s]
 22%|██████████████████████████████████████████▊                                                                                                                                                           | 105/485 [00:36<02:15,  2.81it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 22%|██████████████████████████████████████████▊                                                                                                                                                           | 105/485 [00:36<02:15,  2.81it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.10.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 22%|██████████████████████████████████████████▊                                                                                                                                                           | 105/485 [00:37<02:15,  2.81it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.10.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 22%|██████████████████████████████████████████▊                                                                                                                                                           | 105/485 [00:37<02:15,  2.81it/s]
 22%|███████████████████████████████████████████▋                                                                                                                                                          | 107/485 [00:37<02:10,  2.89it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 22%|███████████████████████████████████████████▋                                                                                                                                                          | 107/485 [00:37<02:10,  2.89it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.11.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 22%|███████████████████████████████████████████▋                                                                                                                                                          | 107/485 [00:37<02:10,  2.89it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.11.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 22%|███████████████████████████████████████████▋                                                                                                                                                          | 107/485 [00:37<02:10,  2.89it/s]
 22%|████████████████████████████████████████████▍                                                                                                                                                         | 109/485 [00:37<01:46,  3.54it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 22%|████████████████████████████████████████████▍                                                                                                                                                         | 109/485 [00:37<01:46,  3.54it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.11.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 22%|████████████████████████████████████████████▍                                                                                                                                                         | 109/485 [00:37<01:46,  3.54it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.11.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 22%|████████████████████████████████████████████▍                                                                                                                                                         | 109/485 [00:37<01:46,  3.54it/s]
 23%|█████████████████████████████████████████████▎                                                                                                                                                        | 111/485 [00:37<01:26,  4.34it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.ln_1.bias", shape: (6144,), dtype: float16
+
 23%|█████████████████████████████████████████████▎                                                                                                                                                        | 111/485 [00:37<01:26,  4.34it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.ln_1.weight", shape: (6144,), dtype: float16
+
 23%|█████████████████████████████████████████████▎                                                                                                                                                        | 111/485 [00:37<01:26,  4.34it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.ln_2.bias", shape: (6144,), dtype: float16
+
 23%|█████████████████████████████████████████████▎                                                                                                                                                        | 111/485 [00:37<01:26,  4.34it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.ln_2.weight", shape: (6144,), dtype: float16
+
 23%|█████████████████████████████████████████████▎                                                                                                                                                        | 111/485 [00:37<01:26,  4.34it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 23%|█████████████████████████████████████████████▎                                                                                                                                                        | 111/485 [00:37<01:26,  4.34it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:23] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.11.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 23%|█████████████████████████████████████████████▎                                                                                                                                                        | 111/485 [00:37<01:26,  4.34it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:23] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.11.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 23%|█████████████████████████████████████████████▎                                                                                                                                                        | 111/485 [00:38<01:26,  4.34it/s]
 24%|███████████████████████████████████████████████▊                                                                                                                                                      | 117/485 [00:38<01:00,  6.11it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:23] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 24%|███████████████████████████████████████████████▊                                                                                                                                                      | 117/485 [00:38<01:00,  6.11it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:23] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.11.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 24%|███████████████████████████████████████████████▊                                                                                                                                                      | 117/485 [00:38<01:00,  6.11it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:23] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.11.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 24%|███████████████████████████████████████████████▊                                                                                                                                                      | 117/485 [00:38<01:00,  6.11it/s]
 25%|████████████████████████████████████████████████▌                                                                                                                                                     | 119/485 [00:38<01:10,  5.22it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:23] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 25%|████████████████████████████████████████████████▌                                                                                                                                                     | 119/485 [00:38<01:10,  5.22it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:23] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.12.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 25%|████████████████████████████████████████████████▌                                                                                                                                                     | 119/485 [00:38<01:10,  5.22it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:23] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.12.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 25%|████████████████████████████████████████████████▌                                                                                                                                                     | 119/485 [00:38<01:10,  5.22it/s]
 25%|█████████████████████████████████████████████████▍                                                                                                                                                    | 121/485 [00:38<01:00,  5.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:23] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.ln_1.bias", shape: (6144,), dtype: float16
+
 25%|█████████████████████████████████████████████████▍                                                                                                                                                    | 121/485 [00:38<01:00,  5.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:23] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.ln_1.weight", shape: (6144,), dtype: float16
+
 25%|█████████████████████████████████████████████████▍                                                                                                                                                    | 121/485 [00:38<01:00,  5.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:23] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 25%|█████████████████████████████████████████████████▍                                                                                                                                                    | 121/485 [00:38<01:00,  5.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:24] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.5.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 25%|█████████████████████████████████████████████████▍                                                                                                                                                    | 121/485 [00:39<01:00,  5.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:24] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.5.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 25%|█████████████████████████████████████████████████▍                                                                                                                                                    | 121/485 [00:39<01:00,  5.99it/s]
 26%|███████████████████████████████████████████████████                                                                                                                                                   | 125/485 [00:39<00:58,  6.17it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 26%|███████████████████████████████████████████████████                                                                                                                                                   | 125/485 [00:39<00:58,  6.17it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:24] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.6.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 26%|███████████████████████████████████████████████████                                                                                                                                                   | 125/485 [00:39<00:58,  6.17it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:24] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.6.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 26%|███████████████████████████████████████████████████                                                                                                                                                   | 125/485 [00:39<00:58,  6.17it/s]
 26%|███████████████████████████████████████████████████▊                                                                                                                                                  | 127/485 [00:39<00:51,  6.92it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 26%|███████████████████████████████████████████████████▊                                                                                                                                                  | 127/485 [00:39<00:51,  6.92it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:24] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.6.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 26%|███████████████████████████████████████████████████▊                                                                                                                                                  | 127/485 [00:39<00:51,  6.92it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:24] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.6.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 26%|███████████████████████████████████████████████████▊                                                                                                                                                  | 127/485 [00:39<00:51,  6.92it/s]
 27%|████████████████████████████████████████████████████▋                                                                                                                                                 | 129/485 [00:39<00:46,  7.63it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.ln_1.bias", shape: (6144,), dtype: float16
+
 27%|████████████████████████████████████████████████████▋                                                                                                                                                 | 129/485 [00:39<00:46,  7.63it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.ln_1.weight", shape: (6144,), dtype: float16
+
 27%|████████████████████████████████████████████████████▋                                                                                                                                                 | 129/485 [00:39<00:46,  7.63it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.ln_2.bias", shape: (6144,), dtype: float16
+
 27%|████████████████████████████████████████████████████▋                                                                                                                                                 | 129/485 [00:39<00:46,  7.63it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.ln_2.weight", shape: (6144,), dtype: float16
+
 27%|████████████████████████████████████████████████████▋                                                                                                                                                 | 129/485 [00:39<00:46,  7.63it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 27%|████████████████████████████████████████████████████▋                                                                                                                                                 | 129/485 [00:39<00:46,  7.63it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:25] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.6.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 27%|████████████████████████████████████████████████████▋                                                                                                                                                 | 129/485 [00:40<00:46,  7.63it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:25] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.6.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 27%|████████████████████████████████████████████████████▋                                                                                                                                                 | 129/485 [00:40<00:46,  7.63it/s]
 28%|███████████████████████████████████████████████████████                                                                                                                                               | 135/485 [00:40<00:43,  8.04it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:25] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 28%|███████████████████████████████████████████████████████                                                                                                                                               | 135/485 [00:40<00:43,  8.04it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:26] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.6.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 28%|███████████████████████████████████████████████████████                                                                                                                                               | 135/485 [00:41<00:43,  8.04it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:26] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.6.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 28%|███████████████████████████████████████████████████████                                                                                                                                               | 135/485 [00:41<00:43,  8.04it/s]
 28%|███████████████████████████████████████████████████████▉                                                                                                                                              | 137/485 [00:41<00:58,  5.93it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 28%|███████████████████████████████████████████████████████▉                                                                                                                                              | 137/485 [00:41<00:58,  5.93it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:26] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.7.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 28%|███████████████████████████████████████████████████████▉                                                                                                                                              | 137/485 [00:41<00:58,  5.93it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:26] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.7.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 28%|███████████████████████████████████████████████████████▉                                                                                                                                              | 137/485 [00:41<00:58,  5.93it/s]
 29%|████████████████████████████████████████████████████████▋                                                                                                                                             | 139/485 [00:41<00:52,  6.57it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 29%|████████████████████████████████████████████████████████▋                                                                                                                                             | 139/485 [00:41<00:52,  6.57it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:26] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.7.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 29%|████████████████████████████████████████████████████████▋                                                                                                                                             | 139/485 [00:41<00:52,  6.57it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:26] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.7.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 29%|███████████████████████████████████████████��████████████▋                                                                                                                                             | 139/485 [00:41<00:52,  6.57it/s]
 29%|█████████████████████████████████████████████████████████▌                                                                                                                                            | 141/485 [00:41<00:47,  7.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.ln_1.bias", shape: (6144,), dtype: float16
+
 29%|█████████████████████████████████████████████████████████▌                                                                                                                                            | 141/485 [00:41<00:47,  7.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.ln_1.weight", shape: (6144,), dtype: float16
+
 29%|█████████████████████████████████████████████████████████▌                                                                                                                                            | 141/485 [00:41<00:47,  7.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.ln_2.bias", shape: (6144,), dtype: float16
+
 29%|█████████████████████████████████████████████████████████▌                                                                                                                                            | 141/485 [00:41<00:47,  7.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.ln_2.weight", shape: (6144,), dtype: float16
+
 29%|█████████████████████████████████████████████████████████▌                                                                                                                                            | 141/485 [00:41<00:47,  7.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 29%|█████████████████████████████████████████████████████████▌                                                                                                                                            | 141/485 [00:41<00:47,  7.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:27] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.7.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 29%|█████████████████████████████████████████████████████████▌                                                                                                                                            | 141/485 [00:42<00:47,  7.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:27] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.7.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 29%|█████████████████████████████████████████████████████████▌                                                                                                                                            | 141/485 [00:42<00:47,  7.28it/s]
 30%|████████████████████████████████████████████████████████████                                                                                                                                          | 147/485 [00:42<00:41,  8.23it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:27] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 30%|████████████████████████████████████████████████████████████                                                                                                                                          | 147/485 [00:42<00:41,  8.23it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:27] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.7.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 30%|████████████████████████████████████████████████████████████                                                                                                                                          | 147/485 [00:42<00:41,  8.23it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:27] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.7.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 30%|████████████████████████████████████████████████████████████                                                                                                                                          | 147/485 [00:42<00:41,  8.23it/s]
 31%|████████████████████████████████████████████████████████████▊                                                                                                                                         | 149/485 [00:42<00:52,  6.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:27] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 31%|████████████████████████████████████████████████████████████▊                                                                                                                                         | 149/485 [00:42<00:52,  6.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:28] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.8.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 31%|████████████████████████████████████████████████████████████▊                                                                                                                                         | 149/485 [00:42<00:52,  6.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:28] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.8.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 31%|████████████████████████████████████████████████████████████▊                                                                                                                                         | 149/485 [00:42<00:52,  6.38it/s]
 31%|█████████████████████████████████████████████████████████████▋                                                                                                                                        | 151/485 [00:42<00:47,  7.00it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 31%|█████████████████████████████████████████████████████████████▋                                                                                                                                        | 151/485 [00:42<00:47,  7.00it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:28] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.8.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 31%|█████████████████████████████████████████████████████████████▋                                                                                                                                        | 151/485 [00:43<00:47,  7.00it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:28] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.8.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 31%|█████████████████████████████████████████████████████████████▋                                                                                                                                        | 151/485 [00:43<00:47,  7.00it/s]
 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                       | 153/485 [00:43<00:43,  7.68it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.ln_1.bias", shape: (6144,), dtype: float16
+
 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                       | 153/485 [00:43<00:43,  7.68it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.ln_1.weight", shape: (6144,), dtype: float16
+
 32%|██████████████████████████████████████████████████���███████████▍                                                                                                                                       | 153/485 [00:43<00:43,  7.68it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.ln_2.bias", shape: (6144,), dtype: float16
+
 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                       | 153/485 [00:43<00:43,  7.68it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.ln_2.weight", shape: (6144,), dtype: float16
+
 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                       | 153/485 [00:43<00:43,  7.68it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                       | 153/485 [00:43<00:43,  7.68it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:28] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.8.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                       | 153/485 [00:43<00:43,  7.68it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:28] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.8.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                       | 153/485 [00:43<00:43,  7.68it/s]
 33%|████████████████████████████████████████████████████████████████▉                                                                                                                                     | 159/485 [00:43<00:37,  8.62it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 33%|████████████████████████████████████████████████████████████████▉                                                                                                                                     | 159/485 [00:43<00:37,  8.62it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.8.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 33%|████████████████████████████████████████████████████████████████▉                                                                                                                                     | 159/485 [00:44<00:37,  8.62it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.8.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 33%|████████████████████████████████████████████████████████████████▉                                                                                                                                     | 159/485 [00:44<00:37,  8.62it/s]
 33%|█████████████████████████████████████████████████████████████████▋                                                                                                                                    | 161/485 [00:44<00:49,  6.54it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 33%|█████████████████████████████████████████████████████████████████▋                                                                                                                                    | 161/485 [00:44<00:49,  6.54it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.9.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 33%|█████████████████████████████████████████████████████████████████▋                                                                                                                                    | 161/485 [00:44<00:49,  6.54it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.9.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 33%|█████████████████████████████████████████████████████████████████▋                                                                                                                                    | 161/485 [00:44<00:49,  6.54it/s]
 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                                   | 163/485 [00:44<00:44,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 34%|████████████████████████████████████████████���█████████████████████▌                                                                                                                                   | 163/485 [00:44<00:44,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.9.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                                   | 163/485 [00:44<00:44,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.9.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                                   | 163/485 [00:44<00:44,  7.29it/s]
 34%|███████████████████████████████████████████████████████████████████▎                                                                                                                                  | 165/485 [00:44<00:39,  8.12it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.ln_1.bias", shape: (6144,), dtype: float16
+
 34%|███████████████████████████████████████████████████████████████████▎                                                                                                                                  | 165/485 [00:44<00:39,  8.12it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.ln_1.weight", shape: (6144,), dtype: float16
+
 34%|███████████████████████████████████████████████████████████████████▎                                                                                                                                  | 165/485 [00:44<00:39,  8.12it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.ln_2.bias", shape: (6144,), dtype: float16
+
 34%|███████████████████████████████████████████████████████████████████▎                                                                                                                                  | 165/485 [00:44<00:39,  8.12it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.ln_2.weight", shape: (6144,), dtype: float16
+
 34%|███████████████████████████████████████████████████████████████████▎                                                                                                                                  | 165/485 [00:44<00:39,  8.12it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 34%|███████████████████████████████████████████████████████████████████▎                                                                                                                                  | 165/485 [00:44<00:39,  8.12it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:30] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.9.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 34%|███████████████████████████████████████████████████████████████████▎                                                                                                                                  | 165/485 [00:45<00:39,  8.12it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:30] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.9.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 34%|███████████████████████████████████████████████████████████████████▎                                                                                                                                  | 165/485 [00:45<00:39,  8.12it/s]
 35%|█████████████████████████████████████████████████████████████████████▊                                                                                                                                | 171/485 [00:45<00:35,  8.83it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 35%|█████████████████████████████████████████████████████████████████████▊                                                                                                                                | 171/485 [00:45<00:35,  8.83it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.9.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 35%|█████████████████████████████████████████████████████████████████████▊                                                                                                                                | 171/485 [00:45<00:35,  8.83it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.9.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 35%|█████████████████████████████████████████████████████████████████████▊                                                                                                                                | 171/485 [00:45<00:35,  8.83it/s]
 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                               | 173/485 [00:45<00:47,  6.62it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:31] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00002-of-00007.bin
+
 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                               | 173/485 [00:45<00:47,  6.62it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:31] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00003-of-00007.bin
+
 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                               | 173/485 [00:46<00:47,  6.62it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:37] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                               | 173/485 [00:52<00:47,  6.62it/s]
 36%|███████████████████████████████████████████████████████████████████████                                                                                                                               | 174/485 [00:52<04:36,  1.12it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:37] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.12.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 36%|███████████████████████████████████████████████████████████████████████                                                                                                                               | 174/485 [00:52<04:36,  1.12it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:37] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.12.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 36%|███████████████████████████████████████████████████████████████████████                                                                                                                               | 174/485 [00:52<04:36,  1.12it/s]
 36%|███████████████████████████████████████████████████████████████████████▍                                                                                                                              | 175/485 [00:52<04:01,  1.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:37] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.ln_2.bias", shape: (6144,), dtype: float16
+
 36%|███████████████████████████████████████████████████████████████████████▍                                                                                                                              | 175/485 [00:52<04:01,  1.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:37] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.ln_2.weight", shape: (6144,), dtype: float16
+
 36%|███████████████████████████████████████████████████████████████████████▍                                                                                                                              | 175/485 [00:52<04:01,  1.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:37] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 36%|███████████████████████████████████████████████████████████████████████▍                                                                                                                              | 175/485 [00:52<04:01,  1.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.12.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 36%|███████████████████████████████████████████████████████████████████████▍                                                                                                                              | 175/485 [00:52<04:01,  1.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.12.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 36%|███████████████████████████████████████████████████████████████████████▍                                                                                                                              | 175/485 [00:52<04:01,  1.28it/s]
 37%|█████████████████████████████████████████████████████████████████████████                                                                                                                             | 179/485 [00:52<02:31,  2.02it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 37%|█████████████████████████████████████████████████████████████████████████                                                                                                                             | 179/485 [00:52<02:31,  2.02it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.12.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 37%|█████████████████████████████████████████████████████████████████████████                                                                                                                             | 179/485 [00:53<02:31,  2.02it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.12.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 37%|█████████████████████████████████████████████████████████████████████████                                                                                                                             | 179/485 [00:53<02:31,  2.02it/s]
 37%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                            | 181/485 [00:53<02:16,  2.23it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 37%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                            | 181/485 [00:53<02:16,  2.23it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.13.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 37%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                            | 181/485 [00:53<02:16,  2.23it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.13.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 37%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                            | 181/485 [00:53<02:16,  2.23it/s]
 38%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                           | 183/485 [00:53<01:46,  2.83it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 38%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                           | 183/485 [00:53<01:46,  2.83it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.13.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 38%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                           | 183/485 [00:53<01:46,  2.83it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.13.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 38%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                           | 183/485 [00:53<01:46,  2.83it/s]
 38%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                          | 185/485 [00:53<01:23,  3.60it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.ln_1.bias", shape: (6144,), dtype: float16
+
 38%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                          | 185/485 [00:53<01:23,  3.60it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.ln_1.weight", shape: (6144,), dtype: float16
+
 38%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                          | 185/485 [00:53<01:23,  3.60it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.ln_2.bias", shape: (6144,), dtype: float16
+
 38%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                          | 185/485 [00:53<01:23,  3.60it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.ln_2.weight", shape: (6144,), dtype: float16
+
 38%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                          | 185/485 [00:53<01:23,  3.60it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 38%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                          | 185/485 [00:53<01:23,  3.60it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.13.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 38%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                          | 185/485 [00:54<01:23,  3.60it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.13.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 38%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                          | 185/485 [00:54<01:23,  3.60it/s]
 39%|█████████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 191/485 [00:54<00:54,  5.43it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 39%|█████████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 191/485 [00:54<00:54,  5.43it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:40] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.13.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 39%|█████████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 191/485 [00:55<00:54,  5.43it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:40] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.13.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 39%|█████████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 191/485 [00:55<00:54,  5.43it/s]
 40%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 193/485 [00:55<01:01,  4.79it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 40%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 193/485 [00:55<01:01,  4.79it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:40] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.14.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 40%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 193/485 [00:55<01:01,  4.79it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:40] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.14.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 40%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 193/485 [00:55<01:01,  4.79it/s]
 40%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 195/485 [00:55<00:52,  5.55it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 40%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 195/485 [00:55<00:52,  5.55it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:40] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.14.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 40%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 195/485 [00:55<00:52,  5.55it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:40] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.14.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 40%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 195/485 [00:55<00:52,  5.55it/s]
 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 197/485 [00:55<00:44,  6.43it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.ln_1.bias", shape: (6144,), dtype: float16
+
 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 197/485 [00:55<00:44,  6.43it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.ln_1.weight", shape: (6144,), dtype: float16
+
 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 197/485 [00:55<00:44,  6.43it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.ln_2.bias", shape: (6144,), dtype: float16
+
 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 197/485 [00:55<00:44,  6.43it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.ln_2.weight", shape: (6144,), dtype: float16
+
 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 197/485 [00:55<00:44,  6.43it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 197/485 [00:55<00:44,  6.43it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:41] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.14.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 197/485 [00:55<00:44,  6.43it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:41] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.14.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 197/485 [00:56<00:44,  6.43it/s]
 42%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 203/485 [00:56<00:36,  7.76it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:41] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 42%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 203/485 [00:56<00:36,  7.76it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:41] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.14.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 42%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 203/485 [00:56<00:36,  7.76it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:41] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.14.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 42%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 203/485 [00:56<00:36,  7.76it/s]
 42%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 205/485 [00:56<00:46,  6.07it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:41] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 42%|██████████████████████████���████████████████████████████████████████████████████████▋                                                                                                                  | 205/485 [00:56<00:46,  6.07it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:41] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.15.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 42%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 205/485 [00:56<00:46,  6.07it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:41] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.15.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 42%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 205/485 [00:56<00:46,  6.07it/s]
 43%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 207/485 [00:56<00:40,  6.79it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:41] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 43%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 207/485 [00:56<00:40,  6.79it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:42] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.15.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 43%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 207/485 [00:56<00:40,  6.79it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:42] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.15.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 43%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 207/485 [00:56<00:40,  6.79it/s]
 43%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 209/485 [00:56<00:36,  7.61it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:42] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.ln_1.bias", shape: (6144,), dtype: float16
+
 43%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 209/485 [00:56<00:36,  7.61it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:42] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.ln_1.weight", shape: (6144,), dtype: float16
+
 43%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 209/485 [00:56<00:36,  7.61it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:42] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.ln_2.bias", shape: (6144,), dtype: float16
+
 43%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 209/485 [00:56<00:36,  7.61it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:42] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.ln_2.weight", shape: (6144,), dtype: float16
+
 43%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 209/485 [00:56<00:36,  7.61it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:42] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 43%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 209/485 [00:56<00:36,  7.61it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:42] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.15.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 43%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 209/485 [00:57<00:36,  7.61it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:42] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.15.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 43%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 209/485 [00:57<00:36,  7.61it/s]
 44%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 215/485 [00:57<00:32,  8.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:42] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 44%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 215/485 [00:57<00:32,  8.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:43] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.15.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 44%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 215/485 [00:58<00:32,  8.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:43] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.15.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 44%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 215/485 [00:58<00:32,  8.38it/s]
 45%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 217/485 [00:58<00:41,  6.42it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 45%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 217/485 [00:58<00:41,  6.42it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:43] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.16.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 45%|█████████████████████████��██████████████████████████████████████████████████████████████▌                                                                                                             | 217/485 [00:58<00:41,  6.42it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:43] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.16.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 45%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 217/485 [00:58<00:41,  6.42it/s]
 45%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 219/485 [00:58<00:37,  7.02it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 45%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 219/485 [00:58<00:37,  7.02it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:43] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.16.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 45%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 219/485 [00:58<00:37,  7.02it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:43] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.16.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 45%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 219/485 [00:58<00:37,  7.02it/s]
 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 221/485 [00:58<00:34,  7.69it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.ln_1.bias", shape: (6144,), dtype: float16
+
 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 221/485 [00:58<00:34,  7.69it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.ln_1.weight", shape: (6144,), dtype: float16
+
 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 221/485 [00:58<00:34,  7.69it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.ln_2.bias", shape: (6144,), dtype: float16
+
 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 221/485 [00:58<00:34,  7.69it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.ln_2.weight", shape: (6144,), dtype: float16
+
 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 221/485 [00:58<00:34,  7.69it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 221/485 [00:58<00:34,  7.69it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:44] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.16.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 221/485 [00:59<00:34,  7.69it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:44] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.16.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 221/485 [00:59<00:34,  7.69it/s]
 47%|█████████████████████████████████��██████████████████████████████████████████████████████████▋                                                                                                         | 227/485 [00:59<00:32,  8.04it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:44] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 47%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 227/485 [00:59<00:32,  8.04it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:45] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.16.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 47%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 227/485 [00:59<00:32,  8.04it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:45] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.16.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 47%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 227/485 [01:00<00:32,  8.04it/s]
 47%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 229/485 [01:00<00:43,  5.92it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 47%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 229/485 [01:00<00:43,  5.92it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:45] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.17.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 47%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 229/485 [01:00<00:43,  5.92it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:45] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.17.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 47%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 229/485 [01:00<00:43,  5.92it/s]
 48%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 231/485 [01:00<00:38,  6.56it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 48%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 231/485 [01:00<00:38,  6.56it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:45] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.17.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 48%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 231/485 [01:00<00:38,  6.56it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:45] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.17.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 48%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 231/485 [01:00<00:38,  6.56it/s]
 48%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 233/485 [01:00<00:34,  7.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.ln_1.bias", shape: (6144,), dtype: float16
+
 48%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 233/485 [01:00<00:34,  7.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.ln_1.weight", shape: (6144,), dtype: float16
+
 48%|��██████████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 233/485 [01:00<00:34,  7.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.ln_2.bias", shape: (6144,), dtype: float16
+
 48%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 233/485 [01:00<00:34,  7.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.ln_2.weight", shape: (6144,), dtype: float16
+
 48%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 233/485 [01:00<00:34,  7.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 48%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 233/485 [01:00<00:34,  7.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:46] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.17.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 48%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 233/485 [01:01<00:34,  7.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:46] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.17.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 48%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 233/485 [01:01<00:34,  7.26it/s]
 49%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 239/485 [01:01<00:31,  7.76it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:46] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 49%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 239/485 [01:01<00:31,  7.76it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:46] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.17.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 49%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 239/485 [01:01<00:31,  7.76it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:46] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.17.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 49%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 239/485 [01:01<00:31,  7.76it/s]
 50%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 241/485 [01:01<00:42,  5.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 50%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 241/485 [01:01<00:42,  5.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:47] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.18.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 50%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 241/485 [01:02<00:42,  5.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:47] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.18.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 50%|████████████████████████████████████████████████████████████████████████████████████████���█████████▍                                                                                                   | 241/485 [01:02<00:42,  5.77it/s]
 50%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 243/485 [01:02<00:37,  6.42it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 50%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 243/485 [01:02<00:37,  6.42it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:47] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.18.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 50%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 243/485 [01:02<00:37,  6.42it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:47] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.18.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 50%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 243/485 [01:02<00:37,  6.42it/s]
 51%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 245/485 [01:02<00:33,  7.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.ln_1.bias", shape: (6144,), dtype: float16
+
 51%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 245/485 [01:02<00:33,  7.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.ln_1.weight", shape: (6144,), dtype: float16
+
 51%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 245/485 [01:02<00:33,  7.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.ln_2.bias", shape: (6144,), dtype: float16
+
 51%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 245/485 [01:02<00:33,  7.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.ln_2.weight", shape: (6144,), dtype: float16
+
 51%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 245/485 [01:02<00:33,  7.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 51%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 245/485 [01:02<00:33,  7.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:48] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.18.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 51%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 245/485 [01:02<00:33,  7.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:48] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.18.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 51%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 245/485 [01:02<00:33,  7.14it/s]
 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 251/485 [01:02<00:30,  7.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:48] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00003-of-00007.bin
+
 52%|███████████���██████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 251/485 [01:02<00:30,  7.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:48] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00004-of-00007.bin
+
 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 251/485 [01:03<00:30,  7.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:54] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 251/485 [01:09<00:30,  7.77it/s]
 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 252/485 [01:09<03:03,  1.27it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:54] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.18.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 252/485 [01:09<03:03,  1.27it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:54] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.18.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 252/485 [01:09<03:03,  1.27it/s]
 52%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 253/485 [01:09<02:57,  1.31it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:54] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 52%|██████████████████████���████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 253/485 [01:09<02:57,  1.31it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.19.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 52%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 253/485 [01:09<02:57,  1.31it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.19.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 52%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 253/485 [01:10<02:57,  1.31it/s]
 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 255/485 [01:10<02:13,  1.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 255/485 [01:10<02:13,  1.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.19.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 255/485 [01:10<02:13,  1.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.19.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 255/485 [01:10<02:13,  1.72it/s]
 53%|██████████████████████��█████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 257/485 [01:10<01:40,  2.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.ln_1.bias", shape: (6144,), dtype: float16
+
 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 257/485 [01:10<01:40,  2.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.ln_1.weight", shape: (6144,), dtype: float16
+
 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 257/485 [01:10<01:40,  2.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.ln_2.bias", shape: (6144,), dtype: float16
+
 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 257/485 [01:10<01:40,  2.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.ln_2.weight", shape: (6144,), dtype: float16
+
 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 257/485 [01:10<01:40,  2.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 257/485 [01:10<01:40,  2.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.19.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 53%|███████████████████████████████████████████████��████████████████████████████████████████████████████████▉                                                                                             | 257/485 [01:10<01:40,  2.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.19.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 257/485 [01:10<01:40,  2.26it/s]
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 263/485 [01:10<00:58,  3.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:56] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 263/485 [01:10<00:58,  3.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.19.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 263/485 [01:11<00:58,  3.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.19.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 263/485 [01:11<00:58,  3.77it/s]
 55%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 265/485 [01:11<01:02,  3.53it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:56] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 55%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 265/485 [01:11<01:02,  3.53it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.20.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 55%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 265/485 [01:11<01:02,  3.53it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.20.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 55%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 265/485 [01:11<01:02,  3.53it/s]
 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 267/485 [01:11<00:52,  4.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:56] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 267/485 [01:11<00:52,  4.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:57] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.20.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 267/485 [01:11<00:52,  4.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:57] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.20.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 267/485 [01:11<00:52,  4.16it/s]
 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 269/485 [01:11<00:43,  4.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:57] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.ln_1.bias", shape: (6144,), dtype: float16
+
 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 269/485 [01:11<00:43,  4.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:57] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.ln_1.weight", shape: (6144,), dtype: float16
+
 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 269/485 [01:11<00:43,  4.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:57] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.ln_2.bias", shape: (6144,), dtype: float16
+
 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 269/485 [01:11<00:43,  4.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:57] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.ln_2.weight", shape: (6144,), dtype: float16
+
 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 269/485 [01:11<00:43,  4.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:57] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 269/485 [01:11<00:43,  4.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:57] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.20.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 269/485 [01:12<00:43,  4.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:57] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.20.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 269/485 [01:12<00:43,  4.91it/s]
 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 275/485 [01:12<00:33,  6.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:57] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 275/485 [01:12<00:33,  6.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:58] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.20.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 275/485 [01:13<00:33,  6.26it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:58] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.20.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 275/485 [01:13<00:33,  6.26it/s]
 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 277/485 [01:13<00:41,  5.06it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 277/485 [01:13<00:41,  5.06it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:58] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.21.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 277/485 [01:13<00:41,  5.06it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:58] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.21.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 277/485 [01:13<00:41,  5.06it/s]
 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 279/485 [01:13<00:35,  5.73it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 279/485 [01:13<00:35,  5.73it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:58] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.21.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 279/485 [01:13<00:35,  5.73it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:58] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.21.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 58%|████████████████████████████████████████████████████████████████████████████████████████████��████████████████████▉                                                                                    | 279/485 [01:13<00:35,  5.73it/s]
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 281/485 [01:13<00:31,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.ln_1.bias", shape: (6144,), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 281/485 [01:13<00:31,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.ln_1.weight", shape: (6144,), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 281/485 [01:13<00:31,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.ln_2.bias", shape: (6144,), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 281/485 [01:13<00:31,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.ln_2.weight", shape: (6144,), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 281/485 [01:13<00:31,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 281/485 [01:13<00:31,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:59] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.21.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 281/485 [01:14<00:31,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:59] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.21.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 281/485 [01:14<00:31,  6.49it/s]
 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 287/485 [01:14<00:25,  7.80it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:23:59] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 287/485 [01:14<00:25,  7.80it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:00] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.21.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 287/485 [01:14<00:25,  7.80it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:00] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.21.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 287/485 [01:15<00:25,  7.80it/s]
 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 289/485 [01:15<00:33,  5.93it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 289/485 [01:15<00:33,  5.93it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:00] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.22.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 289/485 [01:15<00:33,  5.93it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:00] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.22.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 289/485 [01:15<00:33,  5.93it/s]
 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 291/485 [01:15<00:29,  6.56it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 291/485 [01:15<00:29,  6.56it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:00] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.22.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 291/485 [01:15<00:29,  6.56it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:00] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.22.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 291/485 [01:15<00:29,  6.56it/s]
 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 293/485 [01:15<00:26,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.ln_1.bias", shape: (6144,), dtype: float16
+
 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 293/485 [01:15<00:26,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.ln_1.weight", shape: (6144,), dtype: float16
+
 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 293/485 [01:15<00:26,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.ln_2.bias", shape: (6144,), dtype: float16
+
 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 293/485 [01:15<00:26,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.ln_2.weight", shape: (6144,), dtype: float16
+
 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 293/485 [01:15<00:26,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 293/485 [01:15<00:26,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:01] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.22.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 293/485 [01:16<00:26,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:01] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.22.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 293/485 [01:16<00:26,  7.29it/s]
 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 299/485 [01:16<00:23,  7.86it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:01] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 299/485 [01:16<00:23,  7.86it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:01] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.22.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 299/485 [01:16<00:23,  7.86it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:01] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.22.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 299/485 [01:16<00:23,  7.86it/s]
 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 301/485 [01:16<00:31,  5.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:01] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 301/485 [01:16<00:31,  5.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:02] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.23.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 301/485 [01:16<00:31,  5.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:02] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.23.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 301/485 [01:17<00:31,  5.82it/s]
 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 303/485 [01:17<00:28,  6.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 303/485 [01:17<00:28,  6.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:02] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.23.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 303/485 [01:17<00:28,  6.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:02] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.23.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 303/485 [01:17<00:28,  6.46it/s]
 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 305/485 [01:17<00:25,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.ln_1.bias", shape: (6144,), dtype: float16
+
 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 305/485 [01:17<00:25,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.ln_1.weight", shape: (6144,), dtype: float16
+
 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 305/485 [01:17<00:25,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.ln_2.bias", shape: (6144,), dtype: float16
+
 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 305/485 [01:17<00:25,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.ln_2.weight", shape: (6144,), dtype: float16
+
 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 305/485 [01:17<00:25,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 305/485 [01:17<00:25,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.23.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 305/485 [01:17<00:25,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.23.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 305/485 [01:17<00:25,  7.16it/s]
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 311/485 [01:17<00:22,  7.79it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 311/485 [01:17<00:22,  7.79it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.23.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 311/485 [01:18<00:22,  7.79it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.23.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 311/485 [01:18<00:22,  7.79it/s]
 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 313/485 [01:18<00:29,  5.84it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.24.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 313/485 [01:18<00:29,  5.84it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.24.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 313/485 [01:18<00:29,  5.84it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.24.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 313/485 [01:18<00:29,  5.84it/s]
 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 315/485 [01:18<00:26,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.24.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 65%|█████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████▌                                                                     | 315/485 [01:18<00:26,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.24.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 315/485 [01:18<00:26,  6.49it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.24.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 315/485 [01:18<00:26,  6.49it/s]
 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 317/485 [01:18<00:23,  7.20it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.24.ln_1.bias", shape: (6144,), dtype: float16
+
 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 317/485 [01:18<00:23,  7.20it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.24.ln_1.weight", shape: (6144,), dtype: float16
+
 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 317/485 [01:18<00:23,  7.20it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.24.ln_2.bias", shape: (6144,), dtype: float16
+
 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 317/485 [01:18<00:23,  7.20it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.24.ln_2.weight", shape: (6144,), dtype: float16
+
 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 317/485 [01:18<00:23,  7.20it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.24.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 317/485 [01:18<00:23,  7.20it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.24.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 317/485 [01:19<00:23,  7.20it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.24.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 317/485 [01:19<00:23,  7.20it/s]
 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 323/485 [01:19<00:20,  7.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.24.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 323/485 [01:19<00:20,  7.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:05] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.24.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 323/485 [01:20<00:20,  7.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:05] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.24.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 323/485 [01:20<00:20,  7.82it/s]
 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 325/485 [01:20<00:27,  5.86it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:05] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.25.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 325/485 [01:20<00:27,  5.86it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:05] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.25.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 325/485 [01:20<00:27,  5.86it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:05] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.25.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 325/485 [01:20<00:27,  5.86it/s]
 67%|█████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████▍                                                                | 327/485 [01:20<00:24,  6.51it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:05] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.25.ln_1.bias", shape: (6144,), dtype: float16
+
 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                | 327/485 [01:20<00:24,  6.51it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:05] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.25.ln_1.weight", shape: (6144,), dtype: float16
+
 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                | 327/485 [01:20<00:24,  6.51it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:05] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00004-of-00007.bin
+
 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                | 327/485 [01:20<00:24,  6.51it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:06] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00005-of-00007.bin
+
 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                | 327/485 [01:20<00:24,  6.51it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.25.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                | 327/485 [01:26<00:24,  6.51it/s]
 68%|███████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████▋                                                               | 330/485 [01:26<01:57,  1.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:12] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.25.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 330/485 [01:26<01:57,  1.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:12] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.25.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 330/485 [01:26<01:57,  1.32it/s]
 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 331/485 [01:26<01:45,  1.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:12] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.25.ln_2.bias", shape: (6144,), dtype: float16
+
 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 331/485 [01:26<01:45,  1.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:12] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.25.ln_2.weight", shape: (6144,), dtype: float16
+
 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 331/485 [01:26<01:45,  1.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:12] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.25.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 331/485 [01:26<01:45,  1.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:12] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.25.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 331/485 [01:27<01:45,  1.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:12] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.25.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 331/485 [01:27<01:45,  1.46it/s]
 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 335/485 [01:27<01:10,  2.13it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:12] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.25.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 335/485 [01:27<01:10,  2.13it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.25.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 335/485 [01:28<01:10,  2.13it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.25.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 335/485 [01:28<01:10,  2.13it/s]
 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 337/485 [01:28<01:03,  2.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.26.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 337/485 [01:28<01:03,  2.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.26.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 337/485 [01:28<01:03,  2.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.26.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 337/485 [01:28<01:03,  2.32it/s]
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 339/485 [01:28<00:50,  2.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.26.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 339/485 [01:28<00:50,  2.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.26.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 339/485 [01:28<00:50,  2.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.26.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 339/485 [01:28<00:50,  2.91it/s]
 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 341/485 [01:28<00:39,  3.65it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.26.ln_1.bias", shape: (6144,), dtype: float16
+
 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 341/485 [01:28<00:39,  3.65it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.26.ln_1.weight", shape: (6144,), dtype: float16
+
 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 341/485 [01:28<00:39,  3.65it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.26.ln_2.bias", shape: (6144,), dtype: float16
+
 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 341/485 [01:28<00:39,  3.65it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.26.ln_2.weight", shape: (6144,), dtype: float16
+
 70%|█████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 341/485 [01:28<00:39,  3.65it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.26.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 341/485 [01:28<00:39,  3.65it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:14] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.26.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 341/485 [01:29<00:39,  3.65it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:14] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.26.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 341/485 [01:29<00:39,  3.65it/s]
 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 347/485 [01:29<00:25,  5.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:14] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.26.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 347/485 [01:29<00:25,  5.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:14] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.26.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 347/485 [01:29<00:25,  5.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:15] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.26.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 347/485 [01:29<00:25,  5.46it/s]
 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 349/485 [01:29<00:28,  4.75it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.27.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 349/485 [01:29<00:28,  4.75it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:15] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.27.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 349/485 [01:30<00:28,  4.75it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:15] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.27.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 349/485 [01:30<00:28,  4.75it/s]
 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 351/485 [01:30<00:24,  5.48it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.27.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 351/485 [01:30<00:24,  5.48it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:15] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.27.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 351/485 [01:30<00:24,  5.48it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:15] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.27.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 351/485 [01:30<00:24,  5.48it/s]
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 353/485 [01:30<00:20,  6.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.27.ln_1.bias", shape: (6144,), dtype: float16
+
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 353/485 [01:30<00:20,  6.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.27.ln_1.weight", shape: (6144,), dtype: float16
+
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 353/485 [01:30<00:20,  6.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.27.ln_2.bias", shape: (6144,), dtype: float16
+
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 353/485 [01:30<00:20,  6.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.27.ln_2.weight", shape: (6144,), dtype: float16
+
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 353/485 [01:30<00:20,  6.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.27.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 353/485 [01:30<00:20,  6.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:16] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.27.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 353/485 [01:30<00:20,  6.38it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:16] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.27.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 353/485 [01:30<00:20,  6.38it/s]
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 359/485 [01:30<00:17,  7.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.27.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 359/485 [01:30<00:17,  7.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:16] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.27.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 359/485 [01:31<00:17,  7.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:16] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.27.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 359/485 [01:31<00:17,  7.32it/s]
 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 361/485 [01:31<00:22,  5.59it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.28.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 361/485 [01:31<00:22,  5.59it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:16] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.28.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████▍                                                  | 361/485 [01:31<00:22,  5.59it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:16] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.28.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 361/485 [01:31<00:22,  5.59it/s]
 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 363/485 [01:31<00:19,  6.25it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.28.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 363/485 [01:31<00:19,  6.25it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:17] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.28.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 363/485 [01:31<00:19,  6.25it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:17] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.28.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 363/485 [01:31<00:19,  6.25it/s]
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 365/485 [01:31<00:17,  6.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.28.ln_1.bias", shape: (6144,), dtype: float16
+
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 365/485 [01:31<00:17,  6.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.28.ln_1.weight", shape: (6144,), dtype: float16
+
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 365/485 [01:31<00:17,  6.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.28.ln_2.bias", shape: (6144,), dtype: float16
+
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 365/485 [01:31<00:17,  6.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.28.ln_2.weight", shape: (6144,), dtype: float16
+
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 365/485 [01:31<00:17,  6.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.28.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 365/485 [01:31<00:17,  6.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:17] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.28.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 365/485 [01:32<00:17,  6.99it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:17] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.28.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 365/485 [01:32<00:17,  6.99it/s]
 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 371/485 [01:32<00:14,  7.70it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.28.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 371/485 [01:32<00:14,  7.70it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:18] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.28.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 371/485 [01:33<00:14,  7.70it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:18] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.28.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 371/485 [01:33<00:14,  7.70it/s]
 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 373/485 [01:33<00:19,  5.78it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.29.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 373/485 [01:33<00:19,  5.78it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:18] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.29.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 373/485 [01:33<00:19,  5.78it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:18] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.29.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 373/485 [01:33<00:19,  5.78it/s]
 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 375/485 [01:33<00:17,  6.43it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.29.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 375/485 [01:33<00:17,  6.43it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:18] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.29.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████                                             | 375/485 [01:33<00:17,  6.43it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:18] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.29.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 375/485 [01:33<00:17,  6.43it/s]
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 377/485 [01:33<00:15,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.29.ln_1.bias", shape: (6144,), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 377/485 [01:33<00:15,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.29.ln_1.weight", shape: (6144,), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 377/485 [01:33<00:15,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.29.ln_2.bias", shape: (6144,), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 377/485 [01:33<00:15,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.29.ln_2.weight", shape: (6144,), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 377/485 [01:33<00:15,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.29.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 377/485 [01:33<00:15,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:19] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.29.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 377/485 [01:34<00:15,  7.16it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:19] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.29.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 377/485 [01:34<00:15,  7.16it/s]
 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 383/485 [01:34<00:13,  7.79it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.29.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 383/485 [01:34<00:13,  7.79it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.29.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 79%|████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 383/485 [01:34<00:13,  7.79it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.29.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 383/485 [01:35<00:13,  7.79it/s]
 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 385/485 [01:35<00:16,  6.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.30.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 385/485 [01:35<00:16,  6.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.30.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 385/485 [01:35<00:16,  6.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.30.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 385/485 [01:35<00:16,  6.14it/s]
 80%|████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████▉                                        | 387/485 [01:35<00:14,  6.90it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.30.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 387/485 [01:35<00:14,  6.90it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.30.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 387/485 [01:35<00:14,  6.90it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.30.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 387/485 [01:35<00:14,  6.90it/s]
 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 389/485 [01:35<00:12,  7.75it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.30.ln_1.bias", shape: (6144,), dtype: float16
+
 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 389/485 [01:35<00:12,  7.75it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.30.ln_1.weight", shape: (6144,), dtype: float16
+
 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 389/485 [01:35<00:12,  7.75it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.30.ln_2.bias", shape: (6144,), dtype: float16
+
 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 389/485 [01:35<00:12,  7.75it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.30.ln_2.weight", shape: (6144,), dtype: float16
+
 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 389/485 [01:35<00:12,  7.75it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.30.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 389/485 [01:35<00:12,  7.75it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.30.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 389/485 [01:35<00:12,  7.75it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.30.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████▊                                       | 389/485 [01:35<00:12,  7.75it/s]
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 395/485 [01:35<00:10,  8.61it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.30.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 395/485 [01:35<00:10,  8.61it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.30.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 395/485 [01:36<00:10,  8.61it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.30.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 395/485 [01:36<00:10,  8.61it/s]
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 397/485 [01:36<00:13,  6.54it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.31.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 397/485 [01:36<00:13,  6.54it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.31.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 397/485 [01:36<00:13,  6.54it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.31.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 397/485 [01:36<00:13,  6.54it/s]
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 399/485 [01:36<00:12,  7.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.31.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 399/485 [01:36<00:12,  7.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.31.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 399/485 [01:36<00:12,  7.14it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.31.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████▉                                   | 399/485 [01:36<00:12,  7.14it/s]
 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 401/485 [01:36<00:10,  7.81it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.31.ln_1.bias", shape: (6144,), dtype: float16
+
 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 401/485 [01:36<00:10,  7.81it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.31.ln_1.weight", shape: (6144,), dtype: float16
+
 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 401/485 [01:36<00:10,  7.81it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.31.ln_2.bias", shape: (6144,), dtype: float16
+
 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 401/485 [01:36<00:10,  7.81it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.31.ln_2.weight", shape: (6144,), dtype: float16
+
 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 401/485 [01:36<00:10,  7.81it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.31.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 83%|███████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 401/485 [01:36<00:10,  7.81it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.31.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 401/485 [01:37<00:10,  7.81it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.31.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 401/485 [01:37<00:10,  7.81it/s]
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 407/485 [01:37<00:09,  8.17it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:22] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00005-of-00007.bin
+
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 407/485 [01:37<00:09,  8.17it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:23] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00006-of-00007.bin
+
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 407/485 [01:37<00:09,  8.17it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.31.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 407/485 [01:43<00:09,  8.17it/s]
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 408/485 [01:43<01:00,  1.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.31.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 408/485 [01:44<01:00,  1.28it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.31.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 408/485 [01:44<01:00,  1.28it/s]
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 409/485 [01:44<00:58,  1.30it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.32.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 409/485 [01:44<00:58,  1.30it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.32.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 409/485 [01:44<00:58,  1.30it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.32.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 409/485 [01:44<00:58,  1.30it/s]
 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 411/485 [01:44<00:43,  1.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.32.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 411/485 [01:44<00:43,  1.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:30] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.32.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 411/485 [01:44<00:43,  1.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:30] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.32.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 411/485 [01:44<00:43,  1.72it/s]
 85%|█████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 413/485 [01:44<00:31,  2.27it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.32.ln_1.bias", shape: (6144,), dtype: float16
+
 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 413/485 [01:44<00:31,  2.27it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.32.ln_1.weight", shape: (6144,), dtype: float16
+
 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 413/485 [01:44<00:31,  2.27it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.32.ln_2.bias", shape: (6144,), dtype: float16
+
 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 413/485 [01:44<00:31,  2.27it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.32.ln_2.weight", shape: (6144,), dtype: float16
+
 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 413/485 [01:44<00:31,  2.27it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.32.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 413/485 [01:44<00:31,  2.27it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:30] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.32.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 413/485 [01:45<00:31,  2.27it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:30] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.32.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 413/485 [01:45<00:31,  2.27it/s]
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 419/485 [01:45<00:16,  3.93it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.32.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 419/485 [01:45<00:16,  3.93it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.32.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 419/485 [01:46<00:16,  3.93it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.32.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 419/485 [01:46<00:16,  3.93it/s]
 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 421/485 [01:46<00:16,  3.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.33.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 421/485 [01:46<00:16,  3.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.33.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 421/485 [01:46<00:16,  3.77it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.33.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 421/485 [01:46<00:16,  3.77it/s]
 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 423/485 [01:46<00:13,  4.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.33.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 87%|█████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 423/485 [01:46<00:13,  4.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.33.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 423/485 [01:46<00:13,  4.46it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.33.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 423/485 [01:46<00:13,  4.46it/s]
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 425/485 [01:46<00:11,  5.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.33.ln_1.bias", shape: (6144,), dtype: float16
+
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 425/485 [01:46<00:11,  5.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.33.ln_1.weight", shape: (6144,), dtype: float16
+
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 425/485 [01:46<00:11,  5.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.33.ln_2.bias", shape: (6144,), dtype: float16
+
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 425/485 [01:46<00:11,  5.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.33.ln_2.weight", shape: (6144,), dtype: float16
+
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 425/485 [01:46<00:11,  5.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.33.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 425/485 [01:46<00:11,  5.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:32] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.33.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 425/485 [01:47<00:11,  5.32it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:32] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.33.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 425/485 [01:47<00:11,  5.32it/s]
 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 431/485 [01:47<00:07,  6.84it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.33.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 431/485 [01:47<00:07,  6.84it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:32] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.33.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 431/485 [01:47<00:07,  6.84it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:32] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.33.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 431/485 [01:47<00:07,  6.84it/s]
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 433/485 [01:47<00:09,  5.66it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.34.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 433/485 [01:47<00:09,  5.66it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:33] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.34.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 433/485 [01:47<00:09,  5.66it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:33] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.34.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 433/485 [01:47<00:09,  5.66it/s]
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 435/485 [01:47<00:07,  6.42it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.34.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 435/485 [01:47<00:07,  6.42it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:33] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.34.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 435/485 [01:48<00:07,  6.42it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:33] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.34.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 435/485 [01:48<00:07,  6.42it/s]
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 437/485 [01:48<00:06,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.34.ln_1.bias", shape: (6144,), dtype: float16
+
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 437/485 [01:48<00:06,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.34.ln_1.weight", shape: (6144,), dtype: float16
+
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 437/485 [01:48<00:06,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.34.ln_2.bias", shape: (6144,), dtype: float16
+
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 437/485 [01:48<00:06,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.34.ln_2.weight", shape: (6144,), dtype: float16
+
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 437/485 [01:48<00:06,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.34.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 90%|���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 437/485 [01:48<00:06,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:33] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.34.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 437/485 [01:48<00:06,  7.29it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:33] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.34.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 437/485 [01:48<00:06,  7.29it/s]
 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 443/485 [01:48<00:04,  8.41it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.34.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 443/485 [01:48<00:04,  8.41it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:34] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.34.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���                 | 443/485 [01:49<00:04,  8.41it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:34] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.34.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 443/485 [01:49<00:04,  8.41it/s]
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 445/485 [01:49<00:06,  6.42it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.35.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 445/485 [01:49<00:06,  6.42it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:34] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.35.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 445/485 [01:49<00:06,  6.42it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:34] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.35.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 445/485 [01:49<00:06,  6.42it/s]
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████▍               | 447/485 [01:49<00:05,  7.18it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.35.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 447/485 [01:49<00:05,  7.18it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:34] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.35.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 447/485 [01:49<00:05,  7.18it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:34] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.35.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 447/485 [01:49<00:05,  7.18it/s]
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 449/485 [01:49<00:04,  8.04it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.35.ln_1.bias", shape: (6144,), dtype: float16
+
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 449/485 [01:49<00:04,  8.04it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.35.ln_1.weight", shape: (6144,), dtype: float16
+
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 449/485 [01:49<00:04,  8.04it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.35.ln_2.bias", shape: (6144,), dtype: float16
+
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 449/485 [01:49<00:04,  8.04it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.35.ln_2.weight", shape: (6144,), dtype: float16
+
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 449/485 [01:49<00:04,  8.04it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.35.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 449/485 [01:49<00:04,  8.04it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:35] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.35.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 449/485 [01:50<00:04,  8.04it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:35] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.35.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 449/485 [01:50<00:04,  8.04it/s]
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 455/485 [01:50<00:03,  8.31it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:35] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.35.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 455/485 [01:50<00:03,  8.31it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:36] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.35.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 455/485 [01:50<00:03,  8.31it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:36] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.35.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 455/485 [01:50<00:03,  8.31it/s]
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 457/485 [01:50<00:04,  6.08it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.36.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 457/485 [01:50<00:04,  6.08it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:36] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.36.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 457/485 [01:51<00:04,  6.08it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:36] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.36.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 457/485 [01:51<00:04,  6.08it/s]
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 459/485 [01:51<00:03,  6.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.36.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 459/485 [01:51<00:03,  6.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:36] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.36.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████▍          | 459/485 [01:51<00:03,  6.72it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:36] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.36.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 459/485 [01:51<00:03,  6.72it/s]
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 461/485 [01:51<00:03,  7.40it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.36.ln_1.bias", shape: (6144,), dtype: float16
+
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 461/485 [01:51<00:03,  7.40it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.36.ln_1.weight", shape: (6144,), dtype: float16
+
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 461/485 [01:51<00:03,  7.40it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.36.ln_2.bias", shape: (6144,), dtype: float16
+
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 461/485 [01:51<00:03,  7.40it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.36.ln_2.weight", shape: (6144,), dtype: float16
+
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 461/485 [01:51<00:03,  7.40it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.36.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 461/485 [01:51<00:03,  7.40it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:37] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.36.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 461/485 [01:52<00:03,  7.40it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:37] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.36.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 461/485 [01:52<00:03,  7.40it/s]
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 467/485 [01:52<00:02,  7.95it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:37] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.36.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████▋       | 467/485 [01:52<00:02,  7.95it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:37] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.36.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 467/485 [01:52<00:02,  7.95it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:37] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.36.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 467/485 [01:52<00:02,  7.95it/s]
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 469/485 [01:52<00:02,  5.90it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:37] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.37.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 469/485 [01:52<00:02,  5.90it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.37.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 469/485 [01:52<00:02,  5.90it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.37.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 469/485 [01:52<00:02,  5.90it/s]
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 471/485 [01:52<00:02,  6.51it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.37.attn.c_proj.bias", shape: (6144,), dtype: float16
+
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 471/485 [01:52<00:02,  6.51it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.37.attn.c_proj.q_weight", shape: (6144, 616), dtype: uint32
+
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 471/485 [01:53<00:02,  6.51it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.37.attn.c_proj.q_scale", shape: (6144, 154), dtype: float16
+
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 471/485 [01:53<00:02,  6.51it/s]
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████     | 473/485 [01:53<00:01,  7.23it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.37.ln_1.bias", shape: (6144,), dtype: float16
+
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 473/485 [01:53<00:01,  7.23it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.37.ln_1.weight", shape: (6144,), dtype: float16
+
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 473/485 [01:53<00:01,  7.23it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.37.ln_2.bias", shape: (6144,), dtype: float16
+
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 473/485 [01:53<00:01,  7.23it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.37.ln_2.weight", shape: (6144,), dtype: float16
+
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 473/485 [01:53<00:01,  7.23it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.37.mlp.c_fc.bias", shape: (24576,), dtype: float16
+
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 473/485 [01:53<00:01,  7.23it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.37.mlp.c_fc.q_weight", shape: (24576, 616), dtype: uint32
+
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 473/485 [01:53<00:01,  7.23it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.37.mlp.c_fc.q_scale", shape: (24576, 154), dtype: float16
+
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 473/485 [01:53<00:01,  7.23it/s]
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 479/485 [01:53<00:00,  7.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.37.mlp.c_proj.bias", shape: (6144,), dtype: float16
+
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 479/485 [01:53<00:00,  7.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.37.mlp.c_proj.q_weight", shape: (6144, 2460), dtype: uint32
+
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 479/485 [01:54<00:00,  7.82it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.37.mlp.c_proj.q_scale", shape: (6144, 615), dtype: float16
+
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 479/485 [01:54<00:00,  7.82it/s]
 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 481/485 [01:54<00:00,  6.15it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.38.attn.c_attn.bias", shape: (6400,), dtype: float16
+
 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 481/485 [01:54<00:00,  6.15it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.38.attn.c_attn.q_weight", shape: (6400, 616), dtype: uint32
+
 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 481/485 [01:54<00:00,  6.15it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "transformer.h.38.attn.c_attn.q_scale", shape: (6400, 154), dtype: float16
+
 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 481/485 [01:54<00:00,  6.15it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 483/485 [01:54<00:00,  6.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.38.ln_1.bias", shape: (6144,), dtype: float16
+
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 483/485 [01:54<00:00,  6.91it/s]
                                                                                                                                                                                                                                             
[2024-01-08 19:24:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.38.ln_1.weight", shape: (6144,), dtype: float16
+
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 483/485 [01:54<00:00,  6.91it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 485/485 [01:54<00:00,  4.23it/s]
+[2024-01-08 19:24:39] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00006-of-00007.bin
+[2024-01-08 19:24:40] INFO stats.py:71: Time usage: HF loading: 41.530 sec; Pre-quantization mapping: 62.119 sec; Quantization: 3.867 sec
+[2024-01-08 19:24:40] INFO stats.py:85: RAM usage: Peak RAM: 9.224 GB. Total bytes loaded from disk: 58.932 GB
+[2024-01-08 19:24:40] INFO convert_weight.py:119: Parameter size after quantization: 6.647 GB
+[2024-01-08 19:24:40] INFO convert_weight.py:124: Total parameters: 15,819,446,272
+[2024-01-08 19:24:40] INFO convert_weight.py:125: Bits per parameter: 3.609
+Start storing to cache /home/junrushao/tmp/tmpq64f2pg_
+

[0001/0648] saving lm_head.q_weight
                                   
[0002/0648] saving lm_head.q_scale
                                   
[0003/0648] saving transformer.h.38.attn.c_proj.bias
                                                    
[0004/0648] saving transformer.h.38.attn.c_proj.q_weight
                                                        
[0005/0648] saving transformer.h.38.attn.c_proj.q_scale
                                                        
[0006/0648] saving transformer.h.38.ln_2.bias
                                                        
[0007/0648] saving transformer.h.38.ln_2.weight
                                                        
[0008/0648] saving transformer.h.38.mlp.c_fc.bias
                                                        
[0009/0648] saving transformer.h.38.mlp.c_fc.q_weight
                                                        
[0010/0648] saving transformer.h.38.mlp.c_fc.q_scale
                                                        
[0011/0648] saving transformer.h.38.mlp.c_proj.bias
                                                        
[0012/0648] saving transformer.h.38.mlp.c_proj.q_weight
                                                        
[0013/0648] saving transformer.h.38.mlp.c_proj.q_scale
                                                        
[0014/0648] saving transformer.h.39.attn.c_attn.bias
                                                        
[0015/0648] saving transformer.h.39.attn.c_attn.q_weight
                                                        
[0016/0648] saving transformer.h.39.attn.c_attn.q_scale
                                                        
[0017/0648] saving transformer.h.39.attn.c_proj.bias
                                                        
[0018/0648] saving transformer.h.39.attn.c_proj.q_weight
                                                        
[0019/0648] saving transformer.h.39.attn.c_proj.q_scale
                                                        
[0020/0648] saving transformer.h.39.ln_1.bias
                                                        
[0021/0648] saving transformer.h.39.ln_1.weight
                                                        
[0022/0648] saving transformer.h.39.ln_2.bias
                                                        
[0023/0648] saving transformer.h.39.ln_2.weight
                                                        
[0024/0648] saving transformer.h.39.mlp.c_fc.bias
                                                        
[0025/0648] saving transformer.h.39.mlp.c_fc.q_weight
                                                        
[0026/0648] saving transformer.h.39.mlp.c_fc.q_scale
                                                        
[0027/0648] saving transformer.h.39.mlp.c_proj.bias
                                                        
[0028/0648] saving transformer.h.39.mlp.c_proj.q_weight
                                                        
[0029/0648] saving transformer.h.39.mlp.c_proj.q_scale
                                                        
[0030/0648] saving transformer.ln_f.bias
                                                        
[0031/0648] saving transformer.ln_f.weight
                                                        
[0032/0648] saving transformer.h.0.attn.c_attn.bias
                                                        
[0033/0648] saving transformer.h.0.attn.c_attn.q_weight
                                                        
[0034/0648] saving transformer.h.0.attn.c_attn.q_scale
                                                        
[0035/0648] saving transformer.h.0.attn.c_proj.bias
                                                        
[0036/0648] saving transformer.h.0.attn.c_proj.q_weight
                                                        
[0037/0648] saving transformer.h.0.attn.c_proj.q_scale
                                                        
[0038/0648] saving transformer.h.0.ln_1.bias
                                                        
[0039/0648] saving transformer.h.0.ln_1.weight
                                                        
[0040/0648] saving transformer.h.0.ln_2.bias
                                                        
[0041/0648] saving transformer.h.0.ln_2.weight
                                                        
[0042/0648] saving transformer.h.0.mlp.c_fc.bias
                                                        
[0043/0648] saving transformer.h.0.mlp.c_fc.q_weight
                                                        
[0044/0648] saving transformer.h.0.mlp.c_fc.q_scale
                                                        
[0045/0648] saving transformer.h.0.mlp.c_proj.bias
                                                        
[0046/0648] saving transformer.h.0.mlp.c_proj.q_weight
                                                        
[0047/0648] saving transformer.h.0.mlp.c_proj.q_scale
                                                        
[0048/0648] saving transformer.h.1.attn.c_attn.bias
                                                        
[0049/0648] saving transformer.h.1.attn.c_attn.q_weight
                                                        
[0050/0648] saving transformer.h.1.attn.c_attn.q_scale
                                                        
[0051/0648] saving transformer.h.1.attn.c_proj.bias
                                                        
[0052/0648] saving transformer.h.1.attn.c_proj.q_weight
                                                        
[0053/0648] saving transformer.h.1.attn.c_proj.q_scale
                                                        
[0054/0648] saving transformer.h.1.ln_1.bias
                                                        
[0055/0648] saving transformer.h.1.ln_1.weight
                                                        
[0056/0648] saving transformer.h.1.ln_2.bias
                                                        
[0057/0648] saving transformer.h.1.ln_2.weight
                                                        
[0058/0648] saving transformer.h.1.mlp.c_fc.bias
                                                        
[0059/0648] saving transformer.h.1.mlp.c_fc.q_weight
                                                        
[0060/0648] saving transformer.h.1.mlp.c_fc.q_scale
                                                        
[0061/0648] saving transformer.h.1.mlp.c_proj.bias
                                                        
[0062/0648] saving transformer.h.1.mlp.c_proj.q_weight
                                                        
[0063/0648] saving transformer.h.1.mlp.c_proj.q_scale
                                                        
[0064/0648] saving transformer.h.2.attn.c_attn.bias
                                                        
[0065/0648] saving transformer.h.2.attn.c_attn.q_weight
                                                        
[0066/0648] saving transformer.h.2.attn.c_attn.q_scale
                                                        
[0067/0648] saving transformer.h.2.attn.c_proj.bias
                                                        
[0068/0648] saving transformer.h.2.attn.c_proj.q_weight
                                                        
[0069/0648] saving transformer.h.2.attn.c_proj.q_scale
                                                        
[0070/0648] saving transformer.h.2.ln_1.bias
                                                        
[0071/0648] saving transformer.h.2.ln_1.weight
                                                        
[0072/0648] saving transformer.h.2.ln_2.bias
                                                        
[0073/0648] saving transformer.h.2.ln_2.weight
                                                        
[0074/0648] saving transformer.h.2.mlp.c_fc.bias
                                                        
[0075/0648] saving transformer.h.2.mlp.c_fc.q_weight
                                                        
[0076/0648] saving transformer.h.2.mlp.c_fc.q_scale
                                                        
[0077/0648] saving transformer.h.2.mlp.c_proj.bias
                                                        
[0078/0648] saving transformer.h.2.mlp.c_proj.q_weight
                                                        
[0079/0648] saving transformer.h.2.mlp.c_proj.q_scale
                                                        
[0080/0648] saving transformer.h.3.attn.c_attn.bias
                                                        
[0081/0648] saving transformer.h.3.attn.c_attn.q_weight
                                                        
[0082/0648] saving transformer.h.3.attn.c_attn.q_scale
                                                        
[0083/0648] saving transformer.h.3.attn.c_proj.bias
                                                        
[0084/0648] saving transformer.h.3.attn.c_proj.q_weight
                                                        
[0085/0648] saving transformer.h.3.attn.c_proj.q_scale
                                                        
[0086/0648] saving transformer.h.3.ln_1.bias
                                                        
[0087/0648] saving transformer.h.3.ln_1.weight
                                                        
[0088/0648] saving transformer.h.3.ln_2.bias
                                                        
[0089/0648] saving transformer.h.3.ln_2.weight
                                                        
[0090/0648] saving transformer.h.3.mlp.c_fc.bias
                                                        
[0091/0648] saving transformer.h.3.mlp.c_fc.q_weight
                                                        
[0092/0648] saving transformer.h.3.mlp.c_fc.q_scale
                                                        
[0093/0648] saving transformer.h.3.mlp.c_proj.bias
                                                        
[0094/0648] saving transformer.h.3.mlp.c_proj.q_weight
                                                        
[0095/0648] saving transformer.h.3.mlp.c_proj.q_scale
                                                        
[0096/0648] saving transformer.h.4.attn.c_attn.bias
                                                        
[0097/0648] saving transformer.h.4.attn.c_attn.q_weight
                                                        
[0098/0648] saving transformer.h.4.attn.c_attn.q_scale
                                                        
[0099/0648] saving transformer.h.4.attn.c_proj.bias
                                                        
[0100/0648] saving transformer.h.4.attn.c_proj.q_weight
                                                        
[0101/0648] saving transformer.h.4.attn.c_proj.q_scale
                                                        
[0102/0648] saving transformer.h.4.ln_1.bias
                                                        
[0103/0648] saving transformer.h.4.ln_1.weight
                                                        
[0104/0648] saving transformer.h.4.ln_2.bias
                                                        
[0105/0648] saving transformer.h.4.ln_2.weight
                                                        
[0106/0648] saving transformer.h.4.mlp.c_fc.bias
                                                        
[0107/0648] saving transformer.h.4.mlp.c_fc.q_weight
                                                        
[0108/0648] saving transformer.h.4.mlp.c_fc.q_scale
                                                        
[0109/0648] saving transformer.h.4.mlp.c_proj.bias
                                                        
[0110/0648] saving transformer.h.4.mlp.c_proj.q_weight
                                                        
[0111/0648] saving transformer.h.4.mlp.c_proj.q_scale
                                                        
[0112/0648] saving transformer.h.5.attn.c_attn.bias
                                                        
[0113/0648] saving transformer.h.5.attn.c_attn.q_weight
                                                        
[0114/0648] saving transformer.h.5.attn.c_attn.q_scale
                                                        
[0115/0648] saving transformer.h.5.attn.c_proj.bias
                                                        
[0116/0648] saving transformer.h.5.attn.c_proj.q_weight
                                                        
[0117/0648] saving transformer.h.5.attn.c_proj.q_scale
                                                        
[0118/0648] saving transformer.h.5.ln_1.bias
                                                        
[0119/0648] saving transformer.h.5.ln_1.weight
                                                        
[0120/0648] saving transformer.h.5.ln_2.bias
                                                        
[0121/0648] saving transformer.h.5.ln_2.weight
                                                        
[0122/0648] saving transformer.h.5.mlp.c_fc.bias
                                                        
[0123/0648] saving transformer.h.5.mlp.c_fc.q_weight
                                                        
[0124/0648] saving transformer.h.5.mlp.c_fc.q_scale
                                                        
[0125/0648] saving transformer.wpe.q_weight
                                                        
[0126/0648] saving transformer.wpe.q_scale
                                                        
[0127/0648] saving transformer.wte.q_weight
                                                        
[0128/0648] saving transformer.wte.q_scale
                                                        
[0129/0648] saving transformer.h.10.attn.c_attn.bias
                                                        
[0130/0648] saving transformer.h.10.attn.c_attn.q_weight
                                                        
[0131/0648] saving transformer.h.10.attn.c_attn.q_scale
                                                        
[0132/0648] saving transformer.h.10.attn.c_proj.bias
                                                        
[0133/0648] saving transformer.h.10.attn.c_proj.q_weight
                                                        
[0134/0648] saving transformer.h.10.attn.c_proj.q_scale
                                                        
[0135/0648] saving transformer.h.10.ln_1.bias
                                                        
[0136/0648] saving transformer.h.10.ln_1.weight
                                                        
[0137/0648] saving transformer.h.10.ln_2.bias
                                                        
[0138/0648] saving transformer.h.10.ln_2.weight
                                                        
[0139/0648] saving transformer.h.10.mlp.c_fc.bias
                                                        
[0140/0648] saving transformer.h.10.mlp.c_fc.q_weight
                                                        
[0141/0648] saving transformer.h.10.mlp.c_fc.q_scale
                                                        
[0142/0648] saving transformer.h.10.mlp.c_proj.bias
                                                        
[0143/0648] saving transformer.h.10.mlp.c_proj.q_weight
                                                        
[0144/0648] saving transformer.h.10.mlp.c_proj.q_scale
                                                        
[0145/0648] saving transformer.h.11.attn.c_attn.bias
                                                        
[0146/0648] saving transformer.h.11.attn.c_attn.q_weight
                                                        
[0147/0648] saving transformer.h.11.attn.c_attn.q_scale
                                                        
[0148/0648] saving transformer.h.11.attn.c_proj.bias
                                                        
[0149/0648] saving transformer.h.11.attn.c_proj.q_weight
                                                        
[0150/0648] saving transformer.h.11.attn.c_proj.q_scale
                                                        
[0151/0648] saving transformer.h.11.ln_1.bias
                                                        
[0152/0648] saving transformer.h.11.ln_1.weight
                                                        
[0153/0648] saving transformer.h.11.ln_2.bias
                                                        
[0154/0648] saving transformer.h.11.ln_2.weight
                                                        
[0155/0648] saving transformer.h.11.mlp.c_fc.bias
                                                        
[0156/0648] saving transformer.h.11.mlp.c_fc.q_weight
                                                        
[0157/0648] saving transformer.h.11.mlp.c_fc.q_scale
                                                        
[0158/0648] saving transformer.h.11.mlp.c_proj.bias
                                                        
[0159/0648] saving transformer.h.11.mlp.c_proj.q_weight
                                                        
[0160/0648] saving transformer.h.11.mlp.c_proj.q_scale
                                                        
[0161/0648] saving transformer.h.12.attn.c_attn.bias
                                                        
[0162/0648] saving transformer.h.12.attn.c_attn.q_weight
                                                        
[0163/0648] saving transformer.h.12.attn.c_attn.q_scale
                                                        
[0164/0648] saving transformer.h.12.ln_1.bias
                                                        
[0165/0648] saving transformer.h.12.ln_1.weight
                                                        
[0166/0648] saving transformer.h.5.mlp.c_proj.bias
                                                        
[0167/0648] saving transformer.h.5.mlp.c_proj.q_weight
                                                        
[0168/0648] saving transformer.h.5.mlp.c_proj.q_scale
                                                        
[0169/0648] saving transformer.h.6.attn.c_attn.bias
                                                        
[0170/0648] saving transformer.h.6.attn.c_attn.q_weight
                                                        
[0171/0648] saving transformer.h.6.attn.c_attn.q_scale
                                                        
[0172/0648] saving transformer.h.6.attn.c_proj.bias
                                                        
[0173/0648] saving transformer.h.6.attn.c_proj.q_weight
                                                        
[0174/0648] saving transformer.h.6.attn.c_proj.q_scale
                                                        
[0175/0648] saving transformer.h.6.ln_1.bias
                                                        
[0176/0648] saving transformer.h.6.ln_1.weight
                                                        
[0177/0648] saving transformer.h.6.ln_2.bias
                                                        
[0178/0648] saving transformer.h.6.ln_2.weight
                                                        
[0179/0648] saving transformer.h.6.mlp.c_fc.bias
                                                        
[0180/0648] saving transformer.h.6.mlp.c_fc.q_weight
                                                        
[0181/0648] saving transformer.h.6.mlp.c_fc.q_scale
                                                        
[0182/0648] saving transformer.h.6.mlp.c_proj.bias
                                                        
[0183/0648] saving transformer.h.6.mlp.c_proj.q_weight
                                                        
[0184/0648] saving transformer.h.6.mlp.c_proj.q_scale
                                                        
[0185/0648] saving transformer.h.7.attn.c_attn.bias
                                                        
[0186/0648] saving transformer.h.7.attn.c_attn.q_weight
                                                        
[0187/0648] saving transformer.h.7.attn.c_attn.q_scale
                                                        
[0188/0648] saving transformer.h.7.attn.c_proj.bias
                                                        
[0189/0648] saving transformer.h.7.attn.c_proj.q_weight
                                                        
[0190/0648] saving transformer.h.7.attn.c_proj.q_scale
                                                        
[0191/0648] saving transformer.h.7.ln_1.bias
                                                        
[0192/0648] saving transformer.h.7.ln_1.weight
                                                        
[0193/0648] saving transformer.h.7.ln_2.bias
                                                        
[0194/0648] saving transformer.h.7.ln_2.weight
                                                        
[0195/0648] saving transformer.h.7.mlp.c_fc.bias
                                                        
[0196/0648] saving transformer.h.7.mlp.c_fc.q_weight
                                                        
[0197/0648] saving transformer.h.7.mlp.c_fc.q_scale
                                                        
[0198/0648] saving transformer.h.7.mlp.c_proj.bias
                                                        
[0199/0648] saving transformer.h.7.mlp.c_proj.q_weight
                                                        
[0200/0648] saving transformer.h.7.mlp.c_proj.q_scale
                                                        
[0201/0648] saving transformer.h.8.attn.c_attn.bias
                                                        
[0202/0648] saving transformer.h.8.attn.c_attn.q_weight
                                                        
[0203/0648] saving transformer.h.8.attn.c_attn.q_scale
                                                        
[0204/0648] saving transformer.h.8.attn.c_proj.bias
                                                        
[0205/0648] saving transformer.h.8.attn.c_proj.q_weight
                                                        
[0206/0648] saving transformer.h.8.attn.c_proj.q_scale
                                                        
[0207/0648] saving transformer.h.8.ln_1.bias
                                                        
[0208/0648] saving transformer.h.8.ln_1.weight
                                                        
[0209/0648] saving transformer.h.8.ln_2.bias
                                                        
[0210/0648] saving transformer.h.8.ln_2.weight
                                                        
[0211/0648] saving transformer.h.8.mlp.c_fc.bias
                                                        
[0212/0648] saving transformer.h.8.mlp.c_fc.q_weight
                                                        
[0213/0648] saving transformer.h.8.mlp.c_fc.q_scale
                                                        
[0214/0648] saving transformer.h.8.mlp.c_proj.bias
                                                        
[0215/0648] saving transformer.h.8.mlp.c_proj.q_weight
                                                        
[0216/0648] saving transformer.h.8.mlp.c_proj.q_scale
                                                        
[0217/0648] saving transformer.h.9.attn.c_attn.bias
                                                        
[0218/0648] saving transformer.h.9.attn.c_attn.q_weight
                                                        
[0219/0648] saving transformer.h.9.attn.c_attn.q_scale
                                                        
[0220/0648] saving transformer.h.9.attn.c_proj.bias
                                                        
[0221/0648] saving transformer.h.9.attn.c_proj.q_weight
                                                        
[0222/0648] saving transformer.h.9.attn.c_proj.q_scale
                                                        
[0223/0648] saving transformer.h.9.ln_1.bias
                                                        
[0224/0648] saving transformer.h.9.ln_1.weight
                                                        
[0225/0648] saving transformer.h.9.ln_2.bias
                                                        
[0226/0648] saving transformer.h.9.ln_2.weight
                                                        
[0227/0648] saving transformer.h.9.mlp.c_fc.bias
                                                        
[0228/0648] saving transformer.h.9.mlp.c_fc.q_weight
                                                        
[0229/0648] saving transformer.h.9.mlp.c_fc.q_scale
                                                        
[0230/0648] saving transformer.h.9.mlp.c_proj.bias
                                                        
[0231/0648] saving transformer.h.9.mlp.c_proj.q_weight
                                                        
[0232/0648] saving transformer.h.9.mlp.c_proj.q_scale
                                                        
[0233/0648] saving transformer.h.12.attn.c_proj.bias
                                                        
[0234/0648] saving transformer.h.12.attn.c_proj.q_weight
                                                        
[0235/0648] saving transformer.h.12.attn.c_proj.q_scale
                                                        
[0236/0648] saving transformer.h.12.ln_2.bias
                                                        
[0237/0648] saving transformer.h.12.ln_2.weight
                                                        
[0238/0648] saving transformer.h.12.mlp.c_fc.bias
                                                        
[0239/0648] saving transformer.h.12.mlp.c_fc.q_weight
                                                        
[0240/0648] saving transformer.h.12.mlp.c_fc.q_scale
                                                        
[0241/0648] saving transformer.h.12.mlp.c_proj.bias
                                                        
[0242/0648] saving transformer.h.12.mlp.c_proj.q_weight
                                                        
[0243/0648] saving transformer.h.12.mlp.c_proj.q_scale
                                                        
[0244/0648] saving transformer.h.13.attn.c_attn.bias
                                                        
[0245/0648] saving transformer.h.13.attn.c_attn.q_weight
                                                        
[0246/0648] saving transformer.h.13.attn.c_attn.q_scale
                                                        
[0247/0648] saving transformer.h.13.attn.c_proj.bias
                                                        
[0248/0648] saving transformer.h.13.attn.c_proj.q_weight
                                                        
[0249/0648] saving transformer.h.13.attn.c_proj.q_scale
                                                        
[0250/0648] saving transformer.h.13.ln_1.bias
                                                        
[0251/0648] saving transformer.h.13.ln_1.weight
                                                        
[0252/0648] saving transformer.h.13.ln_2.bias
                                                        
[0253/0648] saving transformer.h.13.ln_2.weight
                                                        
[0254/0648] saving transformer.h.13.mlp.c_fc.bias
                                                        
[0255/0648] saving transformer.h.13.mlp.c_fc.q_weight
                                                        
[0256/0648] saving transformer.h.13.mlp.c_fc.q_scale
                                                        
[0257/0648] saving transformer.h.13.mlp.c_proj.bias
                                                        
[0258/0648] saving transformer.h.13.mlp.c_proj.q_weight
                                                        
[0259/0648] saving transformer.h.13.mlp.c_proj.q_scale
                                                        
[0260/0648] saving transformer.h.14.attn.c_attn.bias
                                                        
[0261/0648] saving transformer.h.14.attn.c_attn.q_weight
                                                        
[0262/0648] saving transformer.h.14.attn.c_attn.q_scale
                                                        
[0263/0648] saving transformer.h.14.attn.c_proj.bias
                                                        
[0264/0648] saving transformer.h.14.attn.c_proj.q_weight
                                                        
[0265/0648] saving transformer.h.14.attn.c_proj.q_scale
                                                        
[0266/0648] saving transformer.h.14.ln_1.bias
                                                        
[0267/0648] saving transformer.h.14.ln_1.weight
                                                        
[0268/0648] saving transformer.h.14.ln_2.bias
                                                        
[0269/0648] saving transformer.h.14.ln_2.weight
                                                        
[0270/0648] saving transformer.h.14.mlp.c_fc.bias
                                                        
[0271/0648] saving transformer.h.14.mlp.c_fc.q_weight
                                                        
[0272/0648] saving transformer.h.14.mlp.c_fc.q_scale
                                                        
[0273/0648] saving transformer.h.14.mlp.c_proj.bias
                                                        
[0274/0648] saving transformer.h.14.mlp.c_proj.q_weight
                                                        
[0275/0648] saving transformer.h.14.mlp.c_proj.q_scale
                                                        
[0276/0648] saving transformer.h.15.attn.c_attn.bias
                                                        
[0277/0648] saving transformer.h.15.attn.c_attn.q_weight
                                                        
[0278/0648] saving transformer.h.15.attn.c_attn.q_scale
                                                        
[0279/0648] saving transformer.h.15.attn.c_proj.bias
                                                        
[0280/0648] saving transformer.h.15.attn.c_proj.q_weight
                                                        
[0281/0648] saving transformer.h.15.attn.c_proj.q_scale
                                                        
[0282/0648] saving transformer.h.15.ln_1.bias
                                                        
[0283/0648] saving transformer.h.15.ln_1.weight
                                                        
[0284/0648] saving transformer.h.15.ln_2.bias
                                                        
[0285/0648] saving transformer.h.15.ln_2.weight
                                                        
[0286/0648] saving transformer.h.15.mlp.c_fc.bias
                                                        
[0287/0648] saving transformer.h.15.mlp.c_fc.q_weight
                                                        
[0288/0648] saving transformer.h.15.mlp.c_fc.q_scale
                                                        
[0289/0648] saving transformer.h.15.mlp.c_proj.bias
                                                        
[0290/0648] saving transformer.h.15.mlp.c_proj.q_weight
                                                        
[0291/0648] saving transformer.h.15.mlp.c_proj.q_scale
                                                        
[0292/0648] saving transformer.h.16.attn.c_attn.bias
                                                        
[0293/0648] saving transformer.h.16.attn.c_attn.q_weight
                                                        
[0294/0648] saving transformer.h.16.attn.c_attn.q_scale
                                                        
[0295/0648] saving transformer.h.16.attn.c_proj.bias
                                                        
[0296/0648] saving transformer.h.16.attn.c_proj.q_weight
                                                        
[0297/0648] saving transformer.h.16.attn.c_proj.q_scale
                                                        
[0298/0648] saving transformer.h.16.ln_1.bias
                                                        
[0299/0648] saving transformer.h.16.ln_1.weight
                                                        
[0300/0648] saving transformer.h.16.ln_2.bias
                                                        
[0301/0648] saving transformer.h.16.ln_2.weight
                                                        
[0302/0648] saving transformer.h.16.mlp.c_fc.bias
                                                        
[0303/0648] saving transformer.h.16.mlp.c_fc.q_weight
                                                        
[0304/0648] saving transformer.h.16.mlp.c_fc.q_scale
                                                        
[0305/0648] saving transformer.h.16.mlp.c_proj.bias
                                                        
[0306/0648] saving transformer.h.16.mlp.c_proj.q_weight
                                                        
[0307/0648] saving transformer.h.16.mlp.c_proj.q_scale
                                                        
[0308/0648] saving transformer.h.17.attn.c_attn.bias
                                                        
[0309/0648] saving transformer.h.17.attn.c_attn.q_weight
                                                        
[0310/0648] saving transformer.h.17.attn.c_attn.q_scale
                                                        
[0311/0648] saving transformer.h.17.attn.c_proj.bias
                                                        
[0312/0648] saving transformer.h.17.attn.c_proj.q_weight
                                                        
[0313/0648] saving transformer.h.17.attn.c_proj.q_scale
                                                        
[0314/0648] saving transformer.h.17.ln_1.bias
                                                        
[0315/0648] saving transformer.h.17.ln_1.weight
                                                        
[0316/0648] saving transformer.h.17.ln_2.bias
                                                        
[0317/0648] saving transformer.h.17.ln_2.weight
                                                        
[0318/0648] saving transformer.h.17.mlp.c_fc.bias
                                                        
[0319/0648] saving transformer.h.17.mlp.c_fc.q_weight
                                                        
[0320/0648] saving transformer.h.17.mlp.c_fc.q_scale
                                                        
[0321/0648] saving transformer.h.17.mlp.c_proj.bias
                                                        
[0322/0648] saving transformer.h.17.mlp.c_proj.q_weight
                                                        
[0323/0648] saving transformer.h.17.mlp.c_proj.q_scale
                                                        
[0324/0648] saving transformer.h.18.attn.c_attn.bias
                                                        
[0325/0648] saving transformer.h.18.attn.c_attn.q_weight
                                                        
[0326/0648] saving transformer.h.18.attn.c_attn.q_scale
                                                        
[0327/0648] saving transformer.h.18.attn.c_proj.bias
                                                        
[0328/0648] saving transformer.h.18.attn.c_proj.q_weight
                                                        
[0329/0648] saving transformer.h.18.attn.c_proj.q_scale
                                                        
[0330/0648] saving transformer.h.18.ln_1.bias
                                                        
[0331/0648] saving transformer.h.18.ln_1.weight
                                                        
[0332/0648] saving transformer.h.18.ln_2.bias
                                                        
[0333/0648] saving transformer.h.18.ln_2.weight
                                                        
[0334/0648] saving transformer.h.18.mlp.c_fc.bias
                                                        
[0335/0648] saving transformer.h.18.mlp.c_fc.q_weight
                                                        
[0336/0648] saving transformer.h.18.mlp.c_fc.q_scale
                                                        
[0337/0648] saving transformer.h.18.mlp.c_proj.bias
                                                        
[0338/0648] saving transformer.h.18.mlp.c_proj.q_weight
                                                        
[0339/0648] saving transformer.h.18.mlp.c_proj.q_scale
                                                        
[0340/0648] saving transformer.h.19.attn.c_attn.bias
                                                        
[0341/0648] saving transformer.h.19.attn.c_attn.q_weight
                                                        
[0342/0648] saving transformer.h.19.attn.c_attn.q_scale
                                                        
[0343/0648] saving transformer.h.19.attn.c_proj.bias
                                                        
[0344/0648] saving transformer.h.19.attn.c_proj.q_weight
                                                        
[0345/0648] saving transformer.h.19.attn.c_proj.q_scale
                                                        
[0346/0648] saving transformer.h.19.ln_1.bias
                                                        
[0347/0648] saving transformer.h.19.ln_1.weight
                                                        
[0348/0648] saving transformer.h.19.ln_2.bias
                                                        
[0349/0648] saving transformer.h.19.ln_2.weight
                                                        
[0350/0648] saving transformer.h.19.mlp.c_fc.bias
                                                        
[0351/0648] saving transformer.h.19.mlp.c_fc.q_weight
                                                        
[0352/0648] saving transformer.h.19.mlp.c_fc.q_scale
                                                        
[0353/0648] saving transformer.h.19.mlp.c_proj.bias
                                                        
[0354/0648] saving transformer.h.19.mlp.c_proj.q_weight
                                                        
[0355/0648] saving transformer.h.19.mlp.c_proj.q_scale
                                                        
[0356/0648] saving transformer.h.20.attn.c_attn.bias
                                                        
[0357/0648] saving transformer.h.20.attn.c_attn.q_weight
                                                        
[0358/0648] saving transformer.h.20.attn.c_attn.q_scale
                                                        
[0359/0648] saving transformer.h.20.attn.c_proj.bias
                                                        
[0360/0648] saving transformer.h.20.attn.c_proj.q_weight
                                                        
[0361/0648] saving transformer.h.20.attn.c_proj.q_scale
                                                        
[0362/0648] saving transformer.h.20.ln_1.bias
                                                        
[0363/0648] saving transformer.h.20.ln_1.weight
                                                        
[0364/0648] saving transformer.h.20.ln_2.bias
                                                        
[0365/0648] saving transformer.h.20.ln_2.weight
                                                        
[0366/0648] saving transformer.h.20.mlp.c_fc.bias
                                                        
[0367/0648] saving transformer.h.20.mlp.c_fc.q_weight
                                                        
[0368/0648] saving transformer.h.20.mlp.c_fc.q_scale
                                                        
[0369/0648] saving transformer.h.20.mlp.c_proj.bias
                                                        
[0370/0648] saving transformer.h.20.mlp.c_proj.q_weight
                                                        
[0371/0648] saving transformer.h.20.mlp.c_proj.q_scale
                                                        
[0372/0648] saving transformer.h.21.attn.c_attn.bias
                                                        
[0373/0648] saving transformer.h.21.attn.c_attn.q_weight
                                                        
[0374/0648] saving transformer.h.21.attn.c_attn.q_scale
                                                        
[0375/0648] saving transformer.h.21.attn.c_proj.bias
                                                        
[0376/0648] saving transformer.h.21.attn.c_proj.q_weight
                                                        
[0377/0648] saving transformer.h.21.attn.c_proj.q_scale
                                                        
[0378/0648] saving transformer.h.21.ln_1.bias
                                                        
[0379/0648] saving transformer.h.21.ln_1.weight
                                                        
[0380/0648] saving transformer.h.21.ln_2.bias
                                                        
[0381/0648] saving transformer.h.21.ln_2.weight
                                                        
[0382/0648] saving transformer.h.21.mlp.c_fc.bias
                                                        
[0383/0648] saving transformer.h.21.mlp.c_fc.q_weight
                                                        
[0384/0648] saving transformer.h.21.mlp.c_fc.q_scale
                                                        
[0385/0648] saving transformer.h.21.mlp.c_proj.bias
                                                        
[0386/0648] saving transformer.h.21.mlp.c_proj.q_weight
                                                        
[0387/0648] saving transformer.h.21.mlp.c_proj.q_scale
                                                        
[0388/0648] saving transformer.h.22.attn.c_attn.bias
                                                        
[0389/0648] saving transformer.h.22.attn.c_attn.q_weight
                                                        
[0390/0648] saving transformer.h.22.attn.c_attn.q_scale
                                                        
[0391/0648] saving transformer.h.22.attn.c_proj.bias
                                                        
[0392/0648] saving transformer.h.22.attn.c_proj.q_weight
                                                        
[0393/0648] saving transformer.h.22.attn.c_proj.q_scale
                                                        
[0394/0648] saving transformer.h.22.ln_1.bias
                                                        
[0395/0648] saving transformer.h.22.ln_1.weight
                                                        
[0396/0648] saving transformer.h.22.ln_2.bias
                                                        
[0397/0648] saving transformer.h.22.ln_2.weight
                                                        
[0398/0648] saving transformer.h.22.mlp.c_fc.bias
                                                        
[0399/0648] saving transformer.h.22.mlp.c_fc.q_weight
                                                        
[0400/0648] saving transformer.h.22.mlp.c_fc.q_scale
                                                        
[0401/0648] saving transformer.h.22.mlp.c_proj.bias
                                                        
[0402/0648] saving transformer.h.22.mlp.c_proj.q_weight
                                                        
[0403/0648] saving transformer.h.22.mlp.c_proj.q_scale
                                                        
[0404/0648] saving transformer.h.23.attn.c_attn.bias
                                                        
[0405/0648] saving transformer.h.23.attn.c_attn.q_weight
                                                        
[0406/0648] saving transformer.h.23.attn.c_attn.q_scale
                                                        
[0407/0648] saving transformer.h.23.attn.c_proj.bias
                                                        
[0408/0648] saving transformer.h.23.attn.c_proj.q_weight
                                                        
[0409/0648] saving transformer.h.23.attn.c_proj.q_scale
                                                        
[0410/0648] saving transformer.h.23.ln_1.bias
                                                        
[0411/0648] saving transformer.h.23.ln_1.weight
                                                        
[0412/0648] saving transformer.h.23.ln_2.bias
                                                        
[0413/0648] saving transformer.h.23.ln_2.weight
                                                        
[0414/0648] saving transformer.h.23.mlp.c_fc.bias
                                                        
[0415/0648] saving transformer.h.23.mlp.c_fc.q_weight
                                                        
[0416/0648] saving transformer.h.23.mlp.c_fc.q_scale
                                                        
[0417/0648] saving transformer.h.23.mlp.c_proj.bias
                                                        
[0418/0648] saving transformer.h.23.mlp.c_proj.q_weight
                                                        
[0419/0648] saving transformer.h.23.mlp.c_proj.q_scale
                                                        
[0420/0648] saving transformer.h.24.attn.c_attn.bias
                                                        
[0421/0648] saving transformer.h.24.attn.c_attn.q_weight
                                                        
[0422/0648] saving transformer.h.24.attn.c_attn.q_scale
                                                        
[0423/0648] saving transformer.h.24.attn.c_proj.bias
                                                        
[0424/0648] saving transformer.h.24.attn.c_proj.q_weight
                                                        
[0425/0648] saving transformer.h.24.attn.c_proj.q_scale
                                                        
[0426/0648] saving transformer.h.24.ln_1.bias
                                                        
[0427/0648] saving transformer.h.24.ln_1.weight
                                                        
[0428/0648] saving transformer.h.24.ln_2.bias
                                                        
[0429/0648] saving transformer.h.24.ln_2.weight
                                                        
[0430/0648] saving transformer.h.24.mlp.c_fc.bias
                                                        
[0431/0648] saving transformer.h.24.mlp.c_fc.q_weight
                                                        
[0432/0648] saving transformer.h.24.mlp.c_fc.q_scale
                                                        
[0433/0648] saving transformer.h.24.mlp.c_proj.bias
                                                        
[0434/0648] saving transformer.h.24.mlp.c_proj.q_weight
                                                        
[0435/0648] saving transformer.h.24.mlp.c_proj.q_scale
                                                        
[0436/0648] saving transformer.h.25.attn.c_attn.bias
                                                        
[0437/0648] saving transformer.h.25.attn.c_attn.q_weight
                                                        
[0438/0648] saving transformer.h.25.attn.c_attn.q_scale
                                                        
[0439/0648] saving transformer.h.25.ln_1.bias
                                                        
[0440/0648] saving transformer.h.25.ln_1.weight
                                                        
[0441/0648] saving transformer.h.25.attn.c_proj.bias
                                                        
[0442/0648] saving transformer.h.25.attn.c_proj.q_weight
                                                        
[0443/0648] saving transformer.h.25.attn.c_proj.q_scale
                                                        
[0444/0648] saving transformer.h.25.ln_2.bias
                                                        
[0445/0648] saving transformer.h.25.ln_2.weight
                                                        
[0446/0648] saving transformer.h.25.mlp.c_fc.bias
                                                        
[0447/0648] saving transformer.h.25.mlp.c_fc.q_weight
                                                        
[0448/0648] saving transformer.h.25.mlp.c_fc.q_scale
                                                        
[0449/0648] saving transformer.h.25.mlp.c_proj.bias
                                                        
[0450/0648] saving transformer.h.25.mlp.c_proj.q_weight
                                                        
[0451/0648] saving transformer.h.25.mlp.c_proj.q_scale
                                                        
[0452/0648] saving transformer.h.26.attn.c_attn.bias
                                                        
[0453/0648] saving transformer.h.26.attn.c_attn.q_weight
                                                        
[0454/0648] saving transformer.h.26.attn.c_attn.q_scale
                                                        
[0455/0648] saving transformer.h.26.attn.c_proj.bias
                                                        
[0456/0648] saving transformer.h.26.attn.c_proj.q_weight
                                                        
[0457/0648] saving transformer.h.26.attn.c_proj.q_scale
                                                        
[0458/0648] saving transformer.h.26.ln_1.bias
                                                        
[0459/0648] saving transformer.h.26.ln_1.weight
                                                        
[0460/0648] saving transformer.h.26.ln_2.bias
                                                        
[0461/0648] saving transformer.h.26.ln_2.weight
                                                        
[0462/0648] saving transformer.h.26.mlp.c_fc.bias
                                                        
[0463/0648] saving transformer.h.26.mlp.c_fc.q_weight
                                                        
[0464/0648] saving transformer.h.26.mlp.c_fc.q_scale
                                                        
[0465/0648] saving transformer.h.26.mlp.c_proj.bias
                                                        
[0466/0648] saving transformer.h.26.mlp.c_proj.q_weight
                                                        
[0467/0648] saving transformer.h.26.mlp.c_proj.q_scale
                                                        
[0468/0648] saving transformer.h.27.attn.c_attn.bias
                                                        
[0469/0648] saving transformer.h.27.attn.c_attn.q_weight
                                                        
[0470/0648] saving transformer.h.27.attn.c_attn.q_scale
                                                        
[0471/0648] saving transformer.h.27.attn.c_proj.bias
                                                        
[0472/0648] saving transformer.h.27.attn.c_proj.q_weight
                                                        
[0473/0648] saving transformer.h.27.attn.c_proj.q_scale
                                                        
[0474/0648] saving transformer.h.27.ln_1.bias
                                                        
[0475/0648] saving transformer.h.27.ln_1.weight
                                                        
[0476/0648] saving transformer.h.27.ln_2.bias
                                                        
[0477/0648] saving transformer.h.27.ln_2.weight
                                                        
[0478/0648] saving transformer.h.27.mlp.c_fc.bias
                                                        
[0479/0648] saving transformer.h.27.mlp.c_fc.q_weight
                                                        
[0480/0648] saving transformer.h.27.mlp.c_fc.q_scale
                                                        
[0481/0648] saving transformer.h.27.mlp.c_proj.bias
                                                        
[0482/0648] saving transformer.h.27.mlp.c_proj.q_weight
                                                        
[0483/0648] saving transformer.h.27.mlp.c_proj.q_scale
                                                        
[0484/0648] saving transformer.h.28.attn.c_attn.bias
                                                        
[0485/0648] saving transformer.h.28.attn.c_attn.q_weight
                                                        
[0486/0648] saving transformer.h.28.attn.c_attn.q_scale
                                                        
[0487/0648] saving transformer.h.28.attn.c_proj.bias
                                                        
[0488/0648] saving transformer.h.28.attn.c_proj.q_weight
                                                        
[0489/0648] saving transformer.h.28.attn.c_proj.q_scale
                                                        
[0490/0648] saving transformer.h.28.ln_1.bias
                                                        
[0491/0648] saving transformer.h.28.ln_1.weight
                                                        
[0492/0648] saving transformer.h.28.ln_2.bias
                                                        
[0493/0648] saving transformer.h.28.ln_2.weight
                                                        
[0494/0648] saving transformer.h.28.mlp.c_fc.bias
                                                        
[0495/0648] saving transformer.h.28.mlp.c_fc.q_weight
                                                        
[0496/0648] saving transformer.h.28.mlp.c_fc.q_scale
                                                        
[0497/0648] saving transformer.h.28.mlp.c_proj.bias
                                                        
[0498/0648] saving transformer.h.28.mlp.c_proj.q_weight
                                                        
[0499/0648] saving transformer.h.28.mlp.c_proj.q_scale
                                                        
[0500/0648] saving transformer.h.29.attn.c_attn.bias
                                                        
[0501/0648] saving transformer.h.29.attn.c_attn.q_weight
                                                        
[0502/0648] saving transformer.h.29.attn.c_attn.q_scale
                                                        
[0503/0648] saving transformer.h.29.attn.c_proj.bias
                                                        
[0504/0648] saving transformer.h.29.attn.c_proj.q_weight
                                                        
[0505/0648] saving transformer.h.29.attn.c_proj.q_scale
                                                        
[0506/0648] saving transformer.h.29.ln_1.bias
                                                        
[0507/0648] saving transformer.h.29.ln_1.weight
                                                        
[0508/0648] saving transformer.h.29.ln_2.bias
                                                        
[0509/0648] saving transformer.h.29.ln_2.weight
                                                        
[0510/0648] saving transformer.h.29.mlp.c_fc.bias
                                                        
[0511/0648] saving transformer.h.29.mlp.c_fc.q_weight
                                                        
[0512/0648] saving transformer.h.29.mlp.c_fc.q_scale
                                                        
[0513/0648] saving transformer.h.29.mlp.c_proj.bias
                                                        
[0514/0648] saving transformer.h.29.mlp.c_proj.q_weight
                                                        
[0515/0648] saving transformer.h.29.mlp.c_proj.q_scale
                                                        
[0516/0648] saving transformer.h.30.attn.c_attn.bias
                                                        
[0517/0648] saving transformer.h.30.attn.c_attn.q_weight
                                                        
[0518/0648] saving transformer.h.30.attn.c_attn.q_scale
                                                        
[0519/0648] saving transformer.h.30.attn.c_proj.bias
                                                        
[0520/0648] saving transformer.h.30.attn.c_proj.q_weight
                                                        
[0521/0648] saving transformer.h.30.attn.c_proj.q_scale
                                                        
[0522/0648] saving transformer.h.30.ln_1.bias
                                                        
[0523/0648] saving transformer.h.30.ln_1.weight
                                                        
[0524/0648] saving transformer.h.30.ln_2.bias
                                                        
[0525/0648] saving transformer.h.30.ln_2.weight
                                                        
[0526/0648] saving transformer.h.30.mlp.c_fc.bias
                                                        
[0527/0648] saving transformer.h.30.mlp.c_fc.q_weight
                                                        
[0528/0648] saving transformer.h.30.mlp.c_fc.q_scale
                                                        
[0529/0648] saving transformer.h.30.mlp.c_proj.bias
                                                        
[0530/0648] saving transformer.h.30.mlp.c_proj.q_weight
                                                        
[0531/0648] saving transformer.h.30.mlp.c_proj.q_scale
                                                        
[0532/0648] saving transformer.h.31.attn.c_attn.bias
                                                        
[0533/0648] saving transformer.h.31.attn.c_attn.q_weight
                                                        
[0534/0648] saving transformer.h.31.attn.c_attn.q_scale
                                                        
[0535/0648] saving transformer.h.31.attn.c_proj.bias
                                                        
[0536/0648] saving transformer.h.31.attn.c_proj.q_weight
                                                        
[0537/0648] saving transformer.h.31.attn.c_proj.q_scale
                                                        
[0538/0648] saving transformer.h.31.ln_1.bias
                                                        
[0539/0648] saving transformer.h.31.ln_1.weight
                                                        
[0540/0648] saving transformer.h.31.ln_2.bias
                                                        
[0541/0648] saving transformer.h.31.ln_2.weight
                                                        
[0542/0648] saving transformer.h.31.mlp.c_fc.bias
                                                        
[0543/0648] saving transformer.h.31.mlp.c_fc.q_weight
                                                        
[0544/0648] saving transformer.h.31.mlp.c_fc.q_scale
                                                        
[0545/0648] saving transformer.h.31.mlp.c_proj.bias
                                                        
[0546/0648] saving transformer.h.31.mlp.c_proj.q_weight
                                                        
[0547/0648] saving transformer.h.31.mlp.c_proj.q_scale
                                                        
[0548/0648] saving transformer.h.32.attn.c_attn.bias
                                                        
[0549/0648] saving transformer.h.32.attn.c_attn.q_weight
                                                        
[0550/0648] saving transformer.h.32.attn.c_attn.q_scale
                                                        
[0551/0648] saving transformer.h.32.attn.c_proj.bias
                                                        
[0552/0648] saving transformer.h.32.attn.c_proj.q_weight
                                                        
[0553/0648] saving transformer.h.32.attn.c_proj.q_scale
                                                        
[0554/0648] saving transformer.h.32.ln_1.bias
                                                        
[0555/0648] saving transformer.h.32.ln_1.weight
                                                        
[0556/0648] saving transformer.h.32.ln_2.bias
                                                        
[0557/0648] saving transformer.h.32.ln_2.weight
                                                        
[0558/0648] saving transformer.h.32.mlp.c_fc.bias
                                                        
[0559/0648] saving transformer.h.32.mlp.c_fc.q_weight
                                                        
[0560/0648] saving transformer.h.32.mlp.c_fc.q_scale
                                                        
[0561/0648] saving transformer.h.32.mlp.c_proj.bias
                                                        
[0562/0648] saving transformer.h.32.mlp.c_proj.q_weight
                                                        
[0563/0648] saving transformer.h.32.mlp.c_proj.q_scale
                                                        
[0564/0648] saving transformer.h.33.attn.c_attn.bias
                                                        
[0565/0648] saving transformer.h.33.attn.c_attn.q_weight
                                                        
[0566/0648] saving transformer.h.33.attn.c_attn.q_scale
                                                        
[0567/0648] saving transformer.h.33.attn.c_proj.bias
                                                        
[0568/0648] saving transformer.h.33.attn.c_proj.q_weight
                                                        
[0569/0648] saving transformer.h.33.attn.c_proj.q_scale
                                                        
[0570/0648] saving transformer.h.33.ln_1.bias
                                                        
[0571/0648] saving transformer.h.33.ln_1.weight
                                                        
[0572/0648] saving transformer.h.33.ln_2.bias
                                                        
[0573/0648] saving transformer.h.33.ln_2.weight
                                                        
[0574/0648] saving transformer.h.33.mlp.c_fc.bias
                                                        
[0575/0648] saving transformer.h.33.mlp.c_fc.q_weight
                                                        
[0576/0648] saving transformer.h.33.mlp.c_fc.q_scale
                                                        
[0577/0648] saving transformer.h.33.mlp.c_proj.bias
                                                        
[0578/0648] saving transformer.h.33.mlp.c_proj.q_weight
                                                        
[0579/0648] saving transformer.h.33.mlp.c_proj.q_scale
                                                        
[0580/0648] saving transformer.h.34.attn.c_attn.bias
                                                        
[0581/0648] saving transformer.h.34.attn.c_attn.q_weight
                                                        
[0582/0648] saving transformer.h.34.attn.c_attn.q_scale
                                                        
[0583/0648] saving transformer.h.34.attn.c_proj.bias
                                                        
[0584/0648] saving transformer.h.34.attn.c_proj.q_weight
                                                        
[0585/0648] saving transformer.h.34.attn.c_proj.q_scale
                                                        
[0586/0648] saving transformer.h.34.ln_1.bias
                                                        
[0587/0648] saving transformer.h.34.ln_1.weight
                                                        
[0588/0648] saving transformer.h.34.ln_2.bias
                                                        
[0589/0648] saving transformer.h.34.ln_2.weight
                                                        
[0590/0648] saving transformer.h.34.mlp.c_fc.bias
                                                        
[0591/0648] saving transformer.h.34.mlp.c_fc.q_weight
                                                        
[0592/0648] saving transformer.h.34.mlp.c_fc.q_scale
                                                        
[0593/0648] saving transformer.h.34.mlp.c_proj.bias
                                                        
[0594/0648] saving transformer.h.34.mlp.c_proj.q_weight
                                                        
[0595/0648] saving transformer.h.34.mlp.c_proj.q_scale
                                                        
[0596/0648] saving transformer.h.35.attn.c_attn.bias[2024-01-08 19:25:03] INFO convert_weight.py:141: Saved to directory: /home/junrushao/tmp/tmpq64f2pg_
+
                                                        
[0597/0648] saving transformer.h.35.attn.c_attn.q_weight
                                                        
[0598/0648] saving transformer.h.35.attn.c_attn.q_scale
                                                        
[0599/0648] saving transformer.h.35.attn.c_proj.bias
                                                        
[0600/0648] saving transformer.h.35.attn.c_proj.q_weight
                                                        
[0601/0648] saving transformer.h.35.attn.c_proj.q_scale
                                                        
[0602/0648] saving transformer.h.35.ln_1.bias
                                                        
[0603/0648] saving transformer.h.35.ln_1.weight
                                                        
[0604/0648] saving transformer.h.35.ln_2.bias
                                                        
[0605/0648] saving transformer.h.35.ln_2.weight
                                                        
[0606/0648] saving transformer.h.35.mlp.c_fc.bias
                                                        
[0607/0648] saving transformer.h.35.mlp.c_fc.q_weight
                                                        
[0608/0648] saving transformer.h.35.mlp.c_fc.q_scale
                                                        
[0609/0648] saving transformer.h.35.mlp.c_proj.bias
                                                        
[0610/0648] saving transformer.h.35.mlp.c_proj.q_weight
                                                        
[0611/0648] saving transformer.h.35.mlp.c_proj.q_scale
                                                        
[0612/0648] saving transformer.h.36.attn.c_attn.bias
                                                        
[0613/0648] saving transformer.h.36.attn.c_attn.q_weight
                                                        
[0614/0648] saving transformer.h.36.attn.c_attn.q_scale
                                                        
[0615/0648] saving transformer.h.36.attn.c_proj.bias
                                                        
[0616/0648] saving transformer.h.36.attn.c_proj.q_weight
                                                        
[0617/0648] saving transformer.h.36.attn.c_proj.q_scale
                                                        
[0618/0648] saving transformer.h.36.ln_1.bias
                                                        
[0619/0648] saving transformer.h.36.ln_1.weight
                                                        
[0620/0648] saving transformer.h.36.ln_2.bias
                                                        
[0621/0648] saving transformer.h.36.ln_2.weight
                                                        
[0622/0648] saving transformer.h.36.mlp.c_fc.bias
                                                        
[0623/0648] saving transformer.h.36.mlp.c_fc.q_weight
                                                        
[0624/0648] saving transformer.h.36.mlp.c_fc.q_scale
                                                        
[0625/0648] saving transformer.h.36.mlp.c_proj.bias
                                                        
[0626/0648] saving transformer.h.36.mlp.c_proj.q_weight
                                                        
[0627/0648] saving transformer.h.36.mlp.c_proj.q_scale
                                                        
[0628/0648] saving transformer.h.37.attn.c_attn.bias
                                                        
[0629/0648] saving transformer.h.37.attn.c_attn.q_weight
                                                        
[0630/0648] saving transformer.h.37.attn.c_attn.q_scale
                                                        
[0631/0648] saving transformer.h.37.attn.c_proj.bias
                                                        
[0632/0648] saving transformer.h.37.attn.c_proj.q_weight
                                                        
[0633/0648] saving transformer.h.37.attn.c_proj.q_scale
                                                        
[0634/0648] saving transformer.h.37.ln_1.bias
                                                        
[0635/0648] saving transformer.h.37.ln_1.weight
                                                        
[0636/0648] saving transformer.h.37.ln_2.bias
                                                        
[0637/0648] saving transformer.h.37.ln_2.weight
                                                        
[0638/0648] saving transformer.h.37.mlp.c_fc.bias
                                                        
[0639/0648] saving transformer.h.37.mlp.c_fc.q_weight
                                                        
[0640/0648] saving transformer.h.37.mlp.c_fc.q_scale
                                                        
[0641/0648] saving transformer.h.37.mlp.c_proj.bias
                                                        
[0642/0648] saving transformer.h.37.mlp.c_proj.q_weight
                                                        
[0643/0648] saving transformer.h.37.mlp.c_proj.q_scale
                                                        
[0644/0648] saving transformer.h.38.attn.c_attn.bias
                                                        
[0645/0648] saving transformer.h.38.attn.c_attn.q_weight
                                                        
[0646/0648] saving transformer.h.38.attn.c_attn.q_scale
                                                        
[0647/0648] saving transformer.h.38.ln_1.bias
                                                        
[0648/0648] saving transformer.h.38.ln_1.weight
+All finished, 151 total shards committed, record saved to /home/junrushao/tmp/tmpq64f2pg_/ndarray-cache.json