diff --git "a/logs.txt" "b/logs.txt" new file mode 100644--- /dev/null +++ "b/logs.txt" @@ -0,0 +1,727 @@ +/home/junrushao/micromamba/envs/python311/bin/python -m mlc_chat gen_config /opt/scratch/assets/starcoder --quantization q3f16_1 --conv-template LM --output /home/junrushao/tmp/tmpq64f2pg_ --context-window-size 8192 +[2024-01-08 19:22:37] INFO auto_config.py:115: [92mFound[0m model configuration: /opt/scratch/assets/starcoder/config.json +[2024-01-08 19:22:37] INFO auto_config.py:151: [92mFound[0m model type: [1mgpt_bigcode[0m. Use `--model-type` to override. +[2024-01-08 19:22:37] INFO gpt_bigcode_model.py:41: [1mcontext_window_size[0m not found in config.json. Falling back to [1mn_positions[0m (8192) +[2024-01-08 19:22:37] INFO gpt_bigcode_model.py:54: [1mprefill_chunk_size[0m defaults to [1mcontext_window_size[0m (8192) +[2024-01-08 19:22:37] INFO compiler_flags.py:118: Overriding [1mcontext_window_size[0m from 8192 to 8192 +[2024-01-08 19:22:37] INFO gen_config.py:117: [generation_config.json] Setting [1mbos_token_id[0m: 0 +[2024-01-08 19:22:37] INFO gen_config.py:117: [generation_config.json] Setting [1meos_token_id[0m: 0 +[2024-01-08 19:22:37] INFO gen_config.py:131: [91mNot found[0m tokenizer config: /opt/scratch/assets/starcoder/tokenizer.model +[2024-01-08 19:22:37] INFO gen_config.py:129: [92mFound[0m tokenizer config: /opt/scratch/assets/starcoder/tokenizer.json. Copying to [1m/home/junrushao/tmp/tmpq64f2pg_/tokenizer.json[0m +[2024-01-08 19:22:37] INFO gen_config.py:129: [92mFound[0m tokenizer config: /opt/scratch/assets/starcoder/vocab.json. Copying to [1m/home/junrushao/tmp/tmpq64f2pg_/vocab.json[0m +[2024-01-08 19:22:37] INFO gen_config.py:129: [92mFound[0m tokenizer config: /opt/scratch/assets/starcoder/merges.txt. Copying to [1m/home/junrushao/tmp/tmpq64f2pg_/merges.txt[0m +[2024-01-08 19:22:37] INFO gen_config.py:131: [91mNot found[0m tokenizer config: /opt/scratch/assets/starcoder/added_tokens.json +[2024-01-08 19:22:37] INFO gen_config.py:129: [92mFound[0m tokenizer config: /opt/scratch/assets/starcoder/tokenizer_config.json. Copying to [1m/home/junrushao/tmp/tmpq64f2pg_/tokenizer_config.json[0m +[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting [1mpad_token_id[0m: 0 +[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting [1mtemperature[0m: 0.7 +[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting [1mrepetition_penalty[0m: 1.0 +[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting [1mtop_p[0m: 0.95 +[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting [1mmean_gen_len[0m: 128 +[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting [1mmax_gen_len[0m: 512 +[2024-01-08 19:22:37] INFO gen_config.py:70: [System default] Setting [1mshift_fill_factor[0m: 0.3 +[2024-01-08 19:22:37] INFO gen_config.py:159: Dumping configuration file to: [1m/home/junrushao/tmp/tmpq64f2pg_/mlc-chat-config.json[0m +/home/junrushao/micromamba/envs/python311/bin/python -m mlc_chat convert_weight /opt/scratch/assets/starcoder --quantization q3f16_1 --source-format auto --output /home/junrushao/tmp/tmpq64f2pg_ +[2024-01-08 19:22:38] INFO auto_config.py:115: [92mFound[0m model configuration: /opt/scratch/assets/starcoder/config.json +[2024-01-08 19:22:39] INFO auto_device.py:76: [92mFound[0m device: cuda:0 +[2024-01-08 19:22:39] INFO auto_device.py:76: [92mFound[0m device: cuda:1 +[2024-01-08 19:22:39] INFO auto_device.py:76: [92mFound[0m device: cuda:2 +[2024-01-08 19:22:39] INFO auto_device.py:76: [92mFound[0m device: cuda:3 +[2024-01-08 19:22:39] INFO auto_device.py:85: [91mNot found[0m device: rocm:0 +[2024-01-08 19:22:40] INFO auto_device.py:85: [91mNot found[0m device: metal:0 +[2024-01-08 19:22:40] INFO auto_device.py:85: [91mNot found[0m device: vulkan:0 +[2024-01-08 19:22:40] INFO auto_device.py:85: [91mNot found[0m device: opencl:0 +[2024-01-08 19:22:40] INFO auto_device.py:33: Using device: [1mcuda:0[0m +[2024-01-08 19:22:40] INFO auto_weight.py:70: Finding weights in: /opt/scratch/assets/starcoder +[2024-01-08 19:22:40] INFO auto_weight.py:120: [92mFound[0m source weight format: huggingface-torch. Source configuration: /opt/scratch/assets/starcoder/pytorch_model.bin.index.json +[2024-01-08 19:22:40] INFO auto_weight.py:167: [91mNot found[0m Huggingface Safetensor +[2024-01-08 19:22:40] INFO auto_weight.py:106: Using source weight configuration: [1m/opt/scratch/assets/starcoder/pytorch_model.bin.index.json[0m. Use `--source` to override. +[2024-01-08 19:22:40] INFO auto_weight.py:110: Using source weight format: [1mhuggingface-torch[0m. Use `--source-format` to override. +[2024-01-08 19:22:40] INFO auto_config.py:151: [92mFound[0m model type: [1mgpt_bigcode[0m. Use `--model-type` to override. +[2024-01-08 19:22:40] INFO gpt_bigcode_model.py:41: [1mcontext_window_size[0m not found in config.json. Falling back to [1mn_positions[0m (8192) +[2024-01-08 19:22:40] INFO gpt_bigcode_model.py:54: [1mprefill_chunk_size[0m defaults to [1mcontext_window_size[0m (8192) +[1mWeight conversion with arguments:[0m + [1m--config[0m /opt/scratch/assets/starcoder/config.json + [1m--quantization[0m GroupQuantize(name='q3f16_1', kind='group-quant', group_size=40, quantize_dtype='int3', storage_dtype='uint32', model_dtype='float16', num_elem_per_storage=10, num_storage_per_group=4, max_int_value=3) + [1m--model-type[0m gpt_bigcode + [1m--device[0m cuda:0 + [1m--source[0m /opt/scratch/assets/starcoder/pytorch_model.bin.index.json + [1m--source-format[0m huggingface-torch + [1m--output[0m /home/junrushao/tmp/tmpq64f2pg_ + 0%| | 0/485 [00:00<?, ?it/s] [2024-01-08 19:22:45] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00007-of-00007.bin + 0%| | 0/485 [00:00<?, ?it/s] [2024-01-08 19:22:50] INFO group_quantization.py:212: Compiling quantize function for key: (49152, 6144, 'float16', 'cuda') + 0%| | 0/485 [00:05<?, ?it/s] [2024-01-08 19:22:51] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mlm_head.q_weight[0m", shape: (49152, 616), dtype: uint32 + 0%| | 0/485 [00:06<?, ?it/s] [2024-01-08 19:22:51] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mlm_head.q_scale[0m", shape: (49152, 154), dtype: float16 + 0%| | 0/485 [00:06<?, ?it/s] 0%|▍ | 1/485 [00:06<52:18, 6.48s/it] [2024-01-08 19:22:51] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.38.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 0%|▍ | 1/485 [00:06<52:18, 6.48s/it] [2024-01-08 19:22:51] INFO group_quantization.py:212: Compiling quantize function for key: (6144, 6144, 'float16', 'cuda') + 0%|▍ | 1/485 [00:06<52:18, 6.48s/it] [2024-01-08 19:22:52] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.38.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 0%|▍ | 1/485 [00:07<52:18, 6.48s/it] [2024-01-08 19:22:52] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.38.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 0%|▍ | 1/485 [00:07<52:18, 6.48s/it] 1%|█▏ | 3/485 [00:07<15:27, 1.92s/it] [2024-01-08 19:22:52] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.38.ln_2.bias[0m", shape: (6144,), dtype: float16 + 1%|█▏ | 3/485 [00:07<15:27, 1.92s/it] [2024-01-08 19:22:52] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.38.ln_2.weight[0m", shape: (6144,), dtype: float16 + 1%|█▏ | 3/485 [00:07<15:27, 1.92s/it] [2024-01-08 19:22:52] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.38.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 1%|█▏ | 3/485 [00:07<15:27, 1.92s/it] [2024-01-08 19:22:52] INFO group_quantization.py:212: Compiling quantize function for key: (24576, 6144, 'float16', 'cuda') + 1%|█▏ | 3/485 [00:07<15:27, 1.92s/it] [2024-01-08 19:22:53] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.38.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 1%|█▏ | 3/485 [00:08<15:27, 1.92s/it] [2024-01-08 19:22:53] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.38.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 1%|█▏ | 3/485 [00:08<15:27, 1.92s/it] 1%|██▉ | 7/485 [00:08<06:26, 1.24it/s] [2024-01-08 19:22:53] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.38.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 1%|██▉ | 7/485 [00:08<06:26, 1.24it/s] [2024-01-08 19:22:54] INFO group_quantization.py:212: Compiling quantize function for key: (6144, 24576, 'float16', 'cuda') + 1%|██▉ | 7/485 [00:08<06:26, 1.24it/s] [2024-01-08 19:22:54] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.38.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 1%|██▉ | 7/485 [00:09<06:26, 1.24it/s] [2024-01-08 19:22:54] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.38.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 1%|██▉ | 7/485 [00:09<06:26, 1.24it/s] 2%|███▋ | 9/485 [00:09<05:45, 1.38it/s] [2024-01-08 19:22:54] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.39.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 2%|███▋ | 9/485 [00:09<05:45, 1.38it/s] [2024-01-08 19:22:54] INFO group_quantization.py:212: Compiling quantize function for key: (6400, 6144, 'float16', 'cuda') + 2%|███▋ | 9/485 [00:09<05:45, 1.38it/s] [2024-01-08 19:22:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.39.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 2%|███▋ | 9/485 [00:10<05:45, 1.38it/s] [2024-01-08 19:22:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.39.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 2%|███▋ | 9/485 [00:10<05:45, 1.38it/s] 2%|████▌ | 11/485 [00:10<04:44, 1.66it/s] [2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.39.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 2%|████▌ | 11/485 [00:10<04:44, 1.66it/s] [2024-01-08 19:22:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.39.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 2%|████▌ | 11/485 [00:10<04:44, 1.66it/s] [2024-01-08 19:22:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.39.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 2%|████▌ | 11/485 [00:10<04:44, 1.66it/s] 3%|█████▎ | 13/485 [00:10<03:26, 2.28it/s] [2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.39.ln_1.bias[0m", shape: (6144,), dtype: float16 + 3%|█████▎ | 13/485 [00:10<03:26, 2.28it/s] [2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.39.ln_1.weight[0m", shape: (6144,), dtype: float16 + 3%|█████▎ | 13/485 [00:10<03:26, 2.28it/s] [2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.39.ln_2.bias[0m", shape: (6144,), dtype: float16 + 3%|█████▎ | 13/485 [00:10<03:26, 2.28it/s] [2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.39.ln_2.weight[0m", shape: (6144,), dtype: float16 + 3%|█████▎ | 13/485 [00:10<03:26, 2.28it/s] [2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.39.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 3%|█████▎ | 13/485 [00:10<03:26, 2.28it/s] [2024-01-08 19:22:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.39.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 3%|█████▎ | 13/485 [00:10<03:26, 2.28it/s] [2024-01-08 19:22:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.39.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 3%|█████▎ | 13/485 [00:10<03:26, 2.28it/s] 4%|███████▊ | 19/485 [00:10<01:54, 4.06it/s] [2024-01-08 19:22:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.39.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 4%|███████▊ | 19/485 [00:10<01:54, 4.06it/s] [2024-01-08 19:22:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.39.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 4%|███████▊ | 19/485 [00:11<01:54, 4.06it/s] [2024-01-08 19:22:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.39.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 4%|███████▊ | 19/485 [00:11<01:54, 4.06it/s] 4%|████████▌ | 21/485 [00:11<02:04, 3.72it/s] [2024-01-08 19:22:56] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.ln_f.bias[0m", shape: (6144,), dtype: float16 + 4%|████████▌ | 21/485 [00:11<02:04, 3.72it/s] [2024-01-08 19:22:56] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.ln_f.weight[0m", shape: (6144,), dtype: float16 + 4%|████████▌ | 21/485 [00:11<02:04, 3.72it/s] [2024-01-08 19:22:56] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00007-of-00007.bin + 4%|████████▌ | 21/485 [00:11<02:04, 3.72it/s] [2024-01-08 19:22:56] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00001-of-00007.bin + 4%|████████▌ | 21/485 [00:11<02:04, 3.72it/s] [2024-01-08 19:23:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 4%|████████▌ | 21/485 [00:17<02:04, 3.72it/s] 5%|█████████▊ | 24/485 [00:17<06:25, 1.20it/s] [2024-01-08 19:23:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.0.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 5%|█████████▊ | 24/485 [00:17<06:25, 1.20it/s] [2024-01-08 19:23:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.0.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 5%|█████████▊ | 24/485 [00:17<06:25, 1.20it/s] 5%|██████████▎ | 25/485 [00:17<05:43, 1.34it/s] [2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 5%|██████████▎ | 25/485 [00:17<05:43, 1.34it/s] [2024-01-08 19:23:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.0.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 5%|██████████▎ | 25/485 [00:18<05:43, 1.34it/s] [2024-01-08 19:23:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.0.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 5%|██████████▎ | 25/485 [00:18<05:43, 1.34it/s] 6%|███████████ | 27/485 [00:18<04:19, 1.77it/s] [2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.ln_1.bias[0m", shape: (6144,), dtype: float16 + 6%|███████████ | 27/485 [00:18<04:19, 1.77it/s] [2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.ln_1.weight[0m", shape: (6144,), dtype: float16 + 6%|███████████ | 27/485 [00:18<04:19, 1.77it/s] [2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.ln_2.bias[0m", shape: (6144,), dtype: float16 + 6%|███████████ | 27/485 [00:18<04:19, 1.77it/s] [2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.ln_2.weight[0m", shape: (6144,), dtype: float16 + 6%|███████████ | 27/485 [00:18<04:19, 1.77it/s] [2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 6%|███████████ | 27/485 [00:18<04:19, 1.77it/s] [2024-01-08 19:23:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.0.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 6%|███████████ | 27/485 [00:18<04:19, 1.77it/s] [2024-01-08 19:23:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.0.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 6%|███████████ | 27/485 [00:18<04:19, 1.77it/s] 7%|█████████████▌ | 33/485 [00:18<02:24, 3.14it/s] [2024-01-08 19:23:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 7%|█████████████▌ | 33/485 [00:18<02:24, 3.14it/s] [2024-01-08 19:23:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.0.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 7%|█████████████▌ | 33/485 [00:19<02:24, 3.14it/s] [2024-01-08 19:23:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.0.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 7%|█████████████▌ | 33/485 [00:19<02:24, 3.14it/s] 7%|██████████████▎ | 35/485 [00:19<02:26, 3.06it/s] [2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 7%|██████████████▎ | 35/485 [00:19<02:26, 3.06it/s] [2024-01-08 19:23:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.1.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 7%|██████████████▎ | 35/485 [00:19<02:26, 3.06it/s] [2024-01-08 19:23:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.1.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 7%|██████████████▎ | 35/485 [00:19<02:26, 3.06it/s] 8%|███████████████▏ | 37/485 [00:19<02:01, 3.68it/s] [2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 8%|███████████████▏ | 37/485 [00:19<02:01, 3.68it/s] [2024-01-08 19:23:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.1.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 8%|███████████████▏ | 37/485 [00:19<02:01, 3.68it/s] [2024-01-08 19:23:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.1.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 8%|███████████████▏ | 37/485 [00:19<02:01, 3.68it/s] 8%|████████████████ | 39/485 [00:19<01:40, 4.45it/s] [2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.ln_1.bias[0m", shape: (6144,), dtype: float16 + 8%|████████████████ | 39/485 [00:19<01:40, 4.45it/s] [2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.ln_1.weight[0m", shape: (6144,), dtype: float16 + 8%|████████████████ | 39/485 [00:19<01:40, 4.45it/s] [2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.ln_2.bias[0m", shape: (6144,), dtype: float16 + 8%|████████████████ | 39/485 [00:19<01:40, 4.45it/s] [2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.ln_2.weight[0m", shape: (6144,), dtype: float16 + 8%|████████████████ | 39/485 [00:19<01:40, 4.45it/s] [2024-01-08 19:23:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 8%|████████████████ | 39/485 [00:19<01:40, 4.45it/s] [2024-01-08 19:23:05] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.1.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 8%|████████████████ | 39/485 [00:20<01:40, 4.45it/s] [2024-01-08 19:23:05] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.1.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 8%|████████████████ | 39/485 [00:20<01:40, 4.45it/s] 9%|██████████████████▍ | 45/485 [00:20<01:12, 6.10it/s] [2024-01-08 19:23:05] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 9%|██████████████████▍ | 45/485 [00:20<01:12, 6.10it/s] [2024-01-08 19:23:06] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.1.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 9%|██████████████████▍ | 45/485 [00:21<01:12, 6.10it/s] [2024-01-08 19:23:06] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.1.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 9%|██████████████████▍ | 45/485 [00:21<01:12, 6.10it/s] 10%|███████████████████▎ | 47/485 [00:21<01:29, 4.91it/s] [2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 10%|███████████████████▎ | 47/485 [00:21<01:29, 4.91it/s] [2024-01-08 19:23:06] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.2.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 10%|███████████████████▎ | 47/485 [00:21<01:29, 4.91it/s] [2024-01-08 19:23:06] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.2.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 10%|███████████████████▎ | 47/485 [00:21<01:29, 4.91it/s] 10%|████████████████████ | 49/485 [00:21<01:17, 5.64it/s] [2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 10%|████████████████████ | 49/485 [00:21<01:17, 5.64it/s] [2024-01-08 19:23:06] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.2.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 10%|████████████████████ | 49/485 [00:21<01:17, 5.64it/s] [2024-01-08 19:23:06] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.2.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 10%|████████████████████ | 49/485 [00:21<01:17, 5.64it/s] 11%|████████████████████▉ | 51/485 [00:21<01:06, 6.49it/s] [2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.ln_1.bias[0m", shape: (6144,), dtype: float16 + 11%|████████████████████▉ | 51/485 [00:21<01:06, 6.49it/s] [2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.ln_1.weight[0m", shape: (6144,), dtype: float16 + 11%|████████████████████▉ | 51/485 [00:21<01:06, 6.49it/s] [2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.ln_2.bias[0m", shape: (6144,), dtype: float16 + 11%|████████████████████▉ | 51/485 [00:21<01:06, 6.49it/s] [2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.ln_2.weight[0m", shape: (6144,), dtype: float16 + 11%|████████████████████▉ | 51/485 [00:21<01:06, 6.49it/s] [2024-01-08 19:23:06] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 11%|████████████████████▉ | 51/485 [00:21<01:06, 6.49it/s] [2024-01-08 19:23:07] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.2.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 11%|████████████████████▉ | 51/485 [00:22<01:06, 6.49it/s] [2024-01-08 19:23:07] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.2.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 11%|████████████████████▉ | 51/485 [00:22<01:06, 6.49it/s] 12%|███████████████████████▍ | 57/485 [00:22<00:55, 7.72it/s] [2024-01-08 19:23:07] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 12%|███████████████████████▍ | 57/485 [00:22<00:55, 7.72it/s] [2024-01-08 19:23:07] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.2.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 12%|███████████████████████▍ | 57/485 [00:22<00:55, 7.72it/s] [2024-01-08 19:23:07] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.2.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 12%|███████████████████████▍ | 57/485 [00:22<00:55, 7.72it/s] 12%|████████████████████████▏ | 59/485 [00:22<01:12, 5.87it/s] [2024-01-08 19:23:07] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 12%|████████████████████████▏ | 59/485 [00:22<01:12, 5.87it/s] [2024-01-08 19:23:08] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.3.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 12%|████████████████████████▏ | 59/485 [00:22<01:12, 5.87it/s] [2024-01-08 19:23:08] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.3.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 12%|████████████████████████▏ | 59/485 [00:22<01:12, 5.87it/s] 13%|█████████████████████████ | 61/485 [00:22<01:04, 6.57it/s] [2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 13%|█████████████████████████ | 61/485 [00:22<01:04, 6.57it/s] [2024-01-08 19:23:08] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.3.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 13%|█████████████████████████ | 61/485 [00:23<01:04, 6.57it/s] [2024-01-08 19:23:08] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.3.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 13%|█████████████████████████ | 61/485 [00:23<01:04, 6.57it/s] 13%|█████████████████████████▊ | 63/485 [00:23<00:57, 7.37it/s] [2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.ln_1.bias[0m", shape: (6144,), dtype: float16 + 13%|█████████████████████████▊ | 63/485 [00:23<00:57, 7.37it/s] [2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.ln_1.weight[0m", shape: (6144,), dtype: float16 + 13%|█████████████████████████▊ | 63/485 [00:23<00:57, 7.37it/s] [2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.ln_2.bias[0m", shape: (6144,), dtype: float16 + 13%|█████████████████████████▊ | 63/485 [00:23<00:57, 7.37it/s] [2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.ln_2.weight[0m", shape: (6144,), dtype: float16 + 13%|█████████████████████████▊ | 63/485 [00:23<00:57, 7.37it/s] [2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 13%|█████████████████████████▊ | 63/485 [00:23<00:57, 7.37it/s] [2024-01-08 19:23:08] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.3.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 13%|█████████████████████████▊ | 63/485 [00:23<00:57, 7.37it/s] [2024-01-08 19:23:08] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.3.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 13%|█████████████████████████▊ | 63/485 [00:23<00:57, 7.37it/s] 14%|████████████████████████████▎ | 69/485 [00:23<00:49, 8.33it/s] [2024-01-08 19:23:08] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 14%|████████████████████████████▎ | 69/485 [00:23<00:49, 8.33it/s] [2024-01-08 19:23:09] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.3.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 14%|████████████████████████████▎ | 69/485 [00:24<00:49, 8.33it/s] [2024-01-08 19:23:09] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.3.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 14%|████████████████████████████▎ | 69/485 [00:24<00:49, 8.33it/s] 15%|█████████████████████████████▏ | 71/485 [00:24<01:06, 6.27it/s] [2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 15%|█████████████████████████████▏ | 71/485 [00:24<01:06, 6.27it/s] [2024-01-08 19:23:09] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.4.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 15%|█████████████████████████████▏ | 71/485 [00:24<01:06, 6.27it/s] [2024-01-08 19:23:09] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.4.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 15%|█████████████████████████████▏ | 71/485 [00:24<01:06, 6.27it/s] 15%|█████████████████████████████▉ | 73/485 [00:24<00:58, 6.99it/s] [2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 15%|█████████████████████████████▉ | 73/485 [00:24<00:58, 6.99it/s] [2024-01-08 19:23:09] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.4.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 15%|█████████████████████████████▉ | 73/485 [00:24<00:58, 6.99it/s] [2024-01-08 19:23:09] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.4.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 15%|█████████████████████████████▉ | 73/485 [00:24<00:58, 6.99it/s] 15%|██████████████████████████████▊ | 75/485 [00:24<00:52, 7.84it/s] [2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.ln_1.bias[0m", shape: (6144,), dtype: float16 + 15%|██████████████████████████████▊ | 75/485 [00:24<00:52, 7.84it/s] [2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.ln_1.weight[0m", shape: (6144,), dtype: float16 + 15%|██████████████████████████████▊ | 75/485 [00:24<00:52, 7.84it/s] [2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.ln_2.bias[0m", shape: (6144,), dtype: float16 + 15%|██████████████████████████████▊ | 75/485 [00:24<00:52, 7.84it/s] [2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.ln_2.weight[0m", shape: (6144,), dtype: float16 + 15%|██████████████████████████████▊ | 75/485 [00:24<00:52, 7.84it/s] [2024-01-08 19:23:09] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 15%|██████████████████████████████▊ | 75/485 [00:24<00:52, 7.84it/s] [2024-01-08 19:23:10] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.4.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 15%|██████████████████████████████▊ | 75/485 [00:25<00:52, 7.84it/s] [2024-01-08 19:23:10] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.4.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 15%|██████████████████████████████▊ | 75/485 [00:25<00:52, 7.84it/s] 17%|█████████████████████████████████▏ | 81/485 [00:25<00:49, 8.20it/s] [2024-01-08 19:23:10] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 17%|█████████████████████████████████▏ | 81/485 [00:25<00:49, 8.20it/s] [2024-01-08 19:23:11] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.4.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 17%|█████████████████████████████████▏ | 81/485 [00:26<00:49, 8.20it/s] [2024-01-08 19:23:11] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.4.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 17%|██████████████████���██████████████▏ | 81/485 [00:26<00:49, 8.20it/s] 17%|██████████████████████████████████ | 83/485 [00:26<01:07, 5.95it/s] [2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 17%|██████████████████████████████████ | 83/485 [00:26<01:07, 5.95it/s] [2024-01-08 19:23:11] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.5.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 17%|██████████████████████████████████ | 83/485 [00:26<01:07, 5.95it/s] [2024-01-08 19:23:11] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.5.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 17%|██████████████████████████████████ | 83/485 [00:26<01:07, 5.95it/s] 18%|██████████████████████████████████▉ | 85/485 [00:26<01:00, 6.59it/s] [2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 18%|██████████████████████████████████▉ | 85/485 [00:26<01:00, 6.59it/s] [2024-01-08 19:23:11] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.5.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 18%|██████████████████████████████████▉ | 85/485 [00:26<01:00, 6.59it/s] [2024-01-08 19:23:11] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.5.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 18%|██████████████████████████████████▉ | 85/485 [00:26<01:00, 6.59it/s] 18%|████████���██████████████████████████▋ | 87/485 [00:26<00:54, 7.25it/s] [2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.ln_1.bias[0m", shape: (6144,), dtype: float16 + 18%|███████████████████████████████████▋ | 87/485 [00:26<00:54, 7.25it/s] [2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.ln_1.weight[0m", shape: (6144,), dtype: float16 + 18%|███████████████████████████████████▋ | 87/485 [00:26<00:54, 7.25it/s] [2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.ln_2.bias[0m", shape: (6144,), dtype: float16 + 18%|███████████████████████████████████▋ | 87/485 [00:26<00:54, 7.25it/s] [2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.ln_2.weight[0m", shape: (6144,), dtype: float16 + 18%|███████████████████████████████████▋ | 87/485 [00:26<00:54, 7.25it/s] [2024-01-08 19:23:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 18%|███████████████████████████████████▋ | 87/485 [00:26<00:54, 7.25it/s] [2024-01-08 19:23:12] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.5.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 18%|███████████████████████████████████▋ | 87/485 [00:27<00:54, 7.25it/s] [2024-01-08 19:23:12] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.5.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 18%|███████████████████████████████████▋ | 87/485 [00:27<00:54, 7.25it/s] 19%|██████████████████████████████████████▏ | 93/485 [00:27<00:50, 7.82it/s] [2024-01-08 19:23:12] INFO group_quantization.py:212: Compiling quantize function for key: (8192, 6144, 'float16', 'cuda') + 19%|██████████████████████████████████████▏ | 93/485 [00:27<00:50, 7.82it/s] [2024-01-08 19:23:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.wpe.q_weight[0m", shape: (8192, 616), dtype: uint32 + 19%|██████████████████████████████████████▏ | 93/485 [00:27<00:50, 7.82it/s] [2024-01-08 19:23:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.wpe.q_scale[0m", shape: (8192, 154), dtype: float16 + 19%|██████████████████████████████████████▏ | 93/485 [00:27<00:50, 7.82it/s] 19%|██████████████████████████████████████▌ | 94/485 [00:27<01:14, 5.21it/s] [2024-01-08 19:23:14] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.wte.q_weight[0m", shape: (49152, 616), dtype: uint32 + 19%|██████████████████████████████████████▌ | 94/485 [00:29<01:14, 5.21it/s] [2024-01-08 19:23:14] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.wte.q_scale[0m", shape: (49152, 154), dtype: float16 + 19%|██████████████████████████████████████▌ | 94/485 [00:29<01:14, 5.21it/s] 20%|██████████████████████████████████████▉ | 95/485 [00:29<02:18, 2.82it/s] [2024-01-08 19:23:14] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00001-of-00007.bin + 20%|██████████████████████████████████████▉ | 95/485 [00:29<02:18, 2.82it/s] [2024-01-08 19:23:14] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00002-of-00007.bin + 20%|██████████████████████████████████████▉ | 95/485 [00:29<02:18, 2.82it/s] [2024-01-08 19:23:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 20%|██████████████████████████████████████▉ | 95/485 [00:35<02:18, 2.82it/s] 20%|███████████████████████████████████████▍ | 96/485 [00:35<08:21, 1.29s/it] [2024-01-08 19:23:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.10.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 20%|███████████████████████████████████████▍ | 96/485 [00:35<08:21, 1.29s/it] [2024-01-08 19:23:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.10.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 20%|███████████████████████████████████████▍ | 96/485 [00:35<08:21, 1.29s/it] 20%|███████████████████████████████████████▊ | 97/485 [00:35<06:58, 1.08s/it] [2024-01-08 19:23:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 20%|███████████████████████████████████████▊ | 97/485 [00:35<06:58, 1.08s/it] [2024-01-08 19:23:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.10.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 20%|███████████████████████████████████████▊ | 97/485 [00:35<06:58, 1.08s/it] [2024-01-08 19:23:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.10.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 20%|███████████████████████████████████████▊ | 97/485 [00:35<06:58, 1.08s/it] 20%|████████████████████████████████████████▌ | 99/485 [00:35<04:42, 1.37it/s] [2024-01-08 19:23:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.ln_1.bias[0m", shape: (6144,), dtype: float16 + 20%|████████████████████████████████████████▌ | 99/485 [00:35<04:42, 1.37it/s] [2024-01-08 19:23:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.ln_1.weight[0m", shape: (6144,), dtype: float16 + 20%|████████████████████████████████████████▌ | 99/485 [00:35<04:42, 1.37it/s] [2024-01-08 19:23:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.ln_2.bias[0m", shape: (6144,), dtype: float16 + 20%|████████████████████████████████████████▌ | 99/485 [00:35<04:42, 1.37it/s] [2024-01-08 19:23:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.ln_2.weight[0m", shape: (6144,), dtype: float16 + 20%|████████████████████████████████████████▌ | 99/485 [00:35<04:42, 1.37it/s] [2024-01-08 19:23:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 20%|████████████████████████████████████████▌ | 99/485 [00:35<04:42, 1.37it/s] [2024-01-08 19:23:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.10.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 20%|████████████████████████████████████████▌ | 99/485 [00:36<04:42, 1.37it/s] [2024-01-08 19:23:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.10.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 20%|████████████████████████████████████████▌ | 99/485 [00:36<04:42, 1.37it/s] 22%|██████████████████████████████████████████▊ | 105/485 [00:36<02:15, 2.81it/s] [2024-01-08 19:23:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 22%|██████████████████████████████████████████▊ | 105/485 [00:36<02:15, 2.81it/s] [2024-01-08 19:23:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.10.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 22%|██████████████████████████████████████████▊ | 105/485 [00:37<02:15, 2.81it/s] [2024-01-08 19:23:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.10.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 22%|██████████████████████████████████████████▊ | 105/485 [00:37<02:15, 2.81it/s] 22%|███████████████████████████████████████████▋ | 107/485 [00:37<02:10, 2.89it/s] [2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 22%|███████████████████████████████████████████▋ | 107/485 [00:37<02:10, 2.89it/s] [2024-01-08 19:23:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.11.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 22%|███████████████████████████████████████████▋ | 107/485 [00:37<02:10, 2.89it/s] [2024-01-08 19:23:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.11.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 22%|███████████████████████████████████████████▋ | 107/485 [00:37<02:10, 2.89it/s] 22%|████████████████████████████████████████████▍ | 109/485 [00:37<01:46, 3.54it/s] [2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 22%|████████████████████████████████████████████▍ | 109/485 [00:37<01:46, 3.54it/s] [2024-01-08 19:23:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.11.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 22%|████████████████████████████████████████████▍ | 109/485 [00:37<01:46, 3.54it/s] [2024-01-08 19:23:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.11.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 22%|████████████████████████████████████████████▍ | 109/485 [00:37<01:46, 3.54it/s] 23%|█████████████████████████████████████████████▎ | 111/485 [00:37<01:26, 4.34it/s] [2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.ln_1.bias[0m", shape: (6144,), dtype: float16 + 23%|█████████████████████████████████████████████▎ | 111/485 [00:37<01:26, 4.34it/s] [2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.ln_1.weight[0m", shape: (6144,), dtype: float16 + 23%|█████████████████████████████████████████████▎ | 111/485 [00:37<01:26, 4.34it/s] [2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.ln_2.bias[0m", shape: (6144,), dtype: float16 + 23%|█████████████████████████████████████████████▎ | 111/485 [00:37<01:26, 4.34it/s] [2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.ln_2.weight[0m", shape: (6144,), dtype: float16 + 23%|█████████████████████████████████████████████▎ | 111/485 [00:37<01:26, 4.34it/s] [2024-01-08 19:23:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 23%|█████████████████████████████████████████████▎ | 111/485 [00:37<01:26, 4.34it/s] [2024-01-08 19:23:23] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.11.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 23%|█████████████████████████████████████████████▎ | 111/485 [00:37<01:26, 4.34it/s] [2024-01-08 19:23:23] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.11.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 23%|█████████████████████████████████████████████▎ | 111/485 [00:38<01:26, 4.34it/s] 24%|███████████████████████████████████████████████▊ | 117/485 [00:38<01:00, 6.11it/s] [2024-01-08 19:23:23] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 24%|███████████████████████████████████████████████▊ | 117/485 [00:38<01:00, 6.11it/s] [2024-01-08 19:23:23] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.11.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 24%|███████████████████████████████████████████████▊ | 117/485 [00:38<01:00, 6.11it/s] [2024-01-08 19:23:23] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.11.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 24%|███████████████████████████████████████████████▊ | 117/485 [00:38<01:00, 6.11it/s] 25%|████████████████████████████████████████████████▌ | 119/485 [00:38<01:10, 5.22it/s] [2024-01-08 19:23:23] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 25%|████████████████████████████████████████████████▌ | 119/485 [00:38<01:10, 5.22it/s] [2024-01-08 19:23:23] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.12.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 25%|████████████████████████████████████████████████▌ | 119/485 [00:38<01:10, 5.22it/s] [2024-01-08 19:23:23] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.12.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 25%|████████████████████████████████████████████████▌ | 119/485 [00:38<01:10, 5.22it/s] 25%|█████████████████████████████████████████████████▍ | 121/485 [00:38<01:00, 5.99it/s] [2024-01-08 19:23:23] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.ln_1.bias[0m", shape: (6144,), dtype: float16 + 25%|█████████████████████████████████████████████████▍ | 121/485 [00:38<01:00, 5.99it/s] [2024-01-08 19:23:23] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.ln_1.weight[0m", shape: (6144,), dtype: float16 + 25%|█████████████████████████████████████████████████▍ | 121/485 [00:38<01:00, 5.99it/s] [2024-01-08 19:23:23] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 25%|█████████████████████████████████████████████████▍ | 121/485 [00:38<01:00, 5.99it/s] [2024-01-08 19:23:24] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.5.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 25%|█████████████████████████████████████████████████▍ | 121/485 [00:39<01:00, 5.99it/s] [2024-01-08 19:23:24] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.5.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 25%|█████████████████████████████████████████████████▍ | 121/485 [00:39<01:00, 5.99it/s] 26%|███████████████████████████████████████████████████ | 125/485 [00:39<00:58, 6.17it/s] [2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 26%|███████████████████████████████████████████████████ | 125/485 [00:39<00:58, 6.17it/s] [2024-01-08 19:23:24] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.6.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 26%|███████████████████████████████████████████████████ | 125/485 [00:39<00:58, 6.17it/s] [2024-01-08 19:23:24] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.6.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 26%|███████████████████████████████████████████████████ | 125/485 [00:39<00:58, 6.17it/s] 26%|███████████████████████████████████████████████████▊ | 127/485 [00:39<00:51, 6.92it/s] [2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 26%|███████████████████████████████████████████████████▊ | 127/485 [00:39<00:51, 6.92it/s] [2024-01-08 19:23:24] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.6.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 26%|███████████████████████████████████████████████████▊ | 127/485 [00:39<00:51, 6.92it/s] [2024-01-08 19:23:24] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.6.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 26%|███████████████████████████████████████████████████▊ | 127/485 [00:39<00:51, 6.92it/s] 27%|████████████████████████████████████████████████████▋ | 129/485 [00:39<00:46, 7.63it/s] [2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.ln_1.bias[0m", shape: (6144,), dtype: float16 + 27%|████████████████████████████████████████████████████▋ | 129/485 [00:39<00:46, 7.63it/s] [2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.ln_1.weight[0m", shape: (6144,), dtype: float16 + 27%|████████████████████████████████████████████████████▋ | 129/485 [00:39<00:46, 7.63it/s] [2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.ln_2.bias[0m", shape: (6144,), dtype: float16 + 27%|████████████████████████████████████████████████████▋ | 129/485 [00:39<00:46, 7.63it/s] [2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.ln_2.weight[0m", shape: (6144,), dtype: float16 + 27%|████████████████████████████████████████████████████▋ | 129/485 [00:39<00:46, 7.63it/s] [2024-01-08 19:23:24] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 27%|████████████████████████████████████████████████████▋ | 129/485 [00:39<00:46, 7.63it/s] [2024-01-08 19:23:25] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.6.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 27%|████████████████████████████████████████████████████▋ | 129/485 [00:40<00:46, 7.63it/s] [2024-01-08 19:23:25] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.6.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 27%|████████████████████████████████████████████████████▋ | 129/485 [00:40<00:46, 7.63it/s] 28%|███████████████████████████████████████████████████████ | 135/485 [00:40<00:43, 8.04it/s] [2024-01-08 19:23:25] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 28%|███████████████████████████████████████████████████████ | 135/485 [00:40<00:43, 8.04it/s] [2024-01-08 19:23:26] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.6.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 28%|███████████████████████████████████████████████████████ | 135/485 [00:41<00:43, 8.04it/s] [2024-01-08 19:23:26] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.6.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 28%|███████████████████████████████████████████████████████ | 135/485 [00:41<00:43, 8.04it/s] 28%|███████████████████████████████████████████████████████▉ | 137/485 [00:41<00:58, 5.93it/s] [2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 28%|███████████████████████████████████████████████████████▉ | 137/485 [00:41<00:58, 5.93it/s] [2024-01-08 19:23:26] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.7.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 28%|███████████████████████████████████████████████████████▉ | 137/485 [00:41<00:58, 5.93it/s] [2024-01-08 19:23:26] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.7.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 28%|███████████████████████████████████████████████████████▉ | 137/485 [00:41<00:58, 5.93it/s] 29%|████████████████████████████████████████████████████████▋ | 139/485 [00:41<00:52, 6.57it/s] [2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 29%|████████████████████████████████████████████████████████▋ | 139/485 [00:41<00:52, 6.57it/s] [2024-01-08 19:23:26] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.7.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 29%|████████████████████████████████████████████████████████▋ | 139/485 [00:41<00:52, 6.57it/s] [2024-01-08 19:23:26] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.7.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 29%|███████████████████████████████████████████��████████████▋ | 139/485 [00:41<00:52, 6.57it/s] 29%|█████████████████████████████████████████████████████████▌ | 141/485 [00:41<00:47, 7.28it/s] [2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.ln_1.bias[0m", shape: (6144,), dtype: float16 + 29%|█████████████████████████████████████████████████████████▌ | 141/485 [00:41<00:47, 7.28it/s] [2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.ln_1.weight[0m", shape: (6144,), dtype: float16 + 29%|█████████████████████████████████████████████████████████▌ | 141/485 [00:41<00:47, 7.28it/s] [2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.ln_2.bias[0m", shape: (6144,), dtype: float16 + 29%|█████████████████████████████████████████████████████████▌ | 141/485 [00:41<00:47, 7.28it/s] [2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.ln_2.weight[0m", shape: (6144,), dtype: float16 + 29%|█████████████████████████████████████████████████████████▌ | 141/485 [00:41<00:47, 7.28it/s] [2024-01-08 19:23:26] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 29%|█████████████████████████████████████████████████████████▌ | 141/485 [00:41<00:47, 7.28it/s] [2024-01-08 19:23:27] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.7.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 29%|█████████████████████████████████████████████████████████▌ | 141/485 [00:42<00:47, 7.28it/s] [2024-01-08 19:23:27] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.7.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 29%|█████████████████████████████████████████████████████████▌ | 141/485 [00:42<00:47, 7.28it/s] 30%|████████████████████████████████████████████████████████████ | 147/485 [00:42<00:41, 8.23it/s] [2024-01-08 19:23:27] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 30%|████████████████████████████████████████████████████████████ | 147/485 [00:42<00:41, 8.23it/s] [2024-01-08 19:23:27] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.7.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 30%|████████████████████████████████████████████████████████████ | 147/485 [00:42<00:41, 8.23it/s] [2024-01-08 19:23:27] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.7.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 30%|████████████████████████████████████████████████████████████ | 147/485 [00:42<00:41, 8.23it/s] 31%|████████████████████████████████████████████████████████████▊ | 149/485 [00:42<00:52, 6.38it/s] [2024-01-08 19:23:27] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 31%|████████████████████████████████████████████████████████████▊ | 149/485 [00:42<00:52, 6.38it/s] [2024-01-08 19:23:28] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.8.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 31%|████████████████████████████████████████████████████████████▊ | 149/485 [00:42<00:52, 6.38it/s] [2024-01-08 19:23:28] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.8.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 31%|████████████████████████████████████████████████████████████▊ | 149/485 [00:42<00:52, 6.38it/s] 31%|█████████████████████████████████████████████████████████████▋ | 151/485 [00:42<00:47, 7.00it/s] [2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 31%|█████████████████████████████████████████████████████████████▋ | 151/485 [00:42<00:47, 7.00it/s] [2024-01-08 19:23:28] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.8.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 31%|█████████████████████████████████████████████████████████████▋ | 151/485 [00:43<00:47, 7.00it/s] [2024-01-08 19:23:28] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.8.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 31%|█████████████████████████████████████████████████████████████▋ | 151/485 [00:43<00:47, 7.00it/s] 32%|██████████████████████████████████████████████████████████████▍ | 153/485 [00:43<00:43, 7.68it/s] [2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.ln_1.bias[0m", shape: (6144,), dtype: float16 + 32%|██████████████████████████████████████████████████████████████▍ | 153/485 [00:43<00:43, 7.68it/s] [2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.ln_1.weight[0m", shape: (6144,), dtype: float16 + 32%|██████████████████████████████████████████████████���███████████▍ | 153/485 [00:43<00:43, 7.68it/s] [2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.ln_2.bias[0m", shape: (6144,), dtype: float16 + 32%|██████████████████████████████████████████████████████████████▍ | 153/485 [00:43<00:43, 7.68it/s] [2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.ln_2.weight[0m", shape: (6144,), dtype: float16 + 32%|██████████████████████████████████████████████████████████████▍ | 153/485 [00:43<00:43, 7.68it/s] [2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 32%|██████████████████████████████████████████████████████████████▍ | 153/485 [00:43<00:43, 7.68it/s] [2024-01-08 19:23:28] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.8.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 32%|██████████████████████████████████████████████████████████████▍ | 153/485 [00:43<00:43, 7.68it/s] [2024-01-08 19:23:28] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.8.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 32%|██████████████████████████████████████████████████████████████▍ | 153/485 [00:43<00:43, 7.68it/s] 33%|████████████████████████████████████████████████████████████████▉ | 159/485 [00:43<00:37, 8.62it/s] [2024-01-08 19:23:28] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 33%|████████████████████████████████████████████████████████████████▉ | 159/485 [00:43<00:37, 8.62it/s] [2024-01-08 19:23:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.8.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 33%|████████████████████████████████████████████████████████████████▉ | 159/485 [00:44<00:37, 8.62it/s] [2024-01-08 19:23:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.8.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 33%|████████████████████████████████████████████████████████████████▉ | 159/485 [00:44<00:37, 8.62it/s] 33%|█████████████████████████████████████████████████████████████████▋ | 161/485 [00:44<00:49, 6.54it/s] [2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 33%|█████████████████████████████████████████████████████████████████▋ | 161/485 [00:44<00:49, 6.54it/s] [2024-01-08 19:23:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.9.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 33%|█████████████████████████████████████████████████████████████████▋ | 161/485 [00:44<00:49, 6.54it/s] [2024-01-08 19:23:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.9.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 33%|█████████████████████████████████████████████████████████████████▋ | 161/485 [00:44<00:49, 6.54it/s] 34%|██████████████████████████████████████████████████████████████████▌ | 163/485 [00:44<00:44, 7.29it/s] [2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 34%|████████████████████████████████████████████���█████████████████████▌ | 163/485 [00:44<00:44, 7.29it/s] [2024-01-08 19:23:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.9.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 34%|██████████████████████████████████████████████████████████████████▌ | 163/485 [00:44<00:44, 7.29it/s] [2024-01-08 19:23:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.9.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 34%|██████████████████████████████████████████████████████████████████▌ | 163/485 [00:44<00:44, 7.29it/s] 34%|███████████████████████████████████████████████████████████████████▎ | 165/485 [00:44<00:39, 8.12it/s] [2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.ln_1.bias[0m", shape: (6144,), dtype: float16 + 34%|███████████████████████████████████████████████████████████████████▎ | 165/485 [00:44<00:39, 8.12it/s] [2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.ln_1.weight[0m", shape: (6144,), dtype: float16 + 34%|███████████████████████████████████████████████████████████████████▎ | 165/485 [00:44<00:39, 8.12it/s] [2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.ln_2.bias[0m", shape: (6144,), dtype: float16 + 34%|███████████████████████████████████████████████████████████████████▎ | 165/485 [00:44<00:39, 8.12it/s] [2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.ln_2.weight[0m", shape: (6144,), dtype: float16 + 34%|███████████████████████████████████████████████████████████████████▎ | 165/485 [00:44<00:39, 8.12it/s] [2024-01-08 19:23:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 34%|███████████████████████████████████████████████████████████████████▎ | 165/485 [00:44<00:39, 8.12it/s] [2024-01-08 19:23:30] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.9.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 34%|███████████████████████████████████████████████████████████████████▎ | 165/485 [00:45<00:39, 8.12it/s] [2024-01-08 19:23:30] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.9.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 34%|███████████████████████████████████████████████████████████████████▎ | 165/485 [00:45<00:39, 8.12it/s] 35%|█████████████████████████████████████████████████████████████████████▊ | 171/485 [00:45<00:35, 8.83it/s] [2024-01-08 19:23:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 35%|█████████████████████████████████████████████████████████████████████▊ | 171/485 [00:45<00:35, 8.83it/s] [2024-01-08 19:23:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.9.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 35%|█████████████████████████████████████████████████████████████████████▊ | 171/485 [00:45<00:35, 8.83it/s] [2024-01-08 19:23:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.9.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 35%|█████████████████████████████████████████████████████████████████████▊ | 171/485 [00:45<00:35, 8.83it/s] 36%|██████████████████████████████████████████████████████████████████████▋ | 173/485 [00:45<00:47, 6.62it/s] [2024-01-08 19:23:31] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00002-of-00007.bin + 36%|██████████████████████████████████████████████████████████████████████▋ | 173/485 [00:45<00:47, 6.62it/s] [2024-01-08 19:23:31] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00003-of-00007.bin + 36%|██████████████████████████████████████████████████████████████████████▋ | 173/485 [00:46<00:47, 6.62it/s] [2024-01-08 19:23:37] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 36%|██████████████████████████████████████████████████████████████████████▋ | 173/485 [00:52<00:47, 6.62it/s] 36%|███████████████████████████████████████████████████████████████████████ | 174/485 [00:52<04:36, 1.12it/s] [2024-01-08 19:23:37] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.12.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 36%|███████████████████████████████████████████████████████████████████████ | 174/485 [00:52<04:36, 1.12it/s] [2024-01-08 19:23:37] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.12.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 36%|███████████████████████████████████████████████████████████████████████ | 174/485 [00:52<04:36, 1.12it/s] 36%|███████████████████████████████████████████████████████████████████████▍ | 175/485 [00:52<04:01, 1.28it/s] [2024-01-08 19:23:37] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.ln_2.bias[0m", shape: (6144,), dtype: float16 + 36%|███████████████████████████████████████████████████████████████████████▍ | 175/485 [00:52<04:01, 1.28it/s] [2024-01-08 19:23:37] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.ln_2.weight[0m", shape: (6144,), dtype: float16 + 36%|███████████████████████████████████████████████████████████████████████▍ | 175/485 [00:52<04:01, 1.28it/s] [2024-01-08 19:23:37] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 36%|███████████████████████████████████████████████████████████████████████▍ | 175/485 [00:52<04:01, 1.28it/s] [2024-01-08 19:23:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.12.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 36%|███████████████████████████████████████████████████████████████████████▍ | 175/485 [00:52<04:01, 1.28it/s] [2024-01-08 19:23:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.12.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 36%|███████████████████████████████████████████████████████████████████████▍ | 175/485 [00:52<04:01, 1.28it/s] 37%|█████████████████████████████████████████████████████████████████████████ | 179/485 [00:52<02:31, 2.02it/s] [2024-01-08 19:23:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 37%|█████████████████████████████████████████████████████████████████████████ | 179/485 [00:52<02:31, 2.02it/s] [2024-01-08 19:23:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.12.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 37%|█████████████████████████████████████████████████████████████████████████ | 179/485 [00:53<02:31, 2.02it/s] [2024-01-08 19:23:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.12.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 37%|█████████████████████████████████████████████████████████████████████████ | 179/485 [00:53<02:31, 2.02it/s] 37%|█████████████████████████████████████████████████████████████████████████▉ | 181/485 [00:53<02:16, 2.23it/s] [2024-01-08 19:23:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 37%|█████████████████████████████████████████████████████████████████████████▉ | 181/485 [00:53<02:16, 2.23it/s] [2024-01-08 19:23:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.13.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 37%|█████████████████████████████████████████████████████████████████████████▉ | 181/485 [00:53<02:16, 2.23it/s] [2024-01-08 19:23:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.13.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 37%|█████████████████████████████████████████████████████████████████████████▉ | 181/485 [00:53<02:16, 2.23it/s] 38%|██████████████████████████████████████████████████████████████████████████▋ | 183/485 [00:53<01:46, 2.83it/s] [2024-01-08 19:23:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 38%|██████████████████████████████████████████████████████████████████████████▋ | 183/485 [00:53<01:46, 2.83it/s] [2024-01-08 19:23:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.13.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 38%|██████████████████████████████████████████████████████████████████████████▋ | 183/485 [00:53<01:46, 2.83it/s] [2024-01-08 19:23:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.13.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 38%|██████████████████████████████████████████████████████████████████████████▋ | 183/485 [00:53<01:46, 2.83it/s] 38%|███████████████████████████████████████████████████████████████████████████▌ | 185/485 [00:53<01:23, 3.60it/s] [2024-01-08 19:23:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.ln_1.bias[0m", shape: (6144,), dtype: float16 + 38%|███████████████████████████████████████████████████████████████████████████▌ | 185/485 [00:53<01:23, 3.60it/s] [2024-01-08 19:23:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.ln_1.weight[0m", shape: (6144,), dtype: float16 + 38%|███████████████████████████████████████████████████████████████████████████▌ | 185/485 [00:53<01:23, 3.60it/s] [2024-01-08 19:23:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.ln_2.bias[0m", shape: (6144,), dtype: float16 + 38%|███████████████████████████████████████████████████████████████████████████▌ | 185/485 [00:53<01:23, 3.60it/s] [2024-01-08 19:23:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.ln_2.weight[0m", shape: (6144,), dtype: float16 + 38%|███████████████████████████████████████████████████████████████████████████▌ | 185/485 [00:53<01:23, 3.60it/s] [2024-01-08 19:23:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 38%|███████████████████████████████████████████████████████████████████████████▌ | 185/485 [00:53<01:23, 3.60it/s] [2024-01-08 19:23:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.13.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 38%|███████████████████████████████████████████████████████████████████████████▌ | 185/485 [00:54<01:23, 3.60it/s] [2024-01-08 19:23:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.13.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 38%|███████████████████████████████████████████████████████████████████████████▌ | 185/485 [00:54<01:23, 3.60it/s] 39%|█████████████████████████████████████████████████████████████████████████████▉ | 191/485 [00:54<00:54, 5.43it/s] [2024-01-08 19:23:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 39%|█████████████████████████████████████████████████████████████████████████████▉ | 191/485 [00:54<00:54, 5.43it/s] [2024-01-08 19:23:40] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.13.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 39%|█████████████████████████████████████████████████████████████████████████████▉ | 191/485 [00:55<00:54, 5.43it/s] [2024-01-08 19:23:40] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.13.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 39%|█████████████████████████████████████████████████████████████████████████████▉ | 191/485 [00:55<00:54, 5.43it/s] 40%|██████████████████████████████████████████████████████████████████████████████▊ | 193/485 [00:55<01:01, 4.79it/s] [2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 40%|██████████████████████████████████████████████████████████████████████████████▊ | 193/485 [00:55<01:01, 4.79it/s] [2024-01-08 19:23:40] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.14.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 40%|██████████████████████████████████████████████████████████████████████████████▊ | 193/485 [00:55<01:01, 4.79it/s] [2024-01-08 19:23:40] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.14.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 40%|██████████████████████████████████████████████████████████████████████████████▊ | 193/485 [00:55<01:01, 4.79it/s] 40%|███████████████████████████████████████████████████████████████████████████████▌ | 195/485 [00:55<00:52, 5.55it/s] [2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 40%|███████████████████████████████████████████████████████████████████████████████▌ | 195/485 [00:55<00:52, 5.55it/s] [2024-01-08 19:23:40] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.14.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 40%|███████████████████████████████████████████████████████████████████████████████▌ | 195/485 [00:55<00:52, 5.55it/s] [2024-01-08 19:23:40] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.14.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 40%|███████████████████████████████████████████████████████████████████████████████▌ | 195/485 [00:55<00:52, 5.55it/s] 41%|████████████████████████████████████████████████████████████████████████████████▍ | 197/485 [00:55<00:44, 6.43it/s] [2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.ln_1.bias[0m", shape: (6144,), dtype: float16 + 41%|████████████████████████████████████████████████████████████████████████████████▍ | 197/485 [00:55<00:44, 6.43it/s] [2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.ln_1.weight[0m", shape: (6144,), dtype: float16 + 41%|████████████████████████████████████████████████████████████████████████████████▍ | 197/485 [00:55<00:44, 6.43it/s] [2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.ln_2.bias[0m", shape: (6144,), dtype: float16 + 41%|████████████████████████████████████████████████████████████████████████████████▍ | 197/485 [00:55<00:44, 6.43it/s] [2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.ln_2.weight[0m", shape: (6144,), dtype: float16 + 41%|████████████████████████████████████████████████████████████████████████████████▍ | 197/485 [00:55<00:44, 6.43it/s] [2024-01-08 19:23:40] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 41%|████████████████████████████████████████████████████████████████████████████████▍ | 197/485 [00:55<00:44, 6.43it/s] [2024-01-08 19:23:41] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.14.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 41%|████████████████████████████████████████████████████████████████████████████████▍ | 197/485 [00:55<00:44, 6.43it/s] [2024-01-08 19:23:41] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.14.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 41%|████████████████████████████████████████████████████████████████████████████████▍ | 197/485 [00:56<00:44, 6.43it/s] 42%|██████████████████████████████████████████████████████████████████████████████████▊ | 203/485 [00:56<00:36, 7.76it/s] [2024-01-08 19:23:41] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 42%|██████████████████████████████████████████████████████████████████████████████████▊ | 203/485 [00:56<00:36, 7.76it/s] [2024-01-08 19:23:41] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.14.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 42%|██████████████████████████████████████████████████████████████████████████████████▊ | 203/485 [00:56<00:36, 7.76it/s] [2024-01-08 19:23:41] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.14.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 42%|██████████████████████████████████████████████████████████████████████████████████▊ | 203/485 [00:56<00:36, 7.76it/s] 42%|███████████████████████████████████████████████████████████████████████████████████▋ | 205/485 [00:56<00:46, 6.07it/s] [2024-01-08 19:23:41] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 42%|██████████████████████████���████████████████████████████████████████████████████████▋ | 205/485 [00:56<00:46, 6.07it/s] [2024-01-08 19:23:41] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.15.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 42%|███████████████████████████████████████████████████████████████████████████████████▋ | 205/485 [00:56<00:46, 6.07it/s] [2024-01-08 19:23:41] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.15.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 42%|███████████████████████████████████████████████████████████████████████████████████▋ | 205/485 [00:56<00:46, 6.07it/s] 43%|████████████████████████████████████████████████████████████████████████████████████▌ | 207/485 [00:56<00:40, 6.79it/s] [2024-01-08 19:23:41] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 43%|████████████████████████████████████████████████████████████████████████████████████▌ | 207/485 [00:56<00:40, 6.79it/s] [2024-01-08 19:23:42] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.15.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 43%|████████████████████████████████████████████████████████████████████████████████████▌ | 207/485 [00:56<00:40, 6.79it/s] [2024-01-08 19:23:42] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.15.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 43%|████████████████████████████████████████████████████████████████████████████████████▌ | 207/485 [00:56<00:40, 6.79it/s] 43%|█████████████████████████████████████████████████████████████████████████████████████▎ | 209/485 [00:56<00:36, 7.61it/s] [2024-01-08 19:23:42] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.ln_1.bias[0m", shape: (6144,), dtype: float16 + 43%|█████████████████████████████████████████████████████████████████████████████████████▎ | 209/485 [00:56<00:36, 7.61it/s] [2024-01-08 19:23:42] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.ln_1.weight[0m", shape: (6144,), dtype: float16 + 43%|█████████████████████████████████████████████████████████████████████████████████████▎ | 209/485 [00:56<00:36, 7.61it/s] [2024-01-08 19:23:42] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.ln_2.bias[0m", shape: (6144,), dtype: float16 + 43%|█████████████████████████████████████████████████████████████████████████████████████▎ | 209/485 [00:56<00:36, 7.61it/s] [2024-01-08 19:23:42] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.ln_2.weight[0m", shape: (6144,), dtype: float16 + 43%|█████████████████████████████████████████████████████████████████████████████████████▎ | 209/485 [00:56<00:36, 7.61it/s] [2024-01-08 19:23:42] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 43%|█████████████████████████████████████████████████████████████████████████████████████▎ | 209/485 [00:56<00:36, 7.61it/s] [2024-01-08 19:23:42] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.15.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 43%|█████████████████████████████████████████████████████████████████████████████████████▎ | 209/485 [00:57<00:36, 7.61it/s] [2024-01-08 19:23:42] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.15.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 43%|█████████████████████████████████████████████████████████████████████████████████████▎ | 209/485 [00:57<00:36, 7.61it/s] 44%|███████████████████████████████████████████████████████████████████████████████████████▊ | 215/485 [00:57<00:32, 8.38it/s] [2024-01-08 19:23:42] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 44%|███████████████████████████████████████████████████████████████████████████████████████▊ | 215/485 [00:57<00:32, 8.38it/s] [2024-01-08 19:23:43] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.15.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 44%|███████████████████████████████████████████████████████████████████████████████████████▊ | 215/485 [00:58<00:32, 8.38it/s] [2024-01-08 19:23:43] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.15.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 44%|███████████████████████████████████████████████████████████████████████████████████████▊ | 215/485 [00:58<00:32, 8.38it/s] 45%|████████████████████████████████████████████████████████████████████████████████████████▌ | 217/485 [00:58<00:41, 6.42it/s] [2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 45%|████████████████████████████████████████████████████████████████████████████████████████▌ | 217/485 [00:58<00:41, 6.42it/s] [2024-01-08 19:23:43] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.16.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 45%|█████████████████████████��██████████████████████████████████████████████████████████████▌ | 217/485 [00:58<00:41, 6.42it/s] [2024-01-08 19:23:43] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.16.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 45%|████████████████████████████████████████████████████████████████████████████████████████▌ | 217/485 [00:58<00:41, 6.42it/s] 45%|█████████████████████████████████████████████████████████████████████████████████████████▍ | 219/485 [00:58<00:37, 7.02it/s] [2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 45%|█████████████████████████████████████████████████████████████████████████████████████████▍ | 219/485 [00:58<00:37, 7.02it/s] [2024-01-08 19:23:43] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.16.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 45%|█████████████████████████████████████████████████████████████████████████████████████████▍ | 219/485 [00:58<00:37, 7.02it/s] [2024-01-08 19:23:43] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.16.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 45%|█████████████████████████████████████████████████████████████████████████████████████████▍ | 219/485 [00:58<00:37, 7.02it/s] 46%|██████████████████████████████████████████████████████████████████████████████████████████▏ | 221/485 [00:58<00:34, 7.69it/s] [2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.ln_1.bias[0m", shape: (6144,), dtype: float16 + 46%|██████████████████████████████████████████████████████████████████████████████████████████▏ | 221/485 [00:58<00:34, 7.69it/s] [2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.ln_1.weight[0m", shape: (6144,), dtype: float16 + 46%|██████████████████████████████████████████████████████████████████████████████████████████▏ | 221/485 [00:58<00:34, 7.69it/s] [2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.ln_2.bias[0m", shape: (6144,), dtype: float16 + 46%|██████████████████████████████████████████████████████████████████████████████████████████▏ | 221/485 [00:58<00:34, 7.69it/s] [2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.ln_2.weight[0m", shape: (6144,), dtype: float16 + 46%|██████████████████████████████████████████████████████████████████████████████████████████▏ | 221/485 [00:58<00:34, 7.69it/s] [2024-01-08 19:23:43] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 46%|██████████████████████████████████████████████████████████████████████████████████████████▏ | 221/485 [00:58<00:34, 7.69it/s] [2024-01-08 19:23:44] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.16.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 46%|██████████████████████████████████████████████████████████████████████████████████████████▏ | 221/485 [00:59<00:34, 7.69it/s] [2024-01-08 19:23:44] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.16.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 46%|██████████████████████████████████████████████████████████████████████████████████████████▏ | 221/485 [00:59<00:34, 7.69it/s] 47%|█████████████████████████████████��██████████████████████████████████████████████████████████▋ | 227/485 [00:59<00:32, 8.04it/s] [2024-01-08 19:23:44] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 47%|████████████████████████████████████████████████████████████████████████████████████████████▋ | 227/485 [00:59<00:32, 8.04it/s] [2024-01-08 19:23:45] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.16.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 47%|████████████████████████████████████████████████████████████████████████████████████████████▋ | 227/485 [00:59<00:32, 8.04it/s] [2024-01-08 19:23:45] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.16.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 47%|████████████████████████████████████████████████████████████████████████████████████████████▋ | 227/485 [01:00<00:32, 8.04it/s] 47%|█████████████████████████████████████████████████████████████████████████████████████████████▍ | 229/485 [01:00<00:43, 5.92it/s] [2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 47%|█████████████████████████████████████████████████████████████████████████████████████████████▍ | 229/485 [01:00<00:43, 5.92it/s] [2024-01-08 19:23:45] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.17.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 47%|█████████████████████████████████████████████████████████████████████████████████████████████▍ | 229/485 [01:00<00:43, 5.92it/s] [2024-01-08 19:23:45] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.17.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 47%|█████████████████████████████████████████████████████████████████████████████████████████████▍ | 229/485 [01:00<00:43, 5.92it/s] 48%|██████████████████████████████████████████████████████████████████████████████████████████████▎ | 231/485 [01:00<00:38, 6.56it/s] [2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 48%|██████████████████████████████████████████████████████████████████████████████████████████████▎ | 231/485 [01:00<00:38, 6.56it/s] [2024-01-08 19:23:45] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.17.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 48%|██████████████████████████████████████████████████████████████████████████████████████████████▎ | 231/485 [01:00<00:38, 6.56it/s] [2024-01-08 19:23:45] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.17.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 48%|██████████████████████████████████████████████████████████████████████████████████████████████▎ | 231/485 [01:00<00:38, 6.56it/s] 48%|███████████████████████████████████████████████████████████████████████████████████████████████ | 233/485 [01:00<00:34, 7.26it/s] [2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.ln_1.bias[0m", shape: (6144,), dtype: float16 + 48%|███████████████████████████████████████████████████████████████████████████████████████████████ | 233/485 [01:00<00:34, 7.26it/s] [2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.ln_1.weight[0m", shape: (6144,), dtype: float16 + 48%|��██████████████████████████████████████████████████████████████████████████████████████████████ | 233/485 [01:00<00:34, 7.26it/s] [2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.ln_2.bias[0m", shape: (6144,), dtype: float16 + 48%|███████████████████████████████████████████████████████████████████████████████████████████████ | 233/485 [01:00<00:34, 7.26it/s] [2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.ln_2.weight[0m", shape: (6144,), dtype: float16 + 48%|███████████████████████████████████████████████████████████████████████████████████████████████ | 233/485 [01:00<00:34, 7.26it/s] [2024-01-08 19:23:45] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 48%|███████████████████████████████████████████████████████████████████████████████████████████████ | 233/485 [01:00<00:34, 7.26it/s] [2024-01-08 19:23:46] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.17.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 48%|███████████████████████████████████████████████████████████████████████████████████████████████ | 233/485 [01:01<00:34, 7.26it/s] [2024-01-08 19:23:46] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.17.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 48%|███████████████████████████████████████████████████████████████████████████████████████████████ | 233/485 [01:01<00:34, 7.26it/s] 49%|█████████████████████████████████████████████████████████████████████████████████████████████████▌ | 239/485 [01:01<00:31, 7.76it/s] [2024-01-08 19:23:46] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 49%|█████████████████████████████████████████████████████████████████████████████████████████████████▌ | 239/485 [01:01<00:31, 7.76it/s] [2024-01-08 19:23:46] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.17.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 49%|█████████████████████████████████████████████████████████████████████████████████████████████████▌ | 239/485 [01:01<00:31, 7.76it/s] [2024-01-08 19:23:46] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.17.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 49%|█████████████████████████████████████████████████████████████████████████████████████████████████▌ | 239/485 [01:01<00:31, 7.76it/s] 50%|██████████████████████████████████████████████████████████████████████████████████████████████████▍ | 241/485 [01:01<00:42, 5.77it/s] [2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 50%|██████████████████████████████████████████████████████████████████████████████████████████████████▍ | 241/485 [01:01<00:42, 5.77it/s] [2024-01-08 19:23:47] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.18.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 50%|██████████████████████████████████████████████████████████████████████████████████████████████████▍ | 241/485 [01:02<00:42, 5.77it/s] [2024-01-08 19:23:47] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.18.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 50%|████████████████████████████████████████████████████████████████████████████████████████���█████████▍ | 241/485 [01:02<00:42, 5.77it/s] 50%|███████████████████████████████████████████████████████████████████████████████████████████████████▏ | 243/485 [01:02<00:37, 6.42it/s] [2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 50%|███████████████████████████████████████████████████████████████████████████████████████████████████▏ | 243/485 [01:02<00:37, 6.42it/s] [2024-01-08 19:23:47] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.18.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 50%|███████████████████████████████████████████████████████████████████████████████████████████████████▏ | 243/485 [01:02<00:37, 6.42it/s] [2024-01-08 19:23:47] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.18.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 50%|███████████████████████████████████████████████████████████████████████████████████████████████████▏ | 243/485 [01:02<00:37, 6.42it/s] 51%|████████████████████████████████████████████████████████████████████████████████████████████████████ | 245/485 [01:02<00:33, 7.14it/s] [2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.ln_1.bias[0m", shape: (6144,), dtype: float16 + 51%|████████████████████████████████████████████████████████████████████████████████████████████████████ | 245/485 [01:02<00:33, 7.14it/s] [2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.ln_1.weight[0m", shape: (6144,), dtype: float16 + 51%|████████████████████████████████████████████████████████████████████████████████████████████████████ | 245/485 [01:02<00:33, 7.14it/s] [2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.ln_2.bias[0m", shape: (6144,), dtype: float16 + 51%|████████████████████████████████████████████████████████████████████████████████████████████████████ | 245/485 [01:02<00:33, 7.14it/s] [2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.ln_2.weight[0m", shape: (6144,), dtype: float16 + 51%|████████████████████████████████████████████████████████████████████████████████████████████████████ | 245/485 [01:02<00:33, 7.14it/s] [2024-01-08 19:23:47] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 51%|████████████████████████████████████████████████████████████████████████████████████████████████████ | 245/485 [01:02<00:33, 7.14it/s] [2024-01-08 19:23:48] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.18.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 51%|████████████████████████████████████████████████████████████████████████████████████████████████████ | 245/485 [01:02<00:33, 7.14it/s] [2024-01-08 19:23:48] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.18.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 51%|████████████████████████████████████████████████████████████████████████████████████████████████████ | 245/485 [01:02<00:33, 7.14it/s] 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 251/485 [01:02<00:30, 7.77it/s] [2024-01-08 19:23:48] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00003-of-00007.bin + 52%|███████████���██████████████████████████████████████████████████████████████████████████████████████████▍ | 251/485 [01:02<00:30, 7.77it/s] [2024-01-08 19:23:48] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00004-of-00007.bin + 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 251/485 [01:03<00:30, 7.77it/s] [2024-01-08 19:23:54] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 251/485 [01:09<00:30, 7.77it/s] 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 252/485 [01:09<03:03, 1.27it/s] [2024-01-08 19:23:54] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.18.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 252/485 [01:09<03:03, 1.27it/s] [2024-01-08 19:23:54] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.18.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 252/485 [01:09<03:03, 1.27it/s] 52%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 253/485 [01:09<02:57, 1.31it/s] [2024-01-08 19:23:54] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 52%|██████████████████████���████████████████████████████████████████████████████████████████████████████████▎ | 253/485 [01:09<02:57, 1.31it/s] [2024-01-08 19:23:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.19.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 52%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 253/485 [01:09<02:57, 1.31it/s] [2024-01-08 19:23:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.19.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 52%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 253/485 [01:10<02:57, 1.31it/s] 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████ | 255/485 [01:10<02:13, 1.72it/s] [2024-01-08 19:23:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████ | 255/485 [01:10<02:13, 1.72it/s] [2024-01-08 19:23:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.19.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████ | 255/485 [01:10<02:13, 1.72it/s] [2024-01-08 19:23:55] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.19.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████ | 255/485 [01:10<02:13, 1.72it/s] 53%|██████████████████████��█████████████████████████████████████████████████████████████████████████████████▉ | 257/485 [01:10<01:40, 2.26it/s] [2024-01-08 19:23:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.ln_1.bias[0m", shape: (6144,), dtype: float16 + 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 257/485 [01:10<01:40, 2.26it/s] [2024-01-08 19:23:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.ln_1.weight[0m", shape: (6144,), dtype: float16 + 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 257/485 [01:10<01:40, 2.26it/s] [2024-01-08 19:23:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.ln_2.bias[0m", shape: (6144,), dtype: float16 + 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 257/485 [01:10<01:40, 2.26it/s] [2024-01-08 19:23:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.ln_2.weight[0m", shape: (6144,), dtype: float16 + 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 257/485 [01:10<01:40, 2.26it/s] [2024-01-08 19:23:55] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 257/485 [01:10<01:40, 2.26it/s] [2024-01-08 19:23:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.19.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 53%|███████████████████████████████████████████████��████████████████████████████████████████████████████████▉ | 257/485 [01:10<01:40, 2.26it/s] [2024-01-08 19:23:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.19.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 257/485 [01:10<01:40, 2.26it/s] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 263/485 [01:10<00:58, 3.77it/s] [2024-01-08 19:23:56] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 263/485 [01:10<00:58, 3.77it/s] [2024-01-08 19:23:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.19.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 263/485 [01:11<00:58, 3.77it/s] [2024-01-08 19:23:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.19.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 263/485 [01:11<00:58, 3.77it/s] 55%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 265/485 [01:11<01:02, 3.53it/s] [2024-01-08 19:23:56] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 55%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 265/485 [01:11<01:02, 3.53it/s] [2024-01-08 19:23:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.20.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 55%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 265/485 [01:11<01:02, 3.53it/s] [2024-01-08 19:23:56] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.20.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 55%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 265/485 [01:11<01:02, 3.53it/s] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 267/485 [01:11<00:52, 4.16it/s] [2024-01-08 19:23:56] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 267/485 [01:11<00:52, 4.16it/s] [2024-01-08 19:23:57] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.20.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 267/485 [01:11<00:52, 4.16it/s] [2024-01-08 19:23:57] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.20.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 267/485 [01:11<00:52, 4.16it/s] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 269/485 [01:11<00:43, 4.91it/s] [2024-01-08 19:23:57] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.ln_1.bias[0m", shape: (6144,), dtype: float16 + 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 269/485 [01:11<00:43, 4.91it/s] [2024-01-08 19:23:57] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.ln_1.weight[0m", shape: (6144,), dtype: float16 + 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 269/485 [01:11<00:43, 4.91it/s] [2024-01-08 19:23:57] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.ln_2.bias[0m", shape: (6144,), dtype: float16 + 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 269/485 [01:11<00:43, 4.91it/s] [2024-01-08 19:23:57] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.ln_2.weight[0m", shape: (6144,), dtype: float16 + 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 269/485 [01:11<00:43, 4.91it/s] [2024-01-08 19:23:57] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 269/485 [01:11<00:43, 4.91it/s] [2024-01-08 19:23:57] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.20.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 269/485 [01:12<00:43, 4.91it/s] [2024-01-08 19:23:57] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.20.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 269/485 [01:12<00:43, 4.91it/s] 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 275/485 [01:12<00:33, 6.26it/s] [2024-01-08 19:23:57] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 275/485 [01:12<00:33, 6.26it/s] [2024-01-08 19:23:58] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.20.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 275/485 [01:13<00:33, 6.26it/s] [2024-01-08 19:23:58] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.20.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 275/485 [01:13<00:33, 6.26it/s] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 277/485 [01:13<00:41, 5.06it/s] [2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 277/485 [01:13<00:41, 5.06it/s] [2024-01-08 19:23:58] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.21.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 277/485 [01:13<00:41, 5.06it/s] [2024-01-08 19:23:58] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.21.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 277/485 [01:13<00:41, 5.06it/s] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 279/485 [01:13<00:35, 5.73it/s] [2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 279/485 [01:13<00:35, 5.73it/s] [2024-01-08 19:23:58] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.21.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 279/485 [01:13<00:35, 5.73it/s] [2024-01-08 19:23:58] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.21.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 58%|████████████████████████████████████████████████████████████████████████████████████████████��████████████████████▉ | 279/485 [01:13<00:35, 5.73it/s] 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 281/485 [01:13<00:31, 6.49it/s] [2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.ln_1.bias[0m", shape: (6144,), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 281/485 [01:13<00:31, 6.49it/s] [2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.ln_1.weight[0m", shape: (6144,), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 281/485 [01:13<00:31, 6.49it/s] [2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.ln_2.bias[0m", shape: (6144,), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 281/485 [01:13<00:31, 6.49it/s] [2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.ln_2.weight[0m", shape: (6144,), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 281/485 [01:13<00:31, 6.49it/s] [2024-01-08 19:23:58] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 281/485 [01:13<00:31, 6.49it/s] [2024-01-08 19:23:59] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.21.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 281/485 [01:14<00:31, 6.49it/s] [2024-01-08 19:23:59] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.21.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 281/485 [01:14<00:31, 6.49it/s] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 287/485 [01:14<00:25, 7.80it/s] [2024-01-08 19:23:59] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 287/485 [01:14<00:25, 7.80it/s] [2024-01-08 19:24:00] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.21.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 287/485 [01:14<00:25, 7.80it/s] [2024-01-08 19:24:00] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.21.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 287/485 [01:15<00:25, 7.80it/s] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 289/485 [01:15<00:33, 5.93it/s] [2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 289/485 [01:15<00:33, 5.93it/s] [2024-01-08 19:24:00] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.22.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 289/485 [01:15<00:33, 5.93it/s] [2024-01-08 19:24:00] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.22.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 289/485 [01:15<00:33, 5.93it/s] 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 291/485 [01:15<00:29, 6.56it/s] [2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 291/485 [01:15<00:29, 6.56it/s] [2024-01-08 19:24:00] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.22.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 291/485 [01:15<00:29, 6.56it/s] [2024-01-08 19:24:00] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.22.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 291/485 [01:15<00:29, 6.56it/s] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 293/485 [01:15<00:26, 7.29it/s] [2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.ln_1.bias[0m", shape: (6144,), dtype: float16 + 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 293/485 [01:15<00:26, 7.29it/s] [2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.ln_1.weight[0m", shape: (6144,), dtype: float16 + 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 293/485 [01:15<00:26, 7.29it/s] [2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.ln_2.bias[0m", shape: (6144,), dtype: float16 + 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 293/485 [01:15<00:26, 7.29it/s] [2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.ln_2.weight[0m", shape: (6144,), dtype: float16 + 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 293/485 [01:15<00:26, 7.29it/s] [2024-01-08 19:24:00] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 293/485 [01:15<00:26, 7.29it/s] [2024-01-08 19:24:01] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.22.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 293/485 [01:16<00:26, 7.29it/s] [2024-01-08 19:24:01] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.22.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 293/485 [01:16<00:26, 7.29it/s] 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 299/485 [01:16<00:23, 7.86it/s] [2024-01-08 19:24:01] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 299/485 [01:16<00:23, 7.86it/s] [2024-01-08 19:24:01] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.22.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 299/485 [01:16<00:23, 7.86it/s] [2024-01-08 19:24:01] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.22.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 299/485 [01:16<00:23, 7.86it/s] 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 301/485 [01:16<00:31, 5.82it/s] [2024-01-08 19:24:01] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 301/485 [01:16<00:31, 5.82it/s] [2024-01-08 19:24:02] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.23.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 301/485 [01:16<00:31, 5.82it/s] [2024-01-08 19:24:02] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.23.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 301/485 [01:17<00:31, 5.82it/s] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 303/485 [01:17<00:28, 6.46it/s] [2024-01-08 19:24:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 303/485 [01:17<00:28, 6.46it/s] [2024-01-08 19:24:02] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.23.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 303/485 [01:17<00:28, 6.46it/s] [2024-01-08 19:24:02] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.23.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 303/485 [01:17<00:28, 6.46it/s] 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 305/485 [01:17<00:25, 7.16it/s] [2024-01-08 19:24:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.ln_1.bias[0m", shape: (6144,), dtype: float16 + 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 305/485 [01:17<00:25, 7.16it/s] [2024-01-08 19:24:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.ln_1.weight[0m", shape: (6144,), dtype: float16 + 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 305/485 [01:17<00:25, 7.16it/s] [2024-01-08 19:24:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.ln_2.bias[0m", shape: (6144,), dtype: float16 + 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 305/485 [01:17<00:25, 7.16it/s] [2024-01-08 19:24:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.ln_2.weight[0m", shape: (6144,), dtype: float16 + 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 305/485 [01:17<00:25, 7.16it/s] [2024-01-08 19:24:02] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 305/485 [01:17<00:25, 7.16it/s] [2024-01-08 19:24:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.23.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 305/485 [01:17<00:25, 7.16it/s] [2024-01-08 19:24:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.23.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 305/485 [01:17<00:25, 7.16it/s] 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 311/485 [01:17<00:22, 7.79it/s] [2024-01-08 19:24:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 311/485 [01:17<00:22, 7.79it/s] [2024-01-08 19:24:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.23.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 311/485 [01:18<00:22, 7.79it/s] [2024-01-08 19:24:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.23.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 311/485 [01:18<00:22, 7.79it/s] 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 313/485 [01:18<00:29, 5.84it/s] [2024-01-08 19:24:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 313/485 [01:18<00:29, 5.84it/s] [2024-01-08 19:24:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.24.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 313/485 [01:18<00:29, 5.84it/s] [2024-01-08 19:24:03] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.24.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 313/485 [01:18<00:29, 5.84it/s] 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 315/485 [01:18<00:26, 6.49it/s] [2024-01-08 19:24:03] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 65%|█████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████▌ | 315/485 [01:18<00:26, 6.49it/s] [2024-01-08 19:24:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.24.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 315/485 [01:18<00:26, 6.49it/s] [2024-01-08 19:24:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.24.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 315/485 [01:18<00:26, 6.49it/s] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 317/485 [01:18<00:23, 7.20it/s] [2024-01-08 19:24:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.ln_1.bias[0m", shape: (6144,), dtype: float16 + 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 317/485 [01:18<00:23, 7.20it/s] [2024-01-08 19:24:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.ln_1.weight[0m", shape: (6144,), dtype: float16 + 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 317/485 [01:18<00:23, 7.20it/s] [2024-01-08 19:24:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.ln_2.bias[0m", shape: (6144,), dtype: float16 + 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 317/485 [01:18<00:23, 7.20it/s] [2024-01-08 19:24:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.ln_2.weight[0m", shape: (6144,), dtype: float16 + 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 317/485 [01:18<00:23, 7.20it/s] [2024-01-08 19:24:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 317/485 [01:18<00:23, 7.20it/s] [2024-01-08 19:24:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.24.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 317/485 [01:19<00:23, 7.20it/s] [2024-01-08 19:24:04] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.24.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 317/485 [01:19<00:23, 7.20it/s] 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 323/485 [01:19<00:20, 7.82it/s] [2024-01-08 19:24:04] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 323/485 [01:19<00:20, 7.82it/s] [2024-01-08 19:24:05] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.24.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 323/485 [01:20<00:20, 7.82it/s] [2024-01-08 19:24:05] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.24.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 323/485 [01:20<00:20, 7.82it/s] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 325/485 [01:20<00:27, 5.86it/s] [2024-01-08 19:24:05] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 325/485 [01:20<00:27, 5.86it/s] [2024-01-08 19:24:05] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.25.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 325/485 [01:20<00:27, 5.86it/s] [2024-01-08 19:24:05] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.25.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 325/485 [01:20<00:27, 5.86it/s] 67%|█████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████▍ | 327/485 [01:20<00:24, 6.51it/s] [2024-01-08 19:24:05] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.ln_1.bias[0m", shape: (6144,), dtype: float16 + 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 327/485 [01:20<00:24, 6.51it/s] [2024-01-08 19:24:05] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.ln_1.weight[0m", shape: (6144,), dtype: float16 + 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 327/485 [01:20<00:24, 6.51it/s] [2024-01-08 19:24:05] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00004-of-00007.bin + 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 327/485 [01:20<00:24, 6.51it/s] [2024-01-08 19:24:06] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00005-of-00007.bin + 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 327/485 [01:20<00:24, 6.51it/s] [2024-01-08 19:24:11] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 327/485 [01:26<00:24, 6.51it/s] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████▋ | 330/485 [01:26<01:57, 1.32it/s] [2024-01-08 19:24:12] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.25.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 330/485 [01:26<01:57, 1.32it/s] [2024-01-08 19:24:12] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.25.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 330/485 [01:26<01:57, 1.32it/s] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 331/485 [01:26<01:45, 1.46it/s] [2024-01-08 19:24:12] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.ln_2.bias[0m", shape: (6144,), dtype: float16 + 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 331/485 [01:26<01:45, 1.46it/s] [2024-01-08 19:24:12] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.ln_2.weight[0m", shape: (6144,), dtype: float16 + 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 331/485 [01:26<01:45, 1.46it/s] [2024-01-08 19:24:12] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 331/485 [01:26<01:45, 1.46it/s] [2024-01-08 19:24:12] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.25.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 331/485 [01:27<01:45, 1.46it/s] [2024-01-08 19:24:12] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.25.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 331/485 [01:27<01:45, 1.46it/s] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 335/485 [01:27<01:10, 2.13it/s] [2024-01-08 19:24:12] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 335/485 [01:27<01:10, 2.13it/s] [2024-01-08 19:24:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.25.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 335/485 [01:28<01:10, 2.13it/s] [2024-01-08 19:24:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.25.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 335/485 [01:28<01:10, 2.13it/s] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 337/485 [01:28<01:03, 2.32it/s] [2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 337/485 [01:28<01:03, 2.32it/s] [2024-01-08 19:24:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.26.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 337/485 [01:28<01:03, 2.32it/s] [2024-01-08 19:24:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.26.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 337/485 [01:28<01:03, 2.32it/s] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 339/485 [01:28<00:50, 2.91it/s] [2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 339/485 [01:28<00:50, 2.91it/s] [2024-01-08 19:24:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.26.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 339/485 [01:28<00:50, 2.91it/s] [2024-01-08 19:24:13] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.26.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 339/485 [01:28<00:50, 2.91it/s] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 341/485 [01:28<00:39, 3.65it/s] [2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.ln_1.bias[0m", shape: (6144,), dtype: float16 + 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 341/485 [01:28<00:39, 3.65it/s] [2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.ln_1.weight[0m", shape: (6144,), dtype: float16 + 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 341/485 [01:28<00:39, 3.65it/s] [2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.ln_2.bias[0m", shape: (6144,), dtype: float16 + 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 341/485 [01:28<00:39, 3.65it/s] [2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.ln_2.weight[0m", shape: (6144,), dtype: float16 + 70%|█████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 341/485 [01:28<00:39, 3.65it/s] [2024-01-08 19:24:13] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 341/485 [01:28<00:39, 3.65it/s] [2024-01-08 19:24:14] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.26.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 341/485 [01:29<00:39, 3.65it/s] [2024-01-08 19:24:14] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.26.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 341/485 [01:29<00:39, 3.65it/s] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 347/485 [01:29<00:25, 5.46it/s] [2024-01-08 19:24:14] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 347/485 [01:29<00:25, 5.46it/s] [2024-01-08 19:24:14] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.26.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 347/485 [01:29<00:25, 5.46it/s] [2024-01-08 19:24:15] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.26.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 347/485 [01:29<00:25, 5.46it/s] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 349/485 [01:29<00:28, 4.75it/s] [2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 349/485 [01:29<00:28, 4.75it/s] [2024-01-08 19:24:15] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.27.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 349/485 [01:30<00:28, 4.75it/s] [2024-01-08 19:24:15] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.27.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 349/485 [01:30<00:28, 4.75it/s] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 351/485 [01:30<00:24, 5.48it/s] [2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 351/485 [01:30<00:24, 5.48it/s] [2024-01-08 19:24:15] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.27.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 351/485 [01:30<00:24, 5.48it/s] [2024-01-08 19:24:15] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.27.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 351/485 [01:30<00:24, 5.48it/s] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 353/485 [01:30<00:20, 6.38it/s] [2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.ln_1.bias[0m", shape: (6144,), dtype: float16 + 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 353/485 [01:30<00:20, 6.38it/s] [2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.ln_1.weight[0m", shape: (6144,), dtype: float16 + 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 353/485 [01:30<00:20, 6.38it/s] [2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.ln_2.bias[0m", shape: (6144,), dtype: float16 + 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 353/485 [01:30<00:20, 6.38it/s] [2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.ln_2.weight[0m", shape: (6144,), dtype: float16 + 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 353/485 [01:30<00:20, 6.38it/s] [2024-01-08 19:24:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 353/485 [01:30<00:20, 6.38it/s] [2024-01-08 19:24:16] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.27.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 353/485 [01:30<00:20, 6.38it/s] [2024-01-08 19:24:16] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.27.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 353/485 [01:30<00:20, 6.38it/s] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 359/485 [01:30<00:17, 7.32it/s] [2024-01-08 19:24:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 359/485 [01:30<00:17, 7.32it/s] [2024-01-08 19:24:16] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.27.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 359/485 [01:31<00:17, 7.32it/s] [2024-01-08 19:24:16] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.27.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 359/485 [01:31<00:17, 7.32it/s] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 361/485 [01:31<00:22, 5.59it/s] [2024-01-08 19:24:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 361/485 [01:31<00:22, 5.59it/s] [2024-01-08 19:24:16] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.28.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████▍ | 361/485 [01:31<00:22, 5.59it/s] [2024-01-08 19:24:16] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.28.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 361/485 [01:31<00:22, 5.59it/s] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 363/485 [01:31<00:19, 6.25it/s] [2024-01-08 19:24:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 363/485 [01:31<00:19, 6.25it/s] [2024-01-08 19:24:17] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.28.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 363/485 [01:31<00:19, 6.25it/s] [2024-01-08 19:24:17] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.28.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 363/485 [01:31<00:19, 6.25it/s] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 365/485 [01:31<00:17, 6.99it/s] [2024-01-08 19:24:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.ln_1.bias[0m", shape: (6144,), dtype: float16 + 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 365/485 [01:31<00:17, 6.99it/s] [2024-01-08 19:24:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.ln_1.weight[0m", shape: (6144,), dtype: float16 + 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 365/485 [01:31<00:17, 6.99it/s] [2024-01-08 19:24:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.ln_2.bias[0m", shape: (6144,), dtype: float16 + 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 365/485 [01:31<00:17, 6.99it/s] [2024-01-08 19:24:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.ln_2.weight[0m", shape: (6144,), dtype: float16 + 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 365/485 [01:31<00:17, 6.99it/s] [2024-01-08 19:24:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 365/485 [01:31<00:17, 6.99it/s] [2024-01-08 19:24:17] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.28.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 365/485 [01:32<00:17, 6.99it/s] [2024-01-08 19:24:17] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.28.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 365/485 [01:32<00:17, 6.99it/s] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 371/485 [01:32<00:14, 7.70it/s] [2024-01-08 19:24:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 371/485 [01:32<00:14, 7.70it/s] [2024-01-08 19:24:18] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.28.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 371/485 [01:33<00:14, 7.70it/s] [2024-01-08 19:24:18] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.28.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 371/485 [01:33<00:14, 7.70it/s] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 373/485 [01:33<00:19, 5.78it/s] [2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 373/485 [01:33<00:19, 5.78it/s] [2024-01-08 19:24:18] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.29.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 373/485 [01:33<00:19, 5.78it/s] [2024-01-08 19:24:18] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.29.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 373/485 [01:33<00:19, 5.78it/s] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 375/485 [01:33<00:17, 6.43it/s] [2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 375/485 [01:33<00:17, 6.43it/s] [2024-01-08 19:24:18] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.29.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████ | 375/485 [01:33<00:17, 6.43it/s] [2024-01-08 19:24:18] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.29.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 375/485 [01:33<00:17, 6.43it/s] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 377/485 [01:33<00:15, 7.16it/s] [2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.ln_1.bias[0m", shape: (6144,), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 377/485 [01:33<00:15, 7.16it/s] [2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.ln_1.weight[0m", shape: (6144,), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 377/485 [01:33<00:15, 7.16it/s] [2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.ln_2.bias[0m", shape: (6144,), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 377/485 [01:33<00:15, 7.16it/s] [2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.ln_2.weight[0m", shape: (6144,), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 377/485 [01:33<00:15, 7.16it/s] [2024-01-08 19:24:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 377/485 [01:33<00:15, 7.16it/s] [2024-01-08 19:24:19] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.29.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 377/485 [01:34<00:15, 7.16it/s] [2024-01-08 19:24:19] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.29.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 377/485 [01:34<00:15, 7.16it/s] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 383/485 [01:34<00:13, 7.79it/s] [2024-01-08 19:24:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 383/485 [01:34<00:13, 7.79it/s] [2024-01-08 19:24:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.29.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 79%|████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 383/485 [01:34<00:13, 7.79it/s] [2024-01-08 19:24:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.29.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 383/485 [01:35<00:13, 7.79it/s] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 385/485 [01:35<00:16, 6.14it/s] [2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 385/485 [01:35<00:16, 6.14it/s] [2024-01-08 19:24:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.30.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 385/485 [01:35<00:16, 6.14it/s] [2024-01-08 19:24:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.30.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 385/485 [01:35<00:16, 6.14it/s] 80%|████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████▉ | 387/485 [01:35<00:14, 6.90it/s] [2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 387/485 [01:35<00:14, 6.90it/s] [2024-01-08 19:24:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.30.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 387/485 [01:35<00:14, 6.90it/s] [2024-01-08 19:24:20] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.30.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 387/485 [01:35<00:14, 6.90it/s] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 389/485 [01:35<00:12, 7.75it/s] [2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.ln_1.bias[0m", shape: (6144,), dtype: float16 + 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 389/485 [01:35<00:12, 7.75it/s] [2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.ln_1.weight[0m", shape: (6144,), dtype: float16 + 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 389/485 [01:35<00:12, 7.75it/s] [2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.ln_2.bias[0m", shape: (6144,), dtype: float16 + 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 389/485 [01:35<00:12, 7.75it/s] [2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.ln_2.weight[0m", shape: (6144,), dtype: float16 + 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 389/485 [01:35<00:12, 7.75it/s] [2024-01-08 19:24:20] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 389/485 [01:35<00:12, 7.75it/s] [2024-01-08 19:24:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.30.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 389/485 [01:35<00:12, 7.75it/s] [2024-01-08 19:24:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.30.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████▊ | 389/485 [01:35<00:12, 7.75it/s] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 395/485 [01:35<00:10, 8.61it/s] [2024-01-08 19:24:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 395/485 [01:35<00:10, 8.61it/s] [2024-01-08 19:24:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.30.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 395/485 [01:36<00:10, 8.61it/s] [2024-01-08 19:24:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.30.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 395/485 [01:36<00:10, 8.61it/s] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 397/485 [01:36<00:13, 6.54it/s] [2024-01-08 19:24:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 397/485 [01:36<00:13, 6.54it/s] [2024-01-08 19:24:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.31.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 397/485 [01:36<00:13, 6.54it/s] [2024-01-08 19:24:21] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.31.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 397/485 [01:36<00:13, 6.54it/s] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 399/485 [01:36<00:12, 7.14it/s] [2024-01-08 19:24:21] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 399/485 [01:36<00:12, 7.14it/s] [2024-01-08 19:24:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.31.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 399/485 [01:36<00:12, 7.14it/s] [2024-01-08 19:24:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.31.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████▉ | 399/485 [01:36<00:12, 7.14it/s] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 401/485 [01:36<00:10, 7.81it/s] [2024-01-08 19:24:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.ln_1.bias[0m", shape: (6144,), dtype: float16 + 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 401/485 [01:36<00:10, 7.81it/s] [2024-01-08 19:24:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.ln_1.weight[0m", shape: (6144,), dtype: float16 + 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 401/485 [01:36<00:10, 7.81it/s] [2024-01-08 19:24:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.ln_2.bias[0m", shape: (6144,), dtype: float16 + 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 401/485 [01:36<00:10, 7.81it/s] [2024-01-08 19:24:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.ln_2.weight[0m", shape: (6144,), dtype: float16 + 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 401/485 [01:36<00:10, 7.81it/s] [2024-01-08 19:24:22] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 83%|███████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 401/485 [01:36<00:10, 7.81it/s] [2024-01-08 19:24:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.31.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 401/485 [01:37<00:10, 7.81it/s] [2024-01-08 19:24:22] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.31.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 401/485 [01:37<00:10, 7.81it/s] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 407/485 [01:37<00:09, 8.17it/s] [2024-01-08 19:24:22] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00005-of-00007.bin + 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 407/485 [01:37<00:09, 8.17it/s] [2024-01-08 19:24:23] INFO huggingface_loader.py:169: Loading HF parameters from: /opt/scratch/assets/starcoder/pytorch_model-00006-of-00007.bin + 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 407/485 [01:37<00:09, 8.17it/s] [2024-01-08 19:24:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 407/485 [01:43<00:09, 8.17it/s] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 408/485 [01:43<01:00, 1.28it/s] [2024-01-08 19:24:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.31.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 408/485 [01:44<01:00, 1.28it/s] [2024-01-08 19:24:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.31.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 408/485 [01:44<01:00, 1.28it/s] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 409/485 [01:44<00:58, 1.30it/s] [2024-01-08 19:24:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.32.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 409/485 [01:44<00:58, 1.30it/s] [2024-01-08 19:24:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.32.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 409/485 [01:44<00:58, 1.30it/s] [2024-01-08 19:24:29] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.32.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 409/485 [01:44<00:58, 1.30it/s] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 411/485 [01:44<00:43, 1.72it/s] [2024-01-08 19:24:29] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.32.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 411/485 [01:44<00:43, 1.72it/s] [2024-01-08 19:24:30] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.32.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 411/485 [01:44<00:43, 1.72it/s] [2024-01-08 19:24:30] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.32.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 411/485 [01:44<00:43, 1.72it/s] 85%|█████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 413/485 [01:44<00:31, 2.27it/s] [2024-01-08 19:24:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.32.ln_1.bias[0m", shape: (6144,), dtype: float16 + 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 413/485 [01:44<00:31, 2.27it/s] [2024-01-08 19:24:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.32.ln_1.weight[0m", shape: (6144,), dtype: float16 + 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 413/485 [01:44<00:31, 2.27it/s] [2024-01-08 19:24:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.32.ln_2.bias[0m", shape: (6144,), dtype: float16 + 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 413/485 [01:44<00:31, 2.27it/s] [2024-01-08 19:24:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.32.ln_2.weight[0m", shape: (6144,), dtype: float16 + 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 413/485 [01:44<00:31, 2.27it/s] [2024-01-08 19:24:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.32.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 413/485 [01:44<00:31, 2.27it/s] [2024-01-08 19:24:30] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.32.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 413/485 [01:45<00:31, 2.27it/s] [2024-01-08 19:24:30] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.32.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 413/485 [01:45<00:31, 2.27it/s] 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 419/485 [01:45<00:16, 3.93it/s] [2024-01-08 19:24:30] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.32.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 419/485 [01:45<00:16, 3.93it/s] [2024-01-08 19:24:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.32.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 419/485 [01:46<00:16, 3.93it/s] [2024-01-08 19:24:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.32.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 419/485 [01:46<00:16, 3.93it/s] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 421/485 [01:46<00:16, 3.77it/s] [2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.33.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 421/485 [01:46<00:16, 3.77it/s] [2024-01-08 19:24:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.33.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 421/485 [01:46<00:16, 3.77it/s] [2024-01-08 19:24:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.33.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 421/485 [01:46<00:16, 3.77it/s] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 423/485 [01:46<00:13, 4.46it/s] [2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.33.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 87%|█████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 423/485 [01:46<00:13, 4.46it/s] [2024-01-08 19:24:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.33.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 423/485 [01:46<00:13, 4.46it/s] [2024-01-08 19:24:31] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.33.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 423/485 [01:46<00:13, 4.46it/s] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 425/485 [01:46<00:11, 5.32it/s] [2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.33.ln_1.bias[0m", shape: (6144,), dtype: float16 + 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 425/485 [01:46<00:11, 5.32it/s] [2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.33.ln_1.weight[0m", shape: (6144,), dtype: float16 + 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 425/485 [01:46<00:11, 5.32it/s] [2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.33.ln_2.bias[0m", shape: (6144,), dtype: float16 + 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 425/485 [01:46<00:11, 5.32it/s] [2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.33.ln_2.weight[0m", shape: (6144,), dtype: float16 + 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 425/485 [01:46<00:11, 5.32it/s] [2024-01-08 19:24:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.33.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 425/485 [01:46<00:11, 5.32it/s] [2024-01-08 19:24:32] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.33.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 425/485 [01:47<00:11, 5.32it/s] [2024-01-08 19:24:32] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.33.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 425/485 [01:47<00:11, 5.32it/s] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 431/485 [01:47<00:07, 6.84it/s] [2024-01-08 19:24:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.33.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 431/485 [01:47<00:07, 6.84it/s] [2024-01-08 19:24:32] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.33.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 431/485 [01:47<00:07, 6.84it/s] [2024-01-08 19:24:32] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.33.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 431/485 [01:47<00:07, 6.84it/s] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 433/485 [01:47<00:09, 5.66it/s] [2024-01-08 19:24:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.34.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 433/485 [01:47<00:09, 5.66it/s] [2024-01-08 19:24:33] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.34.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 433/485 [01:47<00:09, 5.66it/s] [2024-01-08 19:24:33] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.34.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 433/485 [01:47<00:09, 5.66it/s] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 435/485 [01:47<00:07, 6.42it/s] [2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.34.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 435/485 [01:47<00:07, 6.42it/s] [2024-01-08 19:24:33] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.34.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 435/485 [01:48<00:07, 6.42it/s] [2024-01-08 19:24:33] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.34.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 435/485 [01:48<00:07, 6.42it/s] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 437/485 [01:48<00:06, 7.29it/s] [2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.34.ln_1.bias[0m", shape: (6144,), dtype: float16 + 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 437/485 [01:48<00:06, 7.29it/s] [2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.34.ln_1.weight[0m", shape: (6144,), dtype: float16 + 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 437/485 [01:48<00:06, 7.29it/s] [2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.34.ln_2.bias[0m", shape: (6144,), dtype: float16 + 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 437/485 [01:48<00:06, 7.29it/s] [2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.34.ln_2.weight[0m", shape: (6144,), dtype: float16 + 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 437/485 [01:48<00:06, 7.29it/s] [2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.34.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 90%|���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 437/485 [01:48<00:06, 7.29it/s] [2024-01-08 19:24:33] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.34.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 437/485 [01:48<00:06, 7.29it/s] [2024-01-08 19:24:33] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.34.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 437/485 [01:48<00:06, 7.29it/s] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 443/485 [01:48<00:04, 8.41it/s] [2024-01-08 19:24:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.34.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 443/485 [01:48<00:04, 8.41it/s] [2024-01-08 19:24:34] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.34.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��� | 443/485 [01:49<00:04, 8.41it/s] [2024-01-08 19:24:34] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.34.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 443/485 [01:49<00:04, 8.41it/s] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 445/485 [01:49<00:06, 6.42it/s] [2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.35.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 445/485 [01:49<00:06, 6.42it/s] [2024-01-08 19:24:34] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.35.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 445/485 [01:49<00:06, 6.42it/s] [2024-01-08 19:24:34] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.35.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 445/485 [01:49<00:06, 6.42it/s] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████▍ | 447/485 [01:49<00:05, 7.18it/s] [2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.35.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 447/485 [01:49<00:05, 7.18it/s] [2024-01-08 19:24:34] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.35.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 447/485 [01:49<00:05, 7.18it/s] [2024-01-08 19:24:34] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.35.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 447/485 [01:49<00:05, 7.18it/s] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 449/485 [01:49<00:04, 8.04it/s] [2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.35.ln_1.bias[0m", shape: (6144,), dtype: float16 + 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 449/485 [01:49<00:04, 8.04it/s] [2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.35.ln_1.weight[0m", shape: (6144,), dtype: float16 + 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 449/485 [01:49<00:04, 8.04it/s] [2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.35.ln_2.bias[0m", shape: (6144,), dtype: float16 + 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 449/485 [01:49<00:04, 8.04it/s] [2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.35.ln_2.weight[0m", shape: (6144,), dtype: float16 + 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 449/485 [01:49<00:04, 8.04it/s] [2024-01-08 19:24:34] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.35.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 449/485 [01:49<00:04, 8.04it/s] [2024-01-08 19:24:35] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.35.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 449/485 [01:50<00:04, 8.04it/s] [2024-01-08 19:24:35] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.35.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 449/485 [01:50<00:04, 8.04it/s] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 455/485 [01:50<00:03, 8.31it/s] [2024-01-08 19:24:35] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.35.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 455/485 [01:50<00:03, 8.31it/s] [2024-01-08 19:24:36] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.35.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 455/485 [01:50<00:03, 8.31it/s] [2024-01-08 19:24:36] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.35.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 455/485 [01:50<00:03, 8.31it/s] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 457/485 [01:50<00:04, 6.08it/s] [2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.36.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 457/485 [01:50<00:04, 6.08it/s] [2024-01-08 19:24:36] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.36.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 457/485 [01:51<00:04, 6.08it/s] [2024-01-08 19:24:36] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.36.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 457/485 [01:51<00:04, 6.08it/s] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 459/485 [01:51<00:03, 6.72it/s] [2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.36.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 459/485 [01:51<00:03, 6.72it/s] [2024-01-08 19:24:36] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.36.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████▍ | 459/485 [01:51<00:03, 6.72it/s] [2024-01-08 19:24:36] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.36.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 459/485 [01:51<00:03, 6.72it/s] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 461/485 [01:51<00:03, 7.40it/s] [2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.36.ln_1.bias[0m", shape: (6144,), dtype: float16 + 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 461/485 [01:51<00:03, 7.40it/s] [2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.36.ln_1.weight[0m", shape: (6144,), dtype: float16 + 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 461/485 [01:51<00:03, 7.40it/s] [2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.36.ln_2.bias[0m", shape: (6144,), dtype: float16 + 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 461/485 [01:51<00:03, 7.40it/s] [2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.36.ln_2.weight[0m", shape: (6144,), dtype: float16 + 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 461/485 [01:51<00:03, 7.40it/s] [2024-01-08 19:24:36] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.36.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 461/485 [01:51<00:03, 7.40it/s] [2024-01-08 19:24:37] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.36.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 461/485 [01:52<00:03, 7.40it/s] [2024-01-08 19:24:37] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.36.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 461/485 [01:52<00:03, 7.40it/s] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 467/485 [01:52<00:02, 7.95it/s] [2024-01-08 19:24:37] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.36.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████▋ | 467/485 [01:52<00:02, 7.95it/s] [2024-01-08 19:24:37] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.36.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 467/485 [01:52<00:02, 7.95it/s] [2024-01-08 19:24:37] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.36.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 467/485 [01:52<00:02, 7.95it/s] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 469/485 [01:52<00:02, 5.90it/s] [2024-01-08 19:24:37] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.37.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 469/485 [01:52<00:02, 5.90it/s] [2024-01-08 19:24:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.37.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 469/485 [01:52<00:02, 5.90it/s] [2024-01-08 19:24:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.37.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 469/485 [01:52<00:02, 5.90it/s] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 471/485 [01:52<00:02, 6.51it/s] [2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.37.attn.c_proj.bias[0m", shape: (6144,), dtype: float16 + 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 471/485 [01:52<00:02, 6.51it/s] [2024-01-08 19:24:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.37.attn.c_proj.q_weight[0m", shape: (6144, 616), dtype: uint32 + 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 471/485 [01:53<00:02, 6.51it/s] [2024-01-08 19:24:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.37.attn.c_proj.q_scale[0m", shape: (6144, 154), dtype: float16 + 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 471/485 [01:53<00:02, 6.51it/s] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████ | 473/485 [01:53<00:01, 7.23it/s] [2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.37.ln_1.bias[0m", shape: (6144,), dtype: float16 + 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 473/485 [01:53<00:01, 7.23it/s] [2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.37.ln_1.weight[0m", shape: (6144,), dtype: float16 + 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 473/485 [01:53<00:01, 7.23it/s] [2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.37.ln_2.bias[0m", shape: (6144,), dtype: float16 + 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 473/485 [01:53<00:01, 7.23it/s] [2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.37.ln_2.weight[0m", shape: (6144,), dtype: float16 + 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 473/485 [01:53<00:01, 7.23it/s] [2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.37.mlp.c_fc.bias[0m", shape: (24576,), dtype: float16 + 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 473/485 [01:53<00:01, 7.23it/s] [2024-01-08 19:24:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.37.mlp.c_fc.q_weight[0m", shape: (24576, 616), dtype: uint32 + 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 473/485 [01:53<00:01, 7.23it/s] [2024-01-08 19:24:38] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.37.mlp.c_fc.q_scale[0m", shape: (24576, 154), dtype: float16 + 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 473/485 [01:53<00:01, 7.23it/s] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 479/485 [01:53<00:00, 7.82it/s] [2024-01-08 19:24:38] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.37.mlp.c_proj.bias[0m", shape: (6144,), dtype: float16 + 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 479/485 [01:53<00:00, 7.82it/s] [2024-01-08 19:24:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.37.mlp.c_proj.q_weight[0m", shape: (6144, 2460), dtype: uint32 + 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 479/485 [01:54<00:00, 7.82it/s] [2024-01-08 19:24:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.37.mlp.c_proj.q_scale[0m", shape: (6144, 615), dtype: float16 + 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 479/485 [01:54<00:00, 7.82it/s] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 481/485 [01:54<00:00, 6.15it/s] [2024-01-08 19:24:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.38.attn.c_attn.bias[0m", shape: (6400,), dtype: float16 + 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 481/485 [01:54<00:00, 6.15it/s] [2024-01-08 19:24:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.38.attn.c_attn.q_weight[0m", shape: (6400, 616), dtype: uint32 + 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 481/485 [01:54<00:00, 6.15it/s] [2024-01-08 19:24:39] INFO huggingface_loader.py:121: [Quantized] Parameter: "[1mtransformer.h.38.attn.c_attn.q_scale[0m", shape: (6400, 154), dtype: float16 + 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 481/485 [01:54<00:00, 6.15it/s] 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 483/485 [01:54<00:00, 6.91it/s] [2024-01-08 19:24:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.38.ln_1.bias[0m", shape: (6144,), dtype: float16 + 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 483/485 [01:54<00:00, 6.91it/s] [2024-01-08 19:24:39] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.38.ln_1.weight[0m", shape: (6144,), dtype: float16 + 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 483/485 [01:54<00:00, 6.91it/s] 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 485/485 [01:54<00:00, 4.23it/s] +[2024-01-08 19:24:39] INFO huggingface_loader.py:179: Unloading HF weight file: /opt/scratch/assets/starcoder/pytorch_model-00006-of-00007.bin +[2024-01-08 19:24:40] INFO stats.py:71: [92mTime usage[0m: HF loading: 41.530 sec; Pre-quantization mapping: 62.119 sec; Quantization: 3.867 sec +[2024-01-08 19:24:40] INFO stats.py:85: [92mRAM usage[0m: Peak RAM: 9.224 GB. Total bytes loaded from disk: 58.932 GB +[2024-01-08 19:24:40] INFO convert_weight.py:119: [92mParameter size[0m after quantization: 6.647 GB +[2024-01-08 19:24:40] INFO convert_weight.py:124: [92mTotal parameters[0m: 15,819,446,272 +[2024-01-08 19:24:40] INFO convert_weight.py:125: [92mBits per parameter[0m: 3.609 +Start storing to cache /home/junrushao/tmp/tmpq64f2pg_ + [0001/0648] saving lm_head.q_weight [0002/0648] saving lm_head.q_scale [0003/0648] saving transformer.h.38.attn.c_proj.bias [0004/0648] saving transformer.h.38.attn.c_proj.q_weight [0005/0648] saving transformer.h.38.attn.c_proj.q_scale [0006/0648] saving transformer.h.38.ln_2.bias [0007/0648] saving transformer.h.38.ln_2.weight [0008/0648] saving transformer.h.38.mlp.c_fc.bias [0009/0648] saving transformer.h.38.mlp.c_fc.q_weight [0010/0648] saving transformer.h.38.mlp.c_fc.q_scale [0011/0648] saving transformer.h.38.mlp.c_proj.bias [0012/0648] saving transformer.h.38.mlp.c_proj.q_weight [0013/0648] saving transformer.h.38.mlp.c_proj.q_scale [0014/0648] saving transformer.h.39.attn.c_attn.bias [0015/0648] saving transformer.h.39.attn.c_attn.q_weight [0016/0648] saving transformer.h.39.attn.c_attn.q_scale [0017/0648] saving transformer.h.39.attn.c_proj.bias [0018/0648] saving transformer.h.39.attn.c_proj.q_weight [0019/0648] saving transformer.h.39.attn.c_proj.q_scale [0020/0648] saving transformer.h.39.ln_1.bias [0021/0648] saving transformer.h.39.ln_1.weight [0022/0648] saving transformer.h.39.ln_2.bias [0023/0648] saving transformer.h.39.ln_2.weight [0024/0648] saving transformer.h.39.mlp.c_fc.bias [0025/0648] saving transformer.h.39.mlp.c_fc.q_weight [0026/0648] saving transformer.h.39.mlp.c_fc.q_scale [0027/0648] saving transformer.h.39.mlp.c_proj.bias [0028/0648] saving transformer.h.39.mlp.c_proj.q_weight [0029/0648] saving transformer.h.39.mlp.c_proj.q_scale [0030/0648] saving transformer.ln_f.bias [0031/0648] saving transformer.ln_f.weight [0032/0648] saving transformer.h.0.attn.c_attn.bias [0033/0648] saving transformer.h.0.attn.c_attn.q_weight [0034/0648] saving transformer.h.0.attn.c_attn.q_scale [0035/0648] saving transformer.h.0.attn.c_proj.bias [0036/0648] saving transformer.h.0.attn.c_proj.q_weight [0037/0648] saving transformer.h.0.attn.c_proj.q_scale [0038/0648] saving transformer.h.0.ln_1.bias [0039/0648] saving transformer.h.0.ln_1.weight [0040/0648] saving transformer.h.0.ln_2.bias [0041/0648] saving transformer.h.0.ln_2.weight [0042/0648] saving transformer.h.0.mlp.c_fc.bias [0043/0648] saving transformer.h.0.mlp.c_fc.q_weight [0044/0648] saving transformer.h.0.mlp.c_fc.q_scale [0045/0648] saving transformer.h.0.mlp.c_proj.bias [0046/0648] saving transformer.h.0.mlp.c_proj.q_weight [0047/0648] saving transformer.h.0.mlp.c_proj.q_scale [0048/0648] saving transformer.h.1.attn.c_attn.bias [0049/0648] saving transformer.h.1.attn.c_attn.q_weight [0050/0648] saving transformer.h.1.attn.c_attn.q_scale [0051/0648] saving transformer.h.1.attn.c_proj.bias [0052/0648] saving transformer.h.1.attn.c_proj.q_weight [0053/0648] saving transformer.h.1.attn.c_proj.q_scale [0054/0648] saving transformer.h.1.ln_1.bias [0055/0648] saving transformer.h.1.ln_1.weight [0056/0648] saving transformer.h.1.ln_2.bias [0057/0648] saving transformer.h.1.ln_2.weight [0058/0648] saving transformer.h.1.mlp.c_fc.bias [0059/0648] saving transformer.h.1.mlp.c_fc.q_weight [0060/0648] saving transformer.h.1.mlp.c_fc.q_scale [0061/0648] saving transformer.h.1.mlp.c_proj.bias [0062/0648] saving transformer.h.1.mlp.c_proj.q_weight [0063/0648] saving transformer.h.1.mlp.c_proj.q_scale [0064/0648] saving transformer.h.2.attn.c_attn.bias [0065/0648] saving transformer.h.2.attn.c_attn.q_weight [0066/0648] saving transformer.h.2.attn.c_attn.q_scale [0067/0648] saving transformer.h.2.attn.c_proj.bias [0068/0648] saving transformer.h.2.attn.c_proj.q_weight [0069/0648] saving transformer.h.2.attn.c_proj.q_scale [0070/0648] saving transformer.h.2.ln_1.bias [0071/0648] saving transformer.h.2.ln_1.weight [0072/0648] saving transformer.h.2.ln_2.bias [0073/0648] saving transformer.h.2.ln_2.weight [0074/0648] saving transformer.h.2.mlp.c_fc.bias [0075/0648] saving transformer.h.2.mlp.c_fc.q_weight [0076/0648] saving transformer.h.2.mlp.c_fc.q_scale [0077/0648] saving transformer.h.2.mlp.c_proj.bias [0078/0648] saving transformer.h.2.mlp.c_proj.q_weight [0079/0648] saving transformer.h.2.mlp.c_proj.q_scale [0080/0648] saving transformer.h.3.attn.c_attn.bias [0081/0648] saving transformer.h.3.attn.c_attn.q_weight [0082/0648] saving transformer.h.3.attn.c_attn.q_scale [0083/0648] saving transformer.h.3.attn.c_proj.bias [0084/0648] saving transformer.h.3.attn.c_proj.q_weight [0085/0648] saving transformer.h.3.attn.c_proj.q_scale [0086/0648] saving transformer.h.3.ln_1.bias [0087/0648] saving transformer.h.3.ln_1.weight [0088/0648] saving transformer.h.3.ln_2.bias [0089/0648] saving transformer.h.3.ln_2.weight [0090/0648] saving transformer.h.3.mlp.c_fc.bias [0091/0648] saving transformer.h.3.mlp.c_fc.q_weight [0092/0648] saving transformer.h.3.mlp.c_fc.q_scale [0093/0648] saving transformer.h.3.mlp.c_proj.bias [0094/0648] saving transformer.h.3.mlp.c_proj.q_weight [0095/0648] saving transformer.h.3.mlp.c_proj.q_scale [0096/0648] saving transformer.h.4.attn.c_attn.bias [0097/0648] saving transformer.h.4.attn.c_attn.q_weight [0098/0648] saving transformer.h.4.attn.c_attn.q_scale [0099/0648] saving transformer.h.4.attn.c_proj.bias [0100/0648] saving transformer.h.4.attn.c_proj.q_weight [0101/0648] saving transformer.h.4.attn.c_proj.q_scale [0102/0648] saving transformer.h.4.ln_1.bias [0103/0648] saving transformer.h.4.ln_1.weight [0104/0648] saving transformer.h.4.ln_2.bias [0105/0648] saving transformer.h.4.ln_2.weight [0106/0648] saving transformer.h.4.mlp.c_fc.bias [0107/0648] saving transformer.h.4.mlp.c_fc.q_weight [0108/0648] saving transformer.h.4.mlp.c_fc.q_scale [0109/0648] saving transformer.h.4.mlp.c_proj.bias [0110/0648] saving transformer.h.4.mlp.c_proj.q_weight [0111/0648] saving transformer.h.4.mlp.c_proj.q_scale [0112/0648] saving transformer.h.5.attn.c_attn.bias [0113/0648] saving transformer.h.5.attn.c_attn.q_weight [0114/0648] saving transformer.h.5.attn.c_attn.q_scale [0115/0648] saving transformer.h.5.attn.c_proj.bias [0116/0648] saving transformer.h.5.attn.c_proj.q_weight [0117/0648] saving transformer.h.5.attn.c_proj.q_scale [0118/0648] saving transformer.h.5.ln_1.bias [0119/0648] saving transformer.h.5.ln_1.weight [0120/0648] saving transformer.h.5.ln_2.bias [0121/0648] saving transformer.h.5.ln_2.weight [0122/0648] saving transformer.h.5.mlp.c_fc.bias [0123/0648] saving transformer.h.5.mlp.c_fc.q_weight [0124/0648] saving transformer.h.5.mlp.c_fc.q_scale [0125/0648] saving transformer.wpe.q_weight [0126/0648] saving transformer.wpe.q_scale [0127/0648] saving transformer.wte.q_weight [0128/0648] saving transformer.wte.q_scale [0129/0648] saving transformer.h.10.attn.c_attn.bias [0130/0648] saving transformer.h.10.attn.c_attn.q_weight [0131/0648] saving transformer.h.10.attn.c_attn.q_scale [0132/0648] saving transformer.h.10.attn.c_proj.bias [0133/0648] saving transformer.h.10.attn.c_proj.q_weight [0134/0648] saving transformer.h.10.attn.c_proj.q_scale [0135/0648] saving transformer.h.10.ln_1.bias [0136/0648] saving transformer.h.10.ln_1.weight [0137/0648] saving transformer.h.10.ln_2.bias [0138/0648] saving transformer.h.10.ln_2.weight [0139/0648] saving transformer.h.10.mlp.c_fc.bias [0140/0648] saving transformer.h.10.mlp.c_fc.q_weight [0141/0648] saving transformer.h.10.mlp.c_fc.q_scale [0142/0648] saving transformer.h.10.mlp.c_proj.bias [0143/0648] saving transformer.h.10.mlp.c_proj.q_weight [0144/0648] saving transformer.h.10.mlp.c_proj.q_scale [0145/0648] saving transformer.h.11.attn.c_attn.bias [0146/0648] saving transformer.h.11.attn.c_attn.q_weight [0147/0648] saving transformer.h.11.attn.c_attn.q_scale [0148/0648] saving transformer.h.11.attn.c_proj.bias [0149/0648] saving transformer.h.11.attn.c_proj.q_weight [0150/0648] saving transformer.h.11.attn.c_proj.q_scale [0151/0648] saving transformer.h.11.ln_1.bias [0152/0648] saving transformer.h.11.ln_1.weight [0153/0648] saving transformer.h.11.ln_2.bias [0154/0648] saving transformer.h.11.ln_2.weight [0155/0648] saving transformer.h.11.mlp.c_fc.bias [0156/0648] saving transformer.h.11.mlp.c_fc.q_weight [0157/0648] saving transformer.h.11.mlp.c_fc.q_scale [0158/0648] saving transformer.h.11.mlp.c_proj.bias [0159/0648] saving transformer.h.11.mlp.c_proj.q_weight [0160/0648] saving transformer.h.11.mlp.c_proj.q_scale [0161/0648] saving transformer.h.12.attn.c_attn.bias [0162/0648] saving transformer.h.12.attn.c_attn.q_weight [0163/0648] saving transformer.h.12.attn.c_attn.q_scale [0164/0648] saving transformer.h.12.ln_1.bias [0165/0648] saving transformer.h.12.ln_1.weight [0166/0648] saving transformer.h.5.mlp.c_proj.bias [0167/0648] saving transformer.h.5.mlp.c_proj.q_weight [0168/0648] saving transformer.h.5.mlp.c_proj.q_scale [0169/0648] saving transformer.h.6.attn.c_attn.bias [0170/0648] saving transformer.h.6.attn.c_attn.q_weight [0171/0648] saving transformer.h.6.attn.c_attn.q_scale [0172/0648] saving transformer.h.6.attn.c_proj.bias [0173/0648] saving transformer.h.6.attn.c_proj.q_weight [0174/0648] saving transformer.h.6.attn.c_proj.q_scale [0175/0648] saving transformer.h.6.ln_1.bias [0176/0648] saving transformer.h.6.ln_1.weight [0177/0648] saving transformer.h.6.ln_2.bias [0178/0648] saving transformer.h.6.ln_2.weight [0179/0648] saving transformer.h.6.mlp.c_fc.bias [0180/0648] saving transformer.h.6.mlp.c_fc.q_weight [0181/0648] saving transformer.h.6.mlp.c_fc.q_scale [0182/0648] saving transformer.h.6.mlp.c_proj.bias [0183/0648] saving transformer.h.6.mlp.c_proj.q_weight [0184/0648] saving transformer.h.6.mlp.c_proj.q_scale [0185/0648] saving transformer.h.7.attn.c_attn.bias [0186/0648] saving transformer.h.7.attn.c_attn.q_weight [0187/0648] saving transformer.h.7.attn.c_attn.q_scale [0188/0648] saving transformer.h.7.attn.c_proj.bias [0189/0648] saving transformer.h.7.attn.c_proj.q_weight [0190/0648] saving transformer.h.7.attn.c_proj.q_scale [0191/0648] saving transformer.h.7.ln_1.bias [0192/0648] saving transformer.h.7.ln_1.weight [0193/0648] saving transformer.h.7.ln_2.bias [0194/0648] saving transformer.h.7.ln_2.weight [0195/0648] saving transformer.h.7.mlp.c_fc.bias [0196/0648] saving transformer.h.7.mlp.c_fc.q_weight [0197/0648] saving transformer.h.7.mlp.c_fc.q_scale [0198/0648] saving transformer.h.7.mlp.c_proj.bias [0199/0648] saving transformer.h.7.mlp.c_proj.q_weight [0200/0648] saving transformer.h.7.mlp.c_proj.q_scale [0201/0648] saving transformer.h.8.attn.c_attn.bias [0202/0648] saving transformer.h.8.attn.c_attn.q_weight [0203/0648] saving transformer.h.8.attn.c_attn.q_scale [0204/0648] saving transformer.h.8.attn.c_proj.bias [0205/0648] saving transformer.h.8.attn.c_proj.q_weight [0206/0648] saving transformer.h.8.attn.c_proj.q_scale [0207/0648] saving transformer.h.8.ln_1.bias [0208/0648] saving transformer.h.8.ln_1.weight [0209/0648] saving transformer.h.8.ln_2.bias [0210/0648] saving transformer.h.8.ln_2.weight [0211/0648] saving transformer.h.8.mlp.c_fc.bias [0212/0648] saving transformer.h.8.mlp.c_fc.q_weight [0213/0648] saving transformer.h.8.mlp.c_fc.q_scale [0214/0648] saving transformer.h.8.mlp.c_proj.bias [0215/0648] saving transformer.h.8.mlp.c_proj.q_weight [0216/0648] saving transformer.h.8.mlp.c_proj.q_scale [0217/0648] saving transformer.h.9.attn.c_attn.bias [0218/0648] saving transformer.h.9.attn.c_attn.q_weight [0219/0648] saving transformer.h.9.attn.c_attn.q_scale [0220/0648] saving transformer.h.9.attn.c_proj.bias [0221/0648] saving transformer.h.9.attn.c_proj.q_weight [0222/0648] saving transformer.h.9.attn.c_proj.q_scale [0223/0648] saving transformer.h.9.ln_1.bias [0224/0648] saving transformer.h.9.ln_1.weight [0225/0648] saving transformer.h.9.ln_2.bias [0226/0648] saving transformer.h.9.ln_2.weight [0227/0648] saving transformer.h.9.mlp.c_fc.bias [0228/0648] saving transformer.h.9.mlp.c_fc.q_weight [0229/0648] saving transformer.h.9.mlp.c_fc.q_scale [0230/0648] saving transformer.h.9.mlp.c_proj.bias [0231/0648] saving transformer.h.9.mlp.c_proj.q_weight [0232/0648] saving transformer.h.9.mlp.c_proj.q_scale [0233/0648] saving transformer.h.12.attn.c_proj.bias [0234/0648] saving transformer.h.12.attn.c_proj.q_weight [0235/0648] saving transformer.h.12.attn.c_proj.q_scale [0236/0648] saving transformer.h.12.ln_2.bias [0237/0648] saving transformer.h.12.ln_2.weight [0238/0648] saving transformer.h.12.mlp.c_fc.bias [0239/0648] saving transformer.h.12.mlp.c_fc.q_weight [0240/0648] saving transformer.h.12.mlp.c_fc.q_scale [0241/0648] saving transformer.h.12.mlp.c_proj.bias [0242/0648] saving transformer.h.12.mlp.c_proj.q_weight [0243/0648] saving transformer.h.12.mlp.c_proj.q_scale [0244/0648] saving transformer.h.13.attn.c_attn.bias [0245/0648] saving transformer.h.13.attn.c_attn.q_weight [0246/0648] saving transformer.h.13.attn.c_attn.q_scale [0247/0648] saving transformer.h.13.attn.c_proj.bias [0248/0648] saving transformer.h.13.attn.c_proj.q_weight [0249/0648] saving transformer.h.13.attn.c_proj.q_scale [0250/0648] saving transformer.h.13.ln_1.bias [0251/0648] saving transformer.h.13.ln_1.weight [0252/0648] saving transformer.h.13.ln_2.bias [0253/0648] saving transformer.h.13.ln_2.weight [0254/0648] saving transformer.h.13.mlp.c_fc.bias [0255/0648] saving transformer.h.13.mlp.c_fc.q_weight [0256/0648] saving transformer.h.13.mlp.c_fc.q_scale [0257/0648] saving transformer.h.13.mlp.c_proj.bias [0258/0648] saving transformer.h.13.mlp.c_proj.q_weight [0259/0648] saving transformer.h.13.mlp.c_proj.q_scale [0260/0648] saving transformer.h.14.attn.c_attn.bias [0261/0648] saving transformer.h.14.attn.c_attn.q_weight [0262/0648] saving transformer.h.14.attn.c_attn.q_scale [0263/0648] saving transformer.h.14.attn.c_proj.bias [0264/0648] saving transformer.h.14.attn.c_proj.q_weight [0265/0648] saving transformer.h.14.attn.c_proj.q_scale [0266/0648] saving transformer.h.14.ln_1.bias [0267/0648] saving transformer.h.14.ln_1.weight [0268/0648] saving transformer.h.14.ln_2.bias [0269/0648] saving transformer.h.14.ln_2.weight [0270/0648] saving transformer.h.14.mlp.c_fc.bias [0271/0648] saving transformer.h.14.mlp.c_fc.q_weight [0272/0648] saving transformer.h.14.mlp.c_fc.q_scale [0273/0648] saving transformer.h.14.mlp.c_proj.bias [0274/0648] saving transformer.h.14.mlp.c_proj.q_weight [0275/0648] saving transformer.h.14.mlp.c_proj.q_scale [0276/0648] saving transformer.h.15.attn.c_attn.bias [0277/0648] saving transformer.h.15.attn.c_attn.q_weight [0278/0648] saving transformer.h.15.attn.c_attn.q_scale [0279/0648] saving transformer.h.15.attn.c_proj.bias [0280/0648] saving transformer.h.15.attn.c_proj.q_weight [0281/0648] saving transformer.h.15.attn.c_proj.q_scale [0282/0648] saving transformer.h.15.ln_1.bias [0283/0648] saving transformer.h.15.ln_1.weight [0284/0648] saving transformer.h.15.ln_2.bias [0285/0648] saving transformer.h.15.ln_2.weight [0286/0648] saving transformer.h.15.mlp.c_fc.bias [0287/0648] saving transformer.h.15.mlp.c_fc.q_weight [0288/0648] saving transformer.h.15.mlp.c_fc.q_scale [0289/0648] saving transformer.h.15.mlp.c_proj.bias [0290/0648] saving transformer.h.15.mlp.c_proj.q_weight [0291/0648] saving transformer.h.15.mlp.c_proj.q_scale [0292/0648] saving transformer.h.16.attn.c_attn.bias [0293/0648] saving transformer.h.16.attn.c_attn.q_weight [0294/0648] saving transformer.h.16.attn.c_attn.q_scale [0295/0648] saving transformer.h.16.attn.c_proj.bias [0296/0648] saving transformer.h.16.attn.c_proj.q_weight [0297/0648] saving transformer.h.16.attn.c_proj.q_scale [0298/0648] saving transformer.h.16.ln_1.bias [0299/0648] saving transformer.h.16.ln_1.weight [0300/0648] saving transformer.h.16.ln_2.bias [0301/0648] saving transformer.h.16.ln_2.weight [0302/0648] saving transformer.h.16.mlp.c_fc.bias [0303/0648] saving transformer.h.16.mlp.c_fc.q_weight [0304/0648] saving transformer.h.16.mlp.c_fc.q_scale [0305/0648] saving transformer.h.16.mlp.c_proj.bias [0306/0648] saving transformer.h.16.mlp.c_proj.q_weight [0307/0648] saving transformer.h.16.mlp.c_proj.q_scale [0308/0648] saving transformer.h.17.attn.c_attn.bias [0309/0648] saving transformer.h.17.attn.c_attn.q_weight [0310/0648] saving transformer.h.17.attn.c_attn.q_scale [0311/0648] saving transformer.h.17.attn.c_proj.bias [0312/0648] saving transformer.h.17.attn.c_proj.q_weight [0313/0648] saving transformer.h.17.attn.c_proj.q_scale [0314/0648] saving transformer.h.17.ln_1.bias [0315/0648] saving transformer.h.17.ln_1.weight [0316/0648] saving transformer.h.17.ln_2.bias [0317/0648] saving transformer.h.17.ln_2.weight [0318/0648] saving transformer.h.17.mlp.c_fc.bias [0319/0648] saving transformer.h.17.mlp.c_fc.q_weight [0320/0648] saving transformer.h.17.mlp.c_fc.q_scale [0321/0648] saving transformer.h.17.mlp.c_proj.bias [0322/0648] saving transformer.h.17.mlp.c_proj.q_weight [0323/0648] saving transformer.h.17.mlp.c_proj.q_scale [0324/0648] saving transformer.h.18.attn.c_attn.bias [0325/0648] saving transformer.h.18.attn.c_attn.q_weight [0326/0648] saving transformer.h.18.attn.c_attn.q_scale [0327/0648] saving transformer.h.18.attn.c_proj.bias [0328/0648] saving transformer.h.18.attn.c_proj.q_weight [0329/0648] saving transformer.h.18.attn.c_proj.q_scale [0330/0648] saving transformer.h.18.ln_1.bias [0331/0648] saving transformer.h.18.ln_1.weight [0332/0648] saving transformer.h.18.ln_2.bias [0333/0648] saving transformer.h.18.ln_2.weight [0334/0648] saving transformer.h.18.mlp.c_fc.bias [0335/0648] saving transformer.h.18.mlp.c_fc.q_weight [0336/0648] saving transformer.h.18.mlp.c_fc.q_scale [0337/0648] saving transformer.h.18.mlp.c_proj.bias [0338/0648] saving transformer.h.18.mlp.c_proj.q_weight [0339/0648] saving transformer.h.18.mlp.c_proj.q_scale [0340/0648] saving transformer.h.19.attn.c_attn.bias [0341/0648] saving transformer.h.19.attn.c_attn.q_weight [0342/0648] saving transformer.h.19.attn.c_attn.q_scale [0343/0648] saving transformer.h.19.attn.c_proj.bias [0344/0648] saving transformer.h.19.attn.c_proj.q_weight [0345/0648] saving transformer.h.19.attn.c_proj.q_scale [0346/0648] saving transformer.h.19.ln_1.bias [0347/0648] saving transformer.h.19.ln_1.weight [0348/0648] saving transformer.h.19.ln_2.bias [0349/0648] saving transformer.h.19.ln_2.weight [0350/0648] saving transformer.h.19.mlp.c_fc.bias [0351/0648] saving transformer.h.19.mlp.c_fc.q_weight [0352/0648] saving transformer.h.19.mlp.c_fc.q_scale [0353/0648] saving transformer.h.19.mlp.c_proj.bias [0354/0648] saving transformer.h.19.mlp.c_proj.q_weight [0355/0648] saving transformer.h.19.mlp.c_proj.q_scale [0356/0648] saving transformer.h.20.attn.c_attn.bias [0357/0648] saving transformer.h.20.attn.c_attn.q_weight [0358/0648] saving transformer.h.20.attn.c_attn.q_scale [0359/0648] saving transformer.h.20.attn.c_proj.bias [0360/0648] saving transformer.h.20.attn.c_proj.q_weight [0361/0648] saving transformer.h.20.attn.c_proj.q_scale [0362/0648] saving transformer.h.20.ln_1.bias [0363/0648] saving transformer.h.20.ln_1.weight [0364/0648] saving transformer.h.20.ln_2.bias [0365/0648] saving transformer.h.20.ln_2.weight [0366/0648] saving transformer.h.20.mlp.c_fc.bias [0367/0648] saving transformer.h.20.mlp.c_fc.q_weight [0368/0648] saving transformer.h.20.mlp.c_fc.q_scale [0369/0648] saving transformer.h.20.mlp.c_proj.bias [0370/0648] saving transformer.h.20.mlp.c_proj.q_weight [0371/0648] saving transformer.h.20.mlp.c_proj.q_scale [0372/0648] saving transformer.h.21.attn.c_attn.bias [0373/0648] saving transformer.h.21.attn.c_attn.q_weight [0374/0648] saving transformer.h.21.attn.c_attn.q_scale [0375/0648] saving transformer.h.21.attn.c_proj.bias [0376/0648] saving transformer.h.21.attn.c_proj.q_weight [0377/0648] saving transformer.h.21.attn.c_proj.q_scale [0378/0648] saving transformer.h.21.ln_1.bias [0379/0648] saving transformer.h.21.ln_1.weight [0380/0648] saving transformer.h.21.ln_2.bias [0381/0648] saving transformer.h.21.ln_2.weight [0382/0648] saving transformer.h.21.mlp.c_fc.bias [0383/0648] saving transformer.h.21.mlp.c_fc.q_weight [0384/0648] saving transformer.h.21.mlp.c_fc.q_scale [0385/0648] saving transformer.h.21.mlp.c_proj.bias [0386/0648] saving transformer.h.21.mlp.c_proj.q_weight [0387/0648] saving transformer.h.21.mlp.c_proj.q_scale [0388/0648] saving transformer.h.22.attn.c_attn.bias [0389/0648] saving transformer.h.22.attn.c_attn.q_weight [0390/0648] saving transformer.h.22.attn.c_attn.q_scale [0391/0648] saving transformer.h.22.attn.c_proj.bias [0392/0648] saving transformer.h.22.attn.c_proj.q_weight [0393/0648] saving transformer.h.22.attn.c_proj.q_scale [0394/0648] saving transformer.h.22.ln_1.bias [0395/0648] saving transformer.h.22.ln_1.weight [0396/0648] saving transformer.h.22.ln_2.bias [0397/0648] saving transformer.h.22.ln_2.weight [0398/0648] saving transformer.h.22.mlp.c_fc.bias [0399/0648] saving transformer.h.22.mlp.c_fc.q_weight [0400/0648] saving transformer.h.22.mlp.c_fc.q_scale [0401/0648] saving transformer.h.22.mlp.c_proj.bias [0402/0648] saving transformer.h.22.mlp.c_proj.q_weight [0403/0648] saving transformer.h.22.mlp.c_proj.q_scale [0404/0648] saving transformer.h.23.attn.c_attn.bias [0405/0648] saving transformer.h.23.attn.c_attn.q_weight [0406/0648] saving transformer.h.23.attn.c_attn.q_scale [0407/0648] saving transformer.h.23.attn.c_proj.bias [0408/0648] saving transformer.h.23.attn.c_proj.q_weight [0409/0648] saving transformer.h.23.attn.c_proj.q_scale [0410/0648] saving transformer.h.23.ln_1.bias [0411/0648] saving transformer.h.23.ln_1.weight [0412/0648] saving transformer.h.23.ln_2.bias [0413/0648] saving transformer.h.23.ln_2.weight [0414/0648] saving transformer.h.23.mlp.c_fc.bias [0415/0648] saving transformer.h.23.mlp.c_fc.q_weight [0416/0648] saving transformer.h.23.mlp.c_fc.q_scale [0417/0648] saving transformer.h.23.mlp.c_proj.bias [0418/0648] saving transformer.h.23.mlp.c_proj.q_weight [0419/0648] saving transformer.h.23.mlp.c_proj.q_scale [0420/0648] saving transformer.h.24.attn.c_attn.bias [0421/0648] saving transformer.h.24.attn.c_attn.q_weight [0422/0648] saving transformer.h.24.attn.c_attn.q_scale [0423/0648] saving transformer.h.24.attn.c_proj.bias [0424/0648] saving transformer.h.24.attn.c_proj.q_weight [0425/0648] saving transformer.h.24.attn.c_proj.q_scale [0426/0648] saving transformer.h.24.ln_1.bias [0427/0648] saving transformer.h.24.ln_1.weight [0428/0648] saving transformer.h.24.ln_2.bias [0429/0648] saving transformer.h.24.ln_2.weight [0430/0648] saving transformer.h.24.mlp.c_fc.bias [0431/0648] saving transformer.h.24.mlp.c_fc.q_weight [0432/0648] saving transformer.h.24.mlp.c_fc.q_scale [0433/0648] saving transformer.h.24.mlp.c_proj.bias [0434/0648] saving transformer.h.24.mlp.c_proj.q_weight [0435/0648] saving transformer.h.24.mlp.c_proj.q_scale [0436/0648] saving transformer.h.25.attn.c_attn.bias [0437/0648] saving transformer.h.25.attn.c_attn.q_weight [0438/0648] saving transformer.h.25.attn.c_attn.q_scale [0439/0648] saving transformer.h.25.ln_1.bias [0440/0648] saving transformer.h.25.ln_1.weight [0441/0648] saving transformer.h.25.attn.c_proj.bias [0442/0648] saving transformer.h.25.attn.c_proj.q_weight [0443/0648] saving transformer.h.25.attn.c_proj.q_scale [0444/0648] saving transformer.h.25.ln_2.bias [0445/0648] saving transformer.h.25.ln_2.weight [0446/0648] saving transformer.h.25.mlp.c_fc.bias [0447/0648] saving transformer.h.25.mlp.c_fc.q_weight [0448/0648] saving transformer.h.25.mlp.c_fc.q_scale [0449/0648] saving transformer.h.25.mlp.c_proj.bias [0450/0648] saving transformer.h.25.mlp.c_proj.q_weight [0451/0648] saving transformer.h.25.mlp.c_proj.q_scale [0452/0648] saving transformer.h.26.attn.c_attn.bias [0453/0648] saving transformer.h.26.attn.c_attn.q_weight [0454/0648] saving transformer.h.26.attn.c_attn.q_scale [0455/0648] saving transformer.h.26.attn.c_proj.bias [0456/0648] saving transformer.h.26.attn.c_proj.q_weight [0457/0648] saving transformer.h.26.attn.c_proj.q_scale [0458/0648] saving transformer.h.26.ln_1.bias [0459/0648] saving transformer.h.26.ln_1.weight [0460/0648] saving transformer.h.26.ln_2.bias [0461/0648] saving transformer.h.26.ln_2.weight [0462/0648] saving transformer.h.26.mlp.c_fc.bias [0463/0648] saving transformer.h.26.mlp.c_fc.q_weight [0464/0648] saving transformer.h.26.mlp.c_fc.q_scale [0465/0648] saving transformer.h.26.mlp.c_proj.bias [0466/0648] saving transformer.h.26.mlp.c_proj.q_weight [0467/0648] saving transformer.h.26.mlp.c_proj.q_scale [0468/0648] saving transformer.h.27.attn.c_attn.bias [0469/0648] saving transformer.h.27.attn.c_attn.q_weight [0470/0648] saving transformer.h.27.attn.c_attn.q_scale [0471/0648] saving transformer.h.27.attn.c_proj.bias [0472/0648] saving transformer.h.27.attn.c_proj.q_weight [0473/0648] saving transformer.h.27.attn.c_proj.q_scale [0474/0648] saving transformer.h.27.ln_1.bias [0475/0648] saving transformer.h.27.ln_1.weight [0476/0648] saving transformer.h.27.ln_2.bias [0477/0648] saving transformer.h.27.ln_2.weight [0478/0648] saving transformer.h.27.mlp.c_fc.bias [0479/0648] saving transformer.h.27.mlp.c_fc.q_weight [0480/0648] saving transformer.h.27.mlp.c_fc.q_scale [0481/0648] saving transformer.h.27.mlp.c_proj.bias [0482/0648] saving transformer.h.27.mlp.c_proj.q_weight [0483/0648] saving transformer.h.27.mlp.c_proj.q_scale [0484/0648] saving transformer.h.28.attn.c_attn.bias [0485/0648] saving transformer.h.28.attn.c_attn.q_weight [0486/0648] saving transformer.h.28.attn.c_attn.q_scale [0487/0648] saving transformer.h.28.attn.c_proj.bias [0488/0648] saving transformer.h.28.attn.c_proj.q_weight [0489/0648] saving transformer.h.28.attn.c_proj.q_scale [0490/0648] saving transformer.h.28.ln_1.bias [0491/0648] saving transformer.h.28.ln_1.weight [0492/0648] saving transformer.h.28.ln_2.bias [0493/0648] saving transformer.h.28.ln_2.weight [0494/0648] saving transformer.h.28.mlp.c_fc.bias [0495/0648] saving transformer.h.28.mlp.c_fc.q_weight [0496/0648] saving transformer.h.28.mlp.c_fc.q_scale [0497/0648] saving transformer.h.28.mlp.c_proj.bias [0498/0648] saving transformer.h.28.mlp.c_proj.q_weight [0499/0648] saving transformer.h.28.mlp.c_proj.q_scale [0500/0648] saving transformer.h.29.attn.c_attn.bias [0501/0648] saving transformer.h.29.attn.c_attn.q_weight [0502/0648] saving transformer.h.29.attn.c_attn.q_scale [0503/0648] saving transformer.h.29.attn.c_proj.bias [0504/0648] saving transformer.h.29.attn.c_proj.q_weight [0505/0648] saving transformer.h.29.attn.c_proj.q_scale [0506/0648] saving transformer.h.29.ln_1.bias [0507/0648] saving transformer.h.29.ln_1.weight [0508/0648] saving transformer.h.29.ln_2.bias [0509/0648] saving transformer.h.29.ln_2.weight [0510/0648] saving transformer.h.29.mlp.c_fc.bias [0511/0648] saving transformer.h.29.mlp.c_fc.q_weight [0512/0648] saving transformer.h.29.mlp.c_fc.q_scale [0513/0648] saving transformer.h.29.mlp.c_proj.bias [0514/0648] saving transformer.h.29.mlp.c_proj.q_weight [0515/0648] saving transformer.h.29.mlp.c_proj.q_scale [0516/0648] saving transformer.h.30.attn.c_attn.bias [0517/0648] saving transformer.h.30.attn.c_attn.q_weight [0518/0648] saving transformer.h.30.attn.c_attn.q_scale [0519/0648] saving transformer.h.30.attn.c_proj.bias [0520/0648] saving transformer.h.30.attn.c_proj.q_weight [0521/0648] saving transformer.h.30.attn.c_proj.q_scale [0522/0648] saving transformer.h.30.ln_1.bias [0523/0648] saving transformer.h.30.ln_1.weight [0524/0648] saving transformer.h.30.ln_2.bias [0525/0648] saving transformer.h.30.ln_2.weight [0526/0648] saving transformer.h.30.mlp.c_fc.bias [0527/0648] saving transformer.h.30.mlp.c_fc.q_weight [0528/0648] saving transformer.h.30.mlp.c_fc.q_scale [0529/0648] saving transformer.h.30.mlp.c_proj.bias [0530/0648] saving transformer.h.30.mlp.c_proj.q_weight [0531/0648] saving transformer.h.30.mlp.c_proj.q_scale [0532/0648] saving transformer.h.31.attn.c_attn.bias [0533/0648] saving transformer.h.31.attn.c_attn.q_weight [0534/0648] saving transformer.h.31.attn.c_attn.q_scale [0535/0648] saving transformer.h.31.attn.c_proj.bias [0536/0648] saving transformer.h.31.attn.c_proj.q_weight [0537/0648] saving transformer.h.31.attn.c_proj.q_scale [0538/0648] saving transformer.h.31.ln_1.bias [0539/0648] saving transformer.h.31.ln_1.weight [0540/0648] saving transformer.h.31.ln_2.bias [0541/0648] saving transformer.h.31.ln_2.weight [0542/0648] saving transformer.h.31.mlp.c_fc.bias [0543/0648] saving transformer.h.31.mlp.c_fc.q_weight [0544/0648] saving transformer.h.31.mlp.c_fc.q_scale [0545/0648] saving transformer.h.31.mlp.c_proj.bias [0546/0648] saving transformer.h.31.mlp.c_proj.q_weight [0547/0648] saving transformer.h.31.mlp.c_proj.q_scale [0548/0648] saving transformer.h.32.attn.c_attn.bias [0549/0648] saving transformer.h.32.attn.c_attn.q_weight [0550/0648] saving transformer.h.32.attn.c_attn.q_scale [0551/0648] saving transformer.h.32.attn.c_proj.bias [0552/0648] saving transformer.h.32.attn.c_proj.q_weight [0553/0648] saving transformer.h.32.attn.c_proj.q_scale [0554/0648] saving transformer.h.32.ln_1.bias [0555/0648] saving transformer.h.32.ln_1.weight [0556/0648] saving transformer.h.32.ln_2.bias [0557/0648] saving transformer.h.32.ln_2.weight [0558/0648] saving transformer.h.32.mlp.c_fc.bias [0559/0648] saving transformer.h.32.mlp.c_fc.q_weight [0560/0648] saving transformer.h.32.mlp.c_fc.q_scale [0561/0648] saving transformer.h.32.mlp.c_proj.bias [0562/0648] saving transformer.h.32.mlp.c_proj.q_weight [0563/0648] saving transformer.h.32.mlp.c_proj.q_scale [0564/0648] saving transformer.h.33.attn.c_attn.bias [0565/0648] saving transformer.h.33.attn.c_attn.q_weight [0566/0648] saving transformer.h.33.attn.c_attn.q_scale [0567/0648] saving transformer.h.33.attn.c_proj.bias [0568/0648] saving transformer.h.33.attn.c_proj.q_weight [0569/0648] saving transformer.h.33.attn.c_proj.q_scale [0570/0648] saving transformer.h.33.ln_1.bias [0571/0648] saving transformer.h.33.ln_1.weight [0572/0648] saving transformer.h.33.ln_2.bias [0573/0648] saving transformer.h.33.ln_2.weight [0574/0648] saving transformer.h.33.mlp.c_fc.bias [0575/0648] saving transformer.h.33.mlp.c_fc.q_weight [0576/0648] saving transformer.h.33.mlp.c_fc.q_scale [0577/0648] saving transformer.h.33.mlp.c_proj.bias [0578/0648] saving transformer.h.33.mlp.c_proj.q_weight [0579/0648] saving transformer.h.33.mlp.c_proj.q_scale [0580/0648] saving transformer.h.34.attn.c_attn.bias [0581/0648] saving transformer.h.34.attn.c_attn.q_weight [0582/0648] saving transformer.h.34.attn.c_attn.q_scale [0583/0648] saving transformer.h.34.attn.c_proj.bias [0584/0648] saving transformer.h.34.attn.c_proj.q_weight [0585/0648] saving transformer.h.34.attn.c_proj.q_scale [0586/0648] saving transformer.h.34.ln_1.bias [0587/0648] saving transformer.h.34.ln_1.weight [0588/0648] saving transformer.h.34.ln_2.bias [0589/0648] saving transformer.h.34.ln_2.weight [0590/0648] saving transformer.h.34.mlp.c_fc.bias [0591/0648] saving transformer.h.34.mlp.c_fc.q_weight [0592/0648] saving transformer.h.34.mlp.c_fc.q_scale [0593/0648] saving transformer.h.34.mlp.c_proj.bias [0594/0648] saving transformer.h.34.mlp.c_proj.q_weight [0595/0648] saving transformer.h.34.mlp.c_proj.q_scale [0596/0648] saving transformer.h.35.attn.c_attn.bias[2024-01-08 19:25:03] INFO convert_weight.py:141: Saved to directory: [1m/home/junrushao/tmp/tmpq64f2pg_[0m + [0597/0648] saving transformer.h.35.attn.c_attn.q_weight [0598/0648] saving transformer.h.35.attn.c_attn.q_scale [0599/0648] saving transformer.h.35.attn.c_proj.bias [0600/0648] saving transformer.h.35.attn.c_proj.q_weight [0601/0648] saving transformer.h.35.attn.c_proj.q_scale [0602/0648] saving transformer.h.35.ln_1.bias [0603/0648] saving transformer.h.35.ln_1.weight [0604/0648] saving transformer.h.35.ln_2.bias [0605/0648] saving transformer.h.35.ln_2.weight [0606/0648] saving transformer.h.35.mlp.c_fc.bias [0607/0648] saving transformer.h.35.mlp.c_fc.q_weight [0608/0648] saving transformer.h.35.mlp.c_fc.q_scale [0609/0648] saving transformer.h.35.mlp.c_proj.bias [0610/0648] saving transformer.h.35.mlp.c_proj.q_weight [0611/0648] saving transformer.h.35.mlp.c_proj.q_scale [0612/0648] saving transformer.h.36.attn.c_attn.bias [0613/0648] saving transformer.h.36.attn.c_attn.q_weight [0614/0648] saving transformer.h.36.attn.c_attn.q_scale [0615/0648] saving transformer.h.36.attn.c_proj.bias [0616/0648] saving transformer.h.36.attn.c_proj.q_weight [0617/0648] saving transformer.h.36.attn.c_proj.q_scale [0618/0648] saving transformer.h.36.ln_1.bias [0619/0648] saving transformer.h.36.ln_1.weight [0620/0648] saving transformer.h.36.ln_2.bias [0621/0648] saving transformer.h.36.ln_2.weight [0622/0648] saving transformer.h.36.mlp.c_fc.bias [0623/0648] saving transformer.h.36.mlp.c_fc.q_weight [0624/0648] saving transformer.h.36.mlp.c_fc.q_scale [0625/0648] saving transformer.h.36.mlp.c_proj.bias [0626/0648] saving transformer.h.36.mlp.c_proj.q_weight [0627/0648] saving transformer.h.36.mlp.c_proj.q_scale [0628/0648] saving transformer.h.37.attn.c_attn.bias [0629/0648] saving transformer.h.37.attn.c_attn.q_weight [0630/0648] saving transformer.h.37.attn.c_attn.q_scale [0631/0648] saving transformer.h.37.attn.c_proj.bias [0632/0648] saving transformer.h.37.attn.c_proj.q_weight [0633/0648] saving transformer.h.37.attn.c_proj.q_scale [0634/0648] saving transformer.h.37.ln_1.bias [0635/0648] saving transformer.h.37.ln_1.weight [0636/0648] saving transformer.h.37.ln_2.bias [0637/0648] saving transformer.h.37.ln_2.weight [0638/0648] saving transformer.h.37.mlp.c_fc.bias [0639/0648] saving transformer.h.37.mlp.c_fc.q_weight [0640/0648] saving transformer.h.37.mlp.c_fc.q_scale [0641/0648] saving transformer.h.37.mlp.c_proj.bias [0642/0648] saving transformer.h.37.mlp.c_proj.q_weight [0643/0648] saving transformer.h.37.mlp.c_proj.q_scale [0644/0648] saving transformer.h.38.attn.c_attn.bias [0645/0648] saving transformer.h.38.attn.c_attn.q_weight [0646/0648] saving transformer.h.38.attn.c_attn.q_scale [0647/0648] saving transformer.h.38.ln_1.bias [0648/0648] saving transformer.h.38.ln_1.weight +All finished, 151 total shards committed, record saved to /home/junrushao/tmp/tmpq64f2pg_/ndarray-cache.json