diff --git "a/logs.txt" "b/logs.txt"
new file mode 100644--- /dev/null
+++ "b/logs.txt"
@@ -0,0 +1,351 @@
+python -m mlc_chat gen_config /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium --quantization q0f16 --conv-template gpt2 --output /tmp/tmp3xws4nia
+[2023-12-28 08:14:09] INFO auto_config.py:115: Found model configuration: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/config.json
+[2023-12-28 08:14:09] INFO auto_config.py:151: Found model type: gpt2. Use `--model-type` to override.
+[2023-12-28 08:14:09] INFO gpt2_model.py:44: context_window_size not found in config.json. Falling back to n_positions (1024)
+[2023-12-28 08:14:09] INFO gen_config.py:115: [generation_config.json] Setting bos_token_id: 50256
+[2023-12-28 08:14:09] INFO gen_config.py:115: [generation_config.json] Setting eos_token_id: 50256
+[2023-12-28 08:14:09] INFO gen_config.py:129: Not found tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/tokenizer.model
+[2023-12-28 08:14:09] INFO gen_config.py:127: Found tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/tokenizer.json. Copying to /tmp/tmp3xws4nia/tokenizer.json
+[2023-12-28 08:14:09] INFO gen_config.py:127: Found tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/vocab.json. Copying to /tmp/tmp3xws4nia/vocab.json
+[2023-12-28 08:14:09] INFO gen_config.py:127: Found tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/merges.txt. Copying to /tmp/tmp3xws4nia/merges.txt
+[2023-12-28 08:14:09] INFO gen_config.py:129: Not found tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/added_tokens.json
+[2023-12-28 08:14:09] INFO gen_config.py:129: Not found tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/tokenizer_config.json
+[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting pad_token_id: 0
+[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting temperature: 0.7
+[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting repetition_penalty: 1.0
+[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting top_p: 0.95
+[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting mean_gen_len: 128
+[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting max_gen_len: 512
+[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting shift_fill_factor: 0.3
+[2023-12-28 08:14:09] INFO gen_config.py:157: Dumping configuration file to: /tmp/tmp3xws4nia/mlc-chat-config.json
+python -m mlc_chat convert_weight /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium --quantization q0f16 --source-format auto --output /tmp/tmp3xws4nia
+[2023-12-28 08:14:10] INFO auto_config.py:115: Found model configuration: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/config.json
+[2023-12-28 08:14:10] INFO auto_device.py:75: Found device: cuda:0
+[2023-12-28 08:14:10] INFO auto_device.py:75: Found device: cuda:1
+[2023-12-28 08:14:10] INFO auto_device.py:84: Not found device: rocm:0
+[2023-12-28 08:14:10] INFO auto_device.py:84: Not found device: metal:0
+[2023-12-28 08:14:11] INFO auto_device.py:75: Found device: vulkan:0
+[2023-12-28 08:14:11] INFO auto_device.py:75: Found device: vulkan:1
+[2023-12-28 08:14:11] INFO auto_device.py:75: Found device: vulkan:2
+[2023-12-28 08:14:11] INFO auto_device.py:84: Not found device: opencl:0
+[2023-12-28 08:14:11] INFO auto_device.py:33: Using device: cuda:0
+[2023-12-28 08:14:11] INFO auto_weight.py:70: Finding weights in: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium
+[2023-12-28 08:14:11] INFO auto_weight.py:129: Found source weight format: huggingface-torch. Source configuration: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/pytorch_model.bin
+[2023-12-28 08:14:11] INFO auto_weight.py:149: Not found Huggingface Safetensor
+[2023-12-28 08:14:11] INFO auto_weight.py:106: Using source weight configuration: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/pytorch_model.bin. Use `--source` to override.
+[2023-12-28 08:14:11] INFO auto_weight.py:110: Using source weight format: huggingface-torch. Use `--source-format` to override.
+[2023-12-28 08:14:11] INFO auto_config.py:151: Found model type: gpt2. Use `--model-type` to override.
+[2023-12-28 08:14:11] INFO gpt2_model.py:44: context_window_size not found in config.json. Falling back to n_positions (1024)
+[2023-12-28 08:14:13] INFO huggingface_loader.py:169: Loading HF parameters from: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/pytorch_model.bin
+Weight conversion with arguments:
+  --config          /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/config.json
+  --quantization    NoQuantize(name='q0f16', kind='no-quant', model_dtype='float16')
+  --model-type      gpt2
+  --device          cuda:0
+  --source          /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/pytorch_model.bin
+  --source-format   huggingface-torch
+  --output          /tmp/tmp3xws4nia
+
  0%|                                                                                                                                                                                                                                                                             | 0/293 [00:00<?, ?it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:14] INFO huggingface_loader.py:129: [Not quantized] Parameter: "lm_head.weight", shape: (50257, 1024), dtype: float16
+
  0%|                                                                                                                                                                                                                                                                             | 0/293 [00:00<?, ?it/s]
  0%|▉                                                                                                                                                                                                                                                                    | 1/293 [00:00<01:51,  2.62it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.wte.weight", shape: (50257, 1024), dtype: float16
+
  0%|▉                                                                                                                                                                                                                                                                    | 1/293 [00:00<01:51,  2.62it/s]
  1%|█▊                                                                                                                                                                                                                                                                   | 2/293 [00:00<01:32,  3.14it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.wpe.weight", shape: (1024, 1024), dtype: float16
+
  1%|█▊                                                                                                                                                                                                                                                                   | 2/293 [00:00<01:32,  3.14it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.ln_1.weight", shape: (1024,), dtype: float16
+
  1%|█▊                                                                                                                                                                                                                                                                   | 2/293 [00:00<01:32,  3.14it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.ln_1.bias", shape: (1024,), dtype: float16
+
  1%|█▊                                                                                                                                                                                                                                                                   | 2/293 [00:00<01:32,  3.14it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
  1%|█▊                                                                                                                                                                                                                                                                   | 2/293 [00:00<01:32,  3.14it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.attn.c_attn.bias", shape: (3072,), dtype: float16
+
  1%|█▊                                                                                                                                                                                                                                                                   | 2/293 [00:00<01:32,  3.14it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
  1%|█▊                                                                                                                                                                                                                                                                   | 2/293 [00:00<01:32,  3.14it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.attn.c_proj.bias", shape: (1024,), dtype: float16
+
  1%|█▊                                                                                                                                                                                                                                                                   | 2/293 [00:00<01:32,  3.14it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.ln_2.weight", shape: (1024,), dtype: float16
+
  1%|█▊                                                                                                                                                                                                                                                                   | 2/293 [00:00<01:32,  3.14it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.ln_2.bias", shape: (1024,), dtype: float16
+
  1%|█▊                                                                                                                                                                                                                                                                   | 2/293 [00:00<01:32,  3.14it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
  1%|█▊                                                                                                                                                                                                                                                                   | 2/293 [00:00<01:32,  3.14it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
  1%|█▊                                                                                                                                                                                                                                                                   | 2/293 [00:00<01:32,  3.14it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
  1%|█▊                                                                                                                                                                                                                                                                   | 2/293 [00:00<01:32,  3.14it/s]
  5%|████████████▍                                                                                                                                                                                                                                                       | 14/293 [00:00<00:10, 26.65it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.0.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
  5%|████████████▍                                                                                                                                                                                                                                                       | 14/293 [00:00<00:10, 26.65it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.ln_1.weight", shape: (1024,), dtype: float16
+
  5%|████████████▍                                                                                                                                                                                                                                                       | 14/293 [00:00<00:10, 26.65it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.ln_1.bias", shape: (1024,), dtype: float16
+
  5%|████████████▍                                                                                                                                                                                                                                                       | 14/293 [00:00<00:10, 26.65it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
  5%|████████████▍                                                                                                                                                                                                                                                       | 14/293 [00:00<00:10, 26.65it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.attn.c_attn.bias", shape: (3072,), dtype: float16
+
  5%|████████████▍                                                                                                                                                                                                                                                       | 14/293 [00:00<00:10, 26.65it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
  5%|████████████▍                                                                                                                                                                                                                                                       | 14/293 [00:00<00:10, 26.65it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.attn.c_proj.bias", shape: (1024,), dtype: float16
+
  5%|████████████▍                                                                                                                                                                                                                                                       | 14/293 [00:00<00:10, 26.65it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.ln_2.weight", shape: (1024,), dtype: float16
+
  5%|████████████▍                                                                                                                                                                                                                                                       | 14/293 [00:00<00:10, 26.65it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.ln_2.bias", shape: (1024,), dtype: float16
+
  5%|████████████▍                                                                                                                                                                                                                                                       | 14/293 [00:00<00:10, 26.65it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
  5%|████████████▍                                                                                                                                                                                                                                                       | 14/293 [00:00<00:10, 26.65it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
  5%|████████████▍                                                                                                                                                                                                                                                       | 14/293 [00:00<00:10, 26.65it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
  5%|████████████▍                                                                                                                                                                                                                                                       | 14/293 [00:00<00:10, 26.65it/s]
  9%|███████████████████████                                                                                                                                                                                                                                             | 26/293 [00:00<00:05, 46.15it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.1.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
  9%|███████████████████████                                                                                                                                                                                                                                             | 26/293 [00:00<00:05, 46.15it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.ln_1.weight", shape: (1024,), dtype: float16
+
  9%|███████████████████████                                                                                                                                                                                                                                             | 26/293 [00:00<00:05, 46.15it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.ln_1.bias", shape: (1024,), dtype: float16
+
  9%|███████████████████████                                                                                                                                                                                                                                             | 26/293 [00:00<00:05, 46.15it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
  9%|███████████████████████                                                                                                                                                                                                                                             | 26/293 [00:00<00:05, 46.15it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.attn.c_attn.bias", shape: (3072,), dtype: float16
+
  9%|███████████████████████                                                                                                                                                                                                                                             | 26/293 [00:00<00:05, 46.15it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
  9%|███████████████████████                                                                                                                                                                                                                                             | 26/293 [00:00<00:05, 46.15it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.attn.c_proj.bias", shape: (1024,), dtype: float16
+
  9%|███████████████████████                                                                                                                                                                                                                                             | 26/293 [00:00<00:05, 46.15it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.ln_2.weight", shape: (1024,), dtype: float16
+
  9%|███████████████████████                                                                                                                                                                                                                                             | 26/293 [00:00<00:05, 46.15it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.ln_2.bias", shape: (1024,), dtype: float16
+
  9%|███████████████████████                                                                                                                                                                                                                                             | 26/293 [00:00<00:05, 46.15it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
  9%|███████████████████████                                                                                                                                                                                                                                             | 26/293 [00:01<00:05, 46.15it/s]
 12%|███████████████████████████████▉                                                                                                                                                                                                                                    | 36/293 [00:01<00:04, 53.72it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 12%|███████████████████████████████▉                                                                                                                                                                                                                                    | 36/293 [00:01<00:04, 53.72it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 12%|███████████████████████████████▉                                                                                                                                                                                                                                    | 36/293 [00:01<00:04, 53.72it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.2.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 12%|███████████████████████████████▉                                                                                                                                                                                                                                    | 36/293 [00:01<00:04, 53.72it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.ln_1.weight", shape: (1024,), dtype: float16
+
 12%|███████████████████████████████▉                                                                                                                                                                                                                                    | 36/293 [00:01<00:04, 53.72it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.ln_1.bias", shape: (1024,), dtype: float16
+
 12%|███████████████████████████████▉                                                                                                                                                                                                                                    | 36/293 [00:01<00:04, 53.72it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 12%|███████████████████████████████▉                                                                                                                                                                                                                                    | 36/293 [00:01<00:04, 53.72it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 12%|███████████████████████████████▉                                                                                                                                                                                                                                    | 36/293 [00:01<00:04, 53.72it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 12%|███████████████████████████████▉                                                                                                                                                                                                                                    | 36/293 [00:01<00:04, 53.72it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 12%|███████████████████████████████▉                                                                                                                                                                                                                                    | 36/293 [00:01<00:04, 53.72it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.ln_2.weight", shape: (1024,), dtype: float16
+
 12%|███████████████████████████████▉                                                                                                                                                                                                                                    | 36/293 [00:01<00:04, 53.72it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.ln_2.bias", shape: (1024,), dtype: float16
+
 12%|███████████████████████████████▉                                                                                                                                                                                                                                    | 36/293 [00:01<00:04, 53.72it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 12%|███████████████████████████████▉                                                                                                                                                                                                                                    | 36/293 [00:01<00:04, 53.72it/s]
 16%|██████████████████████████████████████████▌                                                                                                                                                                                                                         | 48/293 [00:01<00:03, 63.24it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 16%|██████████████████████████████████████████▌                                                                                                                                                                                                                         | 48/293 [00:01<00:03, 63.24it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 16%|██████████████████████████████████████████▌                                                                                                                                                                                                                         | 48/293 [00:01<00:03, 63.24it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.3.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 16%|██████████████████████████████████████████▌                                                                                                                                                                                                                         | 48/293 [00:01<00:03, 63.24it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.ln_1.weight", shape: (1024,), dtype: float16
+
 16%|██████████████████████████████████████████▌                                                                                                                                                                                                                         | 48/293 [00:01<00:03, 63.24it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.ln_1.bias", shape: (1024,), dtype: float16
+
 16%|██████████████████████████████████████████▌                                                                                                                                                                                                                         | 48/293 [00:01<00:03, 63.24it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 16%|██████████████████████████████████████████▌                                                                                                                                                                                                                         | 48/293 [00:01<00:03, 63.24it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 16%|██████████���███████████████████████████████▌                                                                                                                                                                                                                         | 48/293 [00:01<00:03, 63.24it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 16%|██████████████████████████████████████████▌                                                                                                                                                                                                                         | 48/293 [00:01<00:03, 63.24it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 16%|██████████████████████████████████████████▌                                                                                                                                                                                                                         | 48/293 [00:01<00:03, 63.24it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.ln_2.weight", shape: (1024,), dtype: float16
+
 16%|██████████████████████████████████████████▌                                                                                                                                                                                                                         | 48/293 [00:01<00:03, 63.24it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.ln_2.bias", shape: (1024,), dtype: float16
+
 16%|██████████████████████████████████████████▌                                                                                                                                                                                                                         | 48/293 [00:01<00:03, 63.24it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 16%|██████████████████████████████████████████▌                                                                                                                                                                                                                         | 48/293 [00:01<00:03, 63.24it/s]
 20%|█████████████████████████████████████████████████████▏                                                                                                                                                                                                              | 60/293 [00:01<00:03, 73.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 20%|█████████████████████████████████████████████████████▏                                                                                                                                                                                                              | 60/293 [00:01<00:03, 73.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 20%|█████████████████████████████████████████████████████▏                                                                                                                                                                                                              | 60/293 [00:01<00:03, 73.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.4.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 20%|█████████████████████████████████████████████████████▏                                                                                                                                                                                                              | 60/293 [00:01<00:03, 73.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.ln_1.weight", shape: (1024,), dtype: float16
+
 20%|█████████████████████████████████████████████████████▏                                                                                                                                                                                                              | 60/293 [00:01<00:03, 73.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.ln_1.bias", shape: (1024,), dtype: float16
+
 20%|█████████████████████████████████████████████████████▏                                                                                                                                                                                                              | 60/293 [00:01<00:03, 73.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 20%|█████████████████████████████████████████████████████▏                                                                                                                                                                                                              | 60/293 [00:01<00:03, 73.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 20%|█████████████████████████████████████████████████████▏                                                                                                                                                                                                              | 60/293 [00:01<00:03, 73.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 20%|█████████████████████████████████████████████████████▏                                                                                                                                                                                                              | 60/293 [00:01<00:03, 73.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 20%|█████████████████████████████████████████████████████▏                                                                                                                                                                                                              | 60/293 [00:01<00:03, 73.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.ln_2.weight", shape: (1024,), dtype: float16
+
 20%|█████████████████████████████████████████████████████▏                                                                                                                                                                                                              | 60/293 [00:01<00:03, 73.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.ln_2.bias", shape: (1024,), dtype: float16
+
 20%|█████████████████████████████████████████████████████▏                                                                                                                                                                                                              | 60/293 [00:01<00:03, 73.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 20%|█████████████████████████████████████████████████████▏                                                                                                                                                                                                              | 60/293 [00:01<00:03, 73.74it/s]
 25%|████████��██████████████████████████████████████████████████████▉                                                                                                                                                                                                    | 72/293 [00:01<00:02, 81.69it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 25%|███████████████████████████████████████████████████████████████▉                                                                                                                                                                                                    | 72/293 [00:01<00:02, 81.69it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 25%|███████████████████████████████████████████████████████████████▉                                                                                                                                                                                                    | 72/293 [00:01<00:02, 81.69it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.5.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 25%|███████████████████████████████████████████████████████████████▉                                                                                                                                                                                                    | 72/293 [00:01<00:02, 81.69it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.ln_1.weight", shape: (1024,), dtype: float16
+
 25%|███████████████████████████████████████████████████████████████▉                                                                                                                                                                                                    | 72/293 [00:01<00:02, 81.69it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.ln_1.bias", shape: (1024,), dtype: float16
+
 25%|███████████████████████████████████████████████████████████████▉                                                                                                                                                                                                    | 72/293 [00:01<00:02, 81.69it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 25%|███████████████████████████████████████████████████████████████▉                                                                                                                                                                                                    | 72/293 [00:01<00:02, 81.69it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 25%|███████████████████████████████████████████████████████████████▉                                                                                                                                                                                                    | 72/293 [00:01<00:02, 81.69it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 25%|███████████████████████████████████████████████████████████████▉                                                                                                                                                                                                    | 72/293 [00:01<00:02, 81.69it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 25%|███████████████████████████████████████████████████████████████▉                                                                                                                                                                                                    | 72/293 [00:01<00:02, 81.69it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.ln_2.weight", shape: (1024,), dtype: float16
+
 25%|███████████████████████████████████████████████████████████████▉                                                                                                                                                                                                    | 72/293 [00:01<00:02, 81.69it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.ln_2.bias", shape: (1024,), dtype: float16
+
 25%|███████████████████████████████████████████████████████████████▉                                                                                                                                                                                                    | 72/293 [00:01<00:02, 81.69it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 25%|███████████████████████████████████████████████████████████████▉                                                                                                                                                                                                    | 72/293 [00:01<00:02, 81.69it/s]
 29%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                         | 84/293 [00:01<00:02, 86.28it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 29%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                         | 84/293 [00:01<00:02, 86.28it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 29%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                         | 84/293 [00:01<00:02, 86.28it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.6.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 29%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                         | 84/293 [00:01<00:02, 86.28it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.ln_1.weight", shape: (1024,), dtype: float16
+
 29%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                         | 84/293 [00:01<00:02, 86.28it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.ln_1.bias", shape: (1024,), dtype: float16
+
 29%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                         | 84/293 [00:01<00:02, 86.28it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 29%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                         | 84/293 [00:01<00:02, 86.28it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 29%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                         | 84/293 [00:01<00:02, 86.28it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 29%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                         | 84/293 [00:01<00:02, 86.28it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 29%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                         | 84/293 [00:01<00:02, 86.28it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.ln_2.weight", shape: (1024,), dtype: float16
+
 29%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                         | 84/293 [00:01<00:02, 86.28it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.ln_2.bias", shape: (1024,), dtype: float16
+
 29%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                         | 84/293 [00:01<00:02, 86.28it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 29%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                         | 84/293 [00:01<00:02, 86.28it/s]
 33%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                              | 96/293 [00:01<00:02, 91.13it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 33%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                              | 96/293 [00:01<00:02, 91.13it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 33%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                              | 96/293 [00:01<00:02, 91.13it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.7.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 33%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                              | 96/293 [00:01<00:02, 91.13it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.ln_1.weight", shape: (1024,), dtype: float16
+
 33%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                              | 96/293 [00:01<00:02, 91.13it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.ln_1.bias", shape: (1024,), dtype: float16
+
 33%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                              | 96/293 [00:01<00:02, 91.13it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 33%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                              | 96/293 [00:01<00:02, 91.13it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 33%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                              | 96/293 [00:01<00:02, 91.13it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 33%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                              | 96/293 [00:01<00:02, 91.13it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 33%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                              | 96/293 [00:01<00:02, 91.13it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.ln_2.weight", shape: (1024,), dtype: float16
+
 33%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                              | 96/293 [00:01<00:02, 91.13it/s]
 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                     | 106/293 [00:01<00:02, 88.70it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.ln_2.bias", shape: (1024,), dtype: float16
+
 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                     | 106/293 [00:01<00:02, 88.70it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                     | 106/293 [00:01<00:02, 88.70it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                     | 106/293 [00:01<00:02, 88.70it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                     | 106/293 [00:01<00:02, 88.70it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.8.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                     | 106/293 [00:01<00:02, 88.70it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.ln_1.weight", shape: (1024,), dtype: float16
+
 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                     | 106/293 [00:01<00:02, 88.70it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.ln_1.bias", shape: (1024,), dtype: float16
+
 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                     | 106/293 [00:01<00:02, 88.70it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                     | 106/293 [00:01<00:02, 88.70it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                     | 106/293 [00:01<00:02, 88.70it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                     | 106/293 [00:01<00:02, 88.70it/s]
 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                            | 116/293 [00:01<00:01, 89.01it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                            | 116/293 [00:01<00:01, 89.01it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.ln_2.weight", shape: (1024,), dtype: float16
+
 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                            | 116/293 [00:01<00:01, 89.01it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.ln_2.bias", shape: (1024,), dtype: float16
+
 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                            | 116/293 [00:01<00:01, 89.01it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                            | 116/293 [00:01<00:01, 89.01it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                            | 116/293 [00:01<00:01, 89.01it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                            | 116/293 [00:01<00:01, 89.01it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.9.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                            | 116/293 [00:01<00:01, 89.01it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.ln_1.weight", shape: (1024,), dtype: float16
+
 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                            | 116/293 [00:01<00:01, 89.01it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.ln_1.bias", shape: (1024,), dtype: float16
+
 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                            | 116/293 [00:01<00:01, 89.01it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                            | 116/293 [00:01<00:01, 89.01it/s]
 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                   | 126/293 [00:01<00:01, 91.51it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                   | 126/293 [00:01<00:01, 91.51it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                   | 126/293 [00:01<00:01, 91.51it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                   | 126/293 [00:01<00:01, 91.51it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.ln_2.weight", shape: (1024,), dtype: float16
+
 43%|████████████████████████████████████████████████████████████████████████████████████████████���██████████████████▍                                                                                                                                                   | 126/293 [00:01<00:01, 91.51it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.ln_2.bias", shape: (1024,), dtype: float16
+
 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                   | 126/293 [00:01<00:01, 91.51it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                   | 126/293 [00:02<00:01, 91.51it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                   | 126/293 [00:02<00:01, 91.51it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                   | 126/293 [00:02<00:01, 91.51it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.10.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                   | 126/293 [00:02<00:01, 91.51it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.ln_1.weight", shape: (1024,), dtype: float16
+
 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                   | 126/293 [00:02<00:01, 91.51it/s]
 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                          | 136/293 [00:02<00:01, 92.03it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.ln_1.bias", shape: (1024,), dtype: float16
+
 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                          | 136/293 [00:02<00:01, 92.03it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                          | 136/293 [00:02<00:01, 92.03it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                          | 136/293 [00:02<00:01, 92.03it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                          | 136/293 [00:02<00:01, 92.03it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                          | 136/293 [00:02<00:01, 92.03it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.ln_2.weight", shape: (1024,), dtype: float16
+
 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                          | 136/293 [00:02<00:01, 92.03it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.ln_2.bias", shape: (1024,), dtype: float16
+
 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                          | 136/293 [00:02<00:01, 92.03it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                          | 136/293 [00:02<00:01, 92.03it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 46%|██████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████▏                                                                                                                                          | 136/293 [00:02<00:01, 92.03it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                          | 136/293 [00:02<00:01, 92.03it/s]
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 146/293 [00:02<00:01, 90.94it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.11.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 146/293 [00:02<00:01, 90.94it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.ln_1.weight", shape: (1024,), dtype: float16
+
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 146/293 [00:02<00:01, 90.94it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.ln_1.bias", shape: (1024,), dtype: float16
+
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 146/293 [00:02<00:01, 90.94it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 146/293 [00:02<00:01, 90.94it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 146/293 [00:02<00:01, 90.94it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 146/293 [00:02<00:01, 90.94it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 146/293 [00:02<00:01, 90.94it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.ln_2.weight", shape: (1024,), dtype: float16
+
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 146/293 [00:02<00:01, 90.94it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.ln_2.bias", shape: (1024,), dtype: float16
+
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 146/293 [00:02<00:01, 90.94it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 146/293 [00:02<00:01, 90.94it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 146/293 [00:02<00:01, 90.94it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 146/293 [00:02<00:01, 90.94it/s]
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 158/293 [00:02<00:01, 83.22it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.12.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 54%|█████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████▋                                                                                                                       | 158/293 [00:02<00:01, 83.22it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.ln_1.weight", shape: (1024,), dtype: float16
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 158/293 [00:02<00:01, 83.22it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.ln_1.bias", shape: (1024,), dtype: float16
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 158/293 [00:02<00:01, 83.22it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 158/293 [00:02<00:01, 83.22it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 158/293 [00:02<00:01, 83.22it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 158/293 [00:02<00:01, 83.22it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 158/293 [00:02<00:01, 83.22it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.ln_2.weight", shape: (1024,), dtype: float16
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 158/293 [00:02<00:01, 83.22it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.ln_2.bias", shape: (1024,), dtype: float16
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 158/293 [00:02<00:01, 83.22it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 158/293 [00:02<00:01, 83.22it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 158/293 [00:02<00:01, 83.22it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 158/293 [00:02<00:01, 83.22it/s]
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 170/293 [00:02<00:01, 90.04it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.13.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 170/293 [00:02<00:01, 90.04it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.ln_1.weight", shape: (1024,), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 170/293 [00:02<00:01, 90.04it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.ln_1.bias", shape: (1024,), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 170/293 [00:02<00:01, 90.04it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 170/293 [00:02<00:01, 90.04it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 170/293 [00:02<00:01, 90.04it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 170/293 [00:02<00:01, 90.04it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 170/293 [00:02<00:01, 90.04it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.ln_2.weight", shape: (1024,), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 170/293 [00:02<00:01, 90.04it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.ln_2.bias", shape: (1024,), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 170/293 [00:02<00:01, 90.04it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 170/293 [00:02<00:01, 90.04it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 170/293 [00:02<00:01, 90.04it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 170/293 [00:02<00:01, 90.04it/s]
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 182/293 [00:02<00:01, 88.80it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.14.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 182/293 [00:02<00:01, 88.80it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.ln_1.weight", shape: (1024,), dtype: float16
+
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 182/293 [00:02<00:01, 88.80it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.ln_1.bias", shape: (1024,), dtype: float16
+
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 182/293 [00:02<00:01, 88.80it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 182/293 [00:02<00:01, 88.80it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████▉                                                                                                  | 182/293 [00:02<00:01, 88.80it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 182/293 [00:02<00:01, 88.80it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 182/293 [00:02<00:01, 88.80it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.ln_2.weight", shape: (1024,), dtype: float16
+
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 182/293 [00:02<00:01, 88.80it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.ln_2.bias", shape: (1024,), dtype: float16
+
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 182/293 [00:02<00:01, 88.80it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 62%|████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 182/293 [00:02<00:01, 88.80it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 182/293 [00:02<00:01, 88.80it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 182/293 [00:02<00:01, 88.80it/s]
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 194/293 [00:02<00:01, 94.47it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.15.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 194/293 [00:02<00:01, 94.47it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.ln_1.weight", shape: (1024,), dtype: float16
+
 66%|███████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 194/293 [00:02<00:01, 94.47it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.ln_1.bias", shape: (1024,), dtype: float16
+
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 194/293 [00:02<00:01, 94.47it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 194/293 [00:02<00:01, 94.47it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 194/293 [00:02<00:01, 94.47it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 194/293 [00:02<00:01, 94.47it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 194/293 [00:02<00:01, 94.47it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.ln_2.weight", shape: (1024,), dtype: float16
+
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 194/293 [00:02<00:01, 94.47it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.ln_2.bias", shape: (1024,), dtype: float16
+
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 194/293 [00:02<00:01, 94.47it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 194/293 [00:02<00:01, 94.47it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 194/293 [00:02<00:01, 94.47it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 194/293 [00:02<00:01, 94.47it/s]
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 206/293 [00:02<00:00, 97.40it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.16.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 206/293 [00:02<00:00, 97.40it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.ln_1.weight", shape: (1024,), dtype: float16
+
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 206/293 [00:02<00:00, 97.40it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.ln_1.bias", shape: (1024,), dtype: float16
+
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 206/293 [00:02<00:00, 97.40it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 206/293 [00:02<00:00, 97.40it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 206/293 [00:02<00:00, 97.40it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 206/293 [00:02<00:00, 97.40it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 206/293 [00:02<00:00, 97.40it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.ln_2.weight", shape: (1024,), dtype: float16
+
 70%|█████████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 206/293 [00:02<00:00, 97.40it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.ln_2.bias", shape: (1024,), dtype: float16
+
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 206/293 [00:02<00:00, 97.40it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 206/293 [00:02<00:00, 97.40it/s]
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 216/293 [00:02<00:00, 92.87it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 216/293 [00:02<00:00, 92.87it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 74%|���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 216/293 [00:02<00:00, 92.87it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.17.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 216/293 [00:02<00:00, 92.87it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.ln_1.weight", shape: (1024,), dtype: float16
+
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 216/293 [00:02<00:00, 92.87it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.ln_1.bias", shape: (1024,), dtype: float16
+
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 216/293 [00:02<00:00, 92.87it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���                                                                    | 216/293 [00:03<00:00, 92.87it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 216/293 [00:03<00:00, 92.87it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 216/293 [00:03<00:00, 92.87it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 216/293 [00:03<00:00, 92.87it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.ln_2.weight", shape: (1024,), dtype: float16
+
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 216/293 [00:03<00:00, 92.87it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.ln_2.bias", shape: (1024,), dtype: float16
+
 74%|���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 216/293 [00:03<00:00, 92.87it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 216/293 [00:03<00:00, 92.87it/s]
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 228/293 [00:03<00:00, 97.07it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 228/293 [00:03<00:00, 97.07it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 228/293 [00:03<00:00, 97.07it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.18.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 228/293 [00:03<00:00, 97.07it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.ln_1.weight", shape: (1024,), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 228/293 [00:03<00:00, 97.07it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.ln_1.bias", shape: (1024,), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 228/293 [00:03<00:00, 97.07it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 228/293 [00:03<00:00, 97.07it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 228/293 [00:03<00:00, 97.07it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 228/293 [00:03<00:00, 97.07it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 228/293 [00:03<00:00, 97.07it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.ln_2.weight", shape: (1024,), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 228/293 [00:03<00:00, 97.07it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.ln_2.bias", shape: (1024,), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 228/293 [00:03<00:00, 97.07it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 228/293 [00:03<00:00, 97.07it/s]
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 240/293 [00:03<00:00, 93.37it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 240/293 [00:03<00:00, 93.37it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 240/293 [00:03<00:00, 93.37it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.19.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████▏                                              | 240/293 [00:03<00:00, 93.37it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.ln_1.weight", shape: (1024,), dtype: float16
+
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 240/293 [00:03<00:00, 93.37it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.ln_1.bias", shape: (1024,), dtype: float16
+
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 240/293 [00:03<00:00, 93.37it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 240/293 [00:03<00:00, 93.37it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 240/293 [00:03<00:00, 93.37it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 240/293 [00:03<00:00, 93.37it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 240/293 [00:03<00:00, 93.37it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.ln_2.weight", shape: (1024,), dtype: float16
+
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 240/293 [00:03<00:00, 93.37it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.ln_2.bias", shape: (1024,), dtype: float16
+
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 240/293 [00:03<00:00, 93.37it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 82%|████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 240/293 [00:03<00:00, 93.37it/s]
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 252/293 [00:03<00:00, 98.31it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 252/293 [00:03<00:00, 98.31it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 252/293 [00:03<00:00, 98.31it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.20.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 252/293 [00:03<00:00, 98.31it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.ln_1.weight", shape: (1024,), dtype: float16
+
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 252/293 [00:03<00:00, 98.31it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.ln_1.bias", shape: (1024,), dtype: float16
+
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 252/293 [00:03<00:00, 98.31it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 252/293 [00:03<00:00, 98.31it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 252/293 [00:03<00:00, 98.31it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 252/293 [00:03<00:00, 98.31it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 252/293 [00:03<00:00, 98.31it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.ln_2.weight", shape: (1024,), dtype: float16
+
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 252/293 [00:03<00:00, 98.31it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.ln_2.bias", shape: (1024,), dtype: float16
+
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 252/293 [00:03<00:00, 98.31it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 86%|████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 252/293 [00:03<00:00, 98.31it/s]
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 264/293 [00:03<00:00, 101.66it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 264/293 [00:03<00:00, 101.66it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 264/293 [00:03<00:00, 101.66it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.21.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 264/293 [00:03<00:00, 101.66it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.ln_1.weight", shape: (1024,), dtype: float16
+
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 264/293 [00:03<00:00, 101.66it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.ln_1.bias", shape: (1024,), dtype: float16
+
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 264/293 [00:03<00:00, 101.66it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 264/293 [00:03<00:00, 101.66it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 264/293 [00:03<00:00, 101.66it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 264/293 [00:03<00:00, 101.66it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 264/293 [00:03<00:00, 101.66it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.ln_2.weight", shape: (1024,), dtype: float16
+
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 264/293 [00:03<00:00, 101.66it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.ln_2.bias", shape: (1024,), dtype: float16
+
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 264/293 [00:03<00:00, 101.66it/s]
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████                | 275/293 [00:03<00:00, 97.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 275/293 [00:03<00:00, 97.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 275/293 [00:03<00:00, 97.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 275/293 [00:03<00:00, 97.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.22.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 275/293 [00:03<00:00, 97.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.ln_1.weight", shape: (1024,), dtype: float16
+
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 275/293 [00:03<00:00, 97.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.ln_1.bias", shape: (1024,), dtype: float16
+
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 275/293 [00:03<00:00, 97.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.attn.c_attn.weight", shape: (3072, 1024), dtype: float16
+
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 275/293 [00:03<00:00, 97.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.attn.c_attn.bias", shape: (3072,), dtype: float16
+
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 275/293 [00:03<00:00, 97.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.attn.c_proj.weight", shape: (1024, 1024), dtype: float16
+
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 275/293 [00:03<00:00, 97.74it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.attn.c_proj.bias", shape: (1024,), dtype: float16
+
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 275/293 [00:03<00:00, 97.74it/s]
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 285/293 [00:03<00:00, 95.68it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.ln_2.weight", shape: (1024,), dtype: float16
+
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 285/293 [00:03<00:00, 95.68it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.ln_2.bias", shape: (1024,), dtype: float16
+
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 285/293 [00:03<00:00, 95.68it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.mlp.c_fc.weight", shape: (4096, 1024), dtype: float16
+
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 285/293 [00:03<00:00, 95.68it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.mlp.c_fc.bias", shape: (4096,), dtype: float16
+
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 285/293 [00:03<00:00, 95.68it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.mlp.c_proj.weight", shape: (1024, 4096), dtype: float16
+
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 285/293 [00:03<00:00, 95.68it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.h.23.mlp.c_proj.bias", shape: (1024,), dtype: float16
+
 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 285/293 [00:03<00:00, 95.68it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.ln_f.weight", shape: (1024,), dtype: float16
+
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 285/293 [00:03<00:00, 95.68it/s]
                                                                                                                                                                                                                                                                                                          
[2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "transformer.ln_f.bias", shape: (1024,), dtype: float16
+
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 285/293 [00:03<00:00, 95.68it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 293/293 [00:03<00:00, 78.39it/s]
+[2023-12-28 08:14:18] INFO huggingface_loader.py:179: Unloading HF weight file: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/pytorch_model.bin
+[2023-12-28 08:14:18] INFO stats.py:71: Time usage: HF loading: 1.512 sec; Pre-quantization mapping: 1.772 sec; Quantization: 0.000 sec
+[2023-12-28 08:14:18] INFO stats.py:85: RAM usage: Peak RAM: 1.416 GB. Total bytes loaded from disk: 1.416 GB
+[2023-12-28 08:14:18] INFO convert_weight.py:110: Parameter size after quantization: 0.757 GB
+[2023-12-28 08:14:18] INFO convert_weight.py:115: Total parameters: 406,286,336
+[2023-12-28 08:14:18] INFO convert_weight.py:116: Bits per parameter: 16.000
+Start storing to cache /tmp/tmp3xws4nia
+

[0001/0293] saving lm_head.weight
                                 
[0002/0293] saving transformer.wte.weight
                                         
[0003/0293] saving transformer.wpe.weight
                                         
[0004/0293] saving transformer.h.0.ln_1.weight
                                              
[0005/0293] saving transformer.h.0.ln_1.bias
                                              
[0006/0293] saving transformer.h.0.attn.c_attn.weight
                                                     
[0007/0293] saving transformer.h.0.attn.c_attn.bias
                                                     
[0008/0293] saving transformer.h.0.attn.c_proj.weight
                                                     
[0009/0293] saving transformer.h.0.attn.c_proj.bias
                                                     
[0010/0293] saving transformer.h.0.ln_2.weight
                                                     
[0011/0293] saving transformer.h.0.ln_2.bias
                                                     
[0012/0293] saving transformer.h.0.mlp.c_fc.weight
                                                     
[0013/0293] saving transformer.h.0.mlp.c_fc.bias
                                                     
[0014/0293] saving transformer.h.0.mlp.c_proj.weight
                                                     
[0015/0293] saving transformer.h.0.mlp.c_proj.bias
                                                     
[0016/0293] saving transformer.h.1.ln_1.weight
                                                     
[0017/0293] saving transformer.h.1.ln_1.bias
                                                     
[0018/0293] saving transformer.h.1.attn.c_attn.weight
                                                     
[0019/0293] saving transformer.h.1.attn.c_attn.bias
                                                     
[0020/0293] saving transformer.h.1.attn.c_proj.weight
                                                     
[0021/0293] saving transformer.h.1.attn.c_proj.bias
                                                     
[0022/0293] saving transformer.h.1.ln_2.weight
                                                     
[0023/0293] saving transformer.h.1.ln_2.bias
                                                     
[0024/0293] saving transformer.h.1.mlp.c_fc.weight
                                                     
[0025/0293] saving transformer.h.1.mlp.c_fc.bias
                                                     
[0026/0293] saving transformer.h.1.mlp.c_proj.weight
                                                     
[0027/0293] saving transformer.h.1.mlp.c_proj.bias
                                                     
[0028/0293] saving transformer.h.2.ln_1.weight
                                                     
[0029/0293] saving transformer.h.2.ln_1.bias
                                                     
[0030/0293] saving transformer.h.2.attn.c_attn.weight
                                                     
[0031/0293] saving transformer.h.2.attn.c_attn.bias
                                                     
[0032/0293] saving transformer.h.2.attn.c_proj.weight
                                                     
[0033/0293] saving transformer.h.2.attn.c_proj.bias
                                                     
[0034/0293] saving transformer.h.2.ln_2.weight
                                                     
[0035/0293] saving transformer.h.2.ln_2.bias
                                                     
[0036/0293] saving transformer.h.2.mlp.c_fc.weight
                                                     
[0037/0293] saving transformer.h.2.mlp.c_fc.bias
                                                     
[0038/0293] saving transformer.h.2.mlp.c_proj.weight
                                                     
[0039/0293] saving transformer.h.2.mlp.c_proj.bias
                                                     
[0040/0293] saving transformer.h.3.ln_1.weight
                                                     
[0041/0293] saving transformer.h.3.ln_1.bias
                                                     
[0042/0293] saving transformer.h.3.attn.c_attn.weight
                                                     
[0043/0293] saving transformer.h.3.attn.c_attn.bias
                                                     
[0044/0293] saving transformer.h.3.attn.c_proj.weight
                                                     
[0045/0293] saving transformer.h.3.attn.c_proj.bias
                                                     
[0046/0293] saving transformer.h.3.ln_2.weight
                                                     
[0047/0293] saving transformer.h.3.ln_2.bias
                                                     
[0048/0293] saving transformer.h.3.mlp.c_fc.weight
                                                     
[0049/0293] saving transformer.h.3.mlp.c_fc.bias
                                                     
[0050/0293] saving transformer.h.3.mlp.c_proj.weight
                                                     
[0051/0293] saving transformer.h.3.mlp.c_proj.bias
                                                     
[0052/0293] saving transformer.h.4.ln_1.weight
                                                     
[0053/0293] saving transformer.h.4.ln_1.bias
                                                     
[0054/0293] saving transformer.h.4.attn.c_attn.weight
                                                     
[0055/0293] saving transformer.h.4.attn.c_attn.bias
                                                     
[0056/0293] saving transformer.h.4.attn.c_proj.weight
                                                     
[0057/0293] saving transformer.h.4.attn.c_proj.bias
                                                     
[0058/0293] saving transformer.h.4.ln_2.weight
                                                     
[0059/0293] saving transformer.h.4.ln_2.bias
                                                     
[0060/0293] saving transformer.h.4.mlp.c_fc.weight
                                                     
[0061/0293] saving transformer.h.4.mlp.c_fc.bias
                                                     
[0062/0293] saving transformer.h.4.mlp.c_proj.weight
                                                     
[0063/0293] saving transformer.h.4.mlp.c_proj.bias
                                                     
[0064/0293] saving transformer.h.5.ln_1.weight
                                                     
[0065/0293] saving transformer.h.5.ln_1.bias
                                                     
[0066/0293] saving transformer.h.5.attn.c_attn.weight
                                                     
[0067/0293] saving transformer.h.5.attn.c_attn.bias
                                                     
[0068/0293] saving transformer.h.5.attn.c_proj.weight
                                                     
[0069/0293] saving transformer.h.5.attn.c_proj.bias
                                                     
[0070/0293] saving transformer.h.5.ln_2.weight
                                                     
[0071/0293] saving transformer.h.5.ln_2.bias
                                                     
[0072/0293] saving transformer.h.5.mlp.c_fc.weight
                                                     
[0073/0293] saving transformer.h.5.mlp.c_fc.bias
                                                     
[0074/0293] saving transformer.h.5.mlp.c_proj.weight
                                                     
[0075/0293] saving transformer.h.5.mlp.c_proj.bias
                                                     
[0076/0293] saving transformer.h.6.ln_1.weight
                                                     
[0077/0293] saving transformer.h.6.ln_1.bias
                                                     
[0078/0293] saving transformer.h.6.attn.c_attn.weight
                                                     
[0079/0293] saving transformer.h.6.attn.c_attn.bias
                                                     
[0080/0293] saving transformer.h.6.attn.c_proj.weight
                                                     
[0081/0293] saving transformer.h.6.attn.c_proj.bias
                                                     
[0082/0293] saving transformer.h.6.ln_2.weight
                                                     
[0083/0293] saving transformer.h.6.ln_2.bias
                                                     
[0084/0293] saving transformer.h.6.mlp.c_fc.weight
                                                     
[0085/0293] saving transformer.h.6.mlp.c_fc.bias
                                                     
[0086/0293] saving transformer.h.6.mlp.c_proj.weight
                                                     
[0087/0293] saving transformer.h.6.mlp.c_proj.bias
                                                     
[0088/0293] saving transformer.h.7.ln_1.weight
                                                     
[0089/0293] saving transformer.h.7.ln_1.bias
                                                     
[0090/0293] saving transformer.h.7.attn.c_attn.weight
                                                     
[0091/0293] saving transformer.h.7.attn.c_attn.bias
                                                     
[0092/0293] saving transformer.h.7.attn.c_proj.weight
                                                     
[0093/0293] saving transformer.h.7.attn.c_proj.bias
                                                     
[0094/0293] saving transformer.h.7.ln_2.weight
                                                     
[0095/0293] saving transformer.h.7.ln_2.bias
                                                     
[0096/0293] saving transformer.h.7.mlp.c_fc.weight
                                                     
[0097/0293] saving transformer.h.7.mlp.c_fc.bias
                                                     
[0098/0293] saving transformer.h.7.mlp.c_proj.weight
                                                     
[0099/0293] saving transformer.h.7.mlp.c_proj.bias
                                                     
[0100/0293] saving transformer.h.8.ln_1.weight
                                                     
[0101/0293] saving transformer.h.8.ln_1.bias
                                                     
[0102/0293] saving transformer.h.8.attn.c_attn.weight
                                                     
[0103/0293] saving transformer.h.8.attn.c_attn.bias
                                                     
[0104/0293] saving transformer.h.8.attn.c_proj.weight
                                                     
[0105/0293] saving transformer.h.8.attn.c_proj.bias
                                                     
[0106/0293] saving transformer.h.8.ln_2.weight
                                                     
[0107/0293] saving transformer.h.8.ln_2.bias
                                                     
[0108/0293] saving transformer.h.8.mlp.c_fc.weight
                                                     
[0109/0293] saving transformer.h.8.mlp.c_fc.bias
                                                     
[0110/0293] saving transformer.h.8.mlp.c_proj.weight
                                                     
[0111/0293] saving transformer.h.8.mlp.c_proj.bias
                                                     
[0112/0293] saving transformer.h.9.ln_1.weight
                                                     
[0113/0293] saving transformer.h.9.ln_1.bias
                                                     
[0114/0293] saving transformer.h.9.attn.c_attn.weight
                                                     
[0115/0293] saving transformer.h.9.attn.c_attn.bias
                                                     
[0116/0293] saving transformer.h.9.attn.c_proj.weight
                                                     
[0117/0293] saving transformer.h.9.attn.c_proj.bias
                                                     
[0118/0293] saving transformer.h.9.ln_2.weight
                                                     
[0119/0293] saving transformer.h.9.ln_2.bias
                                                     
[0120/0293] saving transformer.h.9.mlp.c_fc.weight
                                                     
[0121/0293] saving transformer.h.9.mlp.c_fc.bias
                                                     
[0122/0293] saving transformer.h.9.mlp.c_proj.weight
                                                     
[0123/0293] saving transformer.h.9.mlp.c_proj.bias
                                                     
[0124/0293] saving transformer.h.10.ln_1.weight
                                                     
[0125/0293] saving transformer.h.10.ln_1.bias
                                                     
[0126/0293] saving transformer.h.10.attn.c_attn.weight
                                                      
[0127/0293] saving transformer.h.10.attn.c_attn.bias
                                                      
[0128/0293] saving transformer.h.10.attn.c_proj.weight
                                                      
[0129/0293] saving transformer.h.10.attn.c_proj.bias
                                                      
[0130/0293] saving transformer.h.10.ln_2.weight
                                                      
[0131/0293] saving transformer.h.10.ln_2.bias
                                                      
[0132/0293] saving transformer.h.10.mlp.c_fc.weight
                                                      
[0133/0293] saving transformer.h.10.mlp.c_fc.bias
                                                      
[0134/0293] saving transformer.h.10.mlp.c_proj.weight
                                                      
[0135/0293] saving transformer.h.10.mlp.c_proj.bias
                                                      
[0136/0293] saving transformer.h.11.ln_1.weight
                                                      
[0137/0293] saving transformer.h.11.ln_1.bias
                                                      
[0138/0293] saving transformer.h.11.attn.c_attn.weight
                                                      
[0139/0293] saving transformer.h.11.attn.c_attn.bias
                                                      
[0140/0293] saving transformer.h.11.attn.c_proj.weight
                                                      
[0141/0293] saving transformer.h.11.attn.c_proj.bias
                                                      
[0142/0293] saving transformer.h.11.ln_2.weight
                                                      
[0143/0293] saving transformer.h.11.ln_2.bias
                                                      
[0144/0293] saving transformer.h.11.mlp.c_fc.weight
                                                      
[0145/0293] saving transformer.h.11.mlp.c_fc.bias
                                                      
[0146/0293] saving transformer.h.11.mlp.c_proj.weight
                                                      
[0147/0293] saving transformer.h.11.mlp.c_proj.bias
                                                      
[0148/0293] saving transformer.h.12.ln_1.weight
                                                      
[0149/0293] saving transformer.h.12.ln_1.bias
                                                      
[0150/0293] saving transformer.h.12.attn.c_attn.weight
                                                      
[0151/0293] saving transformer.h.12.attn.c_attn.bias
                                                      
[0152/0293] saving transformer.h.12.attn.c_proj.weight
                                                      
[0153/0293] saving transformer.h.12.attn.c_proj.bias
                                                      
[0154/0293] saving transformer.h.12.ln_2.weight
                                                      
[0155/0293] saving transformer.h.12.ln_2.bias
                                                      
[0156/0293] saving transformer.h.12.mlp.c_fc.weight
                                                      
[0157/0293] saving transformer.h.12.mlp.c_fc.bias
                                                      
[0158/0293] saving transformer.h.12.mlp.c_proj.weight
                                                      
[0159/0293] saving transformer.h.12.mlp.c_proj.bias
                                                      
[0160/0293] saving transformer.h.13.ln_1.weight
                                                      
[0161/0293] saving transformer.h.13.ln_1.bias
                                                      
[0162/0293] saving transformer.h.13.attn.c_attn.weight
                                                      
[0163/0293] saving transformer.h.13.attn.c_attn.bias
                                                      
[0164/0293] saving transformer.h.13.attn.c_proj.weight
                                                      
[0165/0293] saving transformer.h.13.attn.c_proj.bias
                                                      
[0166/0293] saving transformer.h.13.ln_2.weight
                                                      
[0167/0293] saving transformer.h.13.ln_2.bias
                                                      
[0168/0293] saving transformer.h.13.mlp.c_fc.weight
                                                      
[0169/0293] saving transformer.h.13.mlp.c_fc.bias
                                                      
[0170/0293] saving transformer.h.13.mlp.c_proj.weight
                                                      
[0171/0293] saving transformer.h.13.mlp.c_proj.bias
                                                      
[0172/0293] saving transformer.h.14.ln_1.weight
                                                      
[0173/0293] saving transformer.h.14.ln_1.bias
                                                      
[0174/0293] saving transformer.h.14.attn.c_attn.weight
                                                      
[0175/0293] saving transformer.h.14.attn.c_attn.bias
                                                      
[0176/0293] saving transformer.h.14.attn.c_proj.weight
                                                      
[0177/0293] saving transformer.h.14.attn.c_proj.bias
                                                      
[0178/0293] saving transformer.h.14.ln_2.weight
                                                      
[0179/0293] saving transformer.h.14.ln_2.bias
                                                      
[0180/0293] saving transformer.h.14.mlp.c_fc.weight
                                                      
[0181/0293] saving transformer.h.14.mlp.c_fc.bias
                                                      
[0182/0293] saving transformer.h.14.mlp.c_proj.weight
                                                      
[0183/0293] saving transformer.h.14.mlp.c_proj.bias
                                                      
[0184/0293] saving transformer.h.15.ln_1.weight
                                                      
[0185/0293] saving transformer.h.15.ln_1.bias
                                                      
[0186/0293] saving transformer.h.15.attn.c_attn.weight
                                                      
[0187/0293] saving transformer.h.15.attn.c_attn.bias
                                                      
[0188/0293] saving transformer.h.15.attn.c_proj.weight
                                                      
[0189/0293] saving transformer.h.15.attn.c_proj.bias
                                                      
[0190/0293] saving transformer.h.15.ln_2.weight
                                                      
[0191/0293] saving transformer.h.15.ln_2.bias
                                                      
[0192/0293] saving transformer.h.15.mlp.c_fc.weight
                                                      
[0193/0293] saving transformer.h.15.mlp.c_fc.bias
                                                      
[0194/0293] saving transformer.h.15.mlp.c_proj.weight
                                                      
[0195/0293] saving transformer.h.15.mlp.c_proj.bias
                                                      
[0196/0293] saving transformer.h.16.ln_1.weight
                                                      
[0197/0293] saving transformer.h.16.ln_1.bias
                                                      
[0198/0293] saving transformer.h.16.attn.c_attn.weight
                                                      
[0199/0293] saving transformer.h.16.attn.c_attn.bias
                                                      
[0200/0293] saving transformer.h.16.attn.c_proj.weight
                                                      
[0201/0293] saving transformer.h.16.attn.c_proj.bias
                                                      
[0202/0293] saving transformer.h.16.ln_2.weight
                                                      
[0203/0293] saving transformer.h.16.ln_2.bias
                                                      
[0204/0293] saving transformer.h.16.mlp.c_fc.weight
                                                      
[0205/0293] saving transformer.h.16.mlp.c_fc.bias
                                                      
[0206/0293] saving transformer.h.16.mlp.c_proj.weight
                                                      
[0207/0293] saving transformer.h.16.mlp.c_proj.bias
                                                      
[0208/0293] saving transformer.h.17.ln_1.weight
                                                      
[0209/0293] saving transformer.h.17.ln_1.bias
                                                      
[0210/0293] saving transformer.h.17.attn.c_attn.weight
                                                      
[0211/0293] saving transformer.h.17.attn.c_attn.bias
                                                      
[0212/0293] saving transformer.h.17.attn.c_proj.weight
                                                      
[0213/0293] saving transformer.h.17.attn.c_proj.bias
                                                      
[0214/0293] saving transformer.h.17.ln_2.weight
                                                      
[0215/0293] saving transformer.h.17.ln_2.bias
                                                      
[0216/0293] saving transformer.h.17.mlp.c_fc.weight
                                                      
[0217/0293] saving transformer.h.17.mlp.c_fc.bias
                                                      
[0218/0293] saving transformer.h.17.mlp.c_proj.weight
                                                      
[0219/0293] saving transformer.h.17.mlp.c_proj.bias
                                                      
[0220/0293] saving transformer.h.18.ln_1.weight
                                                      
[0221/0293] saving transformer.h.18.ln_1.bias
                                                      
[0222/0293] saving transformer.h.18.attn.c_attn.weight
                                                      
[0223/0293] saving transformer.h.18.attn.c_attn.bias
                                                      
[0224/0293] saving transformer.h.18.attn.c_proj.weight
                                                      
[0225/0293] saving transformer.h.18.attn.c_proj.bias
                                                      
[0226/0293] saving transformer.h.18.ln_2.weight
                                                      
[0227/0293] saving transformer.h.18.ln_2.bias
                                                      
[0228/0293] saving transformer.h.18.mlp.c_fc.weight
                                                      
[0229/0293] saving transformer.h.18.mlp.c_fc.bias
                                                      
[0230/0293] saving transformer.h.18.mlp.c_proj.weight
                                                      
[0231/0293] saving transformer.h.18.mlp.c_proj.bias
                                                      
[0232/0293] saving transformer.h.19.ln_1.weight
                                                      
[0233/0293] saving transformer.h.19.ln_1.bias
                                                      
[0234/0293] saving transformer.h.19.attn.c_attn.weight[2023-12-28 08:14:20] INFO convert_weight.py:132: Saved to directory: /tmp/tmp3xws4nia
+
                                                      
[0235/0293] saving transformer.h.19.attn.c_attn.bias
                                                      
[0236/0293] saving transformer.h.19.attn.c_proj.weight
                                                      
[0237/0293] saving transformer.h.19.attn.c_proj.bias
                                                      
[0238/0293] saving transformer.h.19.ln_2.weight
                                                      
[0239/0293] saving transformer.h.19.ln_2.bias
                                                      
[0240/0293] saving transformer.h.19.mlp.c_fc.weight
                                                      
[0241/0293] saving transformer.h.19.mlp.c_fc.bias
                                                      
[0242/0293] saving transformer.h.19.mlp.c_proj.weight
                                                      
[0243/0293] saving transformer.h.19.mlp.c_proj.bias
                                                      
[0244/0293] saving transformer.h.20.ln_1.weight
                                                      
[0245/0293] saving transformer.h.20.ln_1.bias
                                                      
[0246/0293] saving transformer.h.20.attn.c_attn.weight
                                                      
[0247/0293] saving transformer.h.20.attn.c_attn.bias
                                                      
[0248/0293] saving transformer.h.20.attn.c_proj.weight
                                                      
[0249/0293] saving transformer.h.20.attn.c_proj.bias
                                                      
[0250/0293] saving transformer.h.20.ln_2.weight
                                                      
[0251/0293] saving transformer.h.20.ln_2.bias
                                                      
[0252/0293] saving transformer.h.20.mlp.c_fc.weight
                                                      
[0253/0293] saving transformer.h.20.mlp.c_fc.bias
                                                      
[0254/0293] saving transformer.h.20.mlp.c_proj.weight
                                                      
[0255/0293] saving transformer.h.20.mlp.c_proj.bias
                                                      
[0256/0293] saving transformer.h.21.ln_1.weight
                                                      
[0257/0293] saving transformer.h.21.ln_1.bias
                                                      
[0258/0293] saving transformer.h.21.attn.c_attn.weight
                                                      
[0259/0293] saving transformer.h.21.attn.c_attn.bias
                                                      
[0260/0293] saving transformer.h.21.attn.c_proj.weight
                                                      
[0261/0293] saving transformer.h.21.attn.c_proj.bias
                                                      
[0262/0293] saving transformer.h.21.ln_2.weight
                                                      
[0263/0293] saving transformer.h.21.ln_2.bias
                                                      
[0264/0293] saving transformer.h.21.mlp.c_fc.weight
                                                      
[0265/0293] saving transformer.h.21.mlp.c_fc.bias
                                                      
[0266/0293] saving transformer.h.21.mlp.c_proj.weight
                                                      
[0267/0293] saving transformer.h.21.mlp.c_proj.bias
                                                      
[0268/0293] saving transformer.h.22.ln_1.weight
                                                      
[0269/0293] saving transformer.h.22.ln_1.bias
                                                      
[0270/0293] saving transformer.h.22.attn.c_attn.weight
                                                      
[0271/0293] saving transformer.h.22.attn.c_attn.bias
                                                      
[0272/0293] saving transformer.h.22.attn.c_proj.weight
                                                      
[0273/0293] saving transformer.h.22.attn.c_proj.bias
                                                      
[0274/0293] saving transformer.h.22.ln_2.weight
                                                      
[0275/0293] saving transformer.h.22.ln_2.bias
                                                      
[0276/0293] saving transformer.h.22.mlp.c_fc.weight
                                                      
[0277/0293] saving transformer.h.22.mlp.c_fc.bias
                                                      
[0278/0293] saving transformer.h.22.mlp.c_proj.weight
                                                      
[0279/0293] saving transformer.h.22.mlp.c_proj.bias
                                                      
[0280/0293] saving transformer.h.23.ln_1.weight
                                                      
[0281/0293] saving transformer.h.23.ln_1.bias
                                                      
[0282/0293] saving transformer.h.23.attn.c_attn.weight
                                                      
[0283/0293] saving transformer.h.23.attn.c_attn.bias
                                                      
[0284/0293] saving transformer.h.23.attn.c_proj.weight
                                                      
[0285/0293] saving transformer.h.23.attn.c_proj.bias
                                                      
[0286/0293] saving transformer.h.23.ln_2.weight
                                                      
[0287/0293] saving transformer.h.23.ln_2.bias
                                                      
[0288/0293] saving transformer.h.23.mlp.c_fc.weight
                                                      
[0289/0293] saving transformer.h.23.mlp.c_fc.bias
                                                      
[0290/0293] saving transformer.h.23.mlp.c_proj.weight
                                                      
[0291/0293] saving transformer.h.23.mlp.c_proj.bias
                                                      
[0292/0293] saving transformer.ln_f.weight
                                                      
[0293/0293] saving transformer.ln_f.bias
+All finished, 26 total shards committed, record saved to /tmp/tmp3xws4nia/ndarray-cache.json