diff --git "a/logs.txt" "b/logs.txt" new file mode 100644--- /dev/null +++ "b/logs.txt" @@ -0,0 +1,351 @@ +python -m mlc_chat gen_config /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium --quantization q0f16 --conv-template gpt2 --output /tmp/tmp3xws4nia +[2023-12-28 08:14:09] INFO auto_config.py:115: [92mFound[0m model configuration: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/config.json +[2023-12-28 08:14:09] INFO auto_config.py:151: [92mFound[0m model type: [1mgpt2[0m. Use `--model-type` to override. +[2023-12-28 08:14:09] INFO gpt2_model.py:44: [1mcontext_window_size[0m not found in config.json. Falling back to [1mn_positions[0m (1024) +[2023-12-28 08:14:09] INFO gen_config.py:115: [generation_config.json] Setting [1mbos_token_id[0m: 50256 +[2023-12-28 08:14:09] INFO gen_config.py:115: [generation_config.json] Setting [1meos_token_id[0m: 50256 +[2023-12-28 08:14:09] INFO gen_config.py:129: [91mNot found[0m tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/tokenizer.model +[2023-12-28 08:14:09] INFO gen_config.py:127: [92mFound[0m tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/tokenizer.json. Copying to [1m/tmp/tmp3xws4nia/tokenizer.json[0m +[2023-12-28 08:14:09] INFO gen_config.py:127: [92mFound[0m tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/vocab.json. Copying to [1m/tmp/tmp3xws4nia/vocab.json[0m +[2023-12-28 08:14:09] INFO gen_config.py:127: [92mFound[0m tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/merges.txt. Copying to [1m/tmp/tmp3xws4nia/merges.txt[0m +[2023-12-28 08:14:09] INFO gen_config.py:129: [91mNot found[0m tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/added_tokens.json +[2023-12-28 08:14:09] INFO gen_config.py:129: [91mNot found[0m tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/tokenizer_config.json +[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting [1mpad_token_id[0m: 0 +[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting [1mtemperature[0m: 0.7 +[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting [1mrepetition_penalty[0m: 1.0 +[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting [1mtop_p[0m: 0.95 +[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting [1mmean_gen_len[0m: 128 +[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting [1mmax_gen_len[0m: 512 +[2023-12-28 08:14:09] INFO gen_config.py:69: [System default] Setting [1mshift_fill_factor[0m: 0.3 +[2023-12-28 08:14:09] INFO gen_config.py:157: Dumping configuration file to: [1m/tmp/tmp3xws4nia/mlc-chat-config.json[0m +python -m mlc_chat convert_weight /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium --quantization q0f16 --source-format auto --output /tmp/tmp3xws4nia +[2023-12-28 08:14:10] INFO auto_config.py:115: [92mFound[0m model configuration: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/config.json +[2023-12-28 08:14:10] INFO auto_device.py:75: [92mFound[0m device: cuda:0 +[2023-12-28 08:14:10] INFO auto_device.py:75: [92mFound[0m device: cuda:1 +[2023-12-28 08:14:10] INFO auto_device.py:84: [91mNot found[0m device: rocm:0 +[2023-12-28 08:14:10] INFO auto_device.py:84: [91mNot found[0m device: metal:0 +[2023-12-28 08:14:11] INFO auto_device.py:75: [92mFound[0m device: vulkan:0 +[2023-12-28 08:14:11] INFO auto_device.py:75: [92mFound[0m device: vulkan:1 +[2023-12-28 08:14:11] INFO auto_device.py:75: [92mFound[0m device: vulkan:2 +[2023-12-28 08:14:11] INFO auto_device.py:84: [91mNot found[0m device: opencl:0 +[2023-12-28 08:14:11] INFO auto_device.py:33: Using device: [1mcuda:0[0m +[2023-12-28 08:14:11] INFO auto_weight.py:70: Finding weights in: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium +[2023-12-28 08:14:11] INFO auto_weight.py:129: [92mFound[0m source weight format: huggingface-torch. Source configuration: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/pytorch_model.bin +[2023-12-28 08:14:11] INFO auto_weight.py:149: [91mNot found[0m Huggingface Safetensor +[2023-12-28 08:14:11] INFO auto_weight.py:106: Using source weight configuration: [1m/ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/pytorch_model.bin[0m. Use `--source` to override. +[2023-12-28 08:14:11] INFO auto_weight.py:110: Using source weight format: [1mhuggingface-torch[0m. Use `--source-format` to override. +[2023-12-28 08:14:11] INFO auto_config.py:151: [92mFound[0m model type: [1mgpt2[0m. Use `--model-type` to override. +[2023-12-28 08:14:11] INFO gpt2_model.py:44: [1mcontext_window_size[0m not found in config.json. Falling back to [1mn_positions[0m (1024) +[2023-12-28 08:14:13] INFO huggingface_loader.py:169: Loading HF parameters from: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/pytorch_model.bin +[1mWeight conversion with arguments:[0m + [1m--config[0m /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/config.json + [1m--quantization[0m NoQuantize(name='q0f16', kind='no-quant', model_dtype='float16') + [1m--model-type[0m gpt2 + [1m--device[0m cuda:0 + [1m--source[0m /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/pytorch_model.bin + [1m--source-format[0m huggingface-torch + [1m--output[0m /tmp/tmp3xws4nia + 0%| | 0/293 [00:00<?, ?it/s] [2023-12-28 08:14:14] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mlm_head.weight[0m", shape: (50257, 1024), dtype: float16 + 0%| | 0/293 [00:00<?, ?it/s] 0%|▉ | 1/293 [00:00<01:51, 2.62it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.wte.weight[0m", shape: (50257, 1024), dtype: float16 + 0%|▉ | 1/293 [00:00<01:51, 2.62it/s] 1%|█▊ | 2/293 [00:00<01:32, 3.14it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.wpe.weight[0m", shape: (1024, 1024), dtype: float16 + 1%|█▊ | 2/293 [00:00<01:32, 3.14it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.ln_1.weight[0m", shape: (1024,), dtype: float16 + 1%|█▊ | 2/293 [00:00<01:32, 3.14it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.ln_1.bias[0m", shape: (1024,), dtype: float16 + 1%|█▊ | 2/293 [00:00<01:32, 3.14it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 1%|█▊ | 2/293 [00:00<01:32, 3.14it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 1%|█▊ | 2/293 [00:00<01:32, 3.14it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 1%|█▊ | 2/293 [00:00<01:32, 3.14it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 1%|█▊ | 2/293 [00:00<01:32, 3.14it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.ln_2.weight[0m", shape: (1024,), dtype: float16 + 1%|█▊ | 2/293 [00:00<01:32, 3.14it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.ln_2.bias[0m", shape: (1024,), dtype: float16 + 1%|█▊ | 2/293 [00:00<01:32, 3.14it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 1%|█▊ | 2/293 [00:00<01:32, 3.14it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 1%|█▊ | 2/293 [00:00<01:32, 3.14it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 1%|█▊ | 2/293 [00:00<01:32, 3.14it/s] 5%|████████████▍ | 14/293 [00:00<00:10, 26.65it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 5%|████████████▍ | 14/293 [00:00<00:10, 26.65it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.ln_1.weight[0m", shape: (1024,), dtype: float16 + 5%|████████████▍ | 14/293 [00:00<00:10, 26.65it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.ln_1.bias[0m", shape: (1024,), dtype: float16 + 5%|████████████▍ | 14/293 [00:00<00:10, 26.65it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 5%|████████████▍ | 14/293 [00:00<00:10, 26.65it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 5%|████████████▍ | 14/293 [00:00<00:10, 26.65it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 5%|████████████▍ | 14/293 [00:00<00:10, 26.65it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 5%|████████████▍ | 14/293 [00:00<00:10, 26.65it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.ln_2.weight[0m", shape: (1024,), dtype: float16 + 5%|████████████▍ | 14/293 [00:00<00:10, 26.65it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.ln_2.bias[0m", shape: (1024,), dtype: float16 + 5%|████████████▍ | 14/293 [00:00<00:10, 26.65it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 5%|████████████▍ | 14/293 [00:00<00:10, 26.65it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 5%|████████████▍ | 14/293 [00:00<00:10, 26.65it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 5%|████████████▍ | 14/293 [00:00<00:10, 26.65it/s] 9%|███████████████████████ | 26/293 [00:00<00:05, 46.15it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 9%|███████████████████████ | 26/293 [00:00<00:05, 46.15it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.ln_1.weight[0m", shape: (1024,), dtype: float16 + 9%|███████████████████████ | 26/293 [00:00<00:05, 46.15it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.ln_1.bias[0m", shape: (1024,), dtype: float16 + 9%|███████████████████████ | 26/293 [00:00<00:05, 46.15it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 9%|███████████████████████ | 26/293 [00:00<00:05, 46.15it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 9%|███████████████████████ | 26/293 [00:00<00:05, 46.15it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 9%|███████████████████████ | 26/293 [00:00<00:05, 46.15it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 9%|███████████████████████ | 26/293 [00:00<00:05, 46.15it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.ln_2.weight[0m", shape: (1024,), dtype: float16 + 9%|███████████████████████ | 26/293 [00:00<00:05, 46.15it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.ln_2.bias[0m", shape: (1024,), dtype: float16 + 9%|███████████████████████ | 26/293 [00:00<00:05, 46.15it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 9%|███████████████████████ | 26/293 [00:01<00:05, 46.15it/s] 12%|███████████████████████████████▉ | 36/293 [00:01<00:04, 53.72it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 12%|███████████████████████████████▉ | 36/293 [00:01<00:04, 53.72it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 12%|███████████████████████████████▉ | 36/293 [00:01<00:04, 53.72it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 12%|███████████████████████████████▉ | 36/293 [00:01<00:04, 53.72it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.ln_1.weight[0m", shape: (1024,), dtype: float16 + 12%|███████████████████████████████▉ | 36/293 [00:01<00:04, 53.72it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.ln_1.bias[0m", shape: (1024,), dtype: float16 + 12%|███████████████████████████████▉ | 36/293 [00:01<00:04, 53.72it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 12%|███████████████████████████████▉ | 36/293 [00:01<00:04, 53.72it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 12%|███████████████████████████████▉ | 36/293 [00:01<00:04, 53.72it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 12%|███████████████████████████████▉ | 36/293 [00:01<00:04, 53.72it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 12%|███████████████████████████████▉ | 36/293 [00:01<00:04, 53.72it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.ln_2.weight[0m", shape: (1024,), dtype: float16 + 12%|███████████████████████████████▉ | 36/293 [00:01<00:04, 53.72it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.ln_2.bias[0m", shape: (1024,), dtype: float16 + 12%|███████████████████████████████▉ | 36/293 [00:01<00:04, 53.72it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 12%|███████████████████████████████▉ | 36/293 [00:01<00:04, 53.72it/s] 16%|██████████████████████████████████████████▌ | 48/293 [00:01<00:03, 63.24it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 16%|██████████████████████████████████████████▌ | 48/293 [00:01<00:03, 63.24it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 16%|██████████████████████████████████████████▌ | 48/293 [00:01<00:03, 63.24it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 16%|██████████████████████████████████████████▌ | 48/293 [00:01<00:03, 63.24it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.ln_1.weight[0m", shape: (1024,), dtype: float16 + 16%|██████████████████████████████████████████▌ | 48/293 [00:01<00:03, 63.24it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.ln_1.bias[0m", shape: (1024,), dtype: float16 + 16%|██████████████████████████████████████████▌ | 48/293 [00:01<00:03, 63.24it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 16%|██████████████████████████████████████████▌ | 48/293 [00:01<00:03, 63.24it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 16%|██████████���███████████████████████████████▌ | 48/293 [00:01<00:03, 63.24it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 16%|██████████████████████████████████████████▌ | 48/293 [00:01<00:03, 63.24it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 16%|██████████████████████████████████████████▌ | 48/293 [00:01<00:03, 63.24it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.ln_2.weight[0m", shape: (1024,), dtype: float16 + 16%|██████████████████████████████████████████▌ | 48/293 [00:01<00:03, 63.24it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.ln_2.bias[0m", shape: (1024,), dtype: float16 + 16%|██████████████████████████████████████████▌ | 48/293 [00:01<00:03, 63.24it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 16%|██████████████████████████████████████████▌ | 48/293 [00:01<00:03, 63.24it/s] 20%|█████████████████████████████████████████████████████▏ | 60/293 [00:01<00:03, 73.74it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 20%|█████████████████████████████████████████████████████▏ | 60/293 [00:01<00:03, 73.74it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 20%|█████████████████████████████████████████████████████▏ | 60/293 [00:01<00:03, 73.74it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 20%|█████████████████████████████████████████████████████▏ | 60/293 [00:01<00:03, 73.74it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.ln_1.weight[0m", shape: (1024,), dtype: float16 + 20%|█████████████████████████████████████████████████████▏ | 60/293 [00:01<00:03, 73.74it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.ln_1.bias[0m", shape: (1024,), dtype: float16 + 20%|█████████████████████████████████████████████████████▏ | 60/293 [00:01<00:03, 73.74it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 20%|█████████████████████████████████████████████████████▏ | 60/293 [00:01<00:03, 73.74it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 20%|█████████████████████████████████████████████████████▏ | 60/293 [00:01<00:03, 73.74it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 20%|█████████████████████████████████████████████████████▏ | 60/293 [00:01<00:03, 73.74it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 20%|█████████████████████████████████████████████████████▏ | 60/293 [00:01<00:03, 73.74it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.ln_2.weight[0m", shape: (1024,), dtype: float16 + 20%|█████████████████████████████████████████████████████▏ | 60/293 [00:01<00:03, 73.74it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.ln_2.bias[0m", shape: (1024,), dtype: float16 + 20%|█████████████████████████████████████████████████████▏ | 60/293 [00:01<00:03, 73.74it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 20%|█████████████████████████████████████████████████████▏ | 60/293 [00:01<00:03, 73.74it/s] 25%|████████��██████████████████████████████████████████████████████▉ | 72/293 [00:01<00:02, 81.69it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 25%|███████████████████████████████████████████████████████████████▉ | 72/293 [00:01<00:02, 81.69it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 25%|███████████████████████████████████████████████████████████████▉ | 72/293 [00:01<00:02, 81.69it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 25%|███████████████████████████████████████████████████████████████▉ | 72/293 [00:01<00:02, 81.69it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.ln_1.weight[0m", shape: (1024,), dtype: float16 + 25%|███████████████████████████████████████████████████████████████▉ | 72/293 [00:01<00:02, 81.69it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.ln_1.bias[0m", shape: (1024,), dtype: float16 + 25%|███████████████████████████████████████████████████████████████▉ | 72/293 [00:01<00:02, 81.69it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 25%|███████████████████████████████████████████████████████████████▉ | 72/293 [00:01<00:02, 81.69it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 25%|███████████████████████████████████████████████████████████████▉ | 72/293 [00:01<00:02, 81.69it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 25%|███████████████████████████████████████████████████████████████▉ | 72/293 [00:01<00:02, 81.69it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 25%|███████████████████████████████████████████████████████████████▉ | 72/293 [00:01<00:02, 81.69it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.ln_2.weight[0m", shape: (1024,), dtype: float16 + 25%|███████████████████████████████████████████████████████████████▉ | 72/293 [00:01<00:02, 81.69it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.ln_2.bias[0m", shape: (1024,), dtype: float16 + 25%|███████████████████████████████████████████████████████████████▉ | 72/293 [00:01<00:02, 81.69it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 25%|███████████████████████████████████████████████████████████████▉ | 72/293 [00:01<00:02, 81.69it/s] 29%|██████████████████████████████████████████████████████████████████████████▌ | 84/293 [00:01<00:02, 86.28it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 29%|██████████████████████████████████████████████████████████████████████████▌ | 84/293 [00:01<00:02, 86.28it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 29%|██████████████████████████████████████████████████████████████████████████▌ | 84/293 [00:01<00:02, 86.28it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 29%|██████████████████████████████████████████████████████████████████████████▌ | 84/293 [00:01<00:02, 86.28it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.ln_1.weight[0m", shape: (1024,), dtype: float16 + 29%|██████████████████████████████████████████████████████████████████████████▌ | 84/293 [00:01<00:02, 86.28it/s] [2023-12-28 08:14:15] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.ln_1.bias[0m", shape: (1024,), dtype: float16 + 29%|██████████████████████████████████████████████████████████████████████████▌ | 84/293 [00:01<00:02, 86.28it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 29%|██████████████████████████████████████████████████████████████████████████▌ | 84/293 [00:01<00:02, 86.28it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 29%|██████████████████████████████████████████████████████████████████████████▌ | 84/293 [00:01<00:02, 86.28it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 29%|██████████████████████████████████████████████████████████████████████████▌ | 84/293 [00:01<00:02, 86.28it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 29%|██████████████████████████████████████████████████████████████████████████▌ | 84/293 [00:01<00:02, 86.28it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.ln_2.weight[0m", shape: (1024,), dtype: float16 + 29%|██████████████████████████████████████████████████████████████████████████▌ | 84/293 [00:01<00:02, 86.28it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.ln_2.bias[0m", shape: (1024,), dtype: float16 + 29%|██████████████████████████████████████████████████████████████████████████▌ | 84/293 [00:01<00:02, 86.28it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 29%|██████████████████████████████████████████████████████████████████████████▌ | 84/293 [00:01<00:02, 86.28it/s] 33%|█████████████████████████████████████████████████████████████████████████████████████▏ | 96/293 [00:01<00:02, 91.13it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 33%|█████████████████████████████████████████████████████████████████████████████████████▏ | 96/293 [00:01<00:02, 91.13it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 33%|█████████████████████████████████████████████████████████████████████████████████████▏ | 96/293 [00:01<00:02, 91.13it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 33%|█████████████████████████████████████████████████████████████████████████████████████▏ | 96/293 [00:01<00:02, 91.13it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.ln_1.weight[0m", shape: (1024,), dtype: float16 + 33%|█████████████████████████████████████████████████████████████████████████████████████▏ | 96/293 [00:01<00:02, 91.13it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.ln_1.bias[0m", shape: (1024,), dtype: float16 + 33%|█████████████████████████████████████████████████████████████████████████████████████▏ | 96/293 [00:01<00:02, 91.13it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 33%|█████████████████████████████████████████████████████████████████████████████████████▏ | 96/293 [00:01<00:02, 91.13it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 33%|█████████████████████████████████████████████████████████████████████████████████████▏ | 96/293 [00:01<00:02, 91.13it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 33%|█████████████████████████████████████████████████████████████████████████████████████▏ | 96/293 [00:01<00:02, 91.13it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 33%|█████████████████████████████████████████████████████████████████████████████████████▏ | 96/293 [00:01<00:02, 91.13it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.ln_2.weight[0m", shape: (1024,), dtype: float16 + 33%|█████████████████████████████████████████████████████████████████████████████████████▏ | 96/293 [00:01<00:02, 91.13it/s] 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 106/293 [00:01<00:02, 88.70it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.ln_2.bias[0m", shape: (1024,), dtype: float16 + 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 106/293 [00:01<00:02, 88.70it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 106/293 [00:01<00:02, 88.70it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 106/293 [00:01<00:02, 88.70it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 106/293 [00:01<00:02, 88.70it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 106/293 [00:01<00:02, 88.70it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.ln_1.weight[0m", shape: (1024,), dtype: float16 + 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 106/293 [00:01<00:02, 88.70it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.ln_1.bias[0m", shape: (1024,), dtype: float16 + 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 106/293 [00:01<00:02, 88.70it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 106/293 [00:01<00:02, 88.70it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 106/293 [00:01<00:02, 88.70it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 36%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 106/293 [00:01<00:02, 88.70it/s] 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 116/293 [00:01<00:01, 89.01it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 116/293 [00:01<00:01, 89.01it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.ln_2.weight[0m", shape: (1024,), dtype: float16 + 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 116/293 [00:01<00:01, 89.01it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.ln_2.bias[0m", shape: (1024,), dtype: float16 + 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 116/293 [00:01<00:01, 89.01it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 116/293 [00:01<00:01, 89.01it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 116/293 [00:01<00:01, 89.01it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 116/293 [00:01<00:01, 89.01it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 116/293 [00:01<00:01, 89.01it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.ln_1.weight[0m", shape: (1024,), dtype: float16 + 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 116/293 [00:01<00:01, 89.01it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.ln_1.bias[0m", shape: (1024,), dtype: float16 + 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 116/293 [00:01<00:01, 89.01it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 40%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 116/293 [00:01<00:01, 89.01it/s] 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 126/293 [00:01<00:01, 91.51it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 126/293 [00:01<00:01, 91.51it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 126/293 [00:01<00:01, 91.51it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 126/293 [00:01<00:01, 91.51it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.ln_2.weight[0m", shape: (1024,), dtype: float16 + 43%|████████████████████████████████████████████████████████████████████████████████████████████���██████████████████▍ | 126/293 [00:01<00:01, 91.51it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.ln_2.bias[0m", shape: (1024,), dtype: float16 + 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 126/293 [00:01<00:01, 91.51it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 126/293 [00:02<00:01, 91.51it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 126/293 [00:02<00:01, 91.51it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 126/293 [00:02<00:01, 91.51it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 126/293 [00:02<00:01, 91.51it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.ln_1.weight[0m", shape: (1024,), dtype: float16 + 43%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 126/293 [00:02<00:01, 91.51it/s] 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 136/293 [00:02<00:01, 92.03it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.ln_1.bias[0m", shape: (1024,), dtype: float16 + 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 136/293 [00:02<00:01, 92.03it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 136/293 [00:02<00:01, 92.03it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 136/293 [00:02<00:01, 92.03it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 136/293 [00:02<00:01, 92.03it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 136/293 [00:02<00:01, 92.03it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.ln_2.weight[0m", shape: (1024,), dtype: float16 + 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 136/293 [00:02<00:01, 92.03it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.ln_2.bias[0m", shape: (1024,), dtype: float16 + 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 136/293 [00:02<00:01, 92.03it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 136/293 [00:02<00:01, 92.03it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 46%|██████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████▏ | 136/293 [00:02<00:01, 92.03it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 136/293 [00:02<00:01, 92.03it/s] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 146/293 [00:02<00:01, 90.94it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 146/293 [00:02<00:01, 90.94it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.ln_1.weight[0m", shape: (1024,), dtype: float16 + 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 146/293 [00:02<00:01, 90.94it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.ln_1.bias[0m", shape: (1024,), dtype: float16 + 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 146/293 [00:02<00:01, 90.94it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 146/293 [00:02<00:01, 90.94it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 146/293 [00:02<00:01, 90.94it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 146/293 [00:02<00:01, 90.94it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 146/293 [00:02<00:01, 90.94it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.ln_2.weight[0m", shape: (1024,), dtype: float16 + 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 146/293 [00:02<00:01, 90.94it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.ln_2.bias[0m", shape: (1024,), dtype: float16 + 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 146/293 [00:02<00:01, 90.94it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 146/293 [00:02<00:01, 90.94it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 146/293 [00:02<00:01, 90.94it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 146/293 [00:02<00:01, 90.94it/s] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 158/293 [00:02<00:01, 83.22it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 54%|█████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████▋ | 158/293 [00:02<00:01, 83.22it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.ln_1.weight[0m", shape: (1024,), dtype: float16 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 158/293 [00:02<00:01, 83.22it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.ln_1.bias[0m", shape: (1024,), dtype: float16 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 158/293 [00:02<00:01, 83.22it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 158/293 [00:02<00:01, 83.22it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 158/293 [00:02<00:01, 83.22it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 158/293 [00:02<00:01, 83.22it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 158/293 [00:02<00:01, 83.22it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.ln_2.weight[0m", shape: (1024,), dtype: float16 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 158/293 [00:02<00:01, 83.22it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.ln_2.bias[0m", shape: (1024,), dtype: float16 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 158/293 [00:02<00:01, 83.22it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 158/293 [00:02<00:01, 83.22it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 158/293 [00:02<00:01, 83.22it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 158/293 [00:02<00:01, 83.22it/s] 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 170/293 [00:02<00:01, 90.04it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 170/293 [00:02<00:01, 90.04it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.ln_1.weight[0m", shape: (1024,), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 170/293 [00:02<00:01, 90.04it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.ln_1.bias[0m", shape: (1024,), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 170/293 [00:02<00:01, 90.04it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 170/293 [00:02<00:01, 90.04it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 170/293 [00:02<00:01, 90.04it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 170/293 [00:02<00:01, 90.04it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 170/293 [00:02<00:01, 90.04it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.ln_2.weight[0m", shape: (1024,), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 170/293 [00:02<00:01, 90.04it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.ln_2.bias[0m", shape: (1024,), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 170/293 [00:02<00:01, 90.04it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 170/293 [00:02<00:01, 90.04it/s] [2023-12-28 08:14:16] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 170/293 [00:02<00:01, 90.04it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 170/293 [00:02<00:01, 90.04it/s] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 182/293 [00:02<00:01, 88.80it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 182/293 [00:02<00:01, 88.80it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.ln_1.weight[0m", shape: (1024,), dtype: float16 + 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 182/293 [00:02<00:01, 88.80it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.ln_1.bias[0m", shape: (1024,), dtype: float16 + 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 182/293 [00:02<00:01, 88.80it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 182/293 [00:02<00:01, 88.80it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████▉ | 182/293 [00:02<00:01, 88.80it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 182/293 [00:02<00:01, 88.80it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 182/293 [00:02<00:01, 88.80it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.ln_2.weight[0m", shape: (1024,), dtype: float16 + 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 182/293 [00:02<00:01, 88.80it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.ln_2.bias[0m", shape: (1024,), dtype: float16 + 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 182/293 [00:02<00:01, 88.80it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 62%|████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 182/293 [00:02<00:01, 88.80it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 182/293 [00:02<00:01, 88.80it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 182/293 [00:02<00:01, 88.80it/s] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/293 [00:02<00:01, 94.47it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/293 [00:02<00:01, 94.47it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.ln_1.weight[0m", shape: (1024,), dtype: float16 + 66%|███████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/293 [00:02<00:01, 94.47it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.ln_1.bias[0m", shape: (1024,), dtype: float16 + 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/293 [00:02<00:01, 94.47it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/293 [00:02<00:01, 94.47it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/293 [00:02<00:01, 94.47it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/293 [00:02<00:01, 94.47it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/293 [00:02<00:01, 94.47it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.ln_2.weight[0m", shape: (1024,), dtype: float16 + 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/293 [00:02<00:01, 94.47it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.ln_2.bias[0m", shape: (1024,), dtype: float16 + 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/293 [00:02<00:01, 94.47it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/293 [00:02<00:01, 94.47it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/293 [00:02<00:01, 94.47it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 194/293 [00:02<00:01, 94.47it/s] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 206/293 [00:02<00:00, 97.40it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 206/293 [00:02<00:00, 97.40it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.ln_1.weight[0m", shape: (1024,), dtype: float16 + 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 206/293 [00:02<00:00, 97.40it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.ln_1.bias[0m", shape: (1024,), dtype: float16 + 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 206/293 [00:02<00:00, 97.40it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 206/293 [00:02<00:00, 97.40it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 206/293 [00:02<00:00, 97.40it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 206/293 [00:02<00:00, 97.40it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 206/293 [00:02<00:00, 97.40it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.ln_2.weight[0m", shape: (1024,), dtype: float16 + 70%|█████████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 206/293 [00:02<00:00, 97.40it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.ln_2.bias[0m", shape: (1024,), dtype: float16 + 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 206/293 [00:02<00:00, 97.40it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 206/293 [00:02<00:00, 97.40it/s] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 216/293 [00:02<00:00, 92.87it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 216/293 [00:02<00:00, 92.87it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 74%|���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 216/293 [00:02<00:00, 92.87it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 216/293 [00:02<00:00, 92.87it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.ln_1.weight[0m", shape: (1024,), dtype: float16 + 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 216/293 [00:02<00:00, 92.87it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.ln_1.bias[0m", shape: (1024,), dtype: float16 + 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 216/293 [00:02<00:00, 92.87it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��� | 216/293 [00:03<00:00, 92.87it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 216/293 [00:03<00:00, 92.87it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 216/293 [00:03<00:00, 92.87it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 216/293 [00:03<00:00, 92.87it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.ln_2.weight[0m", shape: (1024,), dtype: float16 + 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 216/293 [00:03<00:00, 92.87it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.ln_2.bias[0m", shape: (1024,), dtype: float16 + 74%|���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 216/293 [00:03<00:00, 92.87it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 216/293 [00:03<00:00, 92.87it/s] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 228/293 [00:03<00:00, 97.07it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 228/293 [00:03<00:00, 97.07it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 228/293 [00:03<00:00, 97.07it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 228/293 [00:03<00:00, 97.07it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.ln_1.weight[0m", shape: (1024,), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 228/293 [00:03<00:00, 97.07it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.ln_1.bias[0m", shape: (1024,), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 228/293 [00:03<00:00, 97.07it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 228/293 [00:03<00:00, 97.07it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 228/293 [00:03<00:00, 97.07it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 228/293 [00:03<00:00, 97.07it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 228/293 [00:03<00:00, 97.07it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.ln_2.weight[0m", shape: (1024,), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 228/293 [00:03<00:00, 97.07it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.ln_2.bias[0m", shape: (1024,), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 228/293 [00:03<00:00, 97.07it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 228/293 [00:03<00:00, 97.07it/s] 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 240/293 [00:03<00:00, 93.37it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 240/293 [00:03<00:00, 93.37it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 240/293 [00:03<00:00, 93.37it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████▏ | 240/293 [00:03<00:00, 93.37it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.ln_1.weight[0m", shape: (1024,), dtype: float16 + 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 240/293 [00:03<00:00, 93.37it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.ln_1.bias[0m", shape: (1024,), dtype: float16 + 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 240/293 [00:03<00:00, 93.37it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 240/293 [00:03<00:00, 93.37it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 240/293 [00:03<00:00, 93.37it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 240/293 [00:03<00:00, 93.37it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 240/293 [00:03<00:00, 93.37it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.ln_2.weight[0m", shape: (1024,), dtype: float16 + 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 240/293 [00:03<00:00, 93.37it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.ln_2.bias[0m", shape: (1024,), dtype: float16 + 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 240/293 [00:03<00:00, 93.37it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 82%|████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 240/293 [00:03<00:00, 93.37it/s] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 252/293 [00:03<00:00, 98.31it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 252/293 [00:03<00:00, 98.31it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 252/293 [00:03<00:00, 98.31it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 252/293 [00:03<00:00, 98.31it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.ln_1.weight[0m", shape: (1024,), dtype: float16 + 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 252/293 [00:03<00:00, 98.31it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.ln_1.bias[0m", shape: (1024,), dtype: float16 + 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 252/293 [00:03<00:00, 98.31it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 252/293 [00:03<00:00, 98.31it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 252/293 [00:03<00:00, 98.31it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 252/293 [00:03<00:00, 98.31it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 252/293 [00:03<00:00, 98.31it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.ln_2.weight[0m", shape: (1024,), dtype: float16 + 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 252/293 [00:03<00:00, 98.31it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.ln_2.bias[0m", shape: (1024,), dtype: float16 + 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 252/293 [00:03<00:00, 98.31it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 86%|████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 252/293 [00:03<00:00, 98.31it/s] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 264/293 [00:03<00:00, 101.66it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 264/293 [00:03<00:00, 101.66it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 264/293 [00:03<00:00, 101.66it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 264/293 [00:03<00:00, 101.66it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.ln_1.weight[0m", shape: (1024,), dtype: float16 + 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 264/293 [00:03<00:00, 101.66it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.ln_1.bias[0m", shape: (1024,), dtype: float16 + 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 264/293 [00:03<00:00, 101.66it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 264/293 [00:03<00:00, 101.66it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 264/293 [00:03<00:00, 101.66it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 264/293 [00:03<00:00, 101.66it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 264/293 [00:03<00:00, 101.66it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.ln_2.weight[0m", shape: (1024,), dtype: float16 + 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 264/293 [00:03<00:00, 101.66it/s] [2023-12-28 08:14:17] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.ln_2.bias[0m", shape: (1024,), dtype: float16 + 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 264/293 [00:03<00:00, 101.66it/s] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████ | 275/293 [00:03<00:00, 97.74it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 275/293 [00:03<00:00, 97.74it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 275/293 [00:03<00:00, 97.74it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 275/293 [00:03<00:00, 97.74it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 275/293 [00:03<00:00, 97.74it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.ln_1.weight[0m", shape: (1024,), dtype: float16 + 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 275/293 [00:03<00:00, 97.74it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.ln_1.bias[0m", shape: (1024,), dtype: float16 + 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 275/293 [00:03<00:00, 97.74it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.attn.c_attn.weight[0m", shape: (3072, 1024), dtype: float16 + 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 275/293 [00:03<00:00, 97.74it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.attn.c_attn.bias[0m", shape: (3072,), dtype: float16 + 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 275/293 [00:03<00:00, 97.74it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.attn.c_proj.weight[0m", shape: (1024, 1024), dtype: float16 + 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 275/293 [00:03<00:00, 97.74it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.attn.c_proj.bias[0m", shape: (1024,), dtype: float16 + 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 275/293 [00:03<00:00, 97.74it/s] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 285/293 [00:03<00:00, 95.68it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.ln_2.weight[0m", shape: (1024,), dtype: float16 + 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 285/293 [00:03<00:00, 95.68it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.ln_2.bias[0m", shape: (1024,), dtype: float16 + 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 285/293 [00:03<00:00, 95.68it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mlp.c_fc.weight[0m", shape: (4096, 1024), dtype: float16 + 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 285/293 [00:03<00:00, 95.68it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mlp.c_fc.bias[0m", shape: (4096,), dtype: float16 + 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 285/293 [00:03<00:00, 95.68it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mlp.c_proj.weight[0m", shape: (1024, 4096), dtype: float16 + 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 285/293 [00:03<00:00, 95.68it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mlp.c_proj.bias[0m", shape: (1024,), dtype: float16 + 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 285/293 [00:03<00:00, 95.68it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.ln_f.weight[0m", shape: (1024,), dtype: float16 + 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 285/293 [00:03<00:00, 95.68it/s] [2023-12-28 08:14:18] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.ln_f.bias[0m", shape: (1024,), dtype: float16 + 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 285/293 [00:03<00:00, 95.68it/s] 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 293/293 [00:03<00:00, 78.39it/s] +[2023-12-28 08:14:18] INFO huggingface_loader.py:179: Unloading HF weight file: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/gpt2-medium/pytorch_model.bin +[2023-12-28 08:14:18] INFO stats.py:71: [92mTime usage[0m: HF loading: 1.512 sec; Pre-quantization mapping: 1.772 sec; Quantization: 0.000 sec +[2023-12-28 08:14:18] INFO stats.py:85: [92mRAM usage[0m: Peak RAM: 1.416 GB. Total bytes loaded from disk: 1.416 GB +[2023-12-28 08:14:18] INFO convert_weight.py:110: [92mParameter size[0m after quantization: 0.757 GB +[2023-12-28 08:14:18] INFO convert_weight.py:115: [92mTotal parameters[0m: 406,286,336 +[2023-12-28 08:14:18] INFO convert_weight.py:116: [92mBits per parameter[0m: 16.000 +Start storing to cache /tmp/tmp3xws4nia + [0001/0293] saving lm_head.weight [0002/0293] saving transformer.wte.weight [0003/0293] saving transformer.wpe.weight [0004/0293] saving transformer.h.0.ln_1.weight [0005/0293] saving transformer.h.0.ln_1.bias [0006/0293] saving transformer.h.0.attn.c_attn.weight [0007/0293] saving transformer.h.0.attn.c_attn.bias [0008/0293] saving transformer.h.0.attn.c_proj.weight [0009/0293] saving transformer.h.0.attn.c_proj.bias [0010/0293] saving transformer.h.0.ln_2.weight [0011/0293] saving transformer.h.0.ln_2.bias [0012/0293] saving transformer.h.0.mlp.c_fc.weight [0013/0293] saving transformer.h.0.mlp.c_fc.bias [0014/0293] saving transformer.h.0.mlp.c_proj.weight [0015/0293] saving transformer.h.0.mlp.c_proj.bias [0016/0293] saving transformer.h.1.ln_1.weight [0017/0293] saving transformer.h.1.ln_1.bias [0018/0293] saving transformer.h.1.attn.c_attn.weight [0019/0293] saving transformer.h.1.attn.c_attn.bias [0020/0293] saving transformer.h.1.attn.c_proj.weight [0021/0293] saving transformer.h.1.attn.c_proj.bias [0022/0293] saving transformer.h.1.ln_2.weight [0023/0293] saving transformer.h.1.ln_2.bias [0024/0293] saving transformer.h.1.mlp.c_fc.weight [0025/0293] saving transformer.h.1.mlp.c_fc.bias [0026/0293] saving transformer.h.1.mlp.c_proj.weight [0027/0293] saving transformer.h.1.mlp.c_proj.bias [0028/0293] saving transformer.h.2.ln_1.weight [0029/0293] saving transformer.h.2.ln_1.bias [0030/0293] saving transformer.h.2.attn.c_attn.weight [0031/0293] saving transformer.h.2.attn.c_attn.bias [0032/0293] saving transformer.h.2.attn.c_proj.weight [0033/0293] saving transformer.h.2.attn.c_proj.bias [0034/0293] saving transformer.h.2.ln_2.weight [0035/0293] saving transformer.h.2.ln_2.bias [0036/0293] saving transformer.h.2.mlp.c_fc.weight [0037/0293] saving transformer.h.2.mlp.c_fc.bias [0038/0293] saving transformer.h.2.mlp.c_proj.weight [0039/0293] saving transformer.h.2.mlp.c_proj.bias [0040/0293] saving transformer.h.3.ln_1.weight [0041/0293] saving transformer.h.3.ln_1.bias [0042/0293] saving transformer.h.3.attn.c_attn.weight [0043/0293] saving transformer.h.3.attn.c_attn.bias [0044/0293] saving transformer.h.3.attn.c_proj.weight [0045/0293] saving transformer.h.3.attn.c_proj.bias [0046/0293] saving transformer.h.3.ln_2.weight [0047/0293] saving transformer.h.3.ln_2.bias [0048/0293] saving transformer.h.3.mlp.c_fc.weight [0049/0293] saving transformer.h.3.mlp.c_fc.bias [0050/0293] saving transformer.h.3.mlp.c_proj.weight [0051/0293] saving transformer.h.3.mlp.c_proj.bias [0052/0293] saving transformer.h.4.ln_1.weight [0053/0293] saving transformer.h.4.ln_1.bias [0054/0293] saving transformer.h.4.attn.c_attn.weight [0055/0293] saving transformer.h.4.attn.c_attn.bias [0056/0293] saving transformer.h.4.attn.c_proj.weight [0057/0293] saving transformer.h.4.attn.c_proj.bias [0058/0293] saving transformer.h.4.ln_2.weight [0059/0293] saving transformer.h.4.ln_2.bias [0060/0293] saving transformer.h.4.mlp.c_fc.weight [0061/0293] saving transformer.h.4.mlp.c_fc.bias [0062/0293] saving transformer.h.4.mlp.c_proj.weight [0063/0293] saving transformer.h.4.mlp.c_proj.bias [0064/0293] saving transformer.h.5.ln_1.weight [0065/0293] saving transformer.h.5.ln_1.bias [0066/0293] saving transformer.h.5.attn.c_attn.weight [0067/0293] saving transformer.h.5.attn.c_attn.bias [0068/0293] saving transformer.h.5.attn.c_proj.weight [0069/0293] saving transformer.h.5.attn.c_proj.bias [0070/0293] saving transformer.h.5.ln_2.weight [0071/0293] saving transformer.h.5.ln_2.bias [0072/0293] saving transformer.h.5.mlp.c_fc.weight [0073/0293] saving transformer.h.5.mlp.c_fc.bias [0074/0293] saving transformer.h.5.mlp.c_proj.weight [0075/0293] saving transformer.h.5.mlp.c_proj.bias [0076/0293] saving transformer.h.6.ln_1.weight [0077/0293] saving transformer.h.6.ln_1.bias [0078/0293] saving transformer.h.6.attn.c_attn.weight [0079/0293] saving transformer.h.6.attn.c_attn.bias [0080/0293] saving transformer.h.6.attn.c_proj.weight [0081/0293] saving transformer.h.6.attn.c_proj.bias [0082/0293] saving transformer.h.6.ln_2.weight [0083/0293] saving transformer.h.6.ln_2.bias [0084/0293] saving transformer.h.6.mlp.c_fc.weight [0085/0293] saving transformer.h.6.mlp.c_fc.bias [0086/0293] saving transformer.h.6.mlp.c_proj.weight [0087/0293] saving transformer.h.6.mlp.c_proj.bias [0088/0293] saving transformer.h.7.ln_1.weight [0089/0293] saving transformer.h.7.ln_1.bias [0090/0293] saving transformer.h.7.attn.c_attn.weight [0091/0293] saving transformer.h.7.attn.c_attn.bias [0092/0293] saving transformer.h.7.attn.c_proj.weight [0093/0293] saving transformer.h.7.attn.c_proj.bias [0094/0293] saving transformer.h.7.ln_2.weight [0095/0293] saving transformer.h.7.ln_2.bias [0096/0293] saving transformer.h.7.mlp.c_fc.weight [0097/0293] saving transformer.h.7.mlp.c_fc.bias [0098/0293] saving transformer.h.7.mlp.c_proj.weight [0099/0293] saving transformer.h.7.mlp.c_proj.bias [0100/0293] saving transformer.h.8.ln_1.weight [0101/0293] saving transformer.h.8.ln_1.bias [0102/0293] saving transformer.h.8.attn.c_attn.weight [0103/0293] saving transformer.h.8.attn.c_attn.bias [0104/0293] saving transformer.h.8.attn.c_proj.weight [0105/0293] saving transformer.h.8.attn.c_proj.bias [0106/0293] saving transformer.h.8.ln_2.weight [0107/0293] saving transformer.h.8.ln_2.bias [0108/0293] saving transformer.h.8.mlp.c_fc.weight [0109/0293] saving transformer.h.8.mlp.c_fc.bias [0110/0293] saving transformer.h.8.mlp.c_proj.weight [0111/0293] saving transformer.h.8.mlp.c_proj.bias [0112/0293] saving transformer.h.9.ln_1.weight [0113/0293] saving transformer.h.9.ln_1.bias [0114/0293] saving transformer.h.9.attn.c_attn.weight [0115/0293] saving transformer.h.9.attn.c_attn.bias [0116/0293] saving transformer.h.9.attn.c_proj.weight [0117/0293] saving transformer.h.9.attn.c_proj.bias [0118/0293] saving transformer.h.9.ln_2.weight [0119/0293] saving transformer.h.9.ln_2.bias [0120/0293] saving transformer.h.9.mlp.c_fc.weight [0121/0293] saving transformer.h.9.mlp.c_fc.bias [0122/0293] saving transformer.h.9.mlp.c_proj.weight [0123/0293] saving transformer.h.9.mlp.c_proj.bias [0124/0293] saving transformer.h.10.ln_1.weight [0125/0293] saving transformer.h.10.ln_1.bias [0126/0293] saving transformer.h.10.attn.c_attn.weight [0127/0293] saving transformer.h.10.attn.c_attn.bias [0128/0293] saving transformer.h.10.attn.c_proj.weight [0129/0293] saving transformer.h.10.attn.c_proj.bias [0130/0293] saving transformer.h.10.ln_2.weight [0131/0293] saving transformer.h.10.ln_2.bias [0132/0293] saving transformer.h.10.mlp.c_fc.weight [0133/0293] saving transformer.h.10.mlp.c_fc.bias [0134/0293] saving transformer.h.10.mlp.c_proj.weight [0135/0293] saving transformer.h.10.mlp.c_proj.bias [0136/0293] saving transformer.h.11.ln_1.weight [0137/0293] saving transformer.h.11.ln_1.bias [0138/0293] saving transformer.h.11.attn.c_attn.weight [0139/0293] saving transformer.h.11.attn.c_attn.bias [0140/0293] saving transformer.h.11.attn.c_proj.weight [0141/0293] saving transformer.h.11.attn.c_proj.bias [0142/0293] saving transformer.h.11.ln_2.weight [0143/0293] saving transformer.h.11.ln_2.bias [0144/0293] saving transformer.h.11.mlp.c_fc.weight [0145/0293] saving transformer.h.11.mlp.c_fc.bias [0146/0293] saving transformer.h.11.mlp.c_proj.weight [0147/0293] saving transformer.h.11.mlp.c_proj.bias [0148/0293] saving transformer.h.12.ln_1.weight [0149/0293] saving transformer.h.12.ln_1.bias [0150/0293] saving transformer.h.12.attn.c_attn.weight [0151/0293] saving transformer.h.12.attn.c_attn.bias [0152/0293] saving transformer.h.12.attn.c_proj.weight [0153/0293] saving transformer.h.12.attn.c_proj.bias [0154/0293] saving transformer.h.12.ln_2.weight [0155/0293] saving transformer.h.12.ln_2.bias [0156/0293] saving transformer.h.12.mlp.c_fc.weight [0157/0293] saving transformer.h.12.mlp.c_fc.bias [0158/0293] saving transformer.h.12.mlp.c_proj.weight [0159/0293] saving transformer.h.12.mlp.c_proj.bias [0160/0293] saving transformer.h.13.ln_1.weight [0161/0293] saving transformer.h.13.ln_1.bias [0162/0293] saving transformer.h.13.attn.c_attn.weight [0163/0293] saving transformer.h.13.attn.c_attn.bias [0164/0293] saving transformer.h.13.attn.c_proj.weight [0165/0293] saving transformer.h.13.attn.c_proj.bias [0166/0293] saving transformer.h.13.ln_2.weight [0167/0293] saving transformer.h.13.ln_2.bias [0168/0293] saving transformer.h.13.mlp.c_fc.weight [0169/0293] saving transformer.h.13.mlp.c_fc.bias [0170/0293] saving transformer.h.13.mlp.c_proj.weight [0171/0293] saving transformer.h.13.mlp.c_proj.bias [0172/0293] saving transformer.h.14.ln_1.weight [0173/0293] saving transformer.h.14.ln_1.bias [0174/0293] saving transformer.h.14.attn.c_attn.weight [0175/0293] saving transformer.h.14.attn.c_attn.bias [0176/0293] saving transformer.h.14.attn.c_proj.weight [0177/0293] saving transformer.h.14.attn.c_proj.bias [0178/0293] saving transformer.h.14.ln_2.weight [0179/0293] saving transformer.h.14.ln_2.bias [0180/0293] saving transformer.h.14.mlp.c_fc.weight [0181/0293] saving transformer.h.14.mlp.c_fc.bias [0182/0293] saving transformer.h.14.mlp.c_proj.weight [0183/0293] saving transformer.h.14.mlp.c_proj.bias [0184/0293] saving transformer.h.15.ln_1.weight [0185/0293] saving transformer.h.15.ln_1.bias [0186/0293] saving transformer.h.15.attn.c_attn.weight [0187/0293] saving transformer.h.15.attn.c_attn.bias [0188/0293] saving transformer.h.15.attn.c_proj.weight [0189/0293] saving transformer.h.15.attn.c_proj.bias [0190/0293] saving transformer.h.15.ln_2.weight [0191/0293] saving transformer.h.15.ln_2.bias [0192/0293] saving transformer.h.15.mlp.c_fc.weight [0193/0293] saving transformer.h.15.mlp.c_fc.bias [0194/0293] saving transformer.h.15.mlp.c_proj.weight [0195/0293] saving transformer.h.15.mlp.c_proj.bias [0196/0293] saving transformer.h.16.ln_1.weight [0197/0293] saving transformer.h.16.ln_1.bias [0198/0293] saving transformer.h.16.attn.c_attn.weight [0199/0293] saving transformer.h.16.attn.c_attn.bias [0200/0293] saving transformer.h.16.attn.c_proj.weight [0201/0293] saving transformer.h.16.attn.c_proj.bias [0202/0293] saving transformer.h.16.ln_2.weight [0203/0293] saving transformer.h.16.ln_2.bias [0204/0293] saving transformer.h.16.mlp.c_fc.weight [0205/0293] saving transformer.h.16.mlp.c_fc.bias [0206/0293] saving transformer.h.16.mlp.c_proj.weight [0207/0293] saving transformer.h.16.mlp.c_proj.bias [0208/0293] saving transformer.h.17.ln_1.weight [0209/0293] saving transformer.h.17.ln_1.bias [0210/0293] saving transformer.h.17.attn.c_attn.weight [0211/0293] saving transformer.h.17.attn.c_attn.bias [0212/0293] saving transformer.h.17.attn.c_proj.weight [0213/0293] saving transformer.h.17.attn.c_proj.bias [0214/0293] saving transformer.h.17.ln_2.weight [0215/0293] saving transformer.h.17.ln_2.bias [0216/0293] saving transformer.h.17.mlp.c_fc.weight [0217/0293] saving transformer.h.17.mlp.c_fc.bias [0218/0293] saving transformer.h.17.mlp.c_proj.weight [0219/0293] saving transformer.h.17.mlp.c_proj.bias [0220/0293] saving transformer.h.18.ln_1.weight [0221/0293] saving transformer.h.18.ln_1.bias [0222/0293] saving transformer.h.18.attn.c_attn.weight [0223/0293] saving transformer.h.18.attn.c_attn.bias [0224/0293] saving transformer.h.18.attn.c_proj.weight [0225/0293] saving transformer.h.18.attn.c_proj.bias [0226/0293] saving transformer.h.18.ln_2.weight [0227/0293] saving transformer.h.18.ln_2.bias [0228/0293] saving transformer.h.18.mlp.c_fc.weight [0229/0293] saving transformer.h.18.mlp.c_fc.bias [0230/0293] saving transformer.h.18.mlp.c_proj.weight [0231/0293] saving transformer.h.18.mlp.c_proj.bias [0232/0293] saving transformer.h.19.ln_1.weight [0233/0293] saving transformer.h.19.ln_1.bias [0234/0293] saving transformer.h.19.attn.c_attn.weight[2023-12-28 08:14:20] INFO convert_weight.py:132: Saved to directory: [1m/tmp/tmp3xws4nia[0m + [0235/0293] saving transformer.h.19.attn.c_attn.bias [0236/0293] saving transformer.h.19.attn.c_proj.weight [0237/0293] saving transformer.h.19.attn.c_proj.bias [0238/0293] saving transformer.h.19.ln_2.weight [0239/0293] saving transformer.h.19.ln_2.bias [0240/0293] saving transformer.h.19.mlp.c_fc.weight [0241/0293] saving transformer.h.19.mlp.c_fc.bias [0242/0293] saving transformer.h.19.mlp.c_proj.weight [0243/0293] saving transformer.h.19.mlp.c_proj.bias [0244/0293] saving transformer.h.20.ln_1.weight [0245/0293] saving transformer.h.20.ln_1.bias [0246/0293] saving transformer.h.20.attn.c_attn.weight [0247/0293] saving transformer.h.20.attn.c_attn.bias [0248/0293] saving transformer.h.20.attn.c_proj.weight [0249/0293] saving transformer.h.20.attn.c_proj.bias [0250/0293] saving transformer.h.20.ln_2.weight [0251/0293] saving transformer.h.20.ln_2.bias [0252/0293] saving transformer.h.20.mlp.c_fc.weight [0253/0293] saving transformer.h.20.mlp.c_fc.bias [0254/0293] saving transformer.h.20.mlp.c_proj.weight [0255/0293] saving transformer.h.20.mlp.c_proj.bias [0256/0293] saving transformer.h.21.ln_1.weight [0257/0293] saving transformer.h.21.ln_1.bias [0258/0293] saving transformer.h.21.attn.c_attn.weight [0259/0293] saving transformer.h.21.attn.c_attn.bias [0260/0293] saving transformer.h.21.attn.c_proj.weight [0261/0293] saving transformer.h.21.attn.c_proj.bias [0262/0293] saving transformer.h.21.ln_2.weight [0263/0293] saving transformer.h.21.ln_2.bias [0264/0293] saving transformer.h.21.mlp.c_fc.weight [0265/0293] saving transformer.h.21.mlp.c_fc.bias [0266/0293] saving transformer.h.21.mlp.c_proj.weight [0267/0293] saving transformer.h.21.mlp.c_proj.bias [0268/0293] saving transformer.h.22.ln_1.weight [0269/0293] saving transformer.h.22.ln_1.bias [0270/0293] saving transformer.h.22.attn.c_attn.weight [0271/0293] saving transformer.h.22.attn.c_attn.bias [0272/0293] saving transformer.h.22.attn.c_proj.weight [0273/0293] saving transformer.h.22.attn.c_proj.bias [0274/0293] saving transformer.h.22.ln_2.weight [0275/0293] saving transformer.h.22.ln_2.bias [0276/0293] saving transformer.h.22.mlp.c_fc.weight [0277/0293] saving transformer.h.22.mlp.c_fc.bias [0278/0293] saving transformer.h.22.mlp.c_proj.weight [0279/0293] saving transformer.h.22.mlp.c_proj.bias [0280/0293] saving transformer.h.23.ln_1.weight [0281/0293] saving transformer.h.23.ln_1.bias [0282/0293] saving transformer.h.23.attn.c_attn.weight [0283/0293] saving transformer.h.23.attn.c_attn.bias [0284/0293] saving transformer.h.23.attn.c_proj.weight [0285/0293] saving transformer.h.23.attn.c_proj.bias [0286/0293] saving transformer.h.23.ln_2.weight [0287/0293] saving transformer.h.23.ln_2.bias [0288/0293] saving transformer.h.23.mlp.c_fc.weight [0289/0293] saving transformer.h.23.mlp.c_fc.bias [0290/0293] saving transformer.h.23.mlp.c_proj.weight [0291/0293] saving transformer.h.23.mlp.c_proj.bias [0292/0293] saving transformer.ln_f.weight [0293/0293] saving transformer.ln_f.bias +All finished, 26 total shards committed, record saved to /tmp/tmp3xws4nia/ndarray-cache.json