Spaces:

Steven10429
/

apply_lora_and_quantize

Running

Steven10429 commited on 27 days ago

Commit

90b81c5

1 Parent(s): 52db102

add offload

Files changed (1) hide show

app.py CHANGED Viewed

@@ -112,15 +112,16 @@ def download_and_merge_model(base_model_name, lora_model_name, output_dir, devic
     5. 求 base 与 adapter tokenizer 的词表并取并集，扩展 tokenizer
     6. 调整合并模型嵌入层尺寸并保存
     """
     log.info("Loading base model...")
-    model = AutoModelForCausalLM.from_pretrained(base_model_name, low_cpu_mem_usage=True)
     log.info("Loading adapter tokenizer...")
-    adapter_tokenizer = AutoTokenizer.from_pretrained(lora_model_name)
     log.info("Resizing token embeddings...")
     added_tokens_decoder = adapter_tokenizer.added_tokens_decoder
     model.resize_token_embeddings(adapter_tokenizer.vocab_size + len(added_tokens_decoder))
     log.info("Loading LoRA adapter...")
-    peft_model = PeftModel.from_pretrained(model, lora_model_name, low_cpu_mem_usage=True)
     log.info("Merging and unloading model...")
     model = peft_model.merge_and_unload()
     log.info("Saving model...")
@@ -347,7 +348,7 @@ def create_ui():
                 )
                 convert_btn = gr.Button("Start Conversion", variant="primary")
             with gr.Column():
-                Log("convert.log", dark=True, xterm_font_size=12, height=480)
         convert_btn.click(
             fn=process_model,
             inputs=[base_model, lora_model, repo_name, quant_method, hf_token],

     5. 求 base 与 adapter tokenizer 的词表并取并集，扩展 tokenizer
     6. 调整合并模型嵌入层尺寸并保存
     """
+    os.makedirs("temp", exist_ok=True)
     log.info("Loading base model...")
+    model = AutoModelForCausalLM.from_pretrained(base_model_name, low_cpu_mem_usage=True, trust_remote_code=True, device=device, offload_folder="temp")
     log.info("Loading adapter tokenizer...")
+    adapter_tokenizer = AutoTokenizer.from_pretrained(lora_model_name, trust_remote_code=True, device=device, offload_folder="temp")
     log.info("Resizing token embeddings...")
     added_tokens_decoder = adapter_tokenizer.added_tokens_decoder
     model.resize_token_embeddings(adapter_tokenizer.vocab_size + len(added_tokens_decoder))
     log.info("Loading LoRA adapter...")
+    peft_model = PeftModel.from_pretrained(model, lora_model_name, low_cpu_mem_usage=True, trust_remote_code=True, device=device, offload_folder="temp")
     log.info("Merging and unloading model...")
     model = peft_model.merge_and_unload()
     log.info("Saving model...")
                 )
                 convert_btn = gr.Button("Start Conversion", variant="primary")
             with gr.Column():
+                Log("convert.log", dark=True, xterm_font_size=12)
         convert_btn.click(
             fn=process_model,
             inputs=[base_model, lora_model, repo_name, quant_method, hf_token],