Spaces:

Steven10429
/

apply_lora_and_quantize

Paused

App Files Files Community

Steven10429 commited on Feb 13

Commit

999165e

1 Parent(s): ebbc7fa

1

Browse files

Files changed (1) hide show

app.py +0 -15

app.py CHANGED Viewed

@@ -74,17 +74,12 @@ def check_system_resources(model_name):
     if MEMORY >= required_memory_gb:
         log.info("✅ Sufficient CPU memory available; using CPU.")
-<<<<<<< HEAD
         return "cpu", MEMORY
     else:
         log.warning(f"⚠️ Insufficient CPU memory (requires {required_memory_gb:.1f}GB, found {MEMORY}GB).")
         log.error("❌ No CPU detected.")
         log.error("Will try low memory mode, but it may fail.")
         return "cpu", MEMORY
-=======
-        return "cpu", total_memory_gb
->>>>>>> 1d6ffe4bce1a741111b16de1ba110e1ee56b92df
 @timeit
 def setup_environment(model_name):
@@ -129,24 +124,14 @@ def download_and_merge_model(base_model_name, lora_model_name, output_dir, devic
     """
     os.makedirs("temp", exist_ok=True)
     log.info("Loading base model...")
-<<<<<<< HEAD
     model = AutoModelForCausalLM.from_pretrained(base_model_name, low_cpu_mem_usage=True, device_map="auto", force_download=True, trust_remote_code=True, torch_dtype=torch.float16)
     log.info("Loading adapter tokenizer...")
     adapter_tokenizer = AutoTokenizer.from_pretrained(lora_model_name, trust_remote_code=True, device_map="auto", force_download=True, trust_remote_code=True, torch_dtype=torch.float16)
-=======
-    model = AutoModelForCausalLM.from_pretrained(base_model_name, low_cpu_mem_usage=True, device_map="auto")
-    log.info("Loading adapter tokenizer...")
-    adapter_tokenizer = AutoTokenizer.from_pretrained(lora_model_name, trust_remote_code=True, device_map="auto")
->>>>>>> 1d6ffe4bce1a741111b16de1ba110e1ee56b92df
     log.info("Resizing token embeddings...")
     added_tokens_decoder = adapter_tokenizer.added_tokens_decoder
     model.resize_token_embeddings(adapter_tokenizer.vocab_size + len(added_tokens_decoder))
     log.info("Loading LoRA adapter...")
-<<<<<<< HEAD
     peft_model = PeftModel.from_pretrained(model, lora_model_name, low_cpu_mem_usage=True, device_map="auto", force_download=True, trust_remote_code=True, torch_dtype=torch.float16)
-=======
-    peft_model = PeftModel.from_pretrained(model, lora_model_name, low_cpu_mem_usage=True, device_map="auto")
->>>>>>> 1d6ffe4bce1a741111b16de1ba110e1ee56b92df
     log.info("Merging and unloading model...")
     model = peft_model.merge_and_unload()
     log.info("Saving model...")

     if MEMORY >= required_memory_gb:
         log.info("✅ Sufficient CPU memory available; using CPU.")
         return "cpu", MEMORY
     else:
         log.warning(f"⚠️ Insufficient CPU memory (requires {required_memory_gb:.1f}GB, found {MEMORY}GB).")
         log.error("❌ No CPU detected.")
         log.error("Will try low memory mode, but it may fail.")
         return "cpu", MEMORY
 @timeit
 def setup_environment(model_name):
     """
     os.makedirs("temp", exist_ok=True)
     log.info("Loading base model...")
     model = AutoModelForCausalLM.from_pretrained(base_model_name, low_cpu_mem_usage=True, device_map="auto", force_download=True, trust_remote_code=True, torch_dtype=torch.float16)
     log.info("Loading adapter tokenizer...")
     adapter_tokenizer = AutoTokenizer.from_pretrained(lora_model_name, trust_remote_code=True, device_map="auto", force_download=True, trust_remote_code=True, torch_dtype=torch.float16)
     log.info("Resizing token embeddings...")
     added_tokens_decoder = adapter_tokenizer.added_tokens_decoder
     model.resize_token_embeddings(adapter_tokenizer.vocab_size + len(added_tokens_decoder))
     log.info("Loading LoRA adapter...")
     peft_model = PeftModel.from_pretrained(model, lora_model_name, low_cpu_mem_usage=True, device_map="auto", force_download=True, trust_remote_code=True, torch_dtype=torch.float16)
     log.info("Merging and unloading model...")
     model = peft_model.merge_and_unload()
     log.info("Saving model...")