qwen2.5-32b-milkdrop

Running on Zero

1inkusFace commited on 5 days ago

Commit

01293f8

verified ·

1 Parent(s): 9b2f6e3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -19,10 +19,9 @@ os.putenv('HF_HUB_ENABLE_HF_TRANSFER','1')
 # ## GGUF MOD: BitsAndBytesConfig is no longer needed.
 from ctransformers import AutoModelForCausalLM
 from transformers import AutoTokenizer
-device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 # ## GGUF MOD: PyTorch backend settings are not used by ctransformers.
-# torch.backends.cuda.matmul.allow_tf32 = True
 # ... (rest of torch settings removed for clarity)
 # --- Model and Tokenizer Configuration ---
@@ -47,8 +46,8 @@ print("Loading GGUF model...")
 #   leading to much faster inference. Adjust this number based on your VRAM.
 # - hf=True: This tells ctransformers to download from the Hugging Face Hub.
-@spaces.GPU(require=True)
 def loadModel():
     model = AutoModelForCausalLM.from_pretrained(
     model_repo_id,
     model_file=model_file,

 # ## GGUF MOD: BitsAndBytesConfig is no longer needed.
 from ctransformers import AutoModelForCausalLM
 from transformers import AutoTokenizer
 # ## GGUF MOD: PyTorch backend settings are not used by ctransformers.
+torch.backends.cuda.matmul.allow_tf32 = True
 # ... (rest of torch settings removed for clarity)
 # --- Model and Tokenizer Configuration ---
 #   leading to much faster inference. Adjust this number based on your VRAM.
 # - hf=True: This tells ctransformers to download from the Hugging Face Hub.
 def loadModel():
+    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
     model = AutoModelForCausalLM.from_pretrained(
     model_repo_id,
     model_file=model_file,