vicuna-expand-30b

Running on Zero

ford442 commited on May 12

Commit

57b5bb0

verified ·

1 Parent(s): a27a107

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -56,7 +56,7 @@ model = AutoModelForCausalLM.from_pretrained(
    # quantization_config=quantization_config_4bit, # Comment out if not using quantization
     device_map="auto",
     offload_folder='./',
-).to(torch.float16) #.to(torch.device("cuda:0"), torch.bfloat16)
 print(f"Loading tokenizer: {model_name}")
 tokenizer = AutoTokenizer.from_pretrained(
@@ -131,8 +131,8 @@ def generate_code(prompt: str) -> str:
     with torch.no_grad():
         generated_ids = model.generate(
             **model_inputs, # Pass tokenized inputs
-            max_new_tokens=128,
-            min_new_tokens=64,
             do_sample=True,
             temperature=0.7,
             top_p=0.9,

    # quantization_config=quantization_config_4bit, # Comment out if not using quantization
     device_map="auto",
     offload_folder='./',
+).to(torch.bfloat16) #.to(torch.device("cuda:0"), torch.bfloat16)
 print(f"Loading tokenizer: {model_name}")
 tokenizer = AutoTokenizer.from_pretrained(
     with torch.no_grad():
         generated_ids = model.generate(
             **model_inputs, # Pass tokenized inputs
+            max_new_tokens=192,
+            min_new_tokens=128,
             do_sample=True,
             temperature=0.7,
             top_p=0.9,