Spaces:

ujwal55
/

Model-Benchmarking_tool

Sleeping

App Files Files Community

ujwal55 commited on 5 days ago

Commit

d659432

verified ·

1 Parent(s): db5dc60

Create app.py

Browse files

Files changed (1) hide show

app.py +81 -0

app.py ADDED Viewed

	@@ -0,0 +1,81 @@

+import time
+import gradio as gr
+import os
+import psutil
+import shutil
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from llama_cpp import Llama
+def run_test(model_type, repo_id, file_name, test_prompt):
+    result = {}
+    # Disk usage before download
+    disk_before = shutil.disk_usage("/")[2]
+    start_time = time.time()
+    process = psutil.Process(os.getpid())
+    cpu_start = process.cpu_percent(interval=0.1)
+    mem_start = process.memory_info().rss
+    try:
+        if model_type == "transformers":
+            tokenizer = AutoTokenizer.from_pretrained(repo_id)
+            model = AutoModelForCausalLM.from_pretrained(repo_id)
+            inputs = tokenizer(test_prompt, return_tensors="pt")
+            with torch.no_grad():
+                outputs = model.generate(**inputs, max_new_tokens=50)
+            output_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        else:
+            gguf_path = f"./{file_name}"
+            if not os.path.exists(gguf_path):
+                # Auto download from Hugging Face model repo if not already
+                from huggingface_hub import hf_hub_download
+                hf_hub_download(repo_id=repo_id, filename=file_name, local_dir="./", local_dir_use_symlinks=False)
+            llm = Llama(model_path=gguf_path, n_ctx=2048)
+            output_text = llm(test_prompt, max_tokens=128)["choices"][0]["text"]
+    except Exception as e:
+        return f"❌ Error: {str(e)}", "", "", "", ""
+    end_time = time.time()
+    # Memory and CPU after
+    mem_end = process.memory_info().rss
+    cpu_end = process.cpu_percent(interval=0.1)
+    # Disk usage after
+    disk_after = shutil.disk_usage("/")[2]
+    result["output"] = output_text
+    result["inference_time"] = round(end_time - start_time, 2)
+    result["memory_used_MB"] = round((mem_end - mem_start) / (1024 * 1024), 2)
+    result["cpu_percent"] = round(cpu_end - cpu_start, 2)
+    result["disk_used_MB"] = round((disk_before - disk_after) / (1024 * 1024), 2)
+    return (
+        result["output"],
+        f"{result['inference_time']} sec",
+        f"{result['cpu_percent']}%",
+        f"{result['memory_used_MB']} MB",
+        f"{result['disk_used_MB']} MB"
+    )
+gr.Interface(
+    fn=run_test,
+    inputs=[
+        gr.Dropdown(["transformers", "gguf"], label="Model Type"),
+        gr.Textbox(label="Repo ID (e.g., TheBloke/Mistral-7B-Instruct-v0.1-GGUF)"),
+        gr.Textbox(label="Model File Name (only for GGUF)", placeholder="mistral.Q4_0.gguf"),
+        gr.Textbox(label="Test Prompt", value="What is the treatment for lumbar disc herniation?")
+    ],
+    outputs=[
+        gr.Textbox(label="Model Output"),
+        gr.Textbox(label="Inference Time"),
+        gr.Textbox(label="CPU Usage"),
+        gr.Textbox(label="RAM Usage"),
+        gr.Textbox(label="Disk Usage (downloaded size)")
+    ],
+    title="🧪 Model Benchmark Tester - HF CPU Space",
+    description="Input repo and model file name to benchmark GGUF or Transformers models."
+).launch()