Spaces:

isana25
/

Domain_Specific_QA_Chatbot

Runtime error

App Files Files Community

isana25 commited on May 14

Commit

97b8e7d

verified ·

1 Parent(s): 2180e83

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -21

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ from PyPDF2 import PdfReader
 from tempfile import NamedTemporaryFile
 # Initialize Groq client
-client = Groq(api_key=os.environ.get('GROQ_API_KEY'))
 # Function to extract text from a PDF
 def extract_text_from_pdf(pdf_file_path):
@@ -70,11 +70,11 @@ def download_pdf_from_url(url):
     else:
         return None
-# Function to process multiple PDFs and return the vector store
-def process_documents(links):
     vector_db = None
-    for idx, link in enumerate(links):
-        print(f"Processing document {idx + 1}...")
         pdf_path = download_pdf_from_url(link)
         if pdf_path:
             text = extract_text_from_pdf(pdf_path)
@@ -82,22 +82,28 @@ def process_documents(links):
             vector_db = create_embeddings_and_store(chunks, vector_db=vector_db)
             print(f"✅ Document {idx + 1} processed.")
         else:
-            print(f"❌ Failed to process document {idx + 1}.")
     return vector_db
-# Example usage (to be called from Graido backend logic)
-if __name__ == "__main__":
-    doc_links = [
-        "https://drive.google.com/file/d/1YWX-RYxgtcKO1QETnz1N3rboZUhRZwcH/view?usp=sharing",
-        "https://drive.google.com/file/d/1JPf0XvDhn8QoDOlZDrxCOpu4WzKFESNz/view?usp=sharing",
-    ]
     vector_db = process_documents(doc_links)
-    while True:
-        user_query = input("Enter your query (or 'exit'): ")
-        if user_query.lower() == "exit":
-            break
-        if vector_db:
-            response = query_vector_db(user_query, vector_db)
-            print("💬 Response:", response)
-        else:
-            print("⚠️ No documents available to query.")

 from tempfile import NamedTemporaryFile
 # Initialize Groq client
+client = Groq(api_key=os.environ['GROQ_API_KEY'])
 # Function to extract text from a PDF
 def extract_text_from_pdf(pdf_file_path):
     else:
         return None
+# Function to process all documents and build vector DB
+def process_documents(doc_links):
     vector_db = None
+    for idx, link in enumerate(doc_links):
+        print(f"📄 Processing document {idx + 1}...")
         pdf_path = download_pdf_from_url(link)
         if pdf_path:
             text = extract_text_from_pdf(pdf_path)
             vector_db = create_embeddings_and_store(chunks, vector_db=vector_db)
             print(f"✅ Document {idx + 1} processed.")
         else:
+            print(f"❌ Failed to process document {idx + 1}")
     return vector_db
+# Main callable function for Graido
+def run_query_pipeline(doc_links, user_query):
+    """
+    Process documents and run a query. Returns LLM response.
+    Args:
+        doc_links (List[str]): List of Google Drive view links
+        user_query (str): User's natural language query
+    Returns:
+        str: LLM-generated response based on document context
+    """
     vector_db = process_documents(doc_links)
+    if not vector_db:
+        return "⚠️ No documents could be processed."
+    if not user_query:
+        return "⚠️ No user query provided."
+    response = query_vector_db(user_query, vector_db)
+    return response