Spaces:

bacancydataprophets
/

insurance_bot

Sleeping

App Files Files Community

HarshSanghavi commited on Jul 18, 2024

Commit

188a44f

verified ·

1 Parent(s): f278e58

Upload 21 files

Browse files

Files changed (21) hide show

app.py +97 -0
app_config.py +78 -0
data/Annexure-(I).pdf +0 -0
data/Annexure-(II).pdf +0 -0
data/Annexure-(III).pdf +0 -0
data/Annexure-(IV).pdf +0 -0
data/Annexure-I-(1).pdf +0 -0
data/Annexure-II-(1).pdf +0 -0
data/Claims Settlement Requirements.pdf +0 -0
data/Customer Service.pdf +0 -0
data/Form-for-contact-details-of-PH.pdf +0 -0
data/Guide-to-Policyholders.pdf +0 -0
data/INCOME-TAX-BENEFIT.pdf +0 -0
data/NRI Centre.pdf +0 -0
data/Phone Help Line.pdf +0 -0
data/Policy Guidelines & Helpline.pdf +0 -0
data/Policy Status.pdf +0 -0
data/Spurious-calls.pdf +0 -0
data/Term of Insurance.pdf +0 -0
data/final-LIC-self-certfication-individuals-23-April-2023.pdf +0 -0
requirements.txt +11 -0

app.py ADDED Viewed

	@@ -0,0 +1,97 @@

+import streamlit as st
+import random
+from app_config import SYSTEM_PROMPT, NLP_MODEL_NAME, NUMBER_OF_VECTORS_FOR_RAG, NLP_MODEL_TEMPERATURE, NLP_MODEL_MAX_TOKENS, VECTOR_MAX_TOKENS,my_vector_store,chat,tiktoken_len
+from langchain.memory import ConversationSummaryBufferMemory
+from langchain_core.messages import SystemMessage, HumanMessage, AIMessage
+from langchain.chains.summarize import load_summarize_chain
+from langchain.prompts import PromptTemplate
+from langchain_groq import ChatGroq
+from dotenv import load_dotenv
+from pathlib import Path
+import os
+env_path = Path('.') / '.env'
+load_dotenv(dotenv_path=env_path)
+def response_generator(prompt: str) -> str:
+    """this function can be used for general quetion answers which are related to tyrex and tyre recycling
+    Args:
+        prompt (string): user query
+    Returns:
+        string: answer of the query
+    """
+    try:
+        retriever = st.session_state.retriever
+        docs = retriever.invoke(prompt)
+        my_context = [doc.page_content for doc in docs]
+        my_context = '\n\n'.join(my_context)
+        system_message = SystemMessage(content = SYSTEM_PROMPT.format(context=my_context, previous_message_summary=st.session_state.rag_memory.moving_summary_buffer))
+        chat_messages = (system_message + st.session_state.rag_memory.chat_memory.messages + HumanMessage(content=prompt)).messages
+        print("total tokens: ", tiktoken_len(str(chat_messages)))
+        # print("my_context*********",my_context)
+        response = st.session_state.llm.invoke(chat_messages)
+        return response.content
+    except Exception as error:
+        print(error)
+        return "Oops! something went wrong, please try again."
+st.markdown(
+    """
+<style>
+    .st-emotion-cache-janbn0 {
+        flex-direction: row-reverse;
+        text-align: right;
+    }
+</style>
+""",
+    unsafe_allow_html=True,
+)
+# When user gives input
+print("SYSTEM MESSAGE")
+if "messages" not in st.session_state:
+    st.session_state.messages=[{"role": "system", "content": SYSTEM_PROMPT}]
+print("SYSTEM MODEL")
+if "llm" not in st.session_state:
+    st.session_state.llm = ChatGroq(temperature=NLP_MODEL_TEMPERATURE, groq_api_key=str(os.getenv('GROQ_API_KEY')), model_name=NLP_MODEL_NAME)
+print("rag")
+if "rag_memory" not in st.session_state:
+    st.session_state.rag_memory = ConversationSummaryBufferMemory(llm=st.session_state.llm, max_token_limit= 5000)
+print("retrival")
+if "retriever" not in st.session_state:
+    # vector_store = get_vectorstore_with_doc_from_pdf('GPT OUTPUT.pdf')
+    st.session_state.retriever = my_vector_store.as_retriever(k=NUMBER_OF_VECTORS_FOR_RAG)
+st.title("LIC Mitra: Customer Support for LIC Policies")
+print("container")
+# Display chat messages from history
+container =  st.container(height=600)
+for message in st.session_state.messages:
+    if message["role"] != "system":
+        with container.chat_message(message["role"]):
+            st.write(message["content"])
+if prompt := st.chat_input("Enter your query here... "):
+    with container.chat_message("user"):
+        st.write(prompt)
+    st.session_state.messages.append({"role":"user" , "content":prompt})
+    with container.chat_message("assistant"):
+        response = response_generator(prompt=prompt)
+        print("******************************************************** Response ********************************************************")
+        print("MY RESPONSE IS:", response)
+        st.write(response)
+    print("Response is:", response)
+    st.session_state.rag_memory.save_context({'input': prompt}, {'output': response})
+    st.session_state.messages.append({"role":"assistant" , "content":response})

app_config.py ADDED Viewed

	@@ -0,0 +1,78 @@

+import tiktoken
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from langchain_chroma import Chroma
+from langchain_community.embeddings import HuggingFaceBgeEmbeddings
+from langchain.document_loaders import PyPDFLoader
+from langchain.memory import ConversationSummaryBufferMemory
+from langchain_groq import ChatGroq
+import os
+tokenizer = tiktoken.get_encoding('cl100k_base')
+FILE_NAMEs  = os.listdir('data')
+# system_template = """ you are LIC Customer Service Chatbot.
+# Use the following pieces of context to answer the user's question.
+# If you don't know the answer, just say that you don't know, don't try to make up an answer.
+# ----------------
+# {context}"""
+SYSTEM_PROMPT = """
+you are LIC Customer Service Chatbot.
+Use the following pieces of context to answer the user's question.
+If you don't know the answer, just say that you don't know, don't try to make up an answer.
+context: {context}
+previous message summary: {previous_message_summary}
+"""
+human_template = "{question}"
+NLP_MODEL_NAME = "llama3-70b-8192"
+REASONING_MODEL_NAME = "mixtral-8x7b-32768"
+REASONING_MODEL_TEMPERATURE = 0
+NLP_MODEL_TEMPERATURE = 0
+NLP_MODEL_MAX_TOKENS = 5400
+VECTOR_MAX_TOKENS = 100
+VECTORS_TOKEN_OVERLAP_SIZE = 20
+NUMBER_OF_VECTORS_FOR_RAG = 7
+# create the length function
+def tiktoken_len(text):
+    tokens = tokenizer.encode(
+        text,
+        disallowed_special=()
+    )
+    return len(tokens)
+def get_vectorstore():
+    model_name = "BAAI/bge-small-en"
+    model_kwargs = {"device": "cpu"}
+    encode_kwargs = {"normalize_embeddings": True}
+    hf = HuggingFaceBgeEmbeddings(
+        model_name=model_name, model_kwargs=model_kwargs, encode_kwargs=encode_kwargs
+    )
+    all_splits = []
+    for file_name in FILE_NAMEs:
+        if file_name.endswith(".pdf"):
+            loader = PyPDFLoader(os.path.join("data",file_name))
+            data = loader.load()[0].page_content
+        else:
+            with open(os.path.join("data",file_name), "r") as f:
+                data = f.read()
+        text_splitter = RecursiveCharacterTextSplitter(
+            chunk_size=VECTOR_MAX_TOKENS,
+            chunk_overlap=VECTORS_TOKEN_OVERLAP_SIZE,
+            length_function=tiktoken_len,
+            separators=["\n\n\n","\n\n", "\n", " ", ""]
+        )
+        all_splits = all_splits + text_splitter.split_text(data)
+    vectorstore = Chroma.from_texts(texts=all_splits ,embedding=hf)
+    return vectorstore
+chat = ChatGroq(temperature=0, groq_api_key="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", model_name="llama3-8b-8192", streaming=True)
+rag_memory = ConversationSummaryBufferMemory(llm=chat, max_token_limit=3000)
+my_vector_store = get_vectorstore()

data/Annexure-(I).pdf ADDED Viewed

Binary file (21 kB). View file

data/Annexure-(II).pdf ADDED Viewed

Binary file (25.8 kB). View file

data/Annexure-(III).pdf ADDED Viewed

Binary file (20.7 kB). View file

data/Annexure-(IV).pdf ADDED Viewed

Binary file (46.1 kB). View file

data/Annexure-I-(1).pdf ADDED Viewed

Binary file (413 kB). View file

data/Annexure-II-(1).pdf ADDED Viewed

Binary file (318 kB). View file

data/Claims Settlement Requirements.pdf ADDED Viewed

Binary file (212 kB). View file

data/Customer Service.pdf ADDED Viewed

Binary file (153 kB). View file

data/Form-for-contact-details-of-PH.pdf ADDED Viewed

Binary file (60.2 kB). View file

data/Guide-to-Policyholders.pdf ADDED Viewed

Binary file (465 kB). View file

data/INCOME-TAX-BENEFIT.pdf ADDED Viewed

Binary file (425 kB). View file

data/NRI Centre.pdf ADDED Viewed

Binary file (514 kB). View file

data/Phone Help Line.pdf ADDED Viewed

Binary file (676 kB). View file

data/Policy Guidelines & Helpline.pdf ADDED Viewed

Binary file (684 kB). View file

data/Policy Status.pdf ADDED Viewed

Binary file (537 kB). View file

data/Spurious-calls.pdf ADDED Viewed

Binary file (13.2 kB). View file

data/Term of Insurance.pdf ADDED Viewed

Binary file (152 kB). View file

data/final-LIC-self-certfication-individuals-23-April-2023.pdf ADDED Viewed

Binary file (464 kB). View file

requirements.txt ADDED Viewed

	@@ -0,0 +1,11 @@

+langchain
+transformers
+tiktoken
+langchain-groq
+langchain-community
+langchain-text-splitters
+langchain-chroma
+sentence_transformers
+pypdf
+torch
+streamlit