Spaces:

data354
/

finchat

Sleeping

App Files Files Community

Monsia commited on Apr 13, 2024

Commit

8bfa348

1 Parent(s): a3b1498

perf: update prompt and clean the code

Browse files

Files changed (5) hide show

app.py +0 -12
chainlit.md +9 -1
prompts.py +13 -19
scrape_data.py +3 -2
utils.py +10 -4

app.py CHANGED Viewed

@@ -52,29 +52,17 @@ retriever = ParentDocumentRetriever(
 @cl.on_chat_start
 async def on_chat_start():
     cl.user_session.set("retriever", retriever)
-    msg = cl.Message(
-        content=f"Vous pouvez poser vos questions sur les articles de SIKAFINANCE",
-    )
-    await msg.send()
 @cl.on_message
 async def on_message(message: cl.Message):
-    # retriever = cl.user_session.get("retriever")
     chain = prompt | model
     msg = cl.Message(content="")
     async with cl.Step(type="run", name="QA Assistant"):
         question = message.content
         context = format_docs(retriever.get_relevant_documents(question))
         async for chunk in chain.astream(
             input={"context": context, "question": question},
             config=RunnableConfig(

 @cl.on_chat_start
 async def on_chat_start():
     cl.user_session.set("retriever", retriever)
 @cl.on_message
 async def on_message(message: cl.Message):
     chain = prompt | model
     msg = cl.Message(content="")
     async with cl.Step(type="run", name="QA Assistant"):
         question = message.content
         context = format_docs(retriever.get_relevant_documents(question))
         async for chunk in chain.astream(
             input={"context": context, "question": question},
             config=RunnableConfig(

chainlit.md CHANGED Viewed

@@ -2,4 +2,12 @@
 FinChat est un chatbot conçu par [data354](https://data354.com/) pour répondre aux questions sur l'actualité économique et financière.
-> Voilà, c'est fait ! Vous pouvez maintenant posez vos questions 💻😊.

 FinChat est un chatbot conçu par [data354](https://data354.com/) pour répondre aux questions sur l'actualité économique et financière.
+## Débuter une conversation
+Exemple de questions pour débuter une conversation
+>**Donne moi un résumé de l'actualité économique**
+>**Quels sont les points les plus critiques de l'actualité économique ?**
+Voilà, c'est fait ! Vous pouvez maintenant posez vos questions 💻😊.

prompts.py CHANGED Viewed

@@ -1,28 +1,22 @@
 from langchain.prompts import ChatPromptTemplate
 template = """
-Vous êtes un assistant de recherche économique et financière, spécialement conçu pour répondre aux questions liées à l'économie et à la finance et pour aider à l'informations et la prise de décisions financières. Votre rôle consiste à analyser les articles et rapports d'actualité économique et financière qui vous sera fournis dans le contexte et à répondre de manière adequate aux questions spécifiques des utilisateurs. Lorsque vous répondez aux questions :
-- Pour des questions d'ordre générales (ex: "Quelle est l'actualité du jour?") : Lisez attentivement tous les articles et résumez les points\évènements clés en mentionnant les dates de publications.
-- Pour des questions spécifiques (ex: "Quelle est la tendance du marché boursier aujourd'hui?") : Recherchez les informations spécifiques à la question dans les articles.
--N'hésitez pas à utiliser vos connaissances et votre bon sens pour répondre aux questions.
-- Basez vos réponses sur les articles d'actualité fournis. Citez directement les parties pertinentes de ces documents pour étayer vos réponses.
-- Citez clairement les références, y compris les titres des articles, les dates de publication et tout autre détail pertinent, afin de vous assurer que les informations peuvent être facilement vérifiées et retracées jusqu'aux sources originales.
-- Si la question sort du cadre des documents fournis ou si vous ne trouvez pas d'informations pertinentes, indiquez poliment que la réponse ne peut être déterminée sur la base des sources disponibles. Suggérez de consulter d'autres articles d'actualité financière ou des bases de données pour obtenir une réponse complète, le cas échéant.
-- Insistez sur l'exactitude et la fiabilité de vos réponses, en comprenant la nature critique de votre aide dans les processus de prise de décision financière.
-- Répondez aux utilisateurs dans la langue de leur question. Si la question est en français, votre réponse doit être en français. Si la question est en anglais, votre réponse doit être en anglais.
-- Pour des question en relative à la date veuillez considerer qu'aujourd'hui est le Jeudi 11/04/2024. Par exemple pour repondre à une question sur l'actualité du jour, vous devez effectuer une comparaison entre les date de publications des articles et celle d'aujourdui pour filtrer sur les articles puis retourner les informations pertinantes.
-<contexte>
-``{context}``
-</contexte>
 <question>
-{question}
 </question>
 """
 prompt = ChatPromptTemplate.from_template(template)

 from langchain.prompts import ChatPromptTemplate
 template = """
+You are an economic and financial research assistant, specially designed to answer questions related to economics and finance. Your role is to analyze the potential short- and long-term economic and financial impacts of the events present in the articles provided in context. Discuss how it could affect different stakeholders, including businesses, consumers and investors. Outline possible market reactions and other economic implications.
+Your role is to analyze the economic and financial news articles provided to you in context, and to respond appropriately to users' specific questions. When answering questions :
+- For general questions such as "What's the news of the day?", summarize the key information contained in the articles provided to you in context.
+- For specific questions, such as "What's the trend in the stock market today?", look for information specific to the question in the articles.
+-Don't hesitate to use your knowledge and common sense to answer questions.
+- Cite references clearly, including article titles, publication dates and any other relevant details.
+- If the question goes beyond the scope of the documents provided, or if you cannot find relevant information, politely indicate that the answer cannot be determined on the basis of the available sources.
+- Answer users in the language of their question. If the question is in French, your answer must be in French. If the question is in English, your answer must be in English.
+<context>
+{context}
+</context>
 <question>
+{question}
 </question>
 """
 prompt = ChatPromptTemplate.from_template(template)

scrape_data.py CHANGED Viewed

@@ -1,4 +1,3 @@
-import os
 from datetime import date, timedelta
 import bs4
@@ -110,7 +109,9 @@ def process_docs(
     # print("Successfully loaded to document")
     # This text splitter is used to create the child documents
-    child_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap, separators=["\n"])
     # The vectorstore to use to index the child chunks
     vectorstore = Chroma(

 from datetime import date, timedelta
 import bs4
     # print("Successfully loaded to document")
     # This text splitter is used to create the child documents
+    child_splitter = RecursiveCharacterTextSplitter(
+        chunk_size=chunk_size, chunk_overlap=chunk_overlap, separators=["\n"]
+    )
     # The vectorstore to use to index the child chunks
     vectorstore = Chroma(

utils.py CHANGED Viewed

@@ -1,3 +1,5 @@
 import chainlit as cl
 import tiktoken
 from langchain.callbacks.base import BaseCallbackHandler
@@ -13,7 +15,10 @@ def format_docs(documents, max_context_size=100000, separator="\n\n"):
             source = doc.metadata["link"]
             title = doc.metadata["title"]
             context += (
-                f"Article: {title}\n" + doc.page_content + f"\nSource: {source}" + separator
             )
     return context
@@ -46,6 +51,7 @@ class PostMessageHandler(BaseCallbackHandler):
             self.msg.content += f"\nSources: {', '.join(source_names)}"
     def clean_text(text):
-        tx = text.replace("Tweet","")
-        tx = tx.replace("\n\n\n\n\n\n\n\n\n","")
-        return tx

+import re
 import chainlit as cl
 import tiktoken
 from langchain.callbacks.base import BaseCallbackHandler
             source = doc.metadata["link"]
             title = doc.metadata["title"]
             context += (
+                f"Article: {title}\n"
+                + doc.page_content
+                + f"\nSource: {source}"
+                + separator
             )
     return context
             self.msg.content += f"\nSources: {', '.join(source_names)}"
     def clean_text(text):
+        text = re.sub("[Tt]weet", "", text)  # type: ignore
+        text = re.sub(r"\ +", " ", text)
+        text = re.sub(r"\n+", "\n", text)
+        return text.strip()