Spaces:

DanielIglesias97
/

TextSearchEngine

Sleeping

App Files Files Community

DanielIglesias97 commited on Feb 17

Commit

6aa0bc7

1 Parent(s): 6c86e55

We have removed the flask application and replaced it with a

Browse files

streamlit app with the same functionality to be able to execute it
in the HuggingFace space.

Files changed (9) hide show

Dockerfile +10 -3
config.cfg +3 -1
index.html +0 -39
requirements.txt +3 -3
server.py +0 -29
static/css/styles.css +0 -77
streamlit_app.py +21 -0
image_search_engine.py → text_search_engine.py +8 -6
views/search.html +0 -26

Dockerfile CHANGED Viewed

@@ -1,5 +1,5 @@
 # Use an official Python runtime as a parent image
-FROM python:3.9-slim
 RUN apt-get update && \
     apt-get install -y git
@@ -27,5 +27,12 @@ RUN pip install --no-cache-dir -r requirements.txt
 # Copy the application code into the container
 COPY --chown=user . .
-# Run the application
-CMD ["python", "server.py"]

 # Use an official Python runtime as a parent image
+FROM python:3.9-slim AS base
 RUN apt-get update && \
     apt-get install -y git
 # Copy the application code into the container
 COPY --chown=user . .
+# Stage: Execute a test for the text search engine.
+FROM base AS debug
+CMD ["python", "-m", "pdb", "text_search_engine.py"]
+# Stage: Execute the Streamlit application.
+FROM base AS run
+CMD ["streamlit", "run", "streamlit_app.py", "--server.port", "7860"]

config.cfg CHANGED Viewed

@@ -1,4 +1,6 @@
-[DEFAULT]
 embeddings_csv_path = /home/user/app/data/movie_embeddings.csv
 [TEST]

+[SERVER]
+host_ip_address = 0.0.0.0
+port_number = 7860
 embeddings_csv_path = /home/user/app/data/movie_embeddings.csv
 [TEST]

index.html DELETED Viewed

@@ -1,39 +0,0 @@
-<!DOCTYPE html>
-<html lang="en">
-<head>
-    <meta charset="UTF-8">
-    <meta name="viewport" content="width=device-width, initial-scale=1.0">
-    <title>Cool Hello World</title>
-    <style>
-        body {
-            background-color: #2D2D2D;
-            display: flex;
-            justify-content: center;
-            align-items: center;
-            height: 100vh;
-            margin: 0;
-            font-family: 'Arial', sans-serif;
-        }
-        .container {
-            text-align: center;
-        }
-        h1 {
-            color: #C26356;
-            font-size: 4em;
-            text-shadow: 2px 2px 4px rgba(0,0,0,0.5);
-            margin-bottom: 20px;
-        }
-        p {
-            color: white;
-            font-size: 1.5em;
-        }
-    </style>
-</head>
-<body>
-    <div class="container">
-      <h1>Flask server for a text search engine</h1>
-      <p>This repository contains the code of a Flask server that allows for a search within a dataset of movie reviews.</p>
-      <p>If you want to check the code, click the Files tab!</p>
-    </div>
-</body>
-</html>

requirements.txt CHANGED Viewed

@@ -1,7 +1,7 @@
 datasets==3.2.0
-flask==3.1.0
 numpy==2.0.2
 pandas==2.2.3
 scikit-learn==1.6.1
-git+https://github.com/UKPLab/sentence-transformers.git@e2a0098b0fbe10bf9a140a9b1d4c2a3451f1571f
-faiss-cpu==1.9.0.post1

 datasets==3.2.0
+faiss-cpu==1.9.0.post1
+git+https://github.com/UKPLab/sentence-transformers.git@e2a0098b0fbe10bf9a140a9b1d4c2a3451f1571f
 numpy==2.0.2
 pandas==2.2.3
 scikit-learn==1.6.1
+streamlit==1.42.0

server.py DELETED Viewed

@@ -1,29 +0,0 @@
-import configparser
-from flask import Flask, request, render_template
-from image_search_engine import ImageSearchEngine
-import os
-app = Flask(__name__, template_folder='/home/user/app/views', static_url_path='/static')
-config = configparser.ConfigParser()
-config.read('config.cfg')
-embeddings_csv_path = config['DEFAULT']['embeddings_csv_path']
-image_search_engine_manager = ImageSearchEngine(embeddings_csv_path)
-df, model = image_search_engine_manager.load_data_and_model()
-image_search_engine_manager.generate_embeddings(df, model, overwrite=False)
-@app.route('/')
-def search():
-    query = request.args.get('query')
-    results = []
-    if ((query!=None) and len(query.strip())>0):
-        results = image_search_engine_manager.semantic_search(query, model)
-    return render_template("search.html", results=results)
-def main():
-    app.run(host="0.0.0.0", port="5000", debug=True)
-main()

static/css/styles.css DELETED Viewed

@@ -1,77 +0,0 @@
-/* General Styles */
-body {
-    font-family: Arial, sans-serif;
-    background-color: #f4f4f4;
-    margin: 0;
-    padding: 0;
-    color: #333;
-}
-.container {
-    max-width: 800px;
-    margin: 50px auto;
-    padding: 20px;
-    background-color: #fff;
-    box-shadow: 0 0 10px rgba(0, 0, 0, 0.1);
-    border-radius: 8px;
-}
-h1 {
-    text-align: center;
-    color: #444;
-    margin-bottom: 30px;
-}
-hr {
-    display: block;
-    margin-top: 0.5em;
-    margin-bottom: 0.5em;
-    margin-left: auto;
-    margin-right: auto;
-    border-style: inset;
-    border-width: 1px;
-}
-/* Review List Styles */
-.review-list {
-    list-style: none;
-    padding: 0;
-}
-.review-item {
-    background-color: #f9f9f9;
-    margin-bottom: 20px;
-    padding: 20px;
-    border-radius: 8px;
-    border: 1px solid #ddd;
-    transition: transform 0.2s ease, box-shadow 0.2s ease;
-}
-.review-item:hover {
-    transform: translateY(-5px);
-    box-shadow: 0 5px 15px rgba(0, 0, 0, 0.1);
-}
-.review-text {
-    font-size: 16px;
-    line-height: 1.6;
-    margin: 0 0 10px 0;
-}
-.review-label {
-    font-size: 14px;
-    font-weight: bold;
-    color: #fff;
-    background-color: #007bff;
-    padding: 5px 10px;
-    border-radius: 4px;
-    display: inline-block;
-}
-.review-label.positive {
-    background-color: #28a745;
-}
-.review-label.negative {
-    background-color: #dc3545;
-}

streamlit_app.py ADDED Viewed

	@@ -0,0 +1,21 @@

+import configparser
+import streamlit as st
+from text_search_engine import TextSearchEngine
+config = configparser.ConfigParser()
+config.read('config.cfg')
+embeddings_csv_path = config['SERVER']['embeddings_csv_path']
+text_search_engine_manager = TextSearchEngine(embeddings_csv_path)
+df, model = text_search_engine_manager.load_data_and_model()
+text_search_engine_manager.generate_embeddings(df, model, overwrite=False)
+st.title("Text Search Engine")
+text_search = st.text_input("Search movie reviews by query", value="")
+if (text_search):
+    results = text_search_engine_manager.semantic_search(text_search, model)
+    for current_result in results['text'].values:
+        st.markdown("%s"%current_result)
+        st.divider()

image_search_engine.py → text_search_engine.py RENAMED Viewed

@@ -3,14 +3,16 @@ import configparser
 from datasets import load_dataset
 from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
 import os
 import pandas as pd
-class ImageSearchEngine():
     def __init__(self, embeddings_csv_path):
         self.embeddings_csv_path = embeddings_csv_path
     def load_data_and_model(self):
         # Load a sample dataset (Stanford Movie Review Dataset)
@@ -60,17 +62,17 @@ if __name__ == "__main__":
     config = configparser.ConfigParser()
     config.read('config.cfg')
-    embeddings_csv_path = config['DEFAULT']['embeddings_csv_path']
-    image_search_engine_manager = ImageSearchEngine(embeddings_csv_path)
     # Generate and save embeddings (run once)
-    df, model = image_search_engine_manager.load_data_and_model()
-    image_search_engine_manager.generate_embeddings(df, model, overwrite=False)
     # Example search
     query = config['TEST']['query']
-    results = image_search_engine_manager.semantic_search(query, model)
     print('Results -> ', results)

 from datasets import load_dataset
 from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
+import torch
 import numpy as np
 import os
 import pandas as pd
+class TextSearchEngine():
     def __init__(self, embeddings_csv_path):
         self.embeddings_csv_path = embeddings_csv_path
+        torch.classes.__path__ = []
     def load_data_and_model(self):
         # Load a sample dataset (Stanford Movie Review Dataset)
     config = configparser.ConfigParser()
     config.read('config.cfg')
+    embeddings_csv_path = config['SERVER']['embeddings_csv_path']
+    text_search_engine_manager = TextSearchEngine(embeddings_csv_path)
     # Generate and save embeddings (run once)
+    df, model = text_search_engine_manager.load_data_and_model()
+    text_search_engine_manager.generate_embeddings(df, model, overwrite=False)
     # Example search
     query = config['TEST']['query']
+    results = text_search_engine_manager.semantic_search(query, model)
     print('Results -> ', results)

views/search.html DELETED Viewed

@@ -1,26 +0,0 @@
-<!DOCTYPE html>
-<html lang="en">
-<head>
-  <meta charset="UTF-8">
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  <title>Movie Reviews</title>
-  <link rel="stylesheet" type="text/css" href="{{ url_for('static', filename='css/styles.css') }}">
-</head>
-<body>
-  <form action="/">
-    <input type="text" placeholder="Search.." name="query">
-    <button type="submit">Submit</button>
-  </form>
-  <div class="container">
-    <h1>Movie Reviews</h1>
-    <ul class="review-list">
-        {% if results|length > 0 %}
-          {% for item in results['text'].values %}
-          <li>{{ item }}</li>
-          <hr>
-          {% endfor %}
-        {% endif %}
-    </ul>
-  </div>
-</body>
-</html>