Spaces:

DanielIglesias97
/

TextSearchEngine

Sleeping

App Files Files Community

DanielIglesias97 commited on Jan 31

Commit

b8f4ebc

1 Parent(s): d1447f8

First upload to the repo

Browse files

Files changed (8) hide show

Dockerfile +25 -0
config.cfg +5 -0
data/movie_embeddings.csv +0 -0
image_search_engine.py +76 -0
requirements.txt +7 -0
server.py +29 -0
static/css/styles.css +77 -0
views/search.html +26 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,25 @@

+# Use an official Python runtime as a parent image
+FROM python:3.9-slim
+# Set environment variables
+ENV PYTHONUNBUFFERED=1
+RUN apt-get update && \
+    apt-get install -y git
+# Set the working directory in the container
+WORKDIR /app
+# Copy the requirements file into the container
+COPY requirements.txt .
+# Install dependencies
+RUN pip install --no-cache-dir -r requirements.txt
+# Copy the application code into the container
+COPY . .
+EXPOSE 5000
+# Run the application
+CMD ["python", "server.py"]

config.cfg ADDED Viewed

	@@ -0,0 +1,5 @@

+[DEFAULT]
+embeddings_csv_path = /app/data/movie_embeddings.csv
+[TEST]
+query = A good film that you would recommend to your friends

data/movie_embeddings.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

image_search_engine.py ADDED Viewed

	@@ -0,0 +1,76 @@

+# Step 1: Install required packages
+import configparser
+from datasets import load_dataset
+from sentence_transformers import SentenceTransformer
+from sklearn.metrics.pairwise import cosine_similarity
+import numpy as np
+import os
+import pandas as pd
+class ImageSearchEngine():
+    def __init__(self, embeddings_csv_path):
+        self.embeddings_csv_path = embeddings_csv_path
+    def load_data_and_model(self):
+        # Load a sample dataset (Stanford Movie Review Dataset)
+        dataset = load_dataset('imdb', split='train[:1000]')  # Using first 1000 examples
+        df = pd.DataFrame(dataset)[['text', 'label']]
+        # Load a small model that fits in 4GB VRAM
+        model = SentenceTransformer('all-MiniLM-L6-v2')  # 384-dimensional embeddings
+        return df, model
+    def generate_embeddings(self, df, model, overwrite=False):
+        if ((not os.path.exists(self.embeddings_csv_path)) or overwrite):
+            texts = df['text'].tolist()
+            # Generate embeddings in batches for efficiency
+            embeddings = model.encode(texts, batch_size=32, show_progress_bar=True)
+            # Convert numpy array to string representation for CSV storage
+            df['embedding'] = [','.join(map(str, emb)) for emb in embeddings]
+            df.to_csv(self.embeddings_csv_path, index=False)
+        return df
+    def semantic_search(self, query, model, top_k=5):
+        # Load embeddings from CSV
+        df = pd.read_csv(self.embeddings_csv_path)
+        # Convert string embeddings back to numpy arrays
+        df['embedding'] = df['embedding'].apply(lambda x: np.fromstring(x, sep=','))
+        # Encode query
+        query_embedding = model.encode([query])
+        # Calculate similarities
+        embeddings_matrix = np.vstack(df['embedding'].values)
+        similarities = cosine_similarity(query_embedding, embeddings_matrix).flatten()
+        # Create and sort results
+        df['similarity'] = similarities
+        results = df.sort_values('similarity', ascending=False).head(top_k)
+        return results[['text', 'similarity', 'label']]
+# Execution flow
+if __name__ == "__main__":
+    config = configparser.ConfigParser()
+    config.read('config.cfg')
+    embeddings_csv_path = config['DEFAULT']['embeddings_csv_path']
+    image_search_engine_manager = ImageSearchEngine(embeddings_csv_path)
+    # Generate and save embeddings (run once)
+    df, model = image_search_engine_manager.load_data_and_model()
+    image_search_engine_manager.generate_embeddings(df, model, overwrite=False)
+    # Example search
+    query = config['TEST']['query']
+    results = image_search_engine_manager.semantic_search(query, model)
+    print('Results -> ', results)

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+datasets==3.2.0
+flask==3.1.0
+numpy==2.0.2
+pandas==2.2.3
+scikit-learn==1.6.1
+git+https://github.com/UKPLab/sentence-transformers.git@e2a0098b0fbe10bf9a140a9b1d4c2a3451f1571f
+faiss-cpu==1.9.0.post1

server.py ADDED Viewed

	@@ -0,0 +1,29 @@

+import configparser
+from flask import Flask, request, render_template
+from image_search_engine import ImageSearchEngine
+import os
+app = Flask(__name__, template_folder='/app/views', static_url_path='/static')
+config = configparser.ConfigParser()
+config.read('config.cfg')
+embeddings_csv_path = config['DEFAULT']['embeddings_csv_path']
+image_search_engine_manager = ImageSearchEngine(embeddings_csv_path)
+df, model = image_search_engine_manager.load_data_and_model()
+image_search_engine_manager.generate_embeddings(df, model, overwrite=False)
+@app.route('/')
+def search():
+    query = request.args.get('query')
+    results = []
+    if ((query!=None) and len(query.strip())>0):
+        results = image_search_engine_manager.semantic_search(query, model)
+    return render_template("search.html", results=results)
+def main():
+    app.run(host="0.0.0.0", port="5000", debug=True)
+main()

static/css/styles.css ADDED Viewed

	@@ -0,0 +1,77 @@

+/* General Styles */
+body {
+    font-family: Arial, sans-serif;
+    background-color: #f4f4f4;
+    margin: 0;
+    padding: 0;
+    color: #333;
+}
+.container {
+    max-width: 800px;
+    margin: 50px auto;
+    padding: 20px;
+    background-color: #fff;
+    box-shadow: 0 0 10px rgba(0, 0, 0, 0.1);
+    border-radius: 8px;
+}
+h1 {
+    text-align: center;
+    color: #444;
+    margin-bottom: 30px;
+}
+hr {
+    display: block;
+    margin-top: 0.5em;
+    margin-bottom: 0.5em;
+    margin-left: auto;
+    margin-right: auto;
+    border-style: inset;
+    border-width: 1px;
+}
+/* Review List Styles */
+.review-list {
+    list-style: none;
+    padding: 0;
+}
+.review-item {
+    background-color: #f9f9f9;
+    margin-bottom: 20px;
+    padding: 20px;
+    border-radius: 8px;
+    border: 1px solid #ddd;
+    transition: transform 0.2s ease, box-shadow 0.2s ease;
+}
+.review-item:hover {
+    transform: translateY(-5px);
+    box-shadow: 0 5px 15px rgba(0, 0, 0, 0.1);
+}
+.review-text {
+    font-size: 16px;
+    line-height: 1.6;
+    margin: 0 0 10px 0;
+}
+.review-label {
+    font-size: 14px;
+    font-weight: bold;
+    color: #fff;
+    background-color: #007bff;
+    padding: 5px 10px;
+    border-radius: 4px;
+    display: inline-block;
+}
+.review-label.positive {
+    background-color: #28a745;
+}
+.review-label.negative {
+    background-color: #dc3545;
+}

views/search.html ADDED Viewed

	@@ -0,0 +1,26 @@

+<!DOCTYPE html>
+<html lang="en">
+<head>
+  <meta charset="UTF-8">
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  <title>Movie Reviews</title>
+  <link rel="stylesheet" type="text/css" href="{{ url_for('static', filename='css/styles.css') }}">
+</head>
+<body>
+  <form action="/">
+    <input type="text" placeholder="Search.." name="query">
+    <button type="submit">Submit</button>
+  </form>
+  <div class="container">
+    <h1>Movie Reviews</h1>
+    <ul class="review-list">
+        {% if results|length > 0 %}
+          {% for item in results['text'].values %}
+          <li>{{ item }}</li>
+          <hr>
+          {% endfor %}
+        {% endif %}
+    </ul>
+  </div>
+</body>
+</html>