Spaces:

gcmarian
/

recomendador_kdramas

Running

App Files Files Community

gcmarian commited on Mar 3

Commit

fed3071

verified ·

1 Parent(s): a0bdffe

kdramas ramdom

Browse files

Files changed (1) hide show

app.py +53 -33

app.py CHANGED Viewed

@@ -10,6 +10,7 @@ import os
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 import unicodedata
 # ==================================================
@@ -45,11 +46,11 @@ kdramas1 = filter_kdramas(netflix_movies_shows)
 kdramas2 = filter_kdramas(mydramalist)
 # Eliminar columnas innecesarias (incluyendo 'rating')
-columns_to_remove = ["Unnamed: 0", "no_of_reviews", "aka_names", "screenwriter", "director",
-                     "no_of_viewers", "end_date", "start_date", "year", "duration", "no_of_rating",
-                     "rank", "popularity", "content_rating", "where_to_watch", "main_role",
-                     "support_role", "no_of_extracted_reviews", "Total_sentences",
-                     "POSITIVE_people_sentiment", "POSITIVE_sentences", "NEGATIVE_people_sentiment",
                      "NEGATIVE_sentences", "rating"]  # Eliminar 'rating'
 for dataset in [kdramas1, kdramas2]:
@@ -77,11 +78,11 @@ kdramas2 = add_genres_column(kdramas2, "Unknown")
 def align_datasets(dataset1, dataset2):
     # Obtener las columnas comunes
     common_columns = set(dataset1.features.keys()).intersection(set(dataset2.features.keys()))
     # Mantener solo las columnas comunes
     dataset1 = dataset1.select_columns(list(common_columns))
     dataset2 = dataset2.select_columns(list(common_columns))
     return dataset1, dataset2
 # Alinear los datasets
@@ -103,10 +104,20 @@ kdramas = Dataset.from_pandas(kdramas_df)
 # ==================================================
 # Cargar el modelo de embeddings
-model = SentenceTransformer('paraphrase-MiniLM-L6-v2')
-# Cargar embeddings precalculados
-embeddings_np = np.load("kdrama_embeddings.npy")
 # Crear un índice FAISS para búsqueda eficiente
 dimension = embeddings_np.shape[1]
@@ -118,10 +129,15 @@ def recommend_kdramas(title, k=5):
     title_indices = [i for i, t in enumerate(kdramas['title']) if title.lower() in t.lower()]
     if not title_indices:
         return f"No se encontraron títulos similares a '{title}'."
     query_embedding = embeddings_np[title_indices[0]].reshape(1, -1)
-    distances, similar_indices = index.search(query_embedding, k + 1)
     recommendations = []
-    for i in similar_indices[0][1:]:
         recommended_title = kdramas["title"][i]
         recommended_type = kdramas["type"][i] if "type" in kdramas.features else "Unknown"
         recommended_genres = kdramas["genres"][i] if "genres" in kdramas.features else "Unknown"
@@ -152,7 +168,6 @@ mapeo_generos = {
     "fantasia": "fantasy",
     "thriller": "thriller",
     "romance": "romance",
-    "drama": "drama",
     # Palabras clave adicionales (sin tildes)
     "aventura": "adventure",
     "historico": "historical",
@@ -182,24 +197,30 @@ def buscar_por_genero(genero, k=5):
     genre_embedding = model.encode(genero, convert_to_tensor=True).cpu().numpy()
     genre_embedding = genre_embedding.reshape(1, -1)
-    # Search for similar items in the FAISS index
-    D, I = index.search(genre_embedding, k)  # k is the number of recommendations you want
-    # Retrieve recommended titles
-    recommended_titles = [kdramas["title"][i] for i in I[0]]
     # Formatear las recomendaciones
     recommendations = []
-    for title in recommended_titles:
-        recommendations.append(f"- {title}")
     return "\n".join(recommendations) if recommendations else f"No se encontraron K-Dramas del género '{genero}'."
 # Función para recomendar K-Dramas basado en preferencias
 def recomendar_kdramas_chat(entrada_usuario):
     # Traducir preferencia del usuario
     preferencia_traducida = traducir_preferencia(entrada_usuario)
     if preferencia_traducida:
         return buscar_por_genero(preferencia_traducida, k=5)
     else:
@@ -208,7 +229,7 @@ def recomendar_kdramas_chat(entrada_usuario):
 # Función para generar respuestas del chatbot
 def generar_respuesta(entrada_usuario, historial_chat=""):
     inputs = tokenizer.encode(entrada_usuario + historial_chat, return_tensors="pt")
-    respuesta_ids = model_chat.generate(inputs, max_length=1000, pad_token_id=tokenizer.eos_token_id)  # No limitar la longitud
     respuesta = tokenizer.decode(respuesta_ids[:, inputs.shape[-1]:][0], skip_special_tokens=True)
     return respuesta
@@ -240,6 +261,15 @@ def chat(entrada_usuario, historial_chat=""):
 # Interfaz de Gradio
 # ==================================================
 # Interfaz para el recomendador tradicional
 interfaz_recomendador = gr.Interface(
     theme=gr.themes.Citrus(),
@@ -254,16 +284,6 @@ interfaz_recomendador = gr.Interface(
     allow_flagging="never",
 )
-# Interfaz para el chatbot
-interfaz_chatbot = gr.Interface(
-    fn=chat,
-    inputs=[gr.Textbox(label="Escribe tu mensaje"), gr.Textbox(label="Historial", visible=False)],
-    outputs=[gr.Textbox(label="Respuesta del chatbot"), gr.Textbox(label="Mensaje", visible=False)],
-    title="Chatbot Recomendador de K-Dramas",
-    description="Habla con el chatbot para obtener recomendaciones personalizadas de K-Dramas.",
-    allow_flagging="never"
-)
 # Lanzar ambas interfaces
 gr.TabbedInterface(
     [interfaz_recomendador, interfaz_chatbot],  # Chatbot en la segunda pestaña

 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 import unicodedata
+import random
 # ==================================================
 kdramas2 = filter_kdramas(mydramalist)
 # Eliminar columnas innecesarias (incluyendo 'rating')
+columns_to_remove = ["Unnamed: 0", "no_of_reviews", "aka_names", "screenwriter", "director",
+                     "no_of_viewers", "end_date", "start_date", "year", "duration", "no_of_rating",
+                     "rank", "popularity", "content_rating", "where_to_watch", "main_role",
+                     "support_role", "no_of_extracted_reviews", "Total_sentences",
+                     "POSITIVE_people_sentiment", "POSITIVE_sentences", "NEGATIVE_people_sentiment",
                      "NEGATIVE_sentences", "rating"]  # Eliminar 'rating'
 for dataset in [kdramas1, kdramas2]:
 def align_datasets(dataset1, dataset2):
     # Obtener las columnas comunes
     common_columns = set(dataset1.features.keys()).intersection(set(dataset2.features.keys()))
     # Mantener solo las columnas comunes
     dataset1 = dataset1.select_columns(list(common_columns))
     dataset2 = dataset2.select_columns(list(common_columns))
     return dataset1, dataset2
 # Alinear los datasets
 # ==================================================
 # Cargar el modelo de embeddings
+model = SentenceTransformer('sentence-transformers/paraphrase-MiniLM-L6-v2')
+# Calcular o cargar embeddings
+# Verificar si el archivo de embeddings existe
+if os.path.exists("kdrama_embeddings.npy"):
+    # Cargar embeddings precalculados
+    embeddings_np = np.load("kdrama_embeddings.npy")
+else:
+    # Calcular embeddings y guardarlos
+    descriptions = kdramas["description"]
+    embeddings = model.encode(descriptions, convert_to_tensor=True)
+    embeddings_np = embeddings.cpu().numpy()
+    np.save("kdrama_embeddings.npy", embeddings_np)
+    print("¡Embeddings listos! Cada descripción ahora es un vector numérico.")
 # Crear un índice FAISS para búsqueda eficiente
 dimension = embeddings_np.shape[1]
     title_indices = [i for i, t in enumerate(kdramas['title']) if title.lower() in t.lower()]
     if not title_indices:
         return f"No se encontraron títulos similares a '{title}'."
     query_embedding = embeddings_np[title_indices[0]].reshape(1, -1)
+    distances, similar_indices = index.search(query_embedding, k + 10)  # Ampliar el rango de búsqueda
+    # Seleccionar aleatoriamente k índices de los 10 más similares
+    selected_indices = random.sample(list(similar_indices[0][1:]), k)
     recommendations = []
+    for i in selected_indices:
         recommended_title = kdramas["title"][i]
         recommended_type = kdramas["type"][i] if "type" in kdramas.features else "Unknown"
         recommended_genres = kdramas["genres"][i] if "genres" in kdramas.features else "Unknown"
     "fantasia": "fantasy",
     "thriller": "thriller",
     "romance": "romance",
     # Palabras clave adicionales (sin tildes)
     "aventura": "adventure",
     "historico": "historical",
     genre_embedding = model.encode(genero, convert_to_tensor=True).cpu().numpy()
     genre_embedding = genre_embedding.reshape(1, -1)
+    # Buscar en el índice FAISS
+    D, I = index.search(genre_embedding, k * 2)  # Ampliar el rango de búsqueda
+    # Seleccionar aleatoriamente k índices de los resultados
+    selected_indices = random.sample(list(I[0]), k)
     # Formatear las recomendaciones
     recommendations = []
+    for i in selected_indices:
+        recommended_title = kdramas["title"][i]
+        recommended_type = kdramas["type"][i] if "type" in kdramas.features else "Unknown"
+        recommended_genres = kdramas["genres"][i] if "genres" in kdramas.features else "Unknown"
+        recommendations.append(
+            f"{recommended_title}\n"
+            f"- **Tipo**: {recommended_type}\n"
+            f"- **Géneros**: {recommended_genres}\n"
+        )
     return "\n".join(recommendations) if recommendations else f"No se encontraron K-Dramas del género '{genero}'."
 # Función para recomendar K-Dramas basado en preferencias
 def recomendar_kdramas_chat(entrada_usuario):
     # Traducir preferencia del usuario
     preferencia_traducida = traducir_preferencia(entrada_usuario)
     if preferencia_traducida:
         return buscar_por_genero(preferencia_traducida, k=5)
     else:
 # Función para generar respuestas del chatbot
 def generar_respuesta(entrada_usuario, historial_chat=""):
     inputs = tokenizer.encode(entrada_usuario + historial_chat, return_tensors="pt")
+    respuesta_ids = model_chat.generate(inputs, max_length=1000, pad_token_id=tokenizer.eos_token_id)
     respuesta = tokenizer.decode(respuesta_ids[:, inputs.shape[-1]:][0], skip_special_tokens=True)
     return respuesta
 # Interfaz de Gradio
 # ==================================================
+# Interfaz para el chatbot
+interfaz_chatbot = gr.Interface(
+    fn=chat,
+    inputs=[gr.Textbox(label="Escribe tu mensaje"), gr.Textbox(label="Historial", visible=False)],
+    outputs=[gr.Textbox(label="Respuesta del chatbot"), gr.Textbox(label="Mensaje", visible=False)],
+    title="Chatbot Recomendador de K-Dramas",
+    description="Habla con el chatbot para obtener recomendaciones personalizadas de K-Dramas.",
+    allow_flagging="never"
+)
 # Interfaz para el recomendador tradicional
 interfaz_recomendador = gr.Interface(
     theme=gr.themes.Citrus(),
     allow_flagging="never",
 )
 # Lanzar ambas interfaces
 gr.TabbedInterface(
     [interfaz_recomendador, interfaz_chatbot],  # Chatbot en la segunda pestaña