Spaces:

romnatall
/

film_recomendations

Sleeping

App Files Files Community

romnatall commited on Apr 19, 2024

Commit

fe4db0a

1 Parent(s): 4eb227a

ребаланс весов

Browse files

Files changed (3) hide show

app.py +21 -7
data/books_model (2).ipynb +43 -2
data/vectorizer_actors.pkl +3 -0

app.py CHANGED Viewed

@@ -19,6 +19,8 @@ input_search = st.text_input('Search')
 data = np.load('data/embeddings_bert.npy')
 def top_indices(array, n,upsc=False):
@@ -44,6 +46,8 @@ def embed_bert_cls(text, ):
         model_output = model(**{k: v.to(model.device) for k, v in t.items()})
     embeddings = model_output.last_hidden_state[:, 0, :]
     embeddings = torch.nn.functional.normalize(embeddings)
     return embeddings[0].cpu().numpy()
 @st.cache_resource
@@ -53,21 +57,31 @@ def getmodels():
         logreg = pickle.load(f)
     with open('data/tf_idf_vectorizer.pkl', 'rb') as f:
         vectorizer = pickle.load(f)
-    return logreg, vectorizer
 @st.cache_data
 def predict_rating(input_search):
-    logreg, vectorizer=getmodels()
     emb = embed_bert_cls(input_search)
     X=np.column_stack((data, np.tile(emb, (data.shape[0], 1))))
     user_tfidf = vectorizer.transform([input_search])
-    tfidf_matrix = vectorizer.transform(movies['description'])
-    tfidf_matrix2 = vectorizer.transform(movies['name'])
     similarity_scores_desc = cosine_similarity(user_tfidf, tfidf_matrix)
     similarity_scores_name = cosine_similarity(user_tfidf, tfidf_matrix2)
@@ -75,10 +89,10 @@ def predict_rating(input_search):
     y_emb = cosine_similarity(data, emb.reshape(1, -1)).reshape(-1)
-    y=(similarity_scores_desc*0.9+similarity_scores_name*0.035+y_emb*.4+y_log*0.4).reshape(-1)
     st.session_state["pred"]=y
-    return top_indices(y, 10,upsc=False)

 data = np.load('data/embeddings_bert.npy')
 def top_indices(array, n,upsc=False):
         model_output = model(**{k: v.to(model.device) for k, v in t.items()})
     embeddings = model_output.last_hidden_state[:, 0, :]
     embeddings = torch.nn.functional.normalize(embeddings)
     return embeddings[0].cpu().numpy()
 @st.cache_resource
         logreg = pickle.load(f)
     with open('data/tf_idf_vectorizer.pkl', 'rb') as f:
         vectorizer = pickle.load(f)
+    with open('data/vectorizer_actors.pkl', 'rb') as f:
+        vectorizer_actors = pickle.load(f)
+    tfidf_matrix = vectorizer.transform(movies['description'])
+    tfidf_matrix2 = vectorizer.transform(movies['name'])
+    tfidf_actors = vectorizer_actors.transform(movies['actors'].fillna(''))
+    return logreg, vectorizer,vectorizer_actors ,tfidf_matrix,tfidf_matrix2,tfidf_actors
 @st.cache_data
 def predict_rating(input_search):
+    logreg, vectorizer,vectorizer_actors,tfidf_matrix,tfidf_matrix2,tfidf_actors=getmodels()
     emb = embed_bert_cls(input_search)
     X=np.column_stack((data, np.tile(emb, (data.shape[0], 1))))
     user_tfidf = vectorizer.transform([input_search])
+    user_actors = vectorizer_actors.transform([input_search])
+    similarity_actors=cosine_similarity(user_actors, tfidf_actors).reshape(-1)
     similarity_scores_desc = cosine_similarity(user_tfidf, tfidf_matrix)
     similarity_scores_name = cosine_similarity(user_tfidf, tfidf_matrix2)
     y_emb = cosine_similarity(data, emb.reshape(1, -1)).reshape(-1)
+    y=(similarity_scores_desc*0.9+similarity_scores_name*0.0083+y_emb*0.9+similarity_actors*0.5).reshape(-1)
     st.session_state["pred"]=y
+    return top_indices(y, 20,upsc=False)

data/books_model (2).ipynb CHANGED Viewed

@@ -355,6 +355,47 @@
         "data.head()"
       ]
     },
     {
       "cell_type": "code",
       "execution_count": 3,
@@ -418,12 +459,12 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 56,
       "metadata": {},
       "outputs": [],
       "source": [
         "import pickle\n",
-        "with open('vectorizer.pkl', 'wb') as f:\n",
         "    pickle.dump(vectorizer, f)"
       ]
     },

         "data.head()"
       ]
     },
+    {
+      "cell_type": "code",
+      "execution_count": 6,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/plain": [
+              "0         В американской хоррор-комедии показана детект...\n",
+              "1         Перестройка уже шагнула с кремлевских трибун ...\n",
+              "2         В Городе Стихий обитатели огня, воды, земли и...\n",
+              "3         Свои незабываемые каникулы, в которых есть ме...\n",
+              "4         Увлекательные приключения скандинавского бога...\n",
+              "                               ...                        \n",
+              "28443     Петер фон Кант - успешный режиссёр. Его прият...\n",
+              "28444     Объединившись с бывшим полицейским Зоуи Кэсс,...\n",
+              "28445     13 перетекающих из одного в другой эпизодов, ...\n",
+              "28446     Стремясь спасти свою сестру Софию, попавшую п...\n",
+              "28447     Три друга, Арав, Бхушан и Сунил, оказываются ...\n",
+              "Name: description, Length: 28448, dtype: object"
+            ]
+          },
+          "execution_count": 6,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "data['description']"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 8,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "vectorizer = TfidfVectorizer()\n",
+        "a=vectorizer.fit_transform(data['actors'].fillna(''))\n"
+      ]
+    },
     {
       "cell_type": "code",
       "execution_count": 3,
     },
     {
       "cell_type": "code",
+      "execution_count": 9,
       "metadata": {},
       "outputs": [],
       "source": [
         "import pickle\n",
+        "with open('vectorizer_actors.pkl', 'wb') as f:\n",
         "    pickle.dump(vectorizer, f)"
       ]
     },

data/vectorizer_actors.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a171b209102d3999b7c6a5f91f26f02d7506c870ad740cb3c87b4a03593c4f68
+size 2967595