Spaces:

si568project2
/

English_Music_Recommender

Sleeping

App Files Files Community

jchoo commited on Apr 14, 2024

Commit

1a49479

verified ·

1 Parent(s): 38971f0

Update choosingdata.py

Browse files

Files changed (1) hide show

choosingdata.py +30 -42

choosingdata.py CHANGED Viewed

@@ -1,75 +1,63 @@
 import pandas as pd
-df = pd.read_json('data.json')
-percentiles = df['danceability'].quantile([0, 0.33, 0.66, 1])
-bins = [percentiles.iloc[0], percentiles.iloc[1], percentiles.iloc[2], percentiles.iloc[3]]
-labels = ['Low', 'Medium', 'High']
-df['danceability_level'] = pd.cut(df['danceability'], bins=bins, labels=labels, include_lowest=True)
-percentiles = df['valence'].quantile([0, 0.33, 0.66, 1])
-bins = [percentiles.iloc[0], percentiles.iloc[1], percentiles.iloc[2], percentiles.iloc[3]]
-labels = ['Low', 'Medium', 'High']
-df['valence_level'] = pd.cut(df['valence'], bins=bins, labels=labels, include_lowest=True)
-percentiles = df['speechiness'].quantile([0, 0.33, 0.66, 1])
-bins = [percentiles.iloc[0], percentiles.iloc[1], percentiles.iloc[2], percentiles.iloc[3]]
-labels = [1, 2, 3]
-df['speechiness_level'] =  pd.cut(df['speechiness'], bins=bins, labels=labels, include_lowest=True).astype(int)
-percentiles = df['fres'].quantile([0, 0.33, 0.66, 1])
-bins = [percentiles.iloc[0], percentiles.iloc[1], percentiles.iloc[2], percentiles.iloc[3]]
-labels = [1, 2, 3]
-df['fres_level'] =  pd.cut(df['fres'], bins=bins, labels=labels, include_lowest=True).astype(int)
-percentiles = df['vocabComplex'].quantile([0, 0.33, 0.66, 1])
-bins = [percentiles.iloc[0], percentiles.iloc[1], percentiles.iloc[2], percentiles.iloc[3]]
-labels = [1, 2, 3]
-df['vocabComplex_level'] =  pd.cut(df['vocabComplex'], bins=bins, labels=labels, include_lowest=True).astype(int)
-percentiles = df['avgSyllable'].quantile([0, 0.33, 0.66, 1])
-bins = [percentiles.iloc[0], percentiles.iloc[1], percentiles.iloc[2], percentiles.iloc[3]]
-labels = [1, 2, 3]
-df['avgSyllable_level'] =  pd.cut(df['avgSyllable'], bins=bins, labels=labels, include_lowest=True).astype(int)
-df['difficulty'] = df['speechiness_level'] + df['fres_level'] + df['vocabComplex_level'] + df['avgSyllable_level']
-percentiles = df['difficulty'].quantile([0, 0.33, 0.66, 1])
-bins = [percentiles.iloc[0], percentiles.iloc[1], percentiles.iloc[2], percentiles.iloc[3]]
-labels = ["Low", "Medium", "High"]
-df['difficulty_level'] =  pd.cut(df['difficulty'], bins=bins, labels=labels, include_lowest=True)
-# dance_choice = input("Which level do you want for danceability?")
-# valence_choice = input("Which level do you want for valence?")
-# difficulty_choice = input("Which level do you want for the difficulty?")
 def recommendation(df, dance_choice, valence_choice, difficulty_choice):
     if dance_choice == "Low":
         df = df[df['danceability_level'] == "Low"]
     elif dance_choice == "Medium":
         df = df[df['danceability_level'] == "Medium"]
     elif dance_choice == "High":
         df = df[df['danceability_level'] == "High"]
     if valence_choice == "Negative":
         df = df[df['valence_level'] == "Low"]
     elif valence_choice == "Neutral":
         df = df[df['valence_level'] == "Medium"]
     elif valence_choice == "Positive":
         df = df[df['valence_level'] == "High"]
     if difficulty_choice == "Easy":
         df = df[df['difficulty_level'] == "Low"]
     elif difficulty_choice == "Medium":
         df = df[df['difficulty_level'] == "Medium"]
     elif difficulty_choice == "Hard":
         df = df[df['difficulty_level'] == "High"]
     chosen = df.sample() # random choose 1 song
-    return chosen

 import pandas as pd
+def process_data(file_path):
+    df = pd.read_json(file_path)
+    df['danceability_level'] = categorize_level(df['danceability'])
+    df['valence_level'] = categorize_level(df['valence'])
+    df['speechiness_level'] = categorize_numeric_level(df['speechiness'])
+    df['fres_level'] = categorize_numeric_level(df['fres'])
+    df['vocabComplex_level'] = categorize_numeric_level(df['vocabComplex'])
+    df['avgSyllable_level'] = categorize_numeric_level(df['avgSyllable'])
+    df['difficulty'] = calculate_difficulty(df)
+    df['difficulty_level'] = categorize_difficulty(df['difficulty'])
+    return df
+def categorize_level(column):
+    percentiles = column.quantile([0, 0.33, 0.66, 1])
+    bins = [percentiles.iloc[0], percentiles.iloc[1], percentiles.iloc[2], percentiles.iloc[3]]
+    labels = ['Low', 'Medium', 'High']
+    return pd.cut(column, bins=bins, labels=labels, include_lowest=True)
+def categorize_numeric_level(column):
+    percentiles = column.quantile([0, 0.33, 0.66, 1])
+    bins = [percentiles.iloc[0], percentiles.iloc[1], percentiles.iloc[2], percentiles.iloc[3]]
+    labels = [1, 2, 3]
+    return pd.cut(column, bins=bins, labels=labels, include_lowest=True).astype(int)
+def calculate_difficulty(df):
+    return df['speechiness_level'] + df['fres_level'] + df['vocabComplex_level'] + df['avgSyllable_level']
+def categorize_difficulty(column):
+    percentiles = column.quantile([0, 0.33, 0.66, 1])
+    bins = [percentiles.iloc[0], percentiles.iloc[1], percentiles.iloc[2], percentiles.iloc[3]]
+    labels = ["Low", "Medium", "High"]
+    return pd.cut(column, bins=bins, labels=labels, include_lowest=True)
 def recommendation(df, dance_choice, valence_choice, difficulty_choice):
     if dance_choice == "Low":
         df = df[df['danceability_level'] == "Low"]
     elif dance_choice == "Medium":
         df = df[df['danceability_level'] == "Medium"]
     elif dance_choice == "High":
         df = df[df['danceability_level'] == "High"]
     if valence_choice == "Negative":
         df = df[df['valence_level'] == "Low"]
     elif valence_choice == "Neutral":
         df = df[df['valence_level'] == "Medium"]
     elif valence_choice == "Positive":
         df = df[df['valence_level'] == "High"]
     if difficulty_choice == "Easy":
         df = df[df['difficulty_level'] == "Low"]
     elif difficulty_choice == "Medium":
         df = df[df['difficulty_level'] == "Medium"]
     elif difficulty_choice == "Hard":
         df = df[df['difficulty_level'] == "High"]
     chosen = df.sample() # random choose 1 song
+    return chosen