Spaces:

bestroi
/

PliniusNatHist

Sleeping

App Files Files Community

bestroi commited on Dec 6, 2023

Commit

e2d28ce

1 Parent(s): de20108

Create app.py

Browse files

Files changed (1) hide show

app.py +70 -0

app.py ADDED Viewed

	@@ -0,0 +1,70 @@

+import streamlit as st
+import pandas as pd
+import matplotlib.pyplot as plt
+# Function to read data and perform visualization
+def visualize_data(csv_file):
+    data = pd.read_csv(csv_file)
+    data['Token_Count'] = data['Context'].apply(count_tokens)
+    # Basic statistics
+    lemma_stats = data.groupby('Lemma').agg({'Context': 'count', 'Token_Count': 'mean'}).reset_index()
+    # Bar chart for lemma frequency
+    plt.figure(figsize=(10, 6))
+    plt.bar(lemma_stats['Lemma'], lemma_stats['Context'], color='skyblue')
+    plt.xlabel('Lemma')
+    plt.ylabel('Frequency')
+    plt.title('Lemma Frequency in the Dataset')
+    plt.xticks(rotation=45)
+    st.pyplot()
+    # Display basic statistics
+    st.write("Basic Statistics:")
+    st.write(lemma_stats)
+    # Additional Visualization
+    # Load data from CSV file
+    data_additional = pd.read_csv(csv_file)
+    # Basic statistics
+    lemma_stats_additional = data_additional['Lemma'].value_counts().reset_index()
+    lemma_stats_additional.columns = ['Lemma', 'Frequency']
+    # Find the most common lemma
+    most_common_lemma_additional = lemma_stats_additional.iloc[0]['Lemma']
+    # Distribution across chapters
+    chapter_stats_additional = data_additional.groupby(['Lemma', 'Book/Chapter']).size().unstack(fill_value=0)
+    # Create a single row with two subplots
+    fig, axs = plt.subplots(1, 2, figsize=(20, 10))
+    # Pie chart for lemma frequency
+    axs[0].pie(lemma_stats_additional['Frequency'], labels=lemma_stats_additional['Lemma'], autopct='%1.1f%%', startangle=90)
+    axs[0].set_title('Lemma Frequency Distribution')
+    # Bar chart for chapter-wise lemma mentions
+    chapter_stats_additional.plot(kind='bar', stacked=True, ax=axs[1])
+    axs[1].set_title('Chapter-wise Lemma Mentions')
+    axs[1].set_xlabel('Book/Chapter')
+    axs[1].set_ylabel('Mentions')
+    axs[1].legend(title='Lemma', bbox_to_anchor=(1.05, 1), loc='upper left')
+    st.pyplot()
+    # Display the most common lemma
+    st.write(f"Most Common Lemma: {most_common_lemma_additional}")
+# Main Streamlit app
+def main():
+    st.title("Lemma Frequency Visualization")
+    # File selection
+    csv_file = st.sidebar.selectbox("Select CSV file:", ["toponyms.csv", "ethonyms.csv"])
+    # Visualization based on selected file
+    visualize_data(csv_file)
+if __name__ == "__main__":
+    main()