Spaces:

hedtorresca
/

ExploratorioVasculitis

Build error

App Files Files Community

hedtorresca commited on Mar 25

Commit

51018aa

verified ·

1 Parent(s): 67c3d08

Update app.py

Browse files

Files changed (1) hide show

app.py +132 -172

app.py CHANGED Viewed

@@ -1,103 +1,79 @@
 import gradio as gr
 import pandas as pd
 import plotly.express as px
 import folium
 from folium.plugins import HeatMap
 from scipy.stats import chi2_contingency
-import matplotlib.pyplot as plt
-import seaborn as sns
-# Cargar los datos
-data = pd.read_csv("data.csv")
-# Limpiar nombres de columnas
-data.columns = data.columns.str.strip()
-# Filtrar datos excluyendo ciertos IDs
 to_exclude = [20685087, 2998627, 1978488, 196634, 945893623091961, 30285097, 19244622, 5473678, 20566938, 14249650]
-data_filtered = data[~data['Documento de identidad'].isin(to_exclude)]
-# Eliminar outliers en la edad (considerando un rango razonable de 0 a 120 años)
-data_filtered = data_filtered[(data_filtered['Edad en años del paciente'] >= 0) & (data_filtered['Edad en años del paciente'] <= 120)]
-# Transformar valores 0 y 1 a etiquetas significativas
-transformation_dict = {
     'Antecedente personal de diabetes': {0: 'No', 1: 'Sí'},
     'Antecedente personal de falla cardíaca': {0: 'No', 1: 'Sí'},
     'Antecedente personal de EPOC': {0: 'No', 1: 'Sí'},
     'Antecedente personal de Hipertensión arterial': {0: 'No', 1: 'Sí'}
 }
-for col, mapping in transformation_dict.items():
-    if col in data_filtered.columns:
-        data_filtered[col] = data_filtered[col].map(mapping)
-def univariate_analysis(column):
-    """Generar análisis univariado para una columna seleccionada."""
-    plt.figure(figsize=(8, 6))
-    if data[column].dtype == 'object':
-        sns.countplot(y=data[column], order=data[column].value_counts().index)
-        plt.title(f"Distribución de {column}")
-    else:
-        sns.histplot(data[column], kde=True)
-        plt.title(f"Histograma de {column}")
-    plt.tight_layout()
-    plt.savefig("univariate.png")
-    return "univariate.png"
-def bivariate_analysis(column1, column2):
-    """Generar análisis bivariado entre dos columnas."""
-    plt.figure(figsize=(8, 6))
-    if data[column1].dtype == 'object' or data[column2].dtype == 'object':
-        sns.countplot(data=data, x=column1, hue=column2)
-        plt.title(f"Relación entre {column1} y {column2}")
     else:
-        sns.scatterplot(data=data, x=column1, y=column2)
-        plt.title(f"Relación entre {column1} y {column2}")
-    plt.tight_layout()
-    plt.savefig("bivariate.png")
-    return "bivariate.png"
-# Crear gráficos interactivos con divisiones adicionales
-def plot_gender_distribution():
-    return px.histogram(data_filtered, x='Género', title='Distribución por Género')
-def plot_age_distribution():
-    return px.histogram(data_filtered, x='Edad en años del paciente', nbins=10, title='Distribución por Edad', marginal="box")
-def plot_affiliation_distribution():
-    return px.histogram(data_filtered, x='Régimen de afiliación', title='Régimen de Afiliación')
-def plot_socioeconomic_distribution():
-    return px.histogram(data_filtered, x='Estrato socioeconómico', title='Estrato Socioeconómico')
-def plot_renal_syndrome_distribution():
-    return px.histogram(data_filtered, x='Síndrome renal al ingreso', title='Síndrome Renal al Ingreso')
-def plot_gender_age_distribution():
-    return px.histogram(data_filtered, x='Edad en años del paciente', color='Género', title='Distribución de Edad por Género', nbins=10, marginal="box")
-def plot_stratum_renal_distribution():
-    return px.histogram(data_filtered, x='Síndrome renal al ingreso', color='Estrato socioeconómico', title='Distribución de Síndrome Renal por Estrato', barmode='group')
-# Crear mapa interactivo con Folium con puntos únicos y etiquetas
-def create_heatmap_with_points(variable=None):
-    m = folium.Map(location=[4.7, -74.1], zoom_start=10)
-    # Agregar capa de calor
-    if variable and variable in data_filtered.columns:
-        heat_data = data_filtered[['Coordenada de residencia-latitud', 'Coordenada de residencia-longitud', variable]].dropna()
-        heat_data = [[row[0], row[1], row[2]] for row in heat_data.values]
-        HeatMap(heat_data, gradient=None, max_zoom=18, radius=10).add_to(m)
-    else:
-        heat_data = data_filtered[['Coordenada de residencia-latitud', 'Coordenada de residencia-longitud']].dropna()
-        HeatMap(heat_data.values.tolist(), radius=10).add_to(m)
-    # Agregar puntos únicos con etiquetas
-    for _, row in data_filtered.iterrows():
         folium.Marker(
             location=[row['Coordenada de residencia-latitud'], row['Coordenada de residencia-longitud']],
             popup=folium.Popup(
@@ -106,104 +82,88 @@ def create_heatmap_with_points(variable=None):
                 f"<b>Proteinuria:</b> {row.get('Proteinuria', 'N/A')}<br>"
                 f"<b>Creatinina:</b> {row.get('Creatinina', 'N/A')}"
             )
-        ).add_to(m)
-    map_path = "heatmap_with_points.html"
-    m.save(map_path)
-    with open(map_path, "r", encoding="utf-8") as f:
         return f.read()
-def create_summary_table():
-    numeric_cols = [col for col in data_filtered.columns if col in ['Proteinuria', 'Edad en años del paciente', 'Creatinina']]
-    summary = data_filtered[numeric_cols].describe().transpose()
-    summary.reset_index(inplace=True)
-    summary.rename(columns={'index': 'Variable'}, inplace=True)
-    return summary.round(2)
-# Crear tablas de contingencia y pruebas de Chi-cuadrado
-def chi_squared_table(var1, var2):
-    contingency_table = pd.crosstab(data_filtered[var1], data_filtered[var2])
-    chi2, p, dof, _ = chi2_contingency(contingency_table)
-    return {
-        "Contingency Table": contingency_table,
-        "Chi2 Statistic": round(chi2, 2),
-        "P-value": round(p, 4),
-        "Degrees of Freedom": dof,
-        "Significant Relationship": "Yes" if p < 0.05 else "No"
-    }
-categorical_columns = data.select_dtypes(include=['object', 'category']).columns.tolist()
-# Crear resumen de antecedentes
-def antecedent_summary():
-    cols = ['Antecedente personal de diabetes', 'Antecedente personal de falla cardíaca',
-            'Antecedente personal de EPOC', 'Antecedente personal de Hipertensión arterial']
-    summary = data_filtered[cols].apply(pd.Series.value_counts).fillna(0).astype(int).reset_index()
-    new_columns = ['Antecedente'] + list(summary.columns[1:])
-    summary.columns = new_columns
-    return summary
-# Variables categóricas seleccionadas para tablas de contingencia
-contingency_vars = [
-    'Género', 'Régimen de afiliación', 'Estrato socioeconómico',
-    'Síndrome renal al ingreso', 'Antecedente personal de falla cardíaca'
-]
-# Interfaz del tablero interactivo con Gradio
 with gr.Blocks() as demo:
-    gr.Markdown("## Tablero de Análisis Descriptivo de Vasculitis")
     with gr.Tab("Gráficos Interactivos"):
-        gr.Markdown("### Gráficos Interactivos")
-        gr.Plot(plot_gender_distribution)  # Assuming these plot functions are defined elsewhere
-        gr.Plot(plot_age_distribution)
-        gr.Plot(plot_affiliation_distribution)
-        gr.Plot(plot_socioeconomic_distribution)
-        gr.Plot(plot_renal_syndrome_distribution)
-        gr.Plot(plot_gender_age_distribution)
-        gr.Plot(plot_stratum_renal_distribution)
-    with gr.Tab("Mapa de Calor"):
-        gr.Markdown("### Mapa Interactivo con Filtro por Variable")
-        variable_dropdown = gr.Dropdown(choices=['', 'Creatinina'], label="Selecciona una variable para ponderar (opcional)")
-        heatmap_output = gr.HTML()
-        def update_heatmap(variable):
-            return f"<iframe srcdoc='{create_heatmap_with_points(variable)}' width='100%' height='500'></iframe>"
-        variable_dropdown.change(update_heatmap, inputs=variable_dropdown, outputs=heatmap_output)
-        gr.HTML(lambda: f"<iframe srcdoc='{create_heatmap_with_points()}' width='100%' height='500'></iframe>")
-    with gr.Tab("Tabla Resumen"): # Corrected indentation
-        gr.Markdown("### Tabla Resumen de Estadísticas Descriptivas")
-        summary_table = create_summary_table()
-        gr.DataFrame(summary_table)
-    with gr.Tab("Tablas de Contingencia y Chi-cuadrado"): # Corrected indentation
-        gr.Markdown("### Tablas de Contingencia y Pruebas de Chi-cuadrado")
-        var1 = gr.Dropdown(choices=data_filtered.select_dtypes(include=['object']).columns.tolist(), label="Variable 1")
-        var2 = gr.Dropdown(choices=data_filtered.select_dtypes(include=['object']).columns.tolist(), label="Variable 2")
-        def calculate_chi2(v1, v2):
-            result = chi_squared_table(v1, v2)
-            return f"<h4>Chi2 Statistic:</h4> {result['Chi2 Statistic']}<br><h4>P-value:</h4> {result['P-value']}<br><h4>Degrees of Freedom:</h4> {result['Degrees of Freedom']}<br><h4>Significant Relationship:</h4> {result['Significant Relationship']}<br><h4>Contingency Table:</h4><br>{result['Contingency Table'].to_html()}"
-        gr.Button("Calcular").click(calculate_chi2, inputs=[var1, var2], outputs=gr.HTML())
     with gr.Tab("Análisis Univariado"):
-        column = gr.Dropdown(choices=categorical_columns, label="Seleccionar columna (Categórica)")
-        btn_uni = gr.Button("Generar análisis univariado")
-        output_uni = gr.Image()
-        btn_uni.click(univariate_analysis, inputs=column, outputs=output_uni)
     with gr.Tab("Análisis Bivariado"):
-        column1 = gr.Dropdown(choices=data.columns.tolist(), label="Seleccionar primera columna")
-        column2 = gr.Dropdown(choices=data.columns.tolist(), label="Seleccionar segunda columna")
-        btn_bi = gr.Button("Generar análisis bivariado")
-        output_bi = gr.Image()
-        btn_bi.click(bivariate_analysis, inputs=[column1, column2], outputs=output_bi)
 demo.launch()

+# Vasculitis ANCA - App de Análisis Estadístico y Geoespacial (Unificada con PM2.5 y lista para Hugging Face)
 import gradio as gr
 import pandas as pd
+import numpy as np
+import seaborn as sns
+import matplotlib.pyplot as plt
 import plotly.express as px
 import folium
 from folium.plugins import HeatMap
 from scipy.stats import chi2_contingency
+import geopandas as gpd
+from sklearn.cluster import DBSCAN
+from sklearn.preprocessing import StandardScaler
+# Cargar datos
+df = pd.read_csv("data.csv")
+pm25 = pd.read_csv("pm25_promedio_por_estacion.csv")
+# Limpieza básica
+df.columns = df.columns.str.strip()
 to_exclude = [20685087, 2998627, 1978488, 196634, 945893623091961, 30285097, 19244622, 5473678, 20566938, 14249650]
+df = df[~df['Documento de identidad'].isin(to_exclude)]
+df = df[(df['Edad en años del paciente'] >= 0) & (df['Edad en años del paciente'] <= 120)]
+# Mapeo de antecedentes
+transform_dict = {
     'Antecedente personal de diabetes': {0: 'No', 1: 'Sí'},
     'Antecedente personal de falla cardíaca': {0: 'No', 1: 'Sí'},
     'Antecedente personal de EPOC': {0: 'No', 1: 'Sí'},
     'Antecedente personal de Hipertensión arterial': {0: 'No', 1: 'Sí'}
 }
+for col, mapping in transform_dict.items():
+    if col in df.columns:
+        df[col] = df[col].map(mapping)
+# Variables descriptivas clave
+vars_desc = ['Edad en años del paciente', 'Género', 'Régimen de afiliación', 'Estrato socioeconómico',
+             'Síndrome renal al ingreso', 'Proteinuria', 'Creatinina']
+# Análisis univariado
+def univariado(var):
+    fig = px.histogram(df, x=var, color=var if df[var].dtype == 'object' else None, marginal="box")
+    fig.update_layout(title=f"Distribución de {var}")
+    fig.write_html("univariado.html")
+    return "univariado.html"
+# Análisis bivariado
+def bivariado(x, y):
+    if df[x].dtype == 'object' and df[y].dtype == 'object':
+        fig = px.histogram(df, x=x, color=y, barmode='group')
+    elif df[x].dtype == 'object' or df[y].dtype == 'object':
+        fig = px.box(df, x=x, y=y, color=x if df[x].dtype == 'object' else y)
     else:
+        fig = px.scatter(df, x=x, y=y, trendline="ols")
+    fig.update_layout(title=f"Relación entre {x} y {y}")
+    fig.write_html("bivariado.html")
+    return "bivariado.html"
+# Chi-cuadrado
+def chi2_test(var1, var2):
+    table = pd.crosstab(df[var1], df[var2])
+    chi2, p, dof, _ = chi2_contingency(table)
+    fig = px.imshow(table.values, x=table.columns.astype(str), y=table.index.astype(str),
+                    text_auto=True, color_continuous_scale='Blues',
+                    title=f"Contingencia: {var1} vs {var2}")
+    fig.write_html("chi2_heatmap.html")
+    return f"Chi2 = {chi2:.2f}, p = {p:.4f}, gl = {dof}", table, "chi2_heatmap.html"
+# Mapa de calor
+def mapa_calor():
+    mapa = folium.Map(location=[4.7,-74.1], zoom_start=11)
+    puntos = df.dropna(subset=['Coordenada de residencia-latitud','Coordenada de residencia-longitud'])
+    heat = [[row['Coordenada de residencia-latitud'], row['Coordenada de residencia-longitud']] for _, row in puntos.iterrows()]
+    HeatMap(heat).add_to(mapa)
+    for _, row in puntos.iterrows():
         folium.Marker(
             location=[row['Coordenada de residencia-latitud'], row['Coordenada de residencia-longitud']],
             popup=folium.Popup(
                 f"<b>Proteinuria:</b> {row.get('Proteinuria', 'N/A')}<br>"
                 f"<b>Creatinina:</b> {row.get('Creatinina', 'N/A')}"
             )
+        ).add_to(mapa)
+    mapa.save("mapa.html")
+    with open("mapa.html", 'r', encoding='utf-8') as f:
+        return f.read()
+# Mapa de estaciones PM2.5
+def mapa_pm():
+    mapa = folium.Map(location=[4.7,-74.1], zoom_start=11)
+    for _, row in pm25.iterrows():
+        folium.CircleMarker(
+            location=[row['LATITUD'], row['LONGITUD']],
+            radius=7,
+            fill=True,
+            popup=f"{row['Estacion']} ({row['LOCALIDAD']}): {row['PM25_promedio_2019']} ug/m3",
+            color="red",
+            fill_opacity=0.7
+        ).add_to(mapa)
+    mapa.save("pm25.html")
+    with open("pm25.html", 'r', encoding='utf-8') as f:
         return f.read()
+# Cluster DBSCAN
+def mapa_cluster():
+    puntos = df.dropna(subset=['Coordenada de residencia-latitud','Coordenada de residencia-longitud'])
+    coords = puntos[['Coordenada de residencia-latitud', 'Coordenada de residencia-longitud']].copy()
+    scaled = StandardScaler().fit_transform(coords)
+    clustering = DBSCAN(eps=0.5, min_samples=3).fit(scaled)
+    puntos['Cluster'] = clustering.labels_
+    mapa = folium.Map(location=[4.7,-74.1], zoom_start=11)
+    for _, row in puntos.iterrows():
+        folium.CircleMarker(
+            location=[row['Coordenada de residencia-latitud'], row['Coordenada de residencia-longitud']],
+            radius=5,
+            fill=True,
+            color="#%06x" % (hash(row['Cluster']) & 0xFFFFFF),
+            popup=f"Cluster {row['Cluster']}"
+        ).add_to(mapa)
+    mapa.save("cluster.html")
+    with open("cluster.html", 'r', encoding='utf-8') as f:
+        return f.read()
+# Interfaz Gradio
 with gr.Blocks() as demo:
+    gr.Markdown("# Tablero Vasculitis ANCA - Integrado para Hugging Face")
     with gr.Tab("Gráficos Interactivos"):
+        gr.Plot(lambda: px.histogram(df, x='Género', title='Distribución por Género'))
+        gr.Plot(lambda: px.histogram(df, x='Edad en años del paciente', nbins=10, title='Distribución por Edad', marginal='box'))
+        gr.Plot(lambda: px.histogram(df, x='Régimen de afiliación', title='Régimen de Afiliación'))
+        gr.Plot(lambda: px.histogram(df, x='Estrato socioeconómico', title='Estrato Socioeconómico'))
+        gr.Plot(lambda: px.histogram(df, x='Síndrome renal al ingreso', title='Síndrome Renal al Ingreso'))
     with gr.Tab("Análisis Univariado"):
+        col = gr.Dropdown(vars_desc, label="Variable")
+        salida = gr.HTML()
+        col.change(univariado, inputs=col, outputs=salida)
     with gr.Tab("Análisis Bivariado"):
+        x = gr.Dropdown(vars_desc, label="X")
+        y = gr.Dropdown(vars_desc, label="Y")
+        out2 = gr.HTML()
+        gr.Button("Analizar").click(lambda a, b: bivariado(a, b), inputs=[x,y], outputs=out2)
+    with gr.Tab("Chi-cuadrado"):
+        v1 = gr.Dropdown(df.select_dtypes(include='object').columns.tolist(), label="Variable 1")
+        v2 = gr.Dropdown(df.select_dtypes(include='object').columns.tolist(), label="Variable 2")
+        salida_chi = gr.Textbox()
+        tabla = gr.DataFrame()
+        fig_html = gr.HTML()
+        gr.Button("Calcular").click(chi2_test, inputs=[v1,v2], outputs=[salida_chi, tabla, fig_html])
+    with gr.Tab("Mapa de Calor"):
+        htmlmap = gr.HTML()
+        gr.Button("Generar Mapa").click(mapa_calor, outputs=htmlmap)
+    with gr.Tab("Clúster Espacial"):
+        htmlmap3 = gr.HTML()
+        gr.Button("Detectar Clústeres").click(mapa_cluster, outputs=htmlmap3)
+    with gr.Tab("Mapa Calidad Aire PM2.5"):
+        htmlmap4 = gr.HTML()
+        gr.Button("Visualizar PM2.5").click(mapa_pm, outputs=htmlmap4)
+# Ejecutar app
 demo.launch()