Spaces:

Emilianohack6950
/

Deviantart-api

Paused

App Files Files Community

Emilianohack6950 commited on Jun 5

Commit

003f3bf

verified ·

1 Parent(s): 8d87719

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -43

app.py CHANGED Viewed

@@ -9,16 +9,10 @@ subprocess.run(
     )
 import asyncio
-import gradio as gr
-import json
 import os
-import re
 from playwright.async_api import async_playwright
-from tqdm import tqdm
-from dotenv import load_dotenv
-# Cargar .env si existe (solo en local)
-load_dotenv()
 USER_AGENT = (
     "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
@@ -26,20 +20,8 @@ USER_AGENT = (
     "Chrome/91.0.4472.124 Safari/537.36"
 )
-# 🔐 Leer cookies desde variable de entorno segura
-def cargar_cookies_desde_env():
-    cookies_str = os.getenv("COOKIES_JSON", "[]")
-    cookies = json.loads(cookies_str)
-    for cookie in cookies:
-        cookie["sameSite"] = cookie.get("sameSite", "None").capitalize()
-    return cookies
-# 🤖 Detectar si el input es URL o categoría
-def es_url(input_str):
-    return re.match(r"^https?://", input_str.strip()) is not None
-# 🧩 Scraping principal
-async def scrape_deviantart(input_value, max_imgs=30, cookies=None):
     async with async_playwright() as p:
         browser = await p.chromium.launch(headless=True)
         context = await browser.new_context(
@@ -47,8 +29,17 @@ async def scrape_deviantart(input_value, max_imgs=30, cookies=None):
             viewport={"width": 1366, "height": 768},
         )
-        if cookies:
-            await context.add_cookies(cookies)
         page = await context.new_page()
         await page.set_extra_http_headers({
@@ -57,7 +48,6 @@ async def scrape_deviantart(input_value, max_imgs=30, cookies=None):
             "Referer": "https://www.deviantart.com/",
         })
-        url = input_value if es_url(input_value) else f"https://www.deviantart.com/search?q={input_value}"
         await page.goto(url, timeout=60000)
         await page.wait_for_load_state("networkidle")
@@ -78,25 +68,35 @@ async def scrape_deviantart(input_value, max_imgs=30, cookies=None):
                     seen_urls.add(item["img_url"])
             if len(collected_data) < max_imgs:
-                await page.evaluate("window.scrollBy({top: window.innerHeight * 1.5, behavior: 'smooth'});")
                 await page.wait_for_timeout(3000)
                 scroll_attempts += 1
         await browser.close()
-        return [item["img_url"] for item in collected_data[:max_imgs]]
-# 🎛️ Función que usa Gradio
-def interfaz_gradio(input_value, cantidad):
-    cookies = cargar_cookies_desde_env()
-    return asyncio.run(scrape_deviantart(input_value, max_imgs=int(cantidad), cookies=cookies))
-# 🎨 Interfaz Gradio
-with gr.Blocks() as demo:
-    gr.Markdown("## 🎨 Buscar Imágenes en DeviantArt")
-    entrada = gr.Textbox(label="🔍 Categoría o URL personalizada")
-    cantidad = gr.Slider(5, 100, step=5, value=20, label="📸 Cantidad de imágenes")
-    btn = gr.Button("Buscar")
-    galeria = gr.Gallery(label="Resultados")
-    btn.click(interfaz_gradio, [entrada, cantidad], galeria)
-demo.launch()

     )
 import asyncio
 import os
+import json
+import gradio as gr
 from playwright.async_api import async_playwright
 USER_AGENT = (
     "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
     "Chrome/91.0.4472.124 Safari/537.36"
 )
+async def scrape_images(url, max_imgs):
+    max_imgs = max(10, min(max_imgs, 300))
     async with async_playwright() as p:
         browser = await p.chromium.launch(headless=True)
         context = await browser.new_context(
             viewport={"width": 1366, "height": 768},
         )
+        # Cargar cookies desde variable de entorno si está definida
+        cookies_env = os.getenv("COOKIES_JSON")
+        if cookies_env:
+            try:
+                cookies = json.loads(cookies_env)
+                for cookie in cookies:
+                    cookie["sameSite"] = "None" if cookie.get("sameSite") is None else cookie["sameSite"].capitalize()
+                await context.add_cookies(cookies)
+                print("✅ Cookies cargadas desde variable de entorno")
+            except Exception as e:
+                print(f"⚠️ Error cargando cookies desde variable de entorno: {e}")
         page = await context.new_page()
         await page.set_extra_http_headers({
             "Referer": "https://www.deviantart.com/",
         })
         await page.goto(url, timeout=60000)
         await page.wait_for_load_state("networkidle")
                     seen_urls.add(item["img_url"])
             if len(collected_data) < max_imgs:
+                await page.evaluate("""window.scrollBy({top: window.innerHeight * 1.5, behavior: 'smooth'});""")
                 await page.wait_for_timeout(3000)
                 scroll_attempts += 1
+                try:
+                    await page.wait_for_selector('img[srcset]:not([data-loaded])', timeout=5000)
+                except:
+                    pass
         await browser.close()
+        return collected_data[:max_imgs]
+def run_scraper(url, max_imgs):
+    return asyncio.run(scrape_images(url, int(max_imgs)))
+def interface_fn(url, max_imgs):
+    results = run_scraper(url, max_imgs)
+    images = [(item["img_url"], f"Usuario: {item['user']}") for item in results]
+    return images
+demo = gr.Interface(
+    fn=interface_fn,
+    inputs=[
+        gr.Textbox(label="URL de la galería DeviantArt", lines=1, value="https://www.deviantart.com/silkedead/gallery/68498591/screenshots-film-and-movie"),
+        gr.Slider(minimum=10, maximum=300, step=1, value=30, label="Máximo de imágenes")
+    ],
+    outputs=gr.Gallery(label="Imágenes recolectadas").style(grid=[3], height="auto"),
+    title="Scraper de Imágenes - DeviantArt",
+    description="Introduce la URL de la galería DeviantArt y la cantidad máxima de imágenes que quieres recolectar."
+)
+if __name__ == "__main__":
+    demo.launch()