Spaces:

muhammadsalmanalfaridzi
/

DuckLink

Running

App Files Files Community

muhammadsalmanalfaridzi commited on 6 days ago

Commit

79a92e5

verified ·

1 Parent(s): a8db4d4

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -10

app.py CHANGED Viewed

@@ -13,12 +13,6 @@ from docling.utils.utils import create_hash
 import pandas as pd
 import time
 import datetime
-import spaces
-import os
-# Pastikan CUDA_HOME diatur (meskipun nvcc tidak tersedia)
-os.environ["CUDA_HOME"] = "/usr/local/cuda"
-# Jika didukung oleh modul, coba paksa fallback custom kernel
-os.environ["FORCE_FALLBACK_DEFORMABLE_ATTENTION"] = "1"
 # Set up logging
 logging.basicConfig(level=logging.INFO)
@@ -37,6 +31,7 @@ pipeline_options.ocr_options.lang = ["id", "en"]  # OCR languages
 def export_tables_and_figures(conv_res, output_dir):
     """Exports tables, figures, and multimodal pages from the converted document."""
     start_time = time.time()
     output_files = []
     # Export tables
@@ -62,6 +57,8 @@ def export_tables_and_figures(conv_res, output_dir):
             picture_image_filename = output_dir / f"{conv_res.input.file.stem}-picture-{picture_ix + 1}.png"
             _log.info(f"Saving Picture to {picture_image_filename}")
             picture.image.save(picture_image_filename)
             output_files.append(picture_image_filename)
         else:
             _log.warning(f"Skipping picture {picture_ix + 1} due to missing image.")
@@ -71,12 +68,14 @@ def export_tables_and_figures(conv_res, output_dir):
     for content_text, content_md, content_dt, page_cells, page_segments, page in generate_multimodal_pages(conv_res):
         try:
             dpi = page._default_image_scale * 72
             image_width = image_height = 0
             image_bytes = None
             if page.image:
                 image_width = page.image.width
                 image_height = page.image.height
                 image_bytes = page.image.tobytes()
             rows.append({
                 "document": conv_res.input.file.name,
                 "hash": conv_res.input.document_hash,
@@ -106,10 +105,13 @@ def export_tables_and_figures(conv_res, output_dir):
     now = datetime.datetime.now()
     output_filename = output_dir / f"multimodal_{now:%Y-%m-%d_%H%M%S}.parquet"
     df.to_parquet(output_filename)
     output_files.append(output_filename)
     end_time = time.time() - start_time
     _log.info(f"Tables, figures, and multimodal pages exported in {end_time:.2f} seconds.")
     return [str(file.resolve()) for file in output_files]
 # Main conversion function
@@ -134,6 +136,7 @@ def convert_document(input_file):
         out_path = output_dir / res.input.file.stem
         out_path.mkdir(parents=True, exist_ok=True)
         with (out_path / f"{res.input.file.stem}.md").open("w", encoding="utf-8") as fp:
             fp.write(res.document.export_to_markdown())
         with (out_path / f"{res.input.file.stem}.json").open("w", encoding="utf-8") as fp:
@@ -141,6 +144,7 @@ def convert_document(input_file):
         with (out_path / f"{res.input.file.stem}.yaml").open("w", encoding="utf-8") as fp:
             fp.write(yaml.safe_dump(res.document.export_to_dict(), allow_unicode=True))
         output_files.append(str((out_path / f"{res.input.file.stem}.md").resolve()))
         output_files.append(str((out_path / f"{res.input.file.stem}.json").resolve()))
         output_files.append(str((out_path / f"{res.input.file.stem}.yaml").resolve()))
@@ -150,8 +154,7 @@ def convert_document(input_file):
     return output_files
-# Wrap the Gradio interface function with the GPU decorator so that CUDA initialization occurs in a GPU-enabled subprocess.
-@spaces.GPU(duration=120)
 def gradio_interface(input_file):
     output_files = convert_document(input_file)
     return output_files
@@ -163,8 +166,8 @@ iface = gr.Interface(
     outputs=gr.File(file_count="multiple"),
     title="Document Conversion with OCR",
     description="Upload your document or image, and get the converted output with OCR and other exports.",
-    flagging_mode="never",  # Updated from allow_flagging
-    theme=themes.Base(primary_hue="teal", secondary_hue="teal", neutral_hue="slate"),
 )
 if __name__ == "__main__":

 import pandas as pd
 import time
 import datetime
 # Set up logging
 logging.basicConfig(level=logging.INFO)
 def export_tables_and_figures(conv_res, output_dir):
     """Exports tables, figures, and multimodal pages from the converted document."""
     start_time = time.time()
     output_files = []
     # Export tables
             picture_image_filename = output_dir / f"{conv_res.input.file.stem}-picture-{picture_ix + 1}.png"
             _log.info(f"Saving Picture to {picture_image_filename}")
             picture.image.save(picture_image_filename)
+            # Append to output files
             output_files.append(picture_image_filename)
         else:
             _log.warning(f"Skipping picture {picture_ix + 1} due to missing image.")
     for content_text, content_md, content_dt, page_cells, page_segments, page in generate_multimodal_pages(conv_res):
         try:
             dpi = page._default_image_scale * 72
+            # Ensure page.image exists and handle the case where it may be None
             image_width = image_height = 0
             image_bytes = None
             if page.image:
                 image_width = page.image.width
                 image_height = page.image.height
                 image_bytes = page.image.tobytes()
             rows.append({
                 "document": conv_res.input.file.name,
                 "hash": conv_res.input.document_hash,
     now = datetime.datetime.now()
     output_filename = output_dir / f"multimodal_{now:%Y-%m-%d_%H%M%S}.parquet"
     df.to_parquet(output_filename)
+    # Append to output files
     output_files.append(output_filename)
     end_time = time.time() - start_time
     _log.info(f"Tables, figures, and multimodal pages exported in {end_time:.2f} seconds.")
     return [str(file.resolve()) for file in output_files]
 # Main conversion function
         out_path = output_dir / res.input.file.stem
         out_path.mkdir(parents=True, exist_ok=True)
+        # Export Markdown and JSON with utf-8 encoding
         with (out_path / f"{res.input.file.stem}.md").open("w", encoding="utf-8") as fp:
             fp.write(res.document.export_to_markdown())
         with (out_path / f"{res.input.file.stem}.json").open("w", encoding="utf-8") as fp:
         with (out_path / f"{res.input.file.stem}.yaml").open("w", encoding="utf-8") as fp:
             fp.write(yaml.safe_dump(res.document.export_to_dict(), allow_unicode=True))
+        # Append to output files
         output_files.append(str((out_path / f"{res.input.file.stem}.md").resolve()))
         output_files.append(str((out_path / f"{res.input.file.stem}.json").resolve()))
         output_files.append(str((out_path / f"{res.input.file.stem}.yaml").resolve()))
     return output_files
+# Create the Gradio interface
 def gradio_interface(input_file):
     output_files = convert_document(input_file)
     return output_files
     outputs=gr.File(file_count="multiple"),
     title="Document Conversion with OCR",
     description="Upload your document or image, and get the converted output with OCR and other exports.",
+    allow_flagging="never",
+    theme=themes.Base(primary_hue="teal", secondary_hue="teal", neutral_hue="slate"),  # Set the theme here
 )
 if __name__ == "__main__":