Spaces:

ikraamkb
/

Summarization

Running

App Files Files Community

ikraamkb commited on 6 days ago

Commit

bef3ff2

verified ·

1 Parent(s): 30a8162

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -14

app.py CHANGED Viewed

@@ -18,7 +18,6 @@ from fpdf import FPDF
 import datetime
 from concurrent.futures import ThreadPoolExecutor
 import hashlib
-import asyncio
 nltk.download('punkt', quiet=True)
@@ -36,18 +35,13 @@ executor = ThreadPoolExecutor()
 summary_cache = {}
 def clean_text(text: str) -> str:
-    text = text.encode("utf-8", errors="ignore").decode("utf-8")
     text = re.sub(r'\s+', ' ', text)
     text = re.sub(r'\u2022\s*|\d\.\s+', '', text)
     text = re.sub(r'\[.*?\]|\(.*?\)', '', text)
     text = re.sub(r'\bPage\s*\d+\b', '', text, flags=re.IGNORECASE)
     return text.strip()
-async def async_ocr(path):
-    loop = asyncio.get_event_loop()
-    return await loop.run_in_executor(executor, lambda: reader.readtext(path, detail=0))
-async def extract_text(file_path: str, file_extension: str):
     try:
         if file_extension == "pdf":
             with fitz.open(file_path) as doc:
@@ -56,7 +50,7 @@ async def extract_text(file_path: str, file_extension: str):
                     images = [page.get_pixmap() for page in doc]
                     temp_img = tempfile.NamedTemporaryFile(suffix=".png", delete=False)
                     images[0].save(temp_img.name)
-                    ocr_result = await async_ocr(temp_img.name)
                     os.unlink(temp_img.name)
                     text = "\n".join(ocr_result) if ocr_result else text
                 return clean_text(text), ""
@@ -76,7 +70,7 @@ async def extract_text(file_path: str, file_extension: str):
             return clean_text("\n".join(text)), ""
         elif file_extension in ["jpg", "jpeg", "png"]:
-            ocr_result = await async_ocr(file_path)
             return clean_text("\n".join(ocr_result)), ""
         return "", "Unsupported file format"
@@ -156,6 +150,7 @@ def create_pdf(summary: str, original_filename: str):
         pdf.set_font("Arial", 'B', 16)
         pdf.cell(200, 10, txt="Document Summary", ln=1, align='C')
         pdf.set_font("Arial", size=12)
         pdf.cell(200, 10, txt=f"Generated on: {datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')}", ln=1)
         pdf.ln(10)
         pdf.multi_cell(0, 10, txt=summary)
@@ -172,9 +167,7 @@ def summarize_document(file, summary_length: str, enable_tts: bool = True):
     file_path = file.name
     file_extension = file_path.split(".")[-1].lower()
     original_filename = os.path.basename(file_path)
-    loop = asyncio.get_event_loop()
-    text, error = loop.run_until_complete(extract_text(file_path, file_extension))
     if error:
         return error, "", None, None
     if not text or len(text.split()) < 30:
@@ -188,7 +181,7 @@ def summarize_document(file, summary_length: str, enable_tts: bool = True):
         return f"Summarization error: {str(e)}", "", None, None
 with gr.Blocks(title="Document Summarizer", theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# \ud83d\udcc4 Advanced Document Summarizer")
     gr.Markdown("Upload a document to generate a summary with audio and optional PDF download")
     with gr.Row():
@@ -235,4 +228,4 @@ app = gr.mount_gradio_app(app, demo, path="/")
 @app.get("/")
 def redirect_to_interface():
-    return RedirectResponse(url="/")

 import datetime
 from concurrent.futures import ThreadPoolExecutor
 import hashlib
 nltk.download('punkt', quiet=True)
 summary_cache = {}
 def clean_text(text: str) -> str:
     text = re.sub(r'\s+', ' ', text)
     text = re.sub(r'\u2022\s*|\d\.\s+', '', text)
     text = re.sub(r'\[.*?\]|\(.*?\)', '', text)
     text = re.sub(r'\bPage\s*\d+\b', '', text, flags=re.IGNORECASE)
     return text.strip()
+def extract_text(file_path: str, file_extension: str):
     try:
         if file_extension == "pdf":
             with fitz.open(file_path) as doc:
                     images = [page.get_pixmap() for page in doc]
                     temp_img = tempfile.NamedTemporaryFile(suffix=".png", delete=False)
                     images[0].save(temp_img.name)
+                    ocr_result = reader.readtext(temp_img.name, detail=0)
                     os.unlink(temp_img.name)
                     text = "\n".join(ocr_result) if ocr_result else text
                 return clean_text(text), ""
             return clean_text("\n".join(text)), ""
         elif file_extension in ["jpg", "jpeg", "png"]:
+            ocr_result = reader.readtext(file_path, detail=0)
             return clean_text("\n".join(ocr_result)), ""
         return "", "Unsupported file format"
         pdf.set_font("Arial", 'B', 16)
         pdf.cell(200, 10, txt="Document Summary", ln=1, align='C')
         pdf.set_font("Arial", size=12)
+        pdf.cell(200, 10, txt=f"Original file: {original_filename}", ln=1)
         pdf.cell(200, 10, txt=f"Generated on: {datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')}", ln=1)
         pdf.ln(10)
         pdf.multi_cell(0, 10, txt=summary)
     file_path = file.name
     file_extension = file_path.split(".")[-1].lower()
     original_filename = os.path.basename(file_path)
+    text, error = extract_text(file_path, file_extension)
     if error:
         return error, "", None, None
     if not text or len(text.split()) < 30:
         return f"Summarization error: {str(e)}", "", None, None
 with gr.Blocks(title="Document Summarizer", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# 📄 Advanced Document Summarizer")
     gr.Markdown("Upload a document to generate a summary with audio and optional PDF download")
     with gr.Row():
 @app.get("/")
 def redirect_to_interface():
+    return RedirectResponse(url="/")