Spaces:

ikraamkb
/

Summarization

Running

App Files Files Community

ikraamkb commited on 7 days ago

Commit

d9c0a34

verified ·

1 Parent(s): 577b48b

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -9

app.py CHANGED Viewed

@@ -16,25 +16,24 @@ import os
 import easyocr
 from fpdf import FPDF
 import datetime
-import asyncio
 from concurrent.futures import ThreadPoolExecutor
 nltk.download('punkt', quiet=True)
 app = FastAPI()
-# Load models
 MODEL_NAME = "facebook/bart-large-cnn"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
-model.eval()  # Optimization: inference mode
 summarizer = pipeline("summarization", model=model, tokenizer=tokenizer, device=-1, batch_size=4)
-reader = easyocr.Reader(['en','fr'], gpu=torch.cuda.is_available())
 executor = ThreadPoolExecutor()
 def clean_text(text: str) -> str:
     text = re.sub(r'\s+', ' ', text)
     text = re.sub(r'\u2022\s*|\d\.\s+', '', text)
@@ -101,6 +100,10 @@ def chunk_text(text: str, max_tokens: int = 950):
     return chunks
 def generate_summary(text: str, length: str = "medium") -> str:
     length_params = {
         "short": {"max_length": 80, "min_length": 30},
         "medium": {"max_length": 200, "min_length": 80},
@@ -124,7 +127,10 @@ def generate_summary(text: str, length: str = "medium") -> str:
     final_summary = " ".join(summary_texts)
     final_summary = ". ".join(s.strip().capitalize() for s in final_summary.split(". ") if s.strip())
-    return final_summary if len(final_summary) > 25 else "Summary too short - document may be too brief"
 def text_to_speech(text: str):
     try:
@@ -161,8 +167,7 @@ def summarize_document(file, summary_length: str, enable_tts: bool = True):
     file_path = file.name
     file_extension = file_path.split(".")[-1].lower()
     original_filename = os.path.basename(file_path)
-    loop = asyncio.get_event_loop()
-    text, error = loop.run_until_complete(loop.run_in_executor(executor, extract_text, file_path, file_extension))
     if error:
         return error, "", None, None
     if not text or len(text.split()) < 30:

 import easyocr
 from fpdf import FPDF
 import datetime
 from concurrent.futures import ThreadPoolExecutor
+import hashlib
 nltk.download('punkt', quiet=True)
 app = FastAPI()
 MODEL_NAME = "facebook/bart-large-cnn"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
+model.eval()
 summarizer = pipeline("summarization", model=model, tokenizer=tokenizer, device=-1, batch_size=4)
+reader = easyocr.Reader(['en'], gpu=torch.cuda.is_available())
 executor = ThreadPoolExecutor()
+summary_cache = {}
 def clean_text(text: str) -> str:
     text = re.sub(r'\s+', ' ', text)
     text = re.sub(r'\u2022\s*|\d\.\s+', '', text)
     return chunks
 def generate_summary(text: str, length: str = "medium") -> str:
+    cache_key = hashlib.md5((text + length).encode()).hexdigest()
+    if cache_key in summary_cache:
+        return summary_cache[cache_key]
     length_params = {
         "short": {"max_length": 80, "min_length": 30},
         "medium": {"max_length": 200, "min_length": 80},
     final_summary = " ".join(summary_texts)
     final_summary = ". ".join(s.strip().capitalize() for s in final_summary.split(". ") if s.strip())
+    final_summary = final_summary if len(final_summary) > 25 else "Summary too short - document may be too brief"
+    summary_cache[cache_key] = final_summary
+    return final_summary
 def text_to_speech(text: str):
     try:
     file_path = file.name
     file_extension = file_path.split(".")[-1].lower()
     original_filename = os.path.basename(file_path)
+    text, error = extract_text(file_path, file_extension)
     if error:
         return error, "", None, None
     if not text or len(text.split()) < 30: