Spaces:

ksvmuralidhar
/

news_summarizer_api

Sleeping

App Files Files Community

ksvmuralidhar commited on Aug 18, 2024

Commit

c3657ca

verified ·

1 Parent(s): 0191756

Update api.py

Browse files

Files changed (1) hide show

api.py +7 -7

api.py CHANGED Viewed

@@ -28,7 +28,7 @@ def load_summarizer_models():
     return summ_tokenizer, summ_model
-def summ_preprocess(txt):
     txt = re.sub(r'^By \. [\w\s]+ \. ', ' ', txt) # By . Ellie Zolfagharifard .
     txt = re.sub(r'\d{1,2}\:\d\d [a-zA-Z]{3}', ' ', txt) # 10:30 EST
     txt = re.sub(r'\d{1,2} [a-zA-Z]+ \d{4}', ' ', txt) # 10 November 1990
@@ -45,14 +45,14 @@ def summ_preprocess(txt):
     return txt
-def summ_inference_tokenize(input_: list, n_tokens: int):
     tokenized_data = summ_tokenizer(text=input_, max_length=SUMM_TARGET_N_TOKENS, truncation=True, padding="max_length", return_tensors="tf")
     return summ_tokenizer, tokenized_data
-def summ_inference(txts: str):
-    txts = [*map(summ_preprocess, txts)]
-    inference_tokenizer, tokenized_data = summ_inference_tokenize(input_=txts, n_tokens=SUMM_INPUT_N_TOKENS)
     pred = summ_model.generate(**tokenized_data, max_new_tokens=SUMM_TARGET_N_TOKENS)
     result = ["" if t=="" else inference_tokenizer.decode(p, skip_special_tokens=True).strip() for t, p in zip(txts, pred)]
     return result
@@ -82,7 +82,7 @@ def scrape_urls(urls):
     scraped_texts = []
     scrape_errors = []
     for url in urls:
-        text, err = scrape_text(url)
         scraped_texts.append(text)
         scrape_errors.append(err)
     return scraped_texts, scrape_errors
@@ -117,7 +117,7 @@ async def read_items(q: URLList):
         api_key = request_json['key']
         _ = authenticate_key(api_key)
         scraped_texts, scrape_errors = scrape_urls(urls)
-        summaries = summ_inference(scraped_texts)
         status_code = 200
         response_json = {'urls': urls, 'scraped_texts': scraped_texts, 'scrape_errors': scrape_errors, 'summaries': summaries, 'summarizer_error': ''}
     except Exception as e:

     return summ_tokenizer, summ_model
+async def summ_preprocess(txt):
     txt = re.sub(r'^By \. [\w\s]+ \. ', ' ', txt) # By . Ellie Zolfagharifard .
     txt = re.sub(r'\d{1,2}\:\d\d [a-zA-Z]{3}', ' ', txt) # 10:30 EST
     txt = re.sub(r'\d{1,2} [a-zA-Z]+ \d{4}', ' ', txt) # 10 November 1990
     return txt
+async def summ_inference_tokenize(input_: list, n_tokens: int):
     tokenized_data = summ_tokenizer(text=input_, max_length=SUMM_TARGET_N_TOKENS, truncation=True, padding="max_length", return_tensors="tf")
     return summ_tokenizer, tokenized_data
+async def summ_inference(txts: str):
+    txts = [*map(await summ_preprocess, txts)]
+    inference_tokenizer, tokenized_data = await summ_inference_tokenize(input_=txts, n_tokens=SUMM_INPUT_N_TOKENS)
     pred = summ_model.generate(**tokenized_data, max_new_tokens=SUMM_TARGET_N_TOKENS)
     result = ["" if t=="" else inference_tokenizer.decode(p, skip_special_tokens=True).strip() for t, p in zip(txts, pred)]
     return result
     scraped_texts = []
     scrape_errors = []
     for url in urls:
+        text, err = await scrape_text(url)
         scraped_texts.append(text)
         scrape_errors.append(err)
     return scraped_texts, scrape_errors
         api_key = request_json['key']
         _ = authenticate_key(api_key)
         scraped_texts, scrape_errors = scrape_urls(urls)
+        summaries = await summ_inference(scraped_texts)
         status_code = 200
         response_json = {'urls': urls, 'scraped_texts': scraped_texts, 'scrape_errors': scrape_errors, 'summaries': summaries, 'summarizer_error': ''}
     except Exception as e: