Spaces:

SpatialWebAgent
/

docker2

Running

App Files Files Community

Shunfeng Zheng commited on 22 days ago

Commit

e6031dd

verified ·

1 Parent(s): 96eed5e

Update 1_SpatialParse.py

Browse files

Files changed (1) hide show

1_SpatialParse.py +84 -64

1_SpatialParse.py CHANGED Viewed

@@ -9,9 +9,28 @@ import pandas as pd
 # import en_core_web_md
 from spacy.tokens import Span, Doc, Token
 from utils import geoutil
 import urllib.parse
 colors = {'GPE': "#43c6fc", "LOC": "#fd9720", "RSE":"#a6e22d"}
 options = {"ents": ['GPE', 'LOC', "RSE"], "colors": colors}
@@ -147,73 +166,74 @@ def set_selected_entities(doc):
     return doc
 def extract_spatial_entities(text):
-    # nlp = en_core_web_md.load()
-    # nlp = spacy.load("en_core_web_md")
     # nlp.add_pipe("spatial_pipeline", after="ner")
     # doc = nlp(text)
-    # doc = set_selected_entities(doc)
-    # html = displacy.render(doc, style="ent", options=options)
-    # html = html.replace("\n", "")
-    # st.write(HTML_WRAPPER.format(html), unsafe_allow_html=True)
     # show_spatial_ent_table(doc, text)
-    nlp = spacy.load("en_core_web_md")                                  #####
-    nlp.add_pipe("spatial_pipeline", after="ner")
-    doc = nlp(text)
-    # 分句处理
-    sent_ents = []
-    sent_texts = []
-    sent_rse_id = []
-    offset = 0                              # 记录当前 token 偏移量
-    sent_start_positions = [0]              # 记录句子信息
-    doc_copy = doc.copy()                   # 用于展示方程组合
-    for sent in doc.sents:
-        sent_doc = nlp(sent.text)  # 逐句处理
-        sent_doc = set_selected_entities(sent_doc)  # 这里处理实体
-        sent_texts.append(sent_doc.text)
-        for ent in sent_doc.ents:
-            sent_rse_id.append(ent._.rse_id)
-        # **调整每个实体的索引，使其匹配完整文本**
-        for ent in sent_doc.ents:
-            new_ent = Span(doc, ent.start + offset, ent.end + offset, label=ent.label_)
-            sent_ents.append(new_ent)
-        offset += len(sent)  # 更新偏移量
-        sent_start_positions.append(sent_start_positions[-1] + len(sent))           # 记录句子起点
-    # **创建新 Doc**
-    final_doc = Doc(nlp.vocab, words=[token.text for token in doc], spaces=[token.whitespace_ for token in doc])
-    for i in sent_start_positions:                      # 手动标记句子起始点
-        if i < len(final_doc):
-            final_doc[i].is_sent_start = True
-    # **设置实体**
-    final_doc.set_ents(sent_ents)
-    for i in range(len(sent_rse_id)):
-        final_doc.ents[i]._.rse_id = sent_rse_id[i]
-    print(doc.ents[0].sent, '原始')
-    doc = final_doc
-    print(doc.ents[0].sent, '新')
-    # 分句处理完毕
-    # doc = set_selected_entities(doc)
-    # doc.to_disk("saved_doc.spacy")
-    doc.to_disk("/tmp/saved_doc.spacy")
-    html = displacy.render(doc,style="ent", options = options)
-    html = html.replace("\n","")
-    st.write(HTML_WRAPPER.format(html),unsafe_allow_html=True)
-    show_spatial_ent_table(doc, text)
-    st.markdown("123123")
-    show_sentence_selector_table(doc_copy)
 def show_sentence_selector_table(doc_copy):
     st.markdown("**______________________________________________________________________________________**")

 # import en_core_web_md
 from spacy.tokens import Span, Doc, Token
 from utils import geoutil
 import urllib.parse
+API_TOKEN = os.getenv("HF_API_TOKEN")
+BACKEND_URL = "https://dsbb0707-dockerb2.hf.space/api/predict/"
+def call_backend(input_text):
+    try:
+        headers = {
+            "Authorization": f"Bearer {API_TOKEN}"
+        }
+        response = requests.post(
+            BACKEND_URL,
+            headers=headers,
+            json={"data": [input_text]},
+            timeout=10
+        )
+        if response.status_code == 200:
+            result = response.json()["data"][0]
+            return f"✅ {result['result']}\n⏰ {result['timestamp']}"
+        return f"❌ Backend Error (HTTP {response.status_code})"
+    except Exception as e:
+        return f"⚠️ Connection Error: {str(e)}"
 colors = {'GPE': "#43c6fc", "LOC": "#fd9720", "RSE":"#a6e22d"}
 options = {"ents": ['GPE', 'LOC', "RSE"], "colors": colors}
     return doc
 def extract_spatial_entities(text):
+    # # nlp = en_core_web_md.load()
+    # # nlp = spacy.load("en_core_web_md")
+    # # nlp.add_pipe("spatial_pipeline", after="ner")
+    # # doc = nlp(text)
+    # # doc = set_selected_entities(doc)
+    # # html = displacy.render(doc, style="ent", options=options)
+    # # html = html.replace("\n", "")
+    # # st.write(HTML_WRAPPER.format(html), unsafe_allow_html=True)
+    # # show_spatial_ent_table(doc, text)
+    # nlp = spacy.load("en_core_web_md")                                  #####
     # nlp.add_pipe("spatial_pipeline", after="ner")
     # doc = nlp(text)
+    # # 分句处理
+    # sent_ents = []
+    # sent_texts = []
+    # sent_rse_id = []
+    # offset = 0                              # 记录当前 token 偏移量
+    # sent_start_positions = [0]              # 记录句子信息
+    # doc_copy = doc.copy()                   # 用于展示方程组合
+    # for sent in doc.sents:
+    #     sent_doc = nlp(sent.text)  # 逐句处理
+    #     sent_doc = set_selected_entities(sent_doc)  # 这里处理实体
+    #     sent_texts.append(sent_doc.text)
+    #     for ent in sent_doc.ents:
+    #         sent_rse_id.append(ent._.rse_id)
+    #     # **调整每个实体的索引，使其匹配完整文本**
+    #     for ent in sent_doc.ents:
+    #         new_ent = Span(doc, ent.start + offset, ent.end + offset, label=ent.label_)
+    #         sent_ents.append(new_ent)
+    #     offset += len(sent)  # 更新偏移量
+    #     sent_start_positions.append(sent_start_positions[-1] + len(sent))           # 记录句子起点
+    # # **创建新 Doc**
+    # final_doc = Doc(nlp.vocab, words=[token.text for token in doc], spaces=[token.whitespace_ for token in doc])
+    # for i in sent_start_positions:                      # 手动标记句子起始点
+    #     if i < len(final_doc):
+    #         final_doc[i].is_sent_start = True
+    # # **设置实体**
+    # final_doc.set_ents(sent_ents)
+    # for i in range(len(sent_rse_id)):
+    #     final_doc.ents[i]._.rse_id = sent_rse_id[i]
+    # print(doc.ents[0].sent, '原始')
+    # doc = final_doc
+    # print(doc.ents[0].sent, '新')
+    # # 分句处理完毕
+    # # doc = set_selected_entities(doc)
+    # # doc.to_disk("saved_doc.spacy")
+    # doc.to_disk("/tmp/saved_doc.spacy")
+    api_result = call_backend(text)
+    st.markdown(api_result)
+    st.text_area(api_result)
+    # html = displacy.render(doc,style="ent", options = options)
+    # html = html.replace("\n","")
+    # st.write(HTML_WRAPPER.format(html),unsafe_allow_html=True)
     # show_spatial_ent_table(doc, text)
+    # st.markdown("123123")
+    # show_sentence_selector_table(doc_copy)
 def show_sentence_selector_table(doc_copy):
     st.markdown("**______________________________________________________________________________________**")