Spaces:

amiguel
/

RAG

Sleeping

App Files Files Community

amiguel commited on 16 days ago

Commit

d7c0178

verified ·

1 Parent(s): 2bdefb3

Upload app.py

Browse files

Files changed (1) hide show

app.py +19 -17

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import os
 import json
 from pathlib import Path
-from langchain.document_loaders import DataFrameLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores import FAISS
@@ -35,22 +35,24 @@ def preprocess_excel(file_path: str) -> pd.DataFrame:
     df.dropna(how='all', inplace=True)
     df.dropna(axis=1, how='all', inplace=True)
     df.reset_index(drop=True, inplace=True)
     return df
-def build_vectorstore_from_dataframe(df: pd.DataFrame):
     df.fillna("", inplace=True)
-    df['combined_text'] = df.apply(lambda row: ' | '.join([str(cell) for cell in row]), axis=1)
-    docs_loader = DataFrameLoader(df[['combined_text']], page_content_column='combined_text')
-    documents = docs_loader.load()
-    for i, doc in enumerate(documents):
-        doc.metadata["source"] = f"Row {i+1}"
     splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
-    split_docs = splitter.split_documents(documents)
     embeddings = HuggingFaceEmbeddings(
         model_name="sentence-transformers/all-MiniLM-l6-v2",
@@ -71,7 +73,7 @@ def create_qa_pipeline(vectorstore):
     return qa
 st.set_page_config(page_title="Excel-Aware RAG Chatbot", layout="wide")
-st.title("📊 Excel-Aware RAG Chatbot (Professional QA)")
 with st.sidebar:
     uploaded_file = st.file_uploader("Upload your Excel file (.xlsx or .xlsm with 'Data Base' sheet)", type=["xlsx", "xlsm"])
@@ -91,8 +93,8 @@ if uploaded_file is not None:
             tmp_path = tmp_file.name
         try:
-            cleaned_df = preprocess_excel(tmp_path)
-            vectorstore = build_vectorstore_from_dataframe(cleaned_df)
             qa = create_qa_pipeline(vectorstore)
             st.success("✅ File processed and chatbot ready! Ask your questions below.")
         except Exception as e:
@@ -103,14 +105,14 @@ if uploaded_file is not None:
     for message in st.session_state.chat_history:
         st.chat_message(message["role"], avatar=USER_AVATAR if message["role"] == "user" else BOT_AVATAR).markdown(message["content"])
-    user_prompt = st.chat_input("Ask about inspections, delays, backlog...")
     if user_prompt:
         st.session_state.chat_history.append({"role": "user", "content": user_prompt})
         st.chat_message("user", avatar=USER_AVATAR).markdown(user_prompt)
         with st.chat_message("assistant", avatar=BOT_AVATAR):
-            with st.spinner("Searching and generating..."):
                 try:
                     response = qa.invoke({"question": user_prompt})
                     final_response = response['answer']

 import json
 from pathlib import Path
+from langchain.document_loaders import Document
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores import FAISS
     df.dropna(how='all', inplace=True)
     df.dropna(axis=1, how='all', inplace=True)
     df.reset_index(drop=True, inplace=True)
+    df.columns = df.columns.astype(str)
     return df
+def build_vectorstore_from_structured_records(df: pd.DataFrame):
     df.fillna("", inplace=True)
+    records = []
+    for i, row in df.iterrows():
+        item_class = str(row.get("Item Class", "")).strip()
+        job_done = str(row.get("Job Done", "")).strip()
+        backlog = str(row.get("Backlog?", "")).strip()
+        days = str(row.get("Days in Backlog", "")).strip()
+        if not any([item_class, job_done, backlog, days]):
+            continue
+        sentence = f"Item Class {item_class} has status {job_done}, is in {backlog} backlog, and has {days} days."
+        records.append(Document(page_content=sentence, metadata={"source": f"Row {i+1}"}))
     splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
+    split_docs = splitter.split_documents(records)
     embeddings = HuggingFaceEmbeddings(
         model_name="sentence-transformers/all-MiniLM-l6-v2",
     return qa
 st.set_page_config(page_title="Excel-Aware RAG Chatbot", layout="wide")
+st.title("📊 Excel-Aware RAG Chatbot (Structured QA)")
 with st.sidebar:
     uploaded_file = st.file_uploader("Upload your Excel file (.xlsx or .xlsm with 'Data Base' sheet)", type=["xlsx", "xlsm"])
             tmp_path = tmp_file.name
         try:
+            df = preprocess_excel(tmp_path)
+            vectorstore = build_vectorstore_from_structured_records(df)
             qa = create_qa_pipeline(vectorstore)
             st.success("✅ File processed and chatbot ready! Ask your questions below.")
         except Exception as e:
     for message in st.session_state.chat_history:
         st.chat_message(message["role"], avatar=USER_AVATAR if message["role"] == "user" else BOT_AVATAR).markdown(message["content"])
+    user_prompt = st.chat_input("Ask about item classes, backlog, or status...")
     if user_prompt:
         st.session_state.chat_history.append({"role": "user", "content": user_prompt})
         st.chat_message("user", avatar=USER_AVATAR).markdown(user_prompt)
         with st.chat_message("assistant", avatar=BOT_AVATAR):
+            with st.spinner("Thinking..."):
                 try:
                     response = qa.invoke({"question": user_prompt})
                     final_response = response['answer']