Spaces:

amiguel
/

RAG

Sleeping

amiguel commited on 15 days ago

Commit

03bf821

verified ·

1 Parent(s): af7a4c4

Upload app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -40,10 +40,20 @@ def preprocess_excel(file_path: str) -> pd.DataFrame:
 def build_vectorstore_from_dataframe(df: pd.DataFrame):
     df.fillna("", inplace=True)
     df['combined_text'] = df.apply(lambda row: ' | '.join([str(cell) for cell in row]), axis=1)
-    docs_loader = DataFrameLoader(df[['combined_text']], page_content_column='combined_text')
     documents = docs_loader.load()
     splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
     split_docs = splitter.split_documents(documents)
     embeddings = HuggingFaceEmbeddings(
         model_name="sentence-transformers/all-MiniLM-l6-v2",
         model_kwargs={"device": "cpu"},

 def build_vectorstore_from_dataframe(df: pd.DataFrame):
     df.fillna("", inplace=True)
     df['combined_text'] = df.apply(lambda row: ' | '.join([str(cell) for cell in row]), axis=1)
+    docs_loader = DataFrameLoader(
+        df[['combined_text']].rename(columns={"combined_text": "text"}),
+        page_content_column="text",
+        metadata_columns=["combined_text"]
+    )
     documents = docs_loader.load()
+    for i, doc in enumerate(documents):
+        doc.metadata["source"] = f"Row {i+1}"
     splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
     split_docs = splitter.split_documents(documents)
     embeddings = HuggingFaceEmbeddings(
         model_name="sentence-transformers/all-MiniLM-l6-v2",
         model_kwargs={"device": "cpu"},