Langchained_PGPS_RAG

Sleeping

App Files Files Community

SergeyO7 commited on Mar 26

Commit

2e4bd35

verified ·

1 Parent(s): fdcff15

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -25

app.py CHANGED Viewed

@@ -8,14 +8,13 @@ from langchain_community.llms import HuggingFaceHub
 from langchain.prompts import ChatPromptTemplate
 from dotenv import load_dotenv
 import os
-import
- shutil
-# Load environment variables
 load_dotenv()
 CHROMA_PATH = "/tmp/chroma"
-DATA_PATH = ""  # Укажите путь к вашим данным
 PROMPT_TEMPLATE = """
 Ответь на вопрос, используя только следующий контекст:
 {context}
@@ -23,11 +22,17 @@ PROMPT_TEMPLATE = """
 Ответь на вопрос на основе приведенного контекста: {question}
 """
-# Инициализация базы данных Chroma один раз при запуске
 def initialize_chroma():
     if not os.path.exists(CHROMA_PATH):
         generate_data_store()
     embeddings = HuggingFaceEmbeddings(
         model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
         cache_folder="/tmp/model_cache",
@@ -40,7 +45,6 @@ def initialize_chroma():
     )
     return db
 def generate_data_store():
     documents = load_documents()
     if documents:
@@ -50,7 +54,8 @@ def generate_data_store():
 def load_documents():
     file_path = os.path.join(DATA_PATH, "pl250320252.md")
     if not os.path.exists(file_path):
-        print(f"Ошибка: Файл {file_path} не найден.")
         return []
     loader = UnstructuredMarkdownLoader(file_path)
     documents = loader.load()
@@ -64,36 +69,28 @@ def split_text(documents: list[Document]):
         add_start_index=True,
     )
     chunks = text_splitter.split_documents(documents)
-    print(f"Разделено {len(documents)} документов на {len(chunks)} частей.")
     return chunks
 def save_to_chroma(chunks: list[Document]):
-    # Очищаем базу данных перед сохранением
     if os.path.exists(CHROMA_PATH):
         shutil.rmtree(CHROMA_PATH)
-    # Инициализация эмбеддингов
     embeddings = HuggingFaceEmbeddings(
         model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
-        # cache_folder="/tmp/model_cache",
         model_kwargs={'device': 'cpu'},
         encode_kwargs={'normalize_embeddings': True}
     )
-    # Создание Chroma DB
-    db = Chroma.from_documents(
         chunks,
         embeddings,
         persist_directory=CHROMA_PATH
     )
-    print(f"Сохранено {len(chunks)} частей в {CHROMA_PATH}.")
-# Обработка запроса пользователя
 def process_query(query_text: str, db):
     results = db.similarity_search_with_relevance_scores(query_text, k=3)
     if not results or results[0][1] < 0.7:
         return "Не найдено подходящих результатов.", []
     context_text = "\n\n---\n\n".join([doc.page_content for doc, _ in results])
@@ -107,17 +104,18 @@ def process_query(query_text: str, db):
     sources = [doc.metadata.get("source", None) for doc, _ in results]
     return response_text, sources
-# Функция для интерфейса Gradio
 def chat_interface(query_text):
     db = initialize_chroma()
     response, sources = process_query(query_text, db)
-    return f"Ответ: {response}\n\nИсточники: {', '.join(sources) if sources else 'Нет источников'}"
-# Создаем папки при необходимости
 os.makedirs("/tmp/model_cache", exist_ok=True)
 os.makedirs("/tmp/chroma", exist_ok=True)
-# Создание и запуск интерфейса Gradio
 interface = gr.Interface(
     fn=chat_interface,
     inputs=gr.Textbox(lines=2, placeholder="Введите ваш вопрос здесь..."),

 from langchain.prompts import ChatPromptTemplate
 from dotenv import load_dotenv
 import os
+import shutil
+# Загрузка переменных окружения
 load_dotenv()
 CHROMA_PATH = "/tmp/chroma"
+DATA_PATH = ""  # Укажите путь к вашим данным, например "data", если файл не в корне
 PROMPT_TEMPLATE = """
 Ответь на вопрос, используя только следующий контекст:
 {context}
 Ответь на вопрос на основе приведенного контекста: {question}
 """
+# Глобальная переменная для статуса
+status_message = "Инициализация..."
 def initialize_chroma():
+    global status_message
     if not os.path.exists(CHROMA_PATH):
+        status_message = "Создание базы данных Chroma..."
         generate_data_store()
+        status_message = "База данных Chroma создана и подготовлена."
+    else:
+        status_message = "База данных Chroma уже существует."
     embeddings = HuggingFaceEmbeddings(
         model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
         cache_folder="/tmp/model_cache",
     )
     return db
 def generate_data_store():
     documents = load_documents()
     if documents:
 def load_documents():
     file_path = os.path.join(DATA_PATH, "pl250320252.md")
     if not os.path.exists(file_path):
+        global status_message
+        status_message = f"Ошибка: Файл {file_path} не найден."
         return []
     loader = UnstructuredMarkdownLoader(file_path)
     documents = loader.load()
         add_start_index=True,
     )
     chunks = text_splitter.split_documents(documents)
+    global status_message
+    status_message += f"\nРазделено {len(documents)} документов на {len(chunks)} частей."
     return chunks
 def save_to_chroma(chunks: list[Document]):
     if os.path.exists(CHROMA_PATH):
         shutil.rmtree(CHROMA_PATH)
     embeddings = HuggingFaceEmbeddings(
         model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
         model_kwargs={'device': 'cpu'},
         encode_kwargs={'normalize_embeddings': True}
     )
+    Chroma.from_documents(
         chunks,
         embeddings,
         persist_directory=CHROMA_PATH
     )
 def process_query(query_text: str, db):
     results = db.similarity_search_with_relevance_scores(query_text, k=3)
+    global status_message
+    status_message += f"\nНайдено {len(results)} результатов с релевантностью: {[round(score, 2) for _, score in results]}"
     if not results or results[0][1] < 0.7:
         return "Не найдено подходящих результатов.", []
     context_text = "\n\n---\n\n".join([doc.page_content for doc, _ in results])
     sources = [doc.metadata.get("source", None) for doc, _ in results]
     return response_text, sources
 def chat_interface(query_text):
+    global status_message
     db = initialize_chroma()
     response, sources = process_query(query_text, db)
+    full_response = f"{status_message}\n\nОтвет: {response}\n\nИсточники: {', '.join(sources) if sources else 'Нет источников'}"
+    return full_response
+# Создание папок
 os.makedirs("/tmp/model_cache", exist_ok=True)
 os.makedirs("/tmp/chroma", exist_ok=True)
+# Интерфейс Gradio
 interface = gr.Interface(
     fn=chat_interface,
     inputs=gr.Textbox(lines=2, placeholder="Введите ваш вопрос здесь..."),