Spaces:

IAMTFRMZA
/

documentaitestv2

Sleeping

App Files Files Community

IAMTFRMZA commited on 15 days ago

Commit

c0ce26b

verified ·

1 Parent(s): 4a0a44f

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -29

app.py CHANGED Viewed

@@ -20,7 +20,7 @@ if not OPENAI_API_KEY or not ASSISTANT_ID:
 client = OpenAI(api_key=OPENAI_API_KEY)
 session_threads = {}
-# ------------------ Session & Chat Logic ------------------
 def reset_session():
     session_id = str(uuid.uuid4())
     session_threads[session_id] = client.beta.threads.create().id
@@ -54,16 +54,7 @@ def handle_chat(message, history, session_id):
     image = extract_image_url(response)
     return history, image
-# ------------------ Transcript Actions ------------------
-def ask_from_transcript(transcript, history, session_id):
-    return handle_chat(transcript, history, session_id)
-def clear_all(client_id):
-    if client_id in connections:
-        connections[client_id].transcript = ""
-    return "", []
-# ------------------ Real-Time Voice WebSocket ------------------
 def create_websocket_client():
     client_id = str(uuid.uuid4())
     connections[client_id] = WebSocketClient(WEBSOCKET_URI, WEBSOCKET_HEADERS, client_id)
@@ -83,40 +74,32 @@ def send_audio_chunk(audio, client_id):
     return connections[client_id].transcript
 # ------------------ UI ------------------
-with gr.Blocks(theme=gr.themes.Soft(), css="""
-@media (max-width: 768px) {
-  .gr-col { width: 100% !important; }
-  .gr-row > div { flex-direction: column !important; }
-}
-""") as demo:
     gr.Markdown("# 🧠 Document AI + 🎙️ Voice Assistant")
     session_id = gr.State(value=reset_session())
     client_id = gr.State()
     with gr.Row():
-        with gr.Column(scale=1):
-            image_display = gr.Image(label="📑 Extracted Document Image", show_label=True, height=480)
-        with gr.Column(scale=2):
-            chatbot = gr.Chatbot(label="💬 Document Assistant", height=480)
             text_input = gr.Textbox(label="Ask about the document", placeholder="e.g. What is clause 3.2?")
             send_btn = gr.Button("Send")
     send_btn.click(handle_chat, inputs=[text_input, chatbot, session_id], outputs=[chatbot, image_display])
     text_input.submit(handle_chat, inputs=[text_input, chatbot, session_id], outputs=[chatbot, image_display])
     with gr.Accordion("🎤 Or Use Voice Instead", open=False):
         with gr.Row():
-            transcript_box = gr.Textbox(label="Live Transcript", lines=6, interactive=False, autoscroll=True)
-        with gr.Row():
-            mic_input = gr.Audio(label="🎙️ Record", streaming=True)
         with gr.Row():
-            ask_btn = gr.Button("🤖 Ask from Transcript", size="lg")
-            clear_btn = gr.Button("🧹 Clear Chat", size="lg")
         mic_input.stream(fn=send_audio_chunk, inputs=[mic_input, client_id], outputs=transcript_box)
-        ask_btn.click(fn=ask_from_transcript, inputs=[transcript_box, chatbot, session_id], outputs=[chatbot, image_display])
-        clear_btn.click(fn=clear_all, inputs=[client_id], outputs=[transcript_box, chatbot])
         demo.load(fn=create_websocket_client, outputs=client_id)
-demo.launch()

 client = OpenAI(api_key=OPENAI_API_KEY)
 session_threads = {}
+# ------------------ Chat Logic ------------------
 def reset_session():
     session_id = str(uuid.uuid4())
     session_threads[session_id] = client.beta.threads.create().id
     image = extract_image_url(response)
     return history, image
+# ------------------ Voice Logic ------------------
 def create_websocket_client():
     client_id = str(uuid.uuid4())
     connections[client_id] = WebSocketClient(WEBSOCKET_URI, WEBSOCKET_HEADERS, client_id)
     return connections[client_id].transcript
 # ------------------ UI ------------------
+with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("# 🧠 Document AI + 🎙️ Voice Assistant")
     session_id = gr.State(value=reset_session())
     client_id = gr.State()
     with gr.Row():
+        image_display = gr.Image(label="📑 Extracted Document Image", show_label=True, height=360)
+        with gr.Column():
+            chatbot = gr.Chatbot(label="💬 Document Assistant", height=360)
             text_input = gr.Textbox(label="Ask about the document", placeholder="e.g. What is clause 3.2?")
             send_btn = gr.Button("Send")
     send_btn.click(handle_chat, inputs=[text_input, chatbot, session_id], outputs=[chatbot, image_display])
     text_input.submit(handle_chat, inputs=[text_input, chatbot, session_id], outputs=[chatbot, image_display])
+    # Toggle Section
     with gr.Accordion("🎤 Or Use Voice Instead", open=False):
         with gr.Row():
+            transcript_box = gr.Textbox(label="Live Transcript", lines=7, interactive=False, autoscroll=True)
         with gr.Row():
+            mic_input = gr.Audio(streaming=True)
+            clear_button = gr.Button("Clear Transcript")
         mic_input.stream(fn=send_audio_chunk, inputs=[mic_input, client_id], outputs=transcript_box)
+        clear_button.click(fn=clear_transcript, inputs=[client_id], outputs=transcript_box)
         demo.load(fn=create_websocket_client, outputs=client_id)
+demo.launch()