Spaces:

Tanifh
/

phi3-chatbot

Sleeping

Tanifh commited on Mar 13

Commit

42d2bef

verified ·

1 Parent(s): 9e36cc1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -24,14 +24,14 @@ if not os.path.exists(MODEL_PATH):
         st.error(f"🚨 Model download failed: {e}")
         st.stop()
-# ✅ Load optimized model
 try:
     if "model" not in st.session_state:
         st.session_state["model"] = Llama(
             model_path=MODEL_PATH,
-            n_ctx=1024,  # Reduce context window for faster inference
-            n_threads=2,  # Match available CPU cores (2 vCPUs)
-            numa=True  # Enable NUMA optimization
         )
         st.write("✅ Model loaded successfully!")
 except Exception as e:
@@ -61,11 +61,8 @@ if st.button("Send") and user_input:
     st.session_state["messages"].append(("user", user_input))
     st.chat_message("user").write(user_input)
-    # ✅ Format messages using Phi-3 chat template
-    formatted_messages = [
-        {"role": "system", "content": "You are an AI assistant. Provide clear and concise answers."},
-        {"role": "user", "content": user_input}
-    ]
     # ✅ Streamed response for faster user experience
     response_data = st.session_state["model"].create_chat_completion(

         st.error(f"🚨 Model download failed: {e}")
         st.stop()
+# ✅ Load optimized model with reduced context length
 try:
     if "model" not in st.session_state:
         st.session_state["model"] = Llama(
             model_path=MODEL_PATH,
+            n_ctx=512,  # ✅ Lower memory usage, speeds up responses
+            n_threads=2,  # Matches available vCPUs
+            numa=True  # Optimize CPU memory access
         )
         st.write("✅ Model loaded successfully!")
 except Exception as e:
     st.session_state["messages"].append(("user", user_input))
     st.chat_message("user").write(user_input)
+    # ✅ Use a minimal prompt format (no system message)
+    formatted_messages = [{"role": "user", "content": user_input}]
     # ✅ Streamed response for faster user experience
     response_data = st.session_state["model"].create_chat_completion(