Spaces:

ibrahimBlyc
/

LA_Llama_Chat

Running

App Files Files Community

ibrahimBlyc commited on Jan 23

Commit

dec7ccf

1 Parent(s): ee7e713

Update space

Browse files

Files changed (2) hide show

app.py +24 -109
requirements.txt +4 -1

app.py CHANGED Viewed

@@ -1,121 +1,36 @@
 import gradio as gr
 import requests
-import json
-def respond(message, history, system_message, max_tokens, temperature, top_p):
-    """
-    Fonction pour générer une réponse en utilisant Ollama
-    Args:
-    - message: Le dernier message de l'utilisateur
-    - history: Historique des conversations
-    - system_message: Message système pour guider le comportement du modèle
-    - max_tokens: Nombre maximal de tokens à générer
-    - temperature: Contrôle la créativité de la réponse
-    - top_p: Échantillonnage nucléaire
-    Returns:
-    - Réponse générée par le modèle
-    """
-    # Préparer les messages pour le contexte
-    messages = [{"role": "system", "content": system_message}]
-    for user_msg, assistant_msg in history:
-        if user_msg:
-            messages.append({"role": "user", "content": user_msg})
-        if assistant_msg:
-            messages.append({"role": "assistant", "content": assistant_msg})
-    messages.append({"role": "user", "content": message})
-    # Préparer les données pour la requête Ollama
-    data = {
-        "model": "hf.co/ibrahimBlyc/LA_Llama:latest",  # Assurez-vous que ce modèle est disponible localement
-        "messages": messages,
-        "stream": True,
-        "options": {
-            "num_predict": max_tokens,
-            "temperature": temperature,
-            "top_p": top_p
-        }
     }
-    # URL du serveur Ollama local
-    url = "http://localhost:11434/api/chat"
     try:
-        # Envoyer la requête en streaming
-        response = ""
-        with requests.post(url, json=data, stream=True) as stream_response:
-            stream_response.raise_for_status()
-            for chunk in stream_response.iter_lines():
-                if chunk:
-                    try:
-                        # Décoder correctement le chunk JSON
-                        chunk_decoded = chunk.decode('utf-8')
-                        chunk_json = json.loads(chunk_decoded)
-                        # Extraire le token de la réponse
-                        if 'message' in chunk_json and 'content' in chunk_json['message']:
-                            token = chunk_json['message']['content']
-                            response += token
-                            yield response
-                    except json.JSONDecodeError as e:
-                        print(f"Erreur de décodage JSON : {e}")
-                        yield f"Erreur : Impossible de décoder la réponse du serveur."
-                        return
-                    except Exception as e:
-                        print(f"Erreur inattendue : {e}")
-                        yield f"Erreur : Une erreur inattendue s'est produite."
-                        return
     except requests.exceptions.RequestException as e:
-        print(f"Erreur de requête : {e}")
-        yield f"Erreur : Impossible de communiquer avec le serveur Ollama."
-# Créer l'interface Gradio
-demo = gr.ChatInterface(
-    respond,
-    title="Ollama Chatbot",
-    description="Discutez avec un modèle Ollama local",
-    additional_inputs=[
-        gr.Textbox(
-            value="Tu es un assistant IA amical et utile qui répond de manière concise et informative.",
-            label="Message système",
-            lines=3
-        ),
-        gr.Slider(
-            minimum=1,
-            maximum=2048,
-            value=512,
-            step=1,
-            label="Nombre max de tokens"
-        ),
-        gr.Slider(
-            minimum=0.1,
-            maximum=2.0,
-            value=0.7,
-            step=0.1,
-            label="Température"
-        ),
-        gr.Slider(
-            minimum=0.1,
-            maximum=1.0,
-            value=0.95,
-            step=0.05,
-            label="Top-p (échantillonnage nucléaire)"
-        ),
-    ],
-    theme="default"
 )
-# Lancement de l'application
 if __name__ == "__main__":
-    # Vérifier que le serveur Ollama est bien installé
-    try:
-        import ollama
-        print("Serveur Ollama détecté. Lancement de l'interface...")
-        demo.launch(share=True)
-    except ImportError:
-        print("Le serveur Ollama n'est pas installé. Veuillez l'installer.")
-    except Exception as e:
-        print(f"Erreur lors du lancement : {e}")

 import gradio as gr
 import requests
+# Fonction pour interroger Ollama
+def query_ollama(prompt):
+    # Configuration de l'URL et du modèle Ollama
+    url = "http://localhost:11434/api"  # Le port utilisé par Ollama
+    model_name = "hf.co/ibrahimBlyc/LA_Llama:latest"  # Nom complet du modèle
+    # Corps de la requête
+    payload = {
+        "model": model_name,
+        "prompt": prompt
     }
     try:
+        # Envoi de la requête POST
+        response = requests.post(url, json=payload)
+        response.raise_for_status()  # Vérifie les erreurs HTTP
+        result = response.json().get("response", "Aucune réponse reçue.")
     except requests.exceptions.RequestException as e:
+        result = f"Erreur : {e}"
+    return result
+# Interface Gradio
+interface = gr.Interface(
+    fn=query_ollama,
+    inputs=gr.Textbox(label="Entrée utilisateur", placeholder="Posez une question..."),
+    outputs=gr.Textbox(label="Réponse du modèle"),
+    title="Interface Ollama via Hugging Face Spaces",
+    description="Une interface simple pour communiquer avec un modèle Ollama via le port 11434."
 )
 if __name__ == "__main__":
+    interface.launch(share=True)

requirements.txt CHANGED Viewed

	@@ -1 +1,4 @@
1	- huggingface_hub==0.25.2

+huggingface_hub==0.25.2
+gradio
+transformers
+requests