import gradio as gr
from transformers import pipeline
import os

access_token = os.getenv("Token")
pipe = pipeline("text-generation", model="meta-llama/Llama-3.2-1B-Instruct", token=access_token)

def predict(query):
    messages = []
    messages.append({"role": "system","content": "you are a helpful assistant"})
    messages.append({"role": "user","content": query})
    return pipe(messages,max_new_tokens=256)[0]["generated_text"][-1]['content']

gradio_app = gr.Interface(
    predict,
    inputs="text", outputs="text",
    title="Llama-3.2-1B-Instruct",
)

if __name__ == "__main__":
    gradio_app.launch()