Spaces:

abdullahalioo
/

aiapp

Sleeping

App Files Files Community

abdullahalioo commited on 5 days ago

Commit

9a3022c

verified ·

1 Parent(s): 560244c

Update main.py

Browse files

Files changed (1) hide show

main.py +15 -14

main.py CHANGED Viewed

@@ -2,7 +2,7 @@ from fastapi import FastAPI
 from pydantic import BaseModel
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import StreamingResponse
-from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 app = FastAPI()
@@ -15,7 +15,7 @@ app.add_middleware(
     allow_headers=["*"],
 )
-# Load model and tokenizer (do this once at startup)
 model_name = "Qwen/Qwen2.5-7B-Instruct-1M"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
@@ -40,30 +40,31 @@ def generate_response_chunks(prompt: str):
             add_generation_prompt=True,
             return_tensors="pt"
         ).to(model.device)
-        # Generate streamingly
         with torch.no_grad():
-            for outputs in model.generate(
                 inputs,
                 max_new_tokens=512,
                 do_sample=True,
                 temperature=0.7,
                 top_p=0.9,
-                streamer=None,  # We'll implement manual streaming
-                stopping_criteria=None
-            ):
-                chunk = outputs[0, inputs.shape[1]:]
-                text = tokenizer.decode(chunk, skip_special_tokens=True)
                 if text:
                     yield text
     except Exception as e:
-        yield f"Error occurred: {e}"
 @app.post("/ask")
 async def ask(question: Question):
     return StreamingResponse(
         generate_response_chunks(question.question),
         media_type="text/plain"
-    )

 from pydantic import BaseModel
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import StreamingResponse
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
 import torch
 app = FastAPI()
     allow_headers=["*"],
 )
+# Load model and tokenizer
 model_name = "Qwen/Qwen2.5-7B-Instruct-1M"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
             add_generation_prompt=True,
             return_tensors="pt"
         ).to(model.device)
+        # Set up streamer
+        streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+        # Generate response with streaming
         with torch.no_grad():
+            model.generate(
                 inputs,
                 max_new_tokens=512,
                 do_sample=True,
                 temperature=0.7,
                 top_p=0.9,
+                streamer=streamer
+            )
+            # Since TextStreamer handles printing, we yield chunks from the streamer
+            for text in streamer:
                 if text:
                     yield text
     except Exception as e:
+        yield f"Error occurred: {str(e)}"
 @app.post("/ask")
 async def ask(question: Question):
     return StreamingResponse(
         generate_response_chunks(question.question),
         media_type="text/plain"
+    )