Spaces:

ikraamkb
/

Summarization

Running

App Files Files Community

Summarization / qtAnswering /appImage.py

ikraamkb

Upload 4 files

4ab997d verified 1 day ago

raw

history blame contribute delete

2.04 kB


	from fastapi import FastAPI
	from fastapi.responses import RedirectResponse, JSONResponse, FileResponse
	import os
	from PIL import Image
	from transformers import ViltProcessor, ViltForQuestionAnswering, pipeline
	from gtts import gTTS
	import easyocr
	import torch
	import tempfile
	import numpy as np
	from io import BytesIO

	app = FastAPI()

	vqa_processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
	vqa_model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
	captioner = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-captioning")
	reader = easyocr.Reader(['en', 'fr'])

	def classify_question(question: str):
	q = question.lower()
	if any(w in q for w in ["text", "say", "written", "read"]):
	return "ocr"
	if any(w in q for w in ["caption", "describe", "what is in the image"]):
	return "caption"
	return "vqa"

	def answer_question_from_image(image, question):
	if image is None or not question.strip():
	return "Please upload an image and ask a question.", None

	mode = classify_question(question)

	try:
	if mode == "ocr":
	result = reader.readtext(np.array(image))
	answer = " ".join([entry[1] for entry in result]) or "No readable text found."

	elif mode == "caption":
	answer = captioner(image)[0]['generated_text']

	else:
	inputs = vqa_processor(image, question, return_tensors="pt")
	with torch.no_grad():
	outputs = vqa_model(**inputs)
	predicted_id = outputs.logits.argmax(-1).item()
	answer = vqa_model.config.id2label[predicted_id]

	tts = gTTS(text=answer)
	with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp:
	tts.save(tmp.name)
	return answer, tmp.name

	except Exception as e:
	return f"Error: {e}", None

	@app.get("/")
	def home():
	return RedirectResponse(url="/templates/home.html")