Spaces:

calm-ai
/

DocQA

Sleeping

File size: 2,286 Bytes

cc9f92c
 
 
 
 
 
77fa895
cc9f92c
 
 
 
 
 
1172c31
cc9f92c
c6e3997
0cdacaf
cc9f92c
c6e3997
cc9f92c
 
 
 
 
 
 
 
 
1172c31
8094952
cc9f92c
 
 
 
 
 
 
61546ab
cc9f92c
 
 
8094952
cc9f92c
 
 
 
8094952
cc9f92c

import torch, re
from PIL import Image
from transformers import DonutProcessor, VisionEncoderDecoderModel
import streamlit as st
from dotenv import load_dotenv
import os
import time
load_dotenv()
# image_path = '/app/Datasplit/test/1099_Div/filled_form_43.jpg'
# image = Image.open(image_path)
# imgae = image.resize((1864, 1440))

device = "cuda" if torch.cuda.is_available() else "cpu"
# device = "cpu"
# Load the processor from the local directory
processor = DonutProcessor.from_pretrained("Henge-navuuu/donut-base-finetuned-forms-v1")
# processor.to(device)
# Load the model from the local directory
model = VisionEncoderDecoderModel.from_pretrained("Henge-navuuu/donut-base-finetuned-forms-v1")
model.to(device)

@st.cache_resource
def inference(image):
    pixel_values = processor(image, return_tensors="pt").pixel_values
    task_prompt = "<s>"
    decoder_input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt")["input_ids"]

    # device = "cuda" if torch.cuda.is_available() else "cpu"
    # model.to(device)
    start_time = time.time()
    outputs = model.generate(pixel_values.to(device),
                                decoder_input_ids=decoder_input_ids.to(device),
                                max_length=model.decoder.config.max_position_embeddings,
                                early_stopping=True,
                                pad_token_id=processor.tokenizer.pad_token_id,
                                eos_token_id=processor.tokenizer.eos_token_id,
                                use_cache=True,
                                num_beams=2,
                                bad_words_ids=[[processor.tokenizer.unk_token_id]],
                                return_dict_in_generate=True,
                                output_scores=True,)
    end_time = time.time()
    sequence = processor.batch_decode(outputs.sequences)[0]
    sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
    sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
    print(processor.token2json(sequence))
    print(f"Donut Inference time {start_time-end_time}")
    return processor.token2json(sequence)

# data = inference(image)
# print(data)