Spaces:

AIWebDev
/

smartdocai

Running

App Files Files Community

malaknihed commited on 1 day ago

Commit

2966e05

verified ·

1 Parent(s): e6f8720

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -29

app.py CHANGED Viewed

@@ -14,9 +14,9 @@ import logging
 from PyPDF2 import PdfReader
 import docx
 from PIL import Image
-import openpyxl  # 📌 Pour lire les fichiers Excel (.xlsx)
 from pptx import Presentation
-import fitz  # PyMuPDF
 import io
 from docx import Document
 import matplotlib.pyplot as plt
@@ -149,7 +149,6 @@ async def translate_document(file: UploadFile = File(...), target_lang: str = Fo
         if not text:
             return JSONResponse(status_code=400, content={"error": "Aucun texte trouvé dans le document"})
-        # Vérifier si la langue cible est supportée
         target_lang_id = tokenizer.get_lang_id(target_lang)
         if target_lang_id is None:
@@ -158,7 +157,6 @@ async def translate_document(file: UploadFile = File(...), target_lang: str = Fo
                 content={"error": f"Langue cible '{target_lang}' non supportée. Langues disponibles : {list(tokenizer.lang_code_to_id.keys())}"}
             )
-        # Traduction
         tokenizer.src_lang = "fr"
         encoded_text = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
@@ -176,12 +174,6 @@ async def translate_document(file: UploadFile = File(...), target_lang: str = Fo
         return JSONResponse(status_code=500, content={"error": "Échec de la traduction"})
-         # Charger le modèle pour la génération de code
 codegen_model_name = "Salesforce/codegen-350M-mono"
 device = "cuda" if torch.cuda.is_available() else "cpu"
@@ -208,7 +200,6 @@ async def generate_viz(file: UploadFile = File(...), query: str = Form(...)):
         x_col = numeric_cols[0]
         y_col = numeric_cols[1] if query != "histplot" and len(numeric_cols) > 1 else None
-        # ➔ CONSTRUCTION du prompt avec encadrement ```python
         prompt = f"""
 ### Génère uniquement du code Python fonctionnel pour tracer un {query} avec Matplotlib et Seaborn
 ```python
@@ -267,10 +258,6 @@ plt.close()
         print(f"🔴 Erreur serveur : {e}")
         return JSONResponse(content={"error": f"Erreur lors de la génération du graphique : {str(e)}"}, status_code=500)
-# Charger le modèle de résumé
 summarizer = None
 try:
     summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
@@ -285,20 +272,19 @@ except Exception as e:
     image_captioning = None
     logging.error(f"❌ Erreur chargement modèle image : {e}")
-# Fonction pour extraire le texte d'un fichier Word
 def extract_text_from_docx(docx_file):
     doc = Document(BytesIO(docx_file))
     text = "\n".join([para.text for para in doc.paragraphs])
     return text
-# Fonction pour extraire le texte d'un fichier Excel
 def extract_text_from_excel(xlsx_file):
-    # Utiliser pandas pour lire le fichier Excel
     df = pd.read_excel(BytesIO(xlsx_file))
     text = df.to_string(index=False)
     return text
-# Fonction pour extraire le texte d'un fichier PowerPoint
 def extract_text_from_pptx(pptx_file):
     presentation = Presentation(BytesIO(pptx_file))
     text = ""
@@ -308,17 +294,16 @@ def extract_text_from_pptx(pptx_file):
                 text += shape.text + "\n"
     return text
-# Endpoint pour la fonctionnalité de résumé
 @app.post("/summarize/")
 async def summarize(file: UploadFile = File(...)):
-    # Si le modèle n'est pas encore chargé, retourner un message indiquant que le modèle est en train de se charger
     if summarizer is None:
         return {"message": "Le modèle est en cours de chargement, veuillez patienter..."}
-    # Extraire le contenu du fichier téléchargé
     contents = await file.read()
-    # Identifier le type de fichier et extraire le texte
     if file.filename.endswith(".pdf"):
         text = extract_text(BytesIO(contents))
     elif file.filename.endswith(".docx"):
@@ -330,17 +315,15 @@ async def summarize(file: UploadFile = File(...)):
     else:
         return {"summary": "Résumé non disponible pour ce format de fichier."}
-    # Si un modèle de résumé est chargé, effectuer le résumé
     try:
         if summarizer:
-            summary = summarizer(text[:1024])  # Limiter la taille d'entrée pour le modèle
             summary_text = summary[0]['summary_text']
         else:
             summary_text = "❌ Modèle de résumé non disponible."
     except Exception as e:
         summary_text = f"❌ Erreur lors de la génération du résumé : {e}"
-    # Retourner le résumé généré
     return {"summary": summary_text}
@@ -425,8 +408,6 @@ async def image_qa(file: UploadFile = File(...), question: str = Form(...)):
         return JSONResponse(content={"error": str(e)}, status_code=500)
-# Servir les fichiers statiques (HTML, CSS, JS)
 app.mount("/static", StaticFiles(directory="static", html=True), name="static")

 from PyPDF2 import PdfReader
 import docx
 from PIL import Image
+import openpyxl
 from pptx import Presentation
+import fitz
 import io
 from docx import Document
 import matplotlib.pyplot as plt
         if not text:
             return JSONResponse(status_code=400, content={"error": "Aucun texte trouvé dans le document"})
         target_lang_id = tokenizer.get_lang_id(target_lang)
         if target_lang_id is None:
                 content={"error": f"Langue cible '{target_lang}' non supportée. Langues disponibles : {list(tokenizer.lang_code_to_id.keys())}"}
             )
         tokenizer.src_lang = "fr"
         encoded_text = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
         return JSONResponse(status_code=500, content={"error": "Échec de la traduction"})
 codegen_model_name = "Salesforce/codegen-350M-mono"
 device = "cuda" if torch.cuda.is_available() else "cpu"
         x_col = numeric_cols[0]
         y_col = numeric_cols[1] if query != "histplot" and len(numeric_cols) > 1 else None
         prompt = f"""
 ### Génère uniquement du code Python fonctionnel pour tracer un {query} avec Matplotlib et Seaborn
 ```python
         print(f"🔴 Erreur serveur : {e}")
         return JSONResponse(content={"error": f"Erreur lors de la génération du graphique : {str(e)}"}, status_code=500)
 summarizer = None
 try:
     summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
     image_captioning = None
     logging.error(f"❌ Erreur chargement modèle image : {e}")
 def extract_text_from_docx(docx_file):
     doc = Document(BytesIO(docx_file))
     text = "\n".join([para.text for para in doc.paragraphs])
     return text
 def extract_text_from_excel(xlsx_file):
     df = pd.read_excel(BytesIO(xlsx_file))
     text = df.to_string(index=False)
     return text
 def extract_text_from_pptx(pptx_file):
     presentation = Presentation(BytesIO(pptx_file))
     text = ""
                 text += shape.text + "\n"
     return text
 @app.post("/summarize/")
 async def summarize(file: UploadFile = File(...)):
     if summarizer is None:
         return {"message": "Le modèle est en cours de chargement, veuillez patienter..."}
     contents = await file.read()
     if file.filename.endswith(".pdf"):
         text = extract_text(BytesIO(contents))
     elif file.filename.endswith(".docx"):
     else:
         return {"summary": "Résumé non disponible pour ce format de fichier."}
     try:
         if summarizer:
+            summary = summarizer(text[:1024])
             summary_text = summary[0]['summary_text']
         else:
             summary_text = "❌ Modèle de résumé non disponible."
     except Exception as e:
         summary_text = f"❌ Erreur lors de la génération du résumé : {e}"
     return {"summary": summary_text}
         return JSONResponse(content={"error": str(e)}, status_code=500)
 app.mount("/static", StaticFiles(directory="static", html=True), name="static")