Spaces:

flytoe
/

Transformer

Runtime error

App Files Files Community

flytoe commited on Mar 19

Commit

c942b0f

verified ·

1 Parent(s): 6ab4778

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -21

app.py CHANGED Viewed

@@ -1,46 +1,66 @@
-import torch
-from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments, AutoTokenizer
 from datasets import load_dataset
-# 1️⃣ Modell & Tokenizer laden
-model_name = "allenai/scibert_scivocab_uncased"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=3)
-# 2️⃣ Dataset laden (mit spezifischer Konfiguration: "arxiv" oder "pubmed")
-dataset = load_dataset("armanc/scientific_papers", "arxiv", trust_remote_code=True)  # Oder "pubmed"
-# 3️⃣ Tokenisierung der Texte
 def tokenize_function(examples):
-    return tokenizer(examples["text"], padding="max_length", truncation=True)
-tokenized_datasets = dataset.map(tokenize_function, batched=True)
-# 4️⃣ Trainingsparameter setzen
 training_args = TrainingArguments(
     output_dir="./results",
     evaluation_strategy="epoch",
-    save_strategy="epoch",
     per_device_train_batch_size=8,
     per_device_eval_batch_size=8,
     num_train_epochs=3,
     weight_decay=0.01,
     logging_dir="./logs",
 )
-# 5️⃣ Training starten
 trainer = Trainer(
     model=model,
     args=training_args,
-    train_dataset=tokenized_datasets["train"],
-    eval_dataset=tokenized_datasets["validation"],
 )
 trainer.train()
-# 6️⃣ Speichern des Modells nach dem Training
-model.save_pretrained("./trained_model")
 tokenizer.save_pretrained("./trained_model")
-print(dataset)  # Zeigt die Struktur des Datensatzes
-print("✅ Training abgeschlossen! Modell gespeichert.")

 from datasets import load_dataset
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
+import gradio as gr
+import torch
+# Schritt 1: Dataset laden und überprüfen
+# Falls "KeyError: 'text'" auftritt, Spaltennamen prüfen
+dataset = load_dataset("armanc/scientific_papers", "arxiv")  # Falls du PubMed nutzt, ersetze "arxiv" mit "pubmed"
+print(dataset)
+# Schritt 2: Tokenizer vorbereiten
+tokenizer = AutoTokenizer.from_pretrained("allenai/scibert_scivocab_uncased")
 def tokenize_function(examples):
+    return tokenizer(examples["abstract"], padding="max_length", truncation=True)
+dataset = dataset.map(tokenize_function, batched=True)
+# Schritt 3: Modell laden
+model = AutoModelForSequenceClassification.from_pretrained("allenai/scibert_scivocab_uncased", num_labels=3)
+# Schritt 4: Trainingsparameter setzen
 training_args = TrainingArguments(
     output_dir="./results",
     evaluation_strategy="epoch",
     per_device_train_batch_size=8,
     per_device_eval_batch_size=8,
     num_train_epochs=3,
+    learning_rate=5e-5,
     weight_decay=0.01,
     logging_dir="./logs",
+    logging_steps=500,
 )
+# Schritt 5: Trainer erstellen und Training starten
 trainer = Trainer(
     model=model,
     args=training_args,
+    train_dataset=dataset["train"],
+    eval_dataset=dataset["validation"],
 )
 trainer.train()
+# Schritt 6: Modell speichern
+trainer.save_model("./trained_model")
 tokenizer.save_pretrained("./trained_model")
+# Schritt 7: Modell für Gradio bereitstellen
+def predict(text):
+    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding="max_length", max_length=512)
+    with torch.no_grad():
+        outputs = model(**inputs)
+    logits = outputs.logits
+    probabilities = torch.nn.functional.softmax(logits, dim=-1)
+    return {f"Label {i}": float(probabilities[0][i]) for i in range(len(probabilities[0]))}
+iface = gr.Interface(
+    fn=predict,
+    inputs=gr.Textbox(lines=5, placeholder="Paste an abstract here..."),
+    outputs=gr.Label(),
+    title="Scientific Paper Evaluator",
+    description="This AI model scores scientific papers based on relevance, uniqueness, and redundancy."
+)
+iface.launch()