Spaces:

so0
/

learn

Running

App Files Files Community

yeonsoo commited on Mar 15

Commit

bbf9c8b

1 Parent(s): a4fc148

dif

Browse files

Files changed (2) hide show

app.py +36 -16
requirements.txt +4 -0

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
 from datasets import load_dataset
@@ -14,29 +15,38 @@ model = AutoModelForSequenceClassification.from_pretrained(model_name)
 def tokenize_function(examples):
     return tokenizer(examples["text"], padding="max_length", truncation=True)
-tokenized_datasets = dataset.map(tokenize_function, batched=True)
-# 훈련 설정
 training_args = TrainingArguments(
     output_dir="./results",           # 결과 저장 경로
-    num_train_epochs=3,               # 훈련 에폭 수
-    per_device_train_batch_size=8,    # 배치 크기
-    per_device_eval_batch_size=8,     # 검증 배치 크기
     evaluation_strategy="epoch",      # 에폭마다 검증
     logging_dir="./logs",             # 로그 저장 경로
 )
-trainer = Trainer(
-    model=model,                       # 훈련할 모델
-    args=training_args,                # 훈련 인자
-    train_dataset=tokenized_datasets["train"],  # 훈련 데이터셋
-    eval_dataset=tokenized_datasets["test"],    # 평가 데이터셋
-)
-# 훈련 시작
-trainer.train()
-# 그라디오 인터페이스로 훈련된 모델을 UI에 연결
 def classify_text(text):
     inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
     outputs = model(**inputs)
@@ -44,7 +54,17 @@ def classify_text(text):
     predicted_class = logits.argmax(-1).item()
     return predicted_class
 demo = gr.Interface(fn=classify_text, inputs="text", outputs="text")
-# Gradio 인터페이스 실행 (훈련 후)
-demo.launch()

 import gradio as gr
+import threading
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
 from datasets import load_dataset
 def tokenize_function(examples):
     return tokenizer(examples["text"], padding="max_length", truncation=True)
+tokenized_train_datasets = dataset["train"].map(tokenize_function, batched=True)
+tokenized_test_datasets = dataset["test"].map(tokenize_function, batched=True)
+# 훈련 설정 (빠르게 훈련하기 위해 에폭 수를 줄임)
 training_args = TrainingArguments(
     output_dir="./results",           # 결과 저장 경로
+    num_train_epochs=1,               # 훈련 에폭 수 1로 설정 (빠르게 테스트)
+    per_device_train_batch_size=16,   # 배치 크기 증가
+    per_device_eval_batch_size=16,    # 배치 크기 증가
     evaluation_strategy="epoch",      # 에폭마다 검증
     logging_dir="./logs",             # 로그 저장 경로
+    logging_steps=100,                # 100 스텝마다 로그 출력
+    report_to="tensorboard",          # 텐서보드로 로그 보고
+    load_best_model_at_end=True,      # 최상의 모델로 종료
 )
+# 훈련 함수
+def train_model():
+    trainer = Trainer(
+        model=model,                       # 훈련할 모델
+        args=training_args,                # 훈련 인자
+        train_dataset=tokenized_train_datasets,  # 훈련 데이터셋
+        eval_dataset=tokenized_test_datasets,    # 평가 데이터셋
+    )
+    trainer.train()
+# 훈련을 별도의 스레드에서 실행
+def start_training():
+    train_thread = threading.Thread(target=train_model)
+    train_thread.start()
+# 그라디언트 기반 훈련된 모델을 UI에 연결
 def classify_text(text):
     inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
     outputs = model(**inputs)
     predicted_class = logits.argmax(-1).item()
     return predicted_class
+# Gradio 인터페이스 설정
 demo = gr.Interface(fn=classify_text, inputs="text", outputs="text")
+# 훈련 시작과 Gradio UI 실행
+def launch_app():
+    # 훈련을 시작
+    start_training()
+    # Gradio 인터페이스 실행
+    demo.launch()
+# 허깅페이스 Spaces에 업로드 할 때는 이 부분을 실행하도록 설정
+if __name__ == "__main__":
+    launch_app()

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+gradio==3.0.12
+transformers==4.28.1
+datasets==2.13.1
+torch==1.13.1