ivanovot commited on
Commit
b83e315
·
1 Parent(s): 89f9f06
Dockerfile ADDED
@@ -0,0 +1,17 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # Используем базовый образ с Python
2
+ FROM python:3.12
3
+
4
+ # Устанавливаем рабочую директорию внутри контейнера
5
+ WORKDIR /app
6
+
7
+ # Копируем все файлы из текущей директории на локальной машине в контейнер
8
+ COPY . .
9
+
10
+ # Устанавливаем зависимости
11
+ RUN pip install --no-cache-dir -r requirements.txt
12
+
13
+ # Открываем порт (если нужно)
14
+ EXPOSE 7860
15
+
16
+ # Команда для запуска проекта (измените в зависимости от структуры вашего проекта)
17
+ CMD ["python", "app.py"]
app.py ADDED
@@ -0,0 +1,36 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import gradio as gr
2
+ import yaml
3
+ from src.load_model import model, device
4
+
5
+ config = yaml.safe_load(open('config.yaml', 'r'))
6
+ threshold = config['predct']['threshold']
7
+
8
+ def predict(text: str):
9
+ prediction = model(text).item()
10
+ label = "Negative" if prediction >= threshold else "Positive"
11
+ return label, float(prediction)
12
+
13
+ examples = [
14
+ ["Спасибо за подробный разбор, это действительно полезно!"],
15
+ ["Интересный подход, я бы добавил ещё пару примеров для наглядности."],
16
+ ["Никогда не задумывался об этом с такой точки зрения. Подумаю над вашей идеей."],
17
+ ["папа вроде нормальным был а сынок говнюком вырос."],
18
+ ["говно на палке блять чё красивого в этой картинке"],
19
+ ["идиоты! что попало придумывают лишь бы лайки ставили"]
20
+ ]
21
+
22
+ interface = gr.Interface(
23
+ fn=predict,
24
+ title="Text Classification",
25
+ description=f"using device: {device}",
26
+ inputs=gr.Textbox(label="Текст для классификации"),
27
+ outputs=[
28
+ gr.Textbox(label="Класс", interactive=False),
29
+ gr.Slider(minimum=0, maximum=1, label="Оценка модели", interactive=False)
30
+ ],
31
+ live=True,
32
+ examples=examples
33
+ )
34
+
35
+ if __name__ == "__main__":
36
+ interface.launch()
config.yaml ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # Конфигурация данных
2
+ data:
3
+ train_path: "data/dataset_train.pt"
4
+ test_path: "data/dataset_test.pt"
5
+ batch_size: 32
6
+
7
+ # Параметры модели
8
+ model:
9
+ bert_name: "cointegrated/rubert-tiny"
10
+
11
+ predct:
12
+ use_model: "models/model_5.pth"
13
+ threshold: 0.75
14
+
15
+ # Гиперпараметры обучения
16
+ training:
17
+ epochs: 5
18
+ learning_rate: 1e-5
19
+ save_dir: "models"
20
+
21
+ # Настройки логирования
22
+ logging:
23
+ log_dir: "logs"
24
+ level: "INFO"
25
+ format: "%(asctime)s - %(levelname)s - %(message)s"
data/dataset_test.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fdd19206c1cd4935e66bb1c3615a4e4d2cfcb28b71e88fd50a3e1ce0bb554fe6
3
+ size 3793204
data/dataset_train.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1ffc4ce42036f92b7cdf2681eb16d33a011fff4ef8cc435febe4e799064af790
3
+ size 34084984
logs/log.log ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ 2025-01-28 13:11:34,916 - INFO - Starting training process
2
+ 2025-01-28 13:11:34,916 - INFO - Configuration: {'data': {'train_path': 'data/dataset_train.pt', 'test_path': 'data/dataset_test.pt', 'batch_size': 32}, 'model': {'bert_name': 'cointegrated/rubert-tiny', 'freeze_bert': False}, 'training': {'epochs': 5, 'learning_rate': '1e-5', 'save_dir': 'models'}, 'logging': {'log_dir': 'logs', 'level': 'INFO', 'format': '%(asctime)s - %(levelname)s - %(message)s'}}
3
+ 2025-01-28 13:11:35,626 - INFO - Model initialized
4
+ 2025-01-28 13:11:35,800 - INFO - Train samples: 223461, Test samples: 24829
5
+ 2025-01-28 13:16:05,323 - INFO - Epoch 1 [269.5s]
6
+ 2025-01-28 13:16:05,323 - INFO - Train Loss: 0.1773 | Acc: 0.9310
7
+ 2025-01-28 13:16:05,323 - INFO - Test Loss: 0.1172 | Acc: 0.9571
8
+ 2025-01-28 13:20:34,377 - INFO - Epoch 2 [269.0s]
9
+ 2025-01-28 13:20:34,377 - INFO - Train Loss: 0.1006 | Acc: 0.9639
10
+ 2025-01-28 13:20:34,377 - INFO - Test Loss: 0.0895 | Acc: 0.9689
11
+ 2025-01-28 13:24:56,084 - INFO - Epoch 3 [261.7s]
12
+ 2025-01-28 13:24:56,084 - INFO - Train Loss: 0.0817 | Acc: 0.9709
13
+ 2025-01-28 13:24:56,084 - INFO - Test Loss: 0.0804 | Acc: 0.9720
14
+ 2025-01-28 13:29:29,193 - INFO - Epoch 4 [273.1s]
15
+ 2025-01-28 13:29:29,193 - INFO - Train Loss: 0.0702 | Acc: 0.9746
16
+ 2025-01-28 13:29:29,193 - INFO - Test Loss: 0.0786 | Acc: 0.9733
17
+ 2025-01-28 13:33:50,194 - INFO - Epoch 5 [261.0s]
18
+ 2025-01-28 13:33:50,194 - INFO - Train Loss: 0.0623 | Acc: 0.9781
19
+ 2025-01-28 13:33:50,194 - INFO - Test Loss: 0.0738 | Acc: 0.9752
20
+ 2025-01-28 13:33:50,237 - INFO - Training completed
logs/training_results.csv ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ epoch,train_loss,test_loss,train_acc,test_acc
2
+ 1,0.1773055931961556,0.11715290685436326,0.9310170454799719,0.9571468846912884
3
+ 2,0.10063255767090486,0.08949904675724532,0.9639176411096343,0.9689073261105965
4
+ 3,0.08170484759700015,0.08040267044113512,0.9709121502186063,0.9719682629183616
5
+ 4,0.07021966443530255,0.07857279533562277,0.9746174947753746,0.9732973539006806
6
+ 5,0.062299927920050395,0.0738135943584388,0.9780767113724542,0.9751500261790648
models/.gitkeep ADDED
File without changes
models/model_5.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7a10af129553374bf676c4521828557f1ee7f7028e9c857f5ee17cc30609d560
3
+ size 47160427
notebooks/api.ipynb ADDED
@@ -0,0 +1,165 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cells": [
3
+ {
4
+ "cell_type": "markdown",
5
+ "metadata": {},
6
+ "source": [
7
+ "# Демонстрация работы API"
8
+ ]
9
+ },
10
+ {
11
+ "cell_type": "code",
12
+ "execution_count": 1,
13
+ "metadata": {},
14
+ "outputs": [],
15
+ "source": [
16
+ "text = \"Привет мир\""
17
+ ]
18
+ },
19
+ {
20
+ "cell_type": "markdown",
21
+ "metadata": {},
22
+ "source": [
23
+ "## Способ 1"
24
+ ]
25
+ },
26
+ {
27
+ "cell_type": "code",
28
+ "execution_count": 2,
29
+ "metadata": {},
30
+ "outputs": [
31
+ {
32
+ "name": "stderr",
33
+ "output_type": "stream",
34
+ "text": [
35
+ "/home/timo/rep/TextClassifier/venv/lib/python3.12/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
36
+ " from .autonotebook import tqdm as notebook_tqdm\n"
37
+ ]
38
+ },
39
+ {
40
+ "name": "stdout",
41
+ "output_type": "stream",
42
+ "text": [
43
+ "Loaded as API: http://0.0.0.0:7860/ ✔\n",
44
+ "Текст: Привет мир\n",
45
+ "Статус: Positive\n"
46
+ ]
47
+ }
48
+ ],
49
+ "source": [
50
+ "from gradio_client import Client\n",
51
+ "\n",
52
+ "def classify_text(text: str) -> str:\n",
53
+ " # Создаем клиент для общения с сервером\n",
54
+ " client = Client(\"http://0.0.0.0:7860/\")\n",
55
+ "\n",
56
+ " # Отправляем текст для классификации\n",
57
+ " result = client.predict(\n",
58
+ " text=text,\n",
59
+ " api_name=\"/predict\"\n",
60
+ " )\n",
61
+ "\n",
62
+ " # Обрабатываем результат\n",
63
+ " if result:\n",
64
+ " status = result[0]\n",
65
+ " return status\n",
66
+ "\n",
67
+ " return \"Ошибка классификации\"\n",
68
+ "\n",
69
+ "# Пример использования функции\n",
70
+ "status = classify_text(text)\n",
71
+ "\n",
72
+ "print(f\"Текст: {text}\")\n",
73
+ "print(f\"Статус: {status}\")"
74
+ ]
75
+ },
76
+ {
77
+ "cell_type": "markdown",
78
+ "metadata": {},
79
+ "source": [
80
+ "## Способ 2"
81
+ ]
82
+ },
83
+ {
84
+ "cell_type": "code",
85
+ "execution_count": 3,
86
+ "metadata": {},
87
+ "outputs": [
88
+ {
89
+ "name": "stdout",
90
+ "output_type": "stream",
91
+ "text": [
92
+ "Текст: Привет мир\n",
93
+ "Статус: Positive\n"
94
+ ]
95
+ }
96
+ ],
97
+ "source": [
98
+ "import requests\n",
99
+ "\n",
100
+ "def classify_text(text: str) -> str:\n",
101
+ " # URL и заголовки для POST-запроса\n",
102
+ " url = 'http://0.0.0.0:7860/gradio_api/call/predict'\n",
103
+ " headers = {'Content-Type': 'application/json'}\n",
104
+ " data = {\"data\": [text]}\n",
105
+ "\n",
106
+ " # Отправляем POST-запрос для классификации\n",
107
+ " response = requests.post(url, json=data, headers=headers)\n",
108
+ "\n",
109
+ " # Проверяем успешность ответа\n",
110
+ " if response.status_code == 200:\n",
111
+ " # Извлекаем EVENT_ID из ответа\n",
112
+ " event_id = response.json().get('event_id')\n",
113
+ "\n",
114
+ " # Проверяем, что event_id присутствует\n",
115
+ " if event_id:\n",
116
+ " # Второй запрос с EVENT_ID для получения классификации\n",
117
+ " event_url = f'http://0.0.0.0:7860/gradio_api/call/predict/{event_id}'\n",
118
+ " event_response = requests.get(event_url)\n",
119
+ "\n",
120
+ " # Если второй запрос успешен\n",
121
+ " if event_response.status_code == 200:\n",
122
+ " for line in event_response.iter_lines():\n",
123
+ " if line:\n",
124
+ " decoded_line = line.decode('utf-8')\n",
125
+ "\n",
126
+ " if 'data: ' in decoded_line:\n",
127
+ " parsed_data = decoded_line.split('data: ')[1]\n",
128
+ " parsed_data = parsed_data.strip('[]').split(', ')\n",
129
+ "\n",
130
+ " # Извлекаем статус\n",
131
+ " status = parsed_data[0].strip('\"')\n",
132
+ " return status\n",
133
+ "\n",
134
+ " return \"Ошибка классификации\"\n",
135
+ "\n",
136
+ "# Пример использования функции\n",
137
+ "status = classify_text(text)\n",
138
+ "\n",
139
+ "print(f\"Текст: {text}\")\n",
140
+ "print(f\"Статус: {status}\")"
141
+ ]
142
+ }
143
+ ],
144
+ "metadata": {
145
+ "kernelspec": {
146
+ "display_name": "venv",
147
+ "language": "python",
148
+ "name": "python3"
149
+ },
150
+ "language_info": {
151
+ "codemirror_mode": {
152
+ "name": "ipython",
153
+ "version": 3
154
+ },
155
+ "file_extension": ".py",
156
+ "mimetype": "text/x-python",
157
+ "name": "python",
158
+ "nbconvert_exporter": "python",
159
+ "pygments_lexer": "ipython3",
160
+ "version": "3.12.3"
161
+ }
162
+ },
163
+ "nbformat": 4,
164
+ "nbformat_minor": 2
165
+ }
notebooks/bert.ipynb ADDED
@@ -0,0 +1,92 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cells": [
3
+ {
4
+ "cell_type": "code",
5
+ "execution_count": 1,
6
+ "metadata": {},
7
+ "outputs": [
8
+ {
9
+ "name": "stderr",
10
+ "output_type": "stream",
11
+ "text": [
12
+ "/home/timo/rep/TextClassifier/venv/lib/python3.12/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
13
+ " from .autonotebook import tqdm as notebook_tqdm\n"
14
+ ]
15
+ }
16
+ ],
17
+ "source": [
18
+ "import os\n",
19
+ "os.chdir('..')\n",
20
+ "\n",
21
+ "import torch\n",
22
+ "from transformers import AutoTokenizer, AutoModel\n",
23
+ "from src import device"
24
+ ]
25
+ },
26
+ {
27
+ "cell_type": "code",
28
+ "execution_count": 2,
29
+ "metadata": {},
30
+ "outputs": [],
31
+ "source": [
32
+ "tokenizer = AutoTokenizer.from_pretrained(\"cointegrated/rubert-tiny\")\n",
33
+ "model = AutoModel.from_pretrained(\"cointegrated/rubert-tiny\")\n",
34
+ "\n",
35
+ "model = model.to(device)"
36
+ ]
37
+ },
38
+ {
39
+ "cell_type": "code",
40
+ "execution_count": 3,
41
+ "metadata": {},
42
+ "outputs": [],
43
+ "source": [
44
+ "def embed_bert_cls(text, model, tokenizer):\n",
45
+ " t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')\n",
46
+ " with torch.no_grad():\n",
47
+ " model_output = model(**{k: v.to(model.device) for k, v in t.items()})\n",
48
+ " embeddings = model_output.last_hidden_state[:, 0, :]\n",
49
+ " embeddings = torch.nn.functional.normalize(embeddings)\n",
50
+ " return embeddings[0].cpu().numpy()"
51
+ ]
52
+ },
53
+ {
54
+ "cell_type": "code",
55
+ "execution_count": 4,
56
+ "metadata": {},
57
+ "outputs": [
58
+ {
59
+ "name": "stdout",
60
+ "output_type": "stream",
61
+ "text": [
62
+ "(312,)\n"
63
+ ]
64
+ }
65
+ ],
66
+ "source": [
67
+ "print(embed_bert_cls('привет мир', model, tokenizer).shape)"
68
+ ]
69
+ }
70
+ ],
71
+ "metadata": {
72
+ "kernelspec": {
73
+ "display_name": "venv",
74
+ "language": "python",
75
+ "name": "python3"
76
+ },
77
+ "language_info": {
78
+ "codemirror_mode": {
79
+ "name": "ipython",
80
+ "version": 3
81
+ },
82
+ "file_extension": ".py",
83
+ "mimetype": "text/x-python",
84
+ "name": "python",
85
+ "nbconvert_exporter": "python",
86
+ "pygments_lexer": "ipython3",
87
+ "version": "3.12.3"
88
+ }
89
+ },
90
+ "nbformat": 4,
91
+ "nbformat_minor": 2
92
+ }
notebooks/classifier.ipynb ADDED
@@ -0,0 +1,108 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cells": [
3
+ {
4
+ "cell_type": "code",
5
+ "execution_count": 1,
6
+ "metadata": {},
7
+ "outputs": [
8
+ {
9
+ "name": "stderr",
10
+ "output_type": "stream",
11
+ "text": [
12
+ "/home/timo/rep/TextClassifier/venv/lib/python3.12/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
13
+ " from .autonotebook import tqdm as notebook_tqdm\n"
14
+ ]
15
+ }
16
+ ],
17
+ "source": [
18
+ "import os\n",
19
+ "os.chdir('..')\n",
20
+ "\n",
21
+ "from src.classifier import Classifier\n",
22
+ "from src.bert import Bert\n",
23
+ "import torch\n",
24
+ "import yaml"
25
+ ]
26
+ },
27
+ {
28
+ "cell_type": "code",
29
+ "execution_count": 2,
30
+ "metadata": {},
31
+ "outputs": [],
32
+ "source": [
33
+ "device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')\n",
34
+ "\n",
35
+ "config = yaml.safe_load(open('config.yaml'))\n",
36
+ "\n",
37
+ "bert = Bert(config['model']['bert_name'])\n",
38
+ "model = Classifier(bert).to(device)"
39
+ ]
40
+ },
41
+ {
42
+ "cell_type": "code",
43
+ "execution_count": 3,
44
+ "metadata": {},
45
+ "outputs": [
46
+ {
47
+ "data": {
48
+ "text/plain": [
49
+ "<All keys matched successfully>"
50
+ ]
51
+ },
52
+ "execution_count": 3,
53
+ "metadata": {},
54
+ "output_type": "execute_result"
55
+ }
56
+ ],
57
+ "source": [
58
+ "model.load_state_dict(torch.load('models/model_5.pth', map_location=device, weights_only=True))"
59
+ ]
60
+ },
61
+ {
62
+ "cell_type": "code",
63
+ "execution_count": 4,
64
+ "metadata": {},
65
+ "outputs": [
66
+ {
67
+ "data": {
68
+ "text/plain": [
69
+ "tensor([0.0007], device='cuda:0')"
70
+ ]
71
+ },
72
+ "execution_count": 4,
73
+ "metadata": {},
74
+ "output_type": "execute_result"
75
+ }
76
+ ],
77
+ "source": [
78
+ "text = 'привет мир'\n",
79
+ "\n",
80
+ "with torch.no_grad():\n",
81
+ " predict = model([text])\n",
82
+ " \n",
83
+ "predict"
84
+ ]
85
+ }
86
+ ],
87
+ "metadata": {
88
+ "kernelspec": {
89
+ "display_name": "venv",
90
+ "language": "python",
91
+ "name": "python3"
92
+ },
93
+ "language_info": {
94
+ "codemirror_mode": {
95
+ "name": "ipython",
96
+ "version": 3
97
+ },
98
+ "file_extension": ".py",
99
+ "mimetype": "text/x-python",
100
+ "name": "python",
101
+ "nbconvert_exporter": "python",
102
+ "pygments_lexer": "ipython3",
103
+ "version": "3.12.3"
104
+ }
105
+ },
106
+ "nbformat": 4,
107
+ "nbformat_minor": 2
108
+ }
notebooks/dataset.ipynb ADDED
@@ -0,0 +1,414 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cells": [
3
+ {
4
+ "cell_type": "code",
5
+ "execution_count": 1,
6
+ "metadata": {},
7
+ "outputs": [],
8
+ "source": [
9
+ "import os\n",
10
+ "os.chdir(\"..\")\n",
11
+ "\n",
12
+ "import pandas as pd\n",
13
+ "import matplotlib.pyplot as plt"
14
+ ]
15
+ },
16
+ {
17
+ "cell_type": "code",
18
+ "execution_count": 2,
19
+ "metadata": {},
20
+ "outputs": [
21
+ {
22
+ "name": "stderr",
23
+ "output_type": "stream",
24
+ "text": [
25
+ "/home/timo/rep/TextClassifier/venv/lib/python3.12/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
26
+ " from .autonotebook import tqdm as notebook_tqdm\n"
27
+ ]
28
+ }
29
+ ],
30
+ "source": [
31
+ "splits = {'train': 'train.jsonl', 'test': 'test.jsonl'}\n",
32
+ "train = pd.read_json(\"hf://datasets/AlexSham/Toxic_Russian_Comments/\" + splits[\"train\"], lines=True)\n",
33
+ "test = pd.read_json(\"hf://datasets/AlexSham/Toxic_Russian_Comments/\" + splits[\"test\"], lines=True)"
34
+ ]
35
+ },
36
+ {
37
+ "cell_type": "code",
38
+ "execution_count": 3,
39
+ "metadata": {},
40
+ "outputs": [
41
+ {
42
+ "data": {
43
+ "text/html": [
44
+ "<div>\n",
45
+ "<style scoped>\n",
46
+ " .dataframe tbody tr th:only-of-type {\n",
47
+ " vertical-align: middle;\n",
48
+ " }\n",
49
+ "\n",
50
+ " .dataframe tbody tr th {\n",
51
+ " vertical-align: top;\n",
52
+ " }\n",
53
+ "\n",
54
+ " .dataframe thead th {\n",
55
+ " text-align: right;\n",
56
+ " }\n",
57
+ "</style>\n",
58
+ "<table border=\"1\" class=\"dataframe\">\n",
59
+ " <thead>\n",
60
+ " <tr style=\"text-align: right;\">\n",
61
+ " <th></th>\n",
62
+ " <th>text</th>\n",
63
+ " <th>label</th>\n",
64
+ " </tr>\n",
65
+ " </thead>\n",
66
+ " <tbody>\n",
67
+ " <tr>\n",
68
+ " <th>0</th>\n",
69
+ " <td>видимо в разных регионах называют по разному ,...</td>\n",
70
+ " <td>0</td>\n",
71
+ " </tr>\n",
72
+ " <tr>\n",
73
+ " <th>1</th>\n",
74
+ " <td>понятно что это нарушение правил, писать капсл...</td>\n",
75
+ " <td>1</td>\n",
76
+ " </tr>\n",
77
+ " <tr>\n",
78
+ " <th>2</th>\n",
79
+ " <td>какие классные, жизненные стихи....</td>\n",
80
+ " <td>0</td>\n",
81
+ " </tr>\n",
82
+ " <tr>\n",
83
+ " <th>3</th>\n",
84
+ " <td>а и правда-когда его запретили?...</td>\n",
85
+ " <td>0</td>\n",
86
+ " </tr>\n",
87
+ " <tr>\n",
88
+ " <th>4</th>\n",
89
+ " <td>в соленой воде вирусы живут .ученые изучали со...</td>\n",
90
+ " <td>0</td>\n",
91
+ " </tr>\n",
92
+ " <tr>\n",
93
+ " <th>...</th>\n",
94
+ " <td>...</td>\n",
95
+ " <td>...</td>\n",
96
+ " </tr>\n",
97
+ " <tr>\n",
98
+ " <th>223456</th>\n",
99
+ " <td>вова - дима когда же вы подавитесь деньгами???...</td>\n",
100
+ " <td>0</td>\n",
101
+ " </tr>\n",
102
+ " <tr>\n",
103
+ " <th>223457</th>\n",
104
+ " <td>какая красота, просто нет слов выразить чувств...</td>\n",
105
+ " <td>0</td>\n",
106
+ " </tr>\n",
107
+ " <tr>\n",
108
+ " <th>223458</th>\n",
109
+ " <td>вы пост гаи выставити на перекрестке возле 21 ...</td>\n",
110
+ " <td>0</td>\n",
111
+ " </tr>\n",
112
+ " <tr>\n",
113
+ " <th>223459</th>\n",
114
+ " <td>как -то на лебедей непохожи</td>\n",
115
+ " <td>0</td>\n",
116
+ " </tr>\n",
117
+ " <tr>\n",
118
+ " <th>223460</th>\n",
119
+ " <td>интересно чей это самолет!</td>\n",
120
+ " <td>0</td>\n",
121
+ " </tr>\n",
122
+ " </tbody>\n",
123
+ "</table>\n",
124
+ "<p>223461 rows × 2 columns</p>\n",
125
+ "</div>"
126
+ ],
127
+ "text/plain": [
128
+ " text label\n",
129
+ "0 видимо в разных регионах называют по разному ,... 0\n",
130
+ "1 понятно что это нарушение правил, писать капсл... 1\n",
131
+ "2 какие классные, жизненные стихи.... 0\n",
132
+ "3 а и правда-когда его запретили?... 0\n",
133
+ "4 в соленой воде вирусы живут .ученые изучали со... 0\n",
134
+ "... ... ...\n",
135
+ "223456 вова - дима когда же вы подавитесь ден��гами???... 0\n",
136
+ "223457 какая красота, просто нет слов выразить чувств... 0\n",
137
+ "223458 вы пост гаи выставити на перекрестке возле 21 ... 0\n",
138
+ "223459 как -то на лебедей непохожи 0\n",
139
+ "223460 интересно чей это самолет! 0\n",
140
+ "\n",
141
+ "[223461 rows x 2 columns]"
142
+ ]
143
+ },
144
+ "execution_count": 3,
145
+ "metadata": {},
146
+ "output_type": "execute_result"
147
+ }
148
+ ],
149
+ "source": [
150
+ "train"
151
+ ]
152
+ },
153
+ {
154
+ "cell_type": "code",
155
+ "execution_count": 4,
156
+ "metadata": {},
157
+ "outputs": [
158
+ {
159
+ "data": {
160
+ "text/html": [
161
+ "<div>\n",
162
+ "<style scoped>\n",
163
+ " .dataframe tbody tr th:only-of-type {\n",
164
+ " vertical-align: middle;\n",
165
+ " }\n",
166
+ "\n",
167
+ " .dataframe tbody tr th {\n",
168
+ " vertical-align: top;\n",
169
+ " }\n",
170
+ "\n",
171
+ " .dataframe thead th {\n",
172
+ " text-align: right;\n",
173
+ " }\n",
174
+ "</style>\n",
175
+ "<table border=\"1\" class=\"dataframe\">\n",
176
+ " <thead>\n",
177
+ " <tr style=\"text-align: right;\">\n",
178
+ " <th></th>\n",
179
+ " <th>text</th>\n",
180
+ " <th>label</th>\n",
181
+ " </tr>\n",
182
+ " </thead>\n",
183
+ " <tbody>\n",
184
+ " <tr>\n",
185
+ " <th>0</th>\n",
186
+ " <td>хорошо пошло!</td>\n",
187
+ " <td>0</td>\n",
188
+ " </tr>\n",
189
+ " <tr>\n",
190
+ " <th>1</th>\n",
191
+ " <td>посмотрела, как будто дома побывала. как река ...</td>\n",
192
+ " <td>0</td>\n",
193
+ " </tr>\n",
194
+ " <tr>\n",
195
+ " <th>2</th>\n",
196
+ " <td>отдам котят 1,5 месяца в добрые руки.</td>\n",
197
+ " <td>0</td>\n",
198
+ " </tr>\n",
199
+ " <tr>\n",
200
+ " <th>3</th>\n",
201
+ " <td>0,5литровая баночка 200р стоит в таганроге. та...</td>\n",
202
+ " <td>0</td>\n",
203
+ " </tr>\n",
204
+ " <tr>\n",
205
+ " <th>4</th>\n",
206
+ " <td>речь шла о радужных зонтиках над верандой.</td>\n",
207
+ " <td>0</td>\n",
208
+ " </tr>\n",
209
+ " <tr>\n",
210
+ " <th>...</th>\n",
211
+ " <td>...</td>\n",
212
+ " <td>...</td>\n",
213
+ " </tr>\n",
214
+ " <tr>\n",
215
+ " <th>24824</th>\n",
216
+ " <td>и ты будь здоров</td>\n",
217
+ " <td>0</td>\n",
218
+ " </tr>\n",
219
+ " <tr>\n",
220
+ " <th>24825</th>\n",
221
+ " <td>не дорога а прям стекло но правда битое (h)</td>\n",
222
+ " <td>0</td>\n",
223
+ " </tr>\n",
224
+ " <tr>\n",
225
+ " <th>24826</th>\n",
226
+ " <td>спасибо большое. буду ждать хороших новостей. ...</td>\n",
227
+ " <td>0</td>\n",
228
+ " </tr>\n",
229
+ " <tr>\n",
230
+ " <th>24827</th>\n",
231
+ " <td>активирую установку 🌈🌈🌈👍😎🔥🔥🔥</td>\n",
232
+ " <td>0</td>\n",
233
+ " </tr>\n",
234
+ " <tr>\n",
235
+ " <th>24828</th>\n",
236
+ " <td>а вы курс российского рубля видели, кошмар!!!</td>\n",
237
+ " <td>0</td>\n",
238
+ " </tr>\n",
239
+ " </tbody>\n",
240
+ "</table>\n",
241
+ "<p>24829 rows × 2 columns</p>\n",
242
+ "</div>"
243
+ ],
244
+ "text/plain": [
245
+ " text label\n",
246
+ "0 хорошо пошло! 0\n",
247
+ "1 посмотрела, как будто дома побывала. как река ... 0\n",
248
+ "2 отдам котят 1,5 месяца в добрые руки. 0\n",
249
+ "3 0,5литровая баночка 200р стоит в таганроге. та... 0\n",
250
+ "4 речь шла о радужных зонтиках над верандой. 0\n",
251
+ "... ... ...\n",
252
+ "24824 и ты будь здоров 0\n",
253
+ "24825 не дорога а прям стекло но правда битое (h) 0\n",
254
+ "24826 спасибо большое. буду ждать хороших новостей. ... 0\n",
255
+ "24827 активирую установку 🌈🌈🌈👍😎🔥🔥🔥 0\n",
256
+ "24828 а вы курс российского рубля видели, кошмар!!! 0\n",
257
+ "\n",
258
+ "[24829 rows x 2 columns]"
259
+ ]
260
+ },
261
+ "execution_count": 4,
262
+ "metadata": {},
263
+ "output_type": "execute_result"
264
+ }
265
+ ],
266
+ "source": [
267
+ "test"
268
+ ]
269
+ },
270
+ {
271
+ "cell_type": "code",
272
+ "execution_count": 5,
273
+ "metadata": {},
274
+ "outputs": [],
275
+ "source": [
276
+ "train['class'] = train['label'].map({0: 'non-toxic', 1: 'toxic'})\n",
277
+ "test['class'] = test['label'].map({0: 'non-toxic', 1: 'toxic'})"
278
+ ]
279
+ },
280
+ {
281
+ "cell_type": "code",
282
+ "execution_count": 6,
283
+ "metadata": {},
284
+ "outputs": [
285
+ {
286
+ "data": {
287
+ "image/png": "",
288
+ "text/plain": [
289
+ "<Figure size 640x480 with 1 Axes>"
290
+ ]
291
+ },
292
+ "metadata": {},
293
+ "output_type": "display_data"
294
+ },
295
+ {
296
+ "data": {
297
+ "image/png": "",
298
+ "text/plain": [
299
+ "<Figure size 640x480 with 1 Axes>"
300
+ ]
301
+ },
302
+ "metadata": {},
303
+ "output_type": "display_data"
304
+ }
305
+ ],
306
+ "source": [
307
+ "datasets = {\"Train Dataset\": train, \"Test Dataset\": test}\n",
308
+ "\n",
309
+ "for name, df in datasets.items():\n",
310
+ " df['class'].value_counts().plot.pie(\n",
311
+ " autopct='%1.1f%%',\n",
312
+ " ylabel='',\n",
313
+ " title=f\"Распределение классов в {name}\"\n",
314
+ " )\n",
315
+ " plt.show()"
316
+ ]
317
+ },
318
+ {
319
+ "cell_type": "code",
320
+ "execution_count": 7,
321
+ "metadata": {},
322
+ "outputs": [
323
+ {
324
+ "name": "stdout",
325
+ "output_type": "stream",
326
+ "text": [
327
+ "Train Dataset\n",
328
+ "class: non-toxic\n",
329
+ "0 видимо в разных регионах назы��ают по разному ,...\n",
330
+ "2 какие классные, жизненные стихи....\n",
331
+ "3 а и правда-когда его запретили?...\n",
332
+ "4 в соленой воде вирусы живут .ученые изучали со...\n",
333
+ "6 ни в одном из близлежащих строительных не нашл...\n",
334
+ "7 какая дрянь сломала? виноваты родители, выраст...\n",
335
+ "8 да, висели такие на стене, над кроватью. в люб...\n",
336
+ "9 потому что мы так воспитаны\n",
337
+ "10 лапти и не только\n",
338
+ "11 привет обмен на дизель без вложений\n",
339
+ "Name: text, dtype: object \n",
340
+ "\n",
341
+ "class: toxic\n",
342
+ "1 понятно что это нарушение правил, писать капсл...\n",
343
+ "5 правильно! это же тихановская 26 лет растила и...\n",
344
+ "13 на хуй, безликая\n",
345
+ "16 дебилов хватает.надо было с головой\n",
346
+ "30 умник хуев. у каждого своё мнение\n",
347
+ "38 на мыло его дегтярное пустить пидора путинского\n",
348
+ "47 неправильно вы называете таких чиновников идио...\n",
349
+ "52 ретранслятор тебе в жопу\n",
350
+ "67 пидор усатый\n",
351
+ "71 а вы пидоры учились платно???,гандоны!!!\n",
352
+ "Name: text, dtype: object \n",
353
+ "\n",
354
+ "Test Dataset\n",
355
+ "class: non-toxic\n",
356
+ "0 видимо в разных регионах называют по разному ,...\n",
357
+ "2 какие классные, жизненные стихи....\n",
358
+ "3 а и правда-когда его запретили?...\n",
359
+ "4 в соленой воде вирусы живут .ученые изучали со...\n",
360
+ "6 ни в одном из близлежащих строительных не нашл...\n",
361
+ "7 какая дрянь сломала? виноваты родители, выраст...\n",
362
+ "8 да, висели такие на стене, над кроватью. в люб...\n",
363
+ "9 потому что мы так воспитаны\n",
364
+ "10 лапти и не только\n",
365
+ "11 привет обмен на дизель без вложений\n",
366
+ "Name: text, dtype: object \n",
367
+ "\n",
368
+ "class: toxic\n",
369
+ "1 понятно что это нарушение правил, писать капсл...\n",
370
+ "5 правильно! это же тихановская 26 лет растила и...\n",
371
+ "13 на хуй, безликая\n",
372
+ "16 дебилов хватает.надо было с головой\n",
373
+ "30 умник хуев. у каждого своё мнение\n",
374
+ "38 на мыло его дегтярное пустить пидора путинского\n",
375
+ "47 неправильно вы называете таких чиновников идио...\n",
376
+ "52 ретранслятор тебе в жопу\n",
377
+ "67 пидор усатый\n",
378
+ "71 а вы пидоры учились платно???,гандоны!!!\n",
379
+ "Name: text, dtype: object \n",
380
+ "\n"
381
+ ]
382
+ }
383
+ ],
384
+ "source": [
385
+ "for name, df in datasets.items():\n",
386
+ " print(name)\n",
387
+ " for label in train['class'].unique():\n",
388
+ " print(f\"class: {label}\")\n",
389
+ " print(train[train['class'] == label]['text'].iloc[:10], \"\\n\")"
390
+ ]
391
+ }
392
+ ],
393
+ "metadata": {
394
+ "kernelspec": {
395
+ "display_name": "venv",
396
+ "language": "python",
397
+ "name": "python3"
398
+ },
399
+ "language_info": {
400
+ "codemirror_mode": {
401
+ "name": "ipython",
402
+ "version": 3
403
+ },
404
+ "file_extension": ".py",
405
+ "mimetype": "text/x-python",
406
+ "name": "python",
407
+ "nbconvert_exporter": "python",
408
+ "pygments_lexer": "ipython3",
409
+ "version": "3.12.3"
410
+ }
411
+ },
412
+ "nbformat": 4,
413
+ "nbformat_minor": 2
414
+ }
notebooks/evaluate.ipynb ADDED
@@ -0,0 +1,329 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cells": [
3
+ {
4
+ "cell_type": "code",
5
+ "execution_count": 1,
6
+ "metadata": {},
7
+ "outputs": [
8
+ {
9
+ "name": "stderr",
10
+ "output_type": "stream",
11
+ "text": [
12
+ "/home/timo/rep/TextClassifier/venv/lib/python3.12/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
13
+ " from .autonotebook import tqdm as notebook_tqdm\n"
14
+ ]
15
+ }
16
+ ],
17
+ "source": [
18
+ "import os\n",
19
+ "os.chdir('..')\n",
20
+ "\n",
21
+ "from src.load_model import model\n",
22
+ "import pandas as pd\n",
23
+ "import numpy as np"
24
+ ]
25
+ },
26
+ {
27
+ "cell_type": "code",
28
+ "execution_count": 2,
29
+ "metadata": {},
30
+ "outputs": [
31
+ {
32
+ "data": {
33
+ "text/html": [
34
+ "<div>\n",
35
+ "<style scoped>\n",
36
+ " .dataframe tbody tr th:only-of-type {\n",
37
+ " vertical-align: middle;\n",
38
+ " }\n",
39
+ "\n",
40
+ " .dataframe tbody tr th {\n",
41
+ " vertical-align: top;\n",
42
+ " }\n",
43
+ "\n",
44
+ " .dataframe thead th {\n",
45
+ " text-align: right;\n",
46
+ " }\n",
47
+ "</style>\n",
48
+ "<table border=\"1\" class=\"dataframe\">\n",
49
+ " <thead>\n",
50
+ " <tr style=\"text-align: right;\">\n",
51
+ " <th></th>\n",
52
+ " <th>text</th>\n",
53
+ " <th>label</th>\n",
54
+ " </tr>\n",
55
+ " </thead>\n",
56
+ " <tbody>\n",
57
+ " <tr>\n",
58
+ " <th>0</th>\n",
59
+ " <td>хорошо пошло!</td>\n",
60
+ " <td>0</td>\n",
61
+ " </tr>\n",
62
+ " <tr>\n",
63
+ " <th>1</th>\n",
64
+ " <td>посмотрела, как будто дома побывала. как река ...</td>\n",
65
+ " <td>0</td>\n",
66
+ " </tr>\n",
67
+ " <tr>\n",
68
+ " <th>2</th>\n",
69
+ " <td>отдам котят 1,5 месяца в добрые руки.</td>\n",
70
+ " <td>0</td>\n",
71
+ " </tr>\n",
72
+ " <tr>\n",
73
+ " <th>3</th>\n",
74
+ " <td>0,5литровая баночка 200р стоит в таганроге. та...</td>\n",
75
+ " <td>0</td>\n",
76
+ " </tr>\n",
77
+ " <tr>\n",
78
+ " <th>4</th>\n",
79
+ " <td>речь шла о радужных зонтиках над верандой.</td>\n",
80
+ " <td>0</td>\n",
81
+ " </tr>\n",
82
+ " <tr>\n",
83
+ " <th>...</th>\n",
84
+ " <td>...</td>\n",
85
+ " <td>...</td>\n",
86
+ " </tr>\n",
87
+ " <tr>\n",
88
+ " <th>24824</th>\n",
89
+ " <td>и ты будь здоров</td>\n",
90
+ " <td>0</td>\n",
91
+ " </tr>\n",
92
+ " <tr>\n",
93
+ " <th>24825</th>\n",
94
+ " <td>не дорога а прям стекло но правда битое (h)</td>\n",
95
+ " <td>0</td>\n",
96
+ " </tr>\n",
97
+ " <tr>\n",
98
+ " <th>24826</th>\n",
99
+ " <td>спасибо большое. буду ждать хороших новостей. ...</td>\n",
100
+ " <td>0</td>\n",
101
+ " </tr>\n",
102
+ " <tr>\n",
103
+ " <th>24827</th>\n",
104
+ " <td>активирую установку 🌈🌈🌈👍😎🔥🔥🔥</td>\n",
105
+ " <td>0</td>\n",
106
+ " </tr>\n",
107
+ " <tr>\n",
108
+ " <th>24828</th>\n",
109
+ " <td>а вы курс российского рубля видели, кошмар!!!</td>\n",
110
+ " <td>0</td>\n",
111
+ " </tr>\n",
112
+ " </tbody>\n",
113
+ "</table>\n",
114
+ "<p>24829 rows × 2 columns</p>\n",
115
+ "</div>"
116
+ ],
117
+ "text/plain": [
118
+ " text label\n",
119
+ "0 хорошо пошло! 0\n",
120
+ "1 посмотрела, как будто дома побывала. как река ... 0\n",
121
+ "2 отдам котят 1,5 месяца в добрые руки. 0\n",
122
+ "3 0,5литровая баночка 200р стоит в таганроге. та... 0\n",
123
+ "4 речь шла о радужных зонтиках над верандой. 0\n",
124
+ "... ... ...\n",
125
+ "24824 и ты будь здоров 0\n",
126
+ "24825 не дорога а прям стекло но правда битое (h) 0\n",
127
+ "24826 спасибо большое. буду ждать хороших новостей. ... 0\n",
128
+ "24827 активирую установку 🌈🌈🌈👍😎🔥🔥🔥 0\n",
129
+ "24828 а вы курс российского рубля видели, кошмар!!! 0\n",
130
+ "\n",
131
+ "[24829 rows x 2 columns]"
132
+ ]
133
+ },
134
+ "execution_count": 2,
135
+ "metadata": {},
136
+ "output_type": "execute_result"
137
+ }
138
+ ],
139
+ "source": [
140
+ "splits = {'train': 'train.jsonl', 'test': 'test.jsonl'}\n",
141
+ "test = pd.read_json(\"hf://datasets/AlexSham/Toxic_Russian_Comments/\" + splits[\"test\"], lines=True)\n",
142
+ "test"
143
+ ]
144
+ },
145
+ {
146
+ "cell_type": "code",
147
+ "execution_count": 3,
148
+ "metadata": {},
149
+ "outputs": [
150
+ {
151
+ "name": "stderr",
152
+ "output_type": "stream",
153
+ "text": [
154
+ "100%|██████████| 97/97 [00:39<00:00, 2.44it/s]\n"
155
+ ]
156
+ }
157
+ ],
158
+ "source": [
159
+ "from tqdm import tqdm\n",
160
+ "\n",
161
+ "# Размер батча\n",
162
+ "batch_size = 256\n",
163
+ "\n",
164
+ "test['pred'] = [\n",
165
+ " model(text).item()\n",
166
+ " for batch in tqdm(range(0, len(test), batch_size))\n",
167
+ " for text in test['text'][batch:batch + batch_size]\n",
168
+ "]"
169
+ ]
170
+ },
171
+ {
172
+ "cell_type": "code",
173
+ "execution_count": 4,
174
+ "metadata": {},
175
+ "outputs": [
176
+ {
177
+ "name": "stdout",
178
+ "output_type": "stream",
179
+ "text": [
180
+ "\n",
181
+ "Classification Report:\n",
182
+ " precision recall f1-score support\n",
183
+ "\n",
184
+ " non-toxic 0.99 0.98 0.98 20369\n",
185
+ " toxic 0.92 0.94 0.93 4460\n",
186
+ "\n",
187
+ " accuracy 0.98 24829\n",
188
+ " macro avg 0.96 0.96 0.96 24829\n",
189
+ "weighted avg 0.98 0.98 0.98 24829\n",
190
+ "\n"
191
+ ]
192
+ }
193
+ ],
194
+ "source": [
195
+ "from sklearn.metrics import classification_report\n",
196
+ "\n",
197
+ "threshold = 0.5\n",
198
+ "\n",
199
+ "pred = test['pred'].apply(lambda x: 1 if x >= threshold else 0)\n",
200
+ "\n",
201
+ "# Вычисление основных метрик\n",
202
+ "class_report = classification_report(test['label'], pred, target_names=['non-toxic', 'toxic'])\n",
203
+ "\n",
204
+ "print(\"\\nClassification Report:\")\n",
205
+ "print(class_report)"
206
+ ]
207
+ },
208
+ {
209
+ "cell_type": "code",
210
+ "execution_count": 5,
211
+ "metadata": {},
212
+ "outputs": [
213
+ {
214
+ "data": {
215
+ "image/png": "",
216
+ "text/plain": [
217
+ "<Figure size 640x480 with 1 Axes>"
218
+ ]
219
+ },
220
+ "metadata": {},
221
+ "output_type": "display_data"
222
+ }
223
+ ],
224
+ "source": [
225
+ "import matplotlib.pyplot as plt\n",
226
+ "from sklearn.metrics import precision_recall_curve\n",
227
+ "\n",
228
+ "# Предсказания модели: вероятности для положительного класса\n",
229
+ "y_probs = test['pred']\n",
230
+ "\n",
231
+ "# Истинные метки\n",
232
+ "y_true = test['label']\n",
233
+ "\n",
234
+ "# Вычисление Precision-Recall кривой для разных порогов\n",
235
+ "precision, recall, thresholds = precision_recall_curve(y_true, y_probs)\n",
236
+ "\n",
237
+ "# Построение Precision-Recall кривой\n",
238
+ "plt.plot(recall, precision, \n",
239
+ " color='blue',)\n",
240
+ "plt.grid(\n",
241
+ " color='gray',\n",
242
+ ")\n",
243
+ "plt.xlabel('Recall')\n",
244
+ "plt.ylabel('Precision')\n",
245
+ "plt.title('Precision-Recall Curve')\n",
246
+ "plt.show()"
247
+ ]
248
+ },
249
+ {
250
+ "cell_type": "code",
251
+ "execution_count": 6,
252
+ "metadata": {},
253
+ "outputs": [
254
+ {
255
+ "data": {
256
+ "text/plain": [
257
+ "0.7482494115829468"
258
+ ]
259
+ },
260
+ "execution_count": 6,
261
+ "metadata": {},
262
+ "output_type": "execute_result"
263
+ }
264
+ ],
265
+ "source": [
266
+ "def get_thresholds(thresholds_precision):\n",
267
+ " return thresholds[np.where(precision>=thresholds_precision)[0][0]].item()\n",
268
+ "\n",
269
+ "get_thresholds(0.95)"
270
+ ]
271
+ },
272
+ {
273
+ "cell_type": "code",
274
+ "execution_count": 7,
275
+ "metadata": {},
276
+ "outputs": [
277
+ {
278
+ "name": "stdout",
279
+ "output_type": "stream",
280
+ "text": [
281
+ "\n",
282
+ "Classification Report:\n",
283
+ " precision recall f1-score support\n",
284
+ "\n",
285
+ " non-toxic 0.98 0.99 0.99 20369\n",
286
+ " toxic 0.95 0.91 0.93 4460\n",
287
+ "\n",
288
+ " accuracy 0.98 24829\n",
289
+ " macro avg 0.97 0.95 0.96 24829\n",
290
+ "weighted avg 0.98 0.98 0.98 24829\n",
291
+ "\n"
292
+ ]
293
+ }
294
+ ],
295
+ "source": [
296
+ "threshold = 0.75\n",
297
+ "\n",
298
+ "pred = test['pred'].apply(lambda x: 1 if x >= threshold else 0)\n",
299
+ "\n",
300
+ "# Вычисление основных метрик\n",
301
+ "class_report = classification_report(test['label'], pred, target_names=['non-toxic', 'toxic'])\n",
302
+ "\n",
303
+ "print(\"\\nClassification Report:\")\n",
304
+ "print(class_report)"
305
+ ]
306
+ }
307
+ ],
308
+ "metadata": {
309
+ "kernelspec": {
310
+ "display_name": "venv",
311
+ "language": "python",
312
+ "name": "python3"
313
+ },
314
+ "language_info": {
315
+ "codemirror_mode": {
316
+ "name": "ipython",
317
+ "version": 3
318
+ },
319
+ "file_extension": ".py",
320
+ "mimetype": "text/x-python",
321
+ "name": "python",
322
+ "nbconvert_exporter": "python",
323
+ "pygments_lexer": "ipython3",
324
+ "version": "3.12.3"
325
+ }
326
+ },
327
+ "nbformat": 4,
328
+ "nbformat_minor": 2
329
+ }
src/__init__.py ADDED
File without changes
src/__pycache__/__init__.cpython-312.pyc ADDED
Binary file (142 Bytes). View file
 
src/__pycache__/bert.cpython-312.pyc ADDED
Binary file (1.38 kB). View file
 
src/__pycache__/classifier.cpython-312.pyc ADDED
Binary file (1.27 kB). View file
 
src/__pycache__/dataset.cpython-312.pyc ADDED
Binary file (1.75 kB). View file
 
src/__pycache__/load_model.cpython-312.pyc ADDED
Binary file (873 Bytes). View file
 
src/__pycache__/train.cpython-312.pyc ADDED
Binary file (5.94 kB). View file
 
src/bert.py ADDED
@@ -0,0 +1,19 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import torch
2
+ from torch import nn
3
+ from transformers import AutoModel, AutoTokenizer
4
+
5
+ class Bert(nn.Module):
6
+ def __init__(self, model_name):
7
+ super().__init__()
8
+ self.model = AutoModel.from_pretrained(model_name)
9
+ self.tokenizer = AutoTokenizer.from_pretrained(model_name)
10
+
11
+ def forward(self, texts):
12
+ inputs = self.tokenizer(
13
+ texts,
14
+ padding=True,
15
+ truncation=True,
16
+ return_tensors='pt'
17
+ ).to(self.model.device)
18
+ outputs = self.model(**inputs)
19
+ return outputs.last_hidden_state[:, 0, :]
src/classifier.py ADDED
@@ -0,0 +1,12 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import torch
2
+ import torch.nn as nn
3
+
4
+ class Classifier(nn.Module):
5
+ def __init__(self, bert_model):
6
+ super().__init__()
7
+ self.bert = bert_model
8
+ self.head = nn.Linear(self.bert.model.config.hidden_size, 1)
9
+
10
+ def forward(self, texts:list[str]):
11
+ embeddings = self.bert(texts)
12
+ return torch.sigmoid(self.head(embeddings)).squeeze(1)
src/dataset.py ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ from torch.utils.data import Dataset
2
+
3
+ class TextDataset(Dataset):
4
+ def __init__(self, df):
5
+ self.texts = df['text'].tolist()
6
+ self.labels = df['label'].tolist()
7
+
8
+ def __len__(self):
9
+ return len(self.texts)
10
+
11
+ def __getitem__(self, idx):
12
+ text = self.texts[idx]
13
+ label = self.labels[idx]
14
+ return text, label
15
+
16
+ if __name__ == "__main__":
17
+ import pandas as pd
18
+ import torch
19
+
20
+ splits = {'train': 'train.jsonl', 'test': 'test.jsonl'}
21
+
22
+ df_train = pd.read_json("hf://datasets/AlexSham/Toxic_Russian_Comments/" + splits["train"], lines=True)
23
+ df_test = pd.read_json("hf://datasets/AlexSham/Toxic_Russian_Comments/" + splits["test"], lines=True)
24
+
25
+ dataset_train = TextDataset(df_train)
26
+ dataset_test = TextDataset(df_test)
27
+
28
+ torch.save(dataset_train, 'data/dataset_train.pt')
29
+ torch.save(dataset_test, 'data/dataset_test.pt')
src/load_model.py ADDED
@@ -0,0 +1,17 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import torch
2
+ import yaml
3
+
4
+ from .classifier import Classifier
5
+ from .bert import Bert
6
+
7
+ device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
8
+
9
+ config = yaml.safe_load(open('config.yaml', 'r'))
10
+
11
+ model = Classifier(Bert(config['model']['bert_name']))
12
+
13
+ model.load_state_dict(torch.load(config['predct']['use_model'], map_location=torch.device(device), weights_only=True))
14
+
15
+ model = model.to(device)
16
+
17
+ model.eval()
src/train.py ADDED
@@ -0,0 +1,129 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import logging
2
+ import yaml
3
+ import torch
4
+ import time
5
+ from torch import nn, optim
6
+ from torch.utils.data import DataLoader
7
+ from tqdm import tqdm
8
+ import os
9
+ import pandas as pd
10
+
11
+ from .classifier import Classifier
12
+ from .bert import Bert
13
+ from .dataset import TextDataset
14
+
15
+ def setup_logging(config):
16
+ logging.basicConfig(
17
+ filename=os.path.join(config['logging']['log_dir'], "log.log"),
18
+ filemode='w',
19
+ level=config['logging']['level'],
20
+ format=config['logging']['format']
21
+ )
22
+ return logging.getLogger(__name__)
23
+
24
+ def evaluate(model, dataloader, criterion):
25
+ model.eval()
26
+ total_loss = 0.0
27
+ correct = 0
28
+ total = 0
29
+
30
+ with torch.no_grad():
31
+ for texts, labels in dataloader:
32
+ labels = labels.float().to(device)
33
+ outputs = model(texts).squeeze()
34
+
35
+ loss = criterion(outputs, labels)
36
+ total_loss += loss.item() * labels.size(0)
37
+ correct += ((outputs >= 0.5).float() == labels).sum().item()
38
+ total += labels.size(0)
39
+
40
+ return total_loss / total, correct / total
41
+
42
+ if __name__ == "__main__":
43
+ config = yaml.safe_load(open("config.yaml"))
44
+ logger = setup_logging(config)
45
+
46
+ logger.info("Starting training process")
47
+ logger.info(f"Configuration: {config}")
48
+
49
+ device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
50
+
51
+ # Инициализация модели
52
+ model = Classifier(Bert(config['model']['bert_name'])).to(device)
53
+ logger.info("Model initialized")
54
+
55
+ # Загрузка данных
56
+ train_dataset = torch.load(config['data']['train_path'])
57
+ test_dataset = torch.load(config['data']['test_path'])
58
+
59
+ train_loader = DataLoader(
60
+ train_dataset,
61
+ batch_size=int(config['data']['batch_size']),
62
+ shuffle=True
63
+ )
64
+ test_loader = DataLoader(
65
+ test_dataset,
66
+ batch_size=int(config['data']['batch_size']),
67
+ shuffle=False
68
+ )
69
+
70
+ logger.info(f"Train samples: {len(train_dataset)}, Test samples: {len(test_dataset)}")
71
+
72
+ # Оптимизатор
73
+ optimizer = optim.Adam(
74
+ model.parameters(),
75
+ lr=float(config['training']['learning_rate'])
76
+ )
77
+ criterion = nn.BCELoss()
78
+
79
+ # Для записи результатов обучения
80
+ results = []
81
+
82
+ for epoch in range(int(config['training']['epochs'])):
83
+ start_time = time.time()
84
+
85
+ # Обучение
86
+ model.train()
87
+ train_loss, train_correct = 0.0, 0
88
+
89
+ for texts, labels in tqdm(train_loader, desc=f"Epoch {epoch+1}", ncols=100):
90
+ labels = labels.float().to(device)
91
+ optimizer.zero_grad()
92
+
93
+ outputs = model(texts).squeeze()
94
+ loss = criterion(outputs, labels)
95
+ loss.backward()
96
+ optimizer.step()
97
+
98
+ train_loss += loss.item() * labels.size(0)
99
+ train_correct += ((outputs >= 0.5).float() == labels).sum().item()
100
+
101
+ # Оценка
102
+ train_loss /= len(train_dataset)
103
+ train_acc = train_correct / len(train_dataset)
104
+ test_loss, test_acc = evaluate(model, test_loader, criterion)
105
+
106
+ # Сохранение результатов
107
+ results.append({
108
+ "epoch": epoch + 1,
109
+ "train_loss": train_loss,
110
+ "test_loss": test_loss,
111
+ "train_acc": train_acc,
112
+ "test_acc": test_acc
113
+ })
114
+
115
+ # Логирование
116
+ epoch_time = time.time() - start_time
117
+ logger.info(f"Epoch {epoch+1} [{epoch_time:.1f}s]")
118
+ logger.info(f"Train Loss: {train_loss:.4f} | Acc: {train_acc:.4f}")
119
+ logger.info(f"Test Loss: {test_loss:.4f} | Acc: {test_acc:.4f}")
120
+
121
+ torch.save(model.state_dict(),
122
+ os.path.join(config['training']['save_dir'], f"model_{epoch+1}.pth"))
123
+
124
+ # Сохранение результатов в CSV
125
+ results_df = pd.DataFrame(results)
126
+ results_df.to_csv(os.path.join(config['logging']['log_dir'], "training_results.csv"), index=False)
127
+
128
+ # Финализация обучения
129
+ logger.info("Training completed")