Spaces:
Sleeping
Sleeping
File size: 65,906 Bytes
b83e315 |
|
{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [],
"source": [
"import os\n",
"os.chdir(\"..\")\n",
"\n",
"import pandas as pd\n",
"import matplotlib.pyplot as plt"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [
{
"name": "stderr",
"output_type": "stream",
"text": [
"/home/timo/rep/TextClassifier/venv/lib/python3.12/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
" from .autonotebook import tqdm as notebook_tqdm\n"
]
}
],
"source": [
"splits = {'train': 'train.jsonl', 'test': 'test.jsonl'}\n",
"train = pd.read_json(\"hf://datasets/AlexSham/Toxic_Russian_Comments/\" + splits[\"train\"], lines=True)\n",
"test = pd.read_json(\"hf://datasets/AlexSham/Toxic_Russian_Comments/\" + splits[\"test\"], lines=True)"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>text</th>\n",
" <th>label</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>видимо в разных регионах называют по разному ,...</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>понятно что это нарушение правил, писать капсл...</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>какие классные, жизненные стихи....</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>а и правда-когда его запретили?...</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>в соленой воде вирусы живут .ученые изучали со...</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>...</th>\n",
" <td>...</td>\n",
" <td>...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>223456</th>\n",
" <td>вова - дима когда же вы подавитесь деньгами???...</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>223457</th>\n",
" <td>какая красота, просто нет слов выразить чувств...</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>223458</th>\n",
" <td>вы пост гаи выставити на перекрестке возле 21 ...</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>223459</th>\n",
" <td>как -то на лебедей непохожи</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>223460</th>\n",
" <td>интересно чей это самолет!</td>\n",
" <td>0</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"<p>223461 rows × 2 columns</p>\n",
"</div>"
],
"text/plain": [
" text label\n",
"0 видимо в разных регионах называют по разному ,... 0\n",
"1 понятно что это нарушение правил, писать капсл... 1\n",
"2 какие классные, жизненные стихи.... 0\n",
"3 а и правда-когда его запретили?... 0\n",
"4 в соленой воде вирусы живут .ученые изучали со... 0\n",
"... ... ...\n",
"223456 вова - дима когда же вы подавитесь деньгами???... 0\n",
"223457 какая красота, просто нет слов выразить чувств... 0\n",
"223458 вы пост гаи выставити на перекрестке возле 21 ... 0\n",
"223459 как -то на лебедей непохожи 0\n",
"223460 интересно чей это самолет! 0\n",
"\n",
"[223461 rows x 2 columns]"
]
},
"execution_count": 3,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"train"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>text</th>\n",
" <th>label</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>хорошо пошло!</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>посмотрела, как будто дома побывала. как река ...</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>отдам котят 1,5 месяца в добрые руки.</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>0,5литровая баночка 200р стоит в таганроге. та...</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>речь шла о радужных зонтиках над верандой.</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>...</th>\n",
" <td>...</td>\n",
" <td>...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>24824</th>\n",
" <td>и ты будь здоров</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>24825</th>\n",
" <td>не дорога а прям стекло но правда битое (h)</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>24826</th>\n",
" <td>спасибо большое. буду ждать хороших новостей. ...</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>24827</th>\n",
" <td>активирую установку 🌈🌈🌈👍😎🔥🔥🔥</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>24828</th>\n",
" <td>а вы курс российского рубля видели, кошмар!!!</td>\n",
" <td>0</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"<p>24829 rows × 2 columns</p>\n",
"</div>"
],
"text/plain": [
" text label\n",
"0 хорошо пошло! 0\n",
"1 посмотрела, как будто дома побывала. как река ... 0\n",
"2 отдам котят 1,5 месяца в добрые руки. 0\n",
"3 0,5литровая баночка 200р стоит в таганроге. та... 0\n",
"4 речь шла о радужных зонтиках над верандой. 0\n",
"... ... ...\n",
"24824 и ты будь здоров 0\n",
"24825 не дорога а прям стекло но правда битое (h) 0\n",
"24826 спасибо большое. буду ждать хороших новостей. ... 0\n",
"24827 активирую установку 🌈🌈🌈👍😎🔥🔥🔥 0\n",
"24828 а вы курс российского рубля видели, кошмар!!! 0\n",
"\n",
"[24829 rows x 2 columns]"
]
},
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"test"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [],
"source": [
"train['class'] = train['label'].map({0: 'non-toxic', 1: 'toxic'})\n",
"test['class'] = test['label'].map({0: 'non-toxic', 1: 'toxic'})"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
"<Figure size 640x480 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
},
{
"data": {
"image/png": "",
"text/plain": [
"<Figure size 640x480 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"datasets = {\"Train Dataset\": train, \"Test Dataset\": test}\n",
"\n",
"for name, df in datasets.items():\n",
" df['class'].value_counts().plot.pie(\n",
" autopct='%1.1f%%',\n",
" ylabel='',\n",
" title=f\"Распределение классов в {name}\"\n",
" )\n",
" plt.show()"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Train Dataset\n",
"class: non-toxic\n",
"0 видимо в разных регионах называют по разному ,...\n",
"2 какие классные, жизненные стихи....\n",
"3 а и правда-когда его запретили?...\n",
"4 в соленой воде вирусы живут .ученые изучали со...\n",
"6 ни в одном из близлежащих строительных не нашл...\n",
"7 какая дрянь сломала? виноваты родители, выраст...\n",
"8 да, висели такие на стене, над кроватью. в люб...\n",
"9 потому что мы так воспитаны\n",
"10 лапти и не только\n",
"11 привет обмен на дизель без вложений\n",
"Name: text, dtype: object \n",
"\n",
"class: toxic\n",
"1 понятно что это нарушение правил, писать капсл...\n",
"5 правильно! это же тихановская 26 лет растила и...\n",
"13 на хуй, безликая\n",
"16 дебилов хватает.надо было с головой\n",
"30 умник хуев. у каждого своё мнение\n",
"38 на мыло его дегтярное пустить пидора путинского\n",
"47 неправильно вы называете таких чиновников идио...\n",
"52 ретранслятор тебе в жопу\n",
"67 пидор усатый\n",
"71 а вы пидоры учились платно???,гандоны!!!\n",
"Name: text, dtype: object \n",
"\n",
"Test Dataset\n",
"class: non-toxic\n",
"0 видимо в разных регионах называют по разному ,...\n",
"2 какие классные, жизненные стихи....\n",
"3 а и правда-когда его запретили?...\n",
"4 в соленой воде вирусы живут .ученые изучали со...\n",
"6 ни в одном из близлежащих строительных не нашл...\n",
"7 какая дрянь сломала? виноваты родители, выраст...\n",
"8 да, висели такие на стене, над кроватью. в люб...\n",
"9 потому что мы так воспитаны\n",
"10 лапти и не только\n",
"11 привет обмен на дизель без вложений\n",
"Name: text, dtype: object \n",
"\n",
"class: toxic\n",
"1 понятно что это нарушение правил, писать капсл...\n",
"5 правильно! это же тихановская 26 лет растила и...\n",
"13 на хуй, безликая\n",
"16 дебилов хватает.надо было с головой\n",
"30 умник хуев. у каждого своё мнение\n",
"38 на мыло его дегтярное пустить пидора путинского\n",
"47 неправильно вы называете таких чиновников идио...\n",
"52 ретранслятор тебе в жопу\n",
"67 пидор усатый\n",
"71 а вы пидоры учились платно???,гандоны!!!\n",
"Name: text, dtype: object \n",
"\n"
]
}
],
"source": [
"for name, df in datasets.items():\n",
" print(name)\n",
" for label in train['class'].unique():\n",
" print(f\"class: {label}\")\n",
" print(train[train['class'] == label]['text'].iloc[:10], \"\\n\")"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "venv",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.12.3"
}
},
"nbformat": 4,
"nbformat_minor": 2
}
|