{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import os\n", "os.chdir(\"..\")\n", "\n", "import pandas as pd\n", "import matplotlib.pyplot as plt" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/home/timo/rep/TextClassifier/venv/lib/python3.12/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n", " from .autonotebook import tqdm as notebook_tqdm\n" ] } ], "source": [ "splits = {'train': 'train.jsonl', 'test': 'test.jsonl'}\n", "train = pd.read_json(\"hf://datasets/AlexSham/Toxic_Russian_Comments/\" + splits[\"train\"], lines=True)\n", "test = pd.read_json(\"hf://datasets/AlexSham/Toxic_Russian_Comments/\" + splits[\"test\"], lines=True)" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | text | \n", "label | \n", "
---|---|---|
0 | \n", "видимо в разных регионах называют по разному ,... | \n", "0 | \n", "
1 | \n", "понятно что это нарушение правил, писать капсл... | \n", "1 | \n", "
2 | \n", "какие классные, жизненные стихи.... | \n", "0 | \n", "
3 | \n", "а и правда-когда его запретили?... | \n", "0 | \n", "
4 | \n", "в соленой воде вирусы живут .ученые изучали со... | \n", "0 | \n", "
... | \n", "... | \n", "... | \n", "
223456 | \n", "вова - дима когда же вы подавитесь деньгами???... | \n", "0 | \n", "
223457 | \n", "какая красота, просто нет слов выразить чувств... | \n", "0 | \n", "
223458 | \n", "вы пост гаи выставити на перекрестке возле 21 ... | \n", "0 | \n", "
223459 | \n", "как -то на лебедей непохожи | \n", "0 | \n", "
223460 | \n", "интересно чей это самолет! | \n", "0 | \n", "
223461 rows × 2 columns
\n", "\n", " | text | \n", "label | \n", "
---|---|---|
0 | \n", "хорошо пошло! | \n", "0 | \n", "
1 | \n", "посмотрела, как будто дома побывала. как река ... | \n", "0 | \n", "
2 | \n", "отдам котят 1,5 месяца в добрые руки. | \n", "0 | \n", "
3 | \n", "0,5литровая баночка 200р стоит в таганроге. та... | \n", "0 | \n", "
4 | \n", "речь шла о радужных зонтиках над верандой. | \n", "0 | \n", "
... | \n", "... | \n", "... | \n", "
24824 | \n", "и ты будь здоров | \n", "0 | \n", "
24825 | \n", "не дорога а прям стекло но правда битое (h) | \n", "0 | \n", "
24826 | \n", "спасибо большое. буду ждать хороших новостей. ... | \n", "0 | \n", "
24827 | \n", "активирую установку 🌈🌈🌈👍😎🔥🔥🔥 | \n", "0 | \n", "
24828 | \n", "а вы курс российского рубля видели, кошмар!!! | \n", "0 | \n", "
24829 rows × 2 columns
\n", "