vlomme/Preprocessing-Russian-text-datasets

Скрипт для предобработки текстовых датасетов

Python

Скрипт для предобработки текстовых датасетов

Приводит датасет в файл вида

Заголовок 1|Текст 1
Заголовок 2|Текст 2
и т.д.

И чистит от мусора

Поддерживает:

большинство источников c Taiga Сorpus
Lenta dataset
Парсинг https://meduza.io/
Парсинг https://habr.com/

Не поддеривает

Rossiya Segodnya

Использование

Поместить датасет в папку source_data
возможно переименовать newmetadata.csv в metatable.csv
Запустить python preprocess.py -d dataset_name

Список dataset_name

habr
meduza
lenta2 для Lenta dataset
proza для Taiga Сorpus
fontanka
arzamas
interfax
kp
Lenta
nplus1

Разделить датасет на несколько частей

Откройте и отредактируйте split.py
Запустите python split.py