/Preprocessing-Russian-text-datasets

Скрипт для предобработки текстовых датасетов

Primary LanguagePython

Скрипт для предобработки текстовых датасетов

Приводит датасет в файл вида

Заголовок 1|Текст 1
Заголовок 2|Текст 2
и т.д.

И чистит от мусора

Поддерживает:

Не поддеривает

Использование

  1. Поместить датасет в папку source_data
  2. возможно переименовать newmetadata.csv в metatable.csv
  3. Запустить python preprocess.py -d dataset_name

Список dataset_name

Разделить датасет на несколько частей

  1. Откройте и отредактируйте split.py
  2. Запустите python split.py