Приводит датасет в файл вида
Заголовок 1|Текст 1
Заголовок 2|Текст 2
и т.д.
И чистит от мусора
- большинство источников c Taiga Сorpus
- Lenta dataset
- Парсинг https://meduza.io/
- Парсинг https://habr.com/
- Поместить датасет в папку source_data
- возможно переименовать newmetadata.csv в metatable.csv
- Запустить
python preprocess.py -d dataset_name
- habr
- meduza
- lenta2 для Lenta dataset
- proza для Taiga Сorpus
- fontanka
- arzamas
- interfax
- kp
- Lenta
- nplus1
- Откройте и отредактируйте split.py
- Запустите
python split.py