Этот репозиторий содержит скрипт ses_parser.py
, который предназначен для парсинга текстового файла «Советский Энциклопедический Словарь» и разбивки его на несколько файлов в формате Markdown.
- Установите Python 3, если он еще не установлен на вашем компьютере.
- Скачайте репозиторий с помощью команды
git clone https://github.com/redboo/ses_parser.git
или скачайте zip-архив и распакуйте его. - Поместите текстовый файл
ses.txt
илиses.txt.gz
, который вы хотите разбить, в папку репозитория. - Запустите скрипт:
python ses_parser.py
. - В папке
dist
появятся файлы с разбитым текстом в формате Markdown.
- Скрипт обрабатывает только файл «Советский Энциклопедический Словарь».
- Скрипт разбивает текст на файлы с именами, соответствующими заголовкам первого уровня. Если встречаются одинаковые заголовки, к имени добавляется порядковый номер в круглых скобках.
- После разбиения текста на файлы все символы верхнего регистра в заголовках заменяются на символы нижнего регистра.
- Если строка оканчивается дефисом, то он будет удален при записи в файл.
- Если папка
dist
уже существует, то она будет удалена перед выполнением скрипта.