/ses_parser

Скрипт для парсинга файла «Советский Энциклопедический Словарь»

Primary LanguagePythonGNU General Public License v3.0GPL-3.0

Описание

Этот репозиторий содержит скрипт ses_parser.py, который предназначен для парсинга текстового файла «Советский Энциклопедический Словарь» и разбивки его на несколько файлов в формате Markdown.

Как использовать

  1. Установите Python 3, если он еще не установлен на вашем компьютере.
  2. Скачайте репозиторий с помощью команды git clone https://github.com/redboo/ses_parser.git или скачайте zip-архив и распакуйте его.
  3. Поместите текстовый файл ses.txt или ses.txt.gz, который вы хотите разбить, в папку репозитория.
  4. Запустите скрипт: python ses_parser.py.
  5. В папке dist появятся файлы с разбитым текстом в формате Markdown.

Дополнительная информация

  • Скрипт обрабатывает только файл «Советский Энциклопедический Словарь».
  • Скрипт разбивает текст на файлы с именами, соответствующими заголовкам первого уровня. Если встречаются одинаковые заголовки, к имени добавляется порядковый номер в круглых скобках.
  • После разбиения текста на файлы все символы верхнего регистра в заголовках заменяются на символы нижнего регистра.
  • Если строка оканчивается дефисом, то он будет удален при записи в файл.
  • Если папка dist уже существует, то она будет удалена перед выполнением скрипта.