Парсер книг с сайта tululu.org

Парсер скачивает и сохраняет книги из раздела "Фантастика".

Как установить

Для работы необходим python версии 3.6+.
Установка зависимостей:

pip install -r requirements.txt

Использование

Перед запуском скрипта нужно создать три переменных окружения:

  1. books_folder - она содержит в себе название папки, в которую будут скачаны txt-файлы книг;
  2. images_folder - она содержит в себе название папки,в которую будут скачаны обложки книг;
  3. json_catalogue - название json-файла (с указанием расширения .json), который будет содержать в себе информацию о каждой книге.

Запуск скрипта:

python tululu.py --start_page %start_page% --end_page %end_page%

При запуске скрипта указываются два аргумента: %start_page% - номер страницы сайта, с которой начинается парсинг, %end_page% - номер страницы, на которой парсинг заканчивается .
Если не указывать аргумент %end_page%, то парсер пройдёт до последней страницы в этом разделеразделе - 701.

Структура json-файла:

[
  {
      "title": "Название книги",
      "author": "Автор книги",
      "img_src": "images/id.jpg",
      "book_path": "books/название_книги.txt",
      "comments": ["комментарий1", "комментарий2"],
      "genres": ["жанр1", "жанр2"]
  }, 

]

Цель проекта

Код написан в образовательных целях на онлайн-курсе для веб-разработчиков dvmn.org.