Парсер книг с сайта tululu.org
Парсер скачивает и сохраняет книги из раздела "Фантастика".
Как установить
Для работы необходим python версии 3.6+.
Установка зависимостей:
pip install -r requirements.txt
Использование
Перед запуском скрипта нужно создать три переменных окружения:
books_folder
- она содержит в себе название папки, в которую будут скачаны txt-файлы книг;images_folder
- она содержит в себе название папки,в которую будут скачаны обложки книг;json_catalogue
- название json-файла (с указанием расширения.json
), который будет содержать в себе информацию о каждой книге.
Запуск скрипта:
python tululu.py --start_page %start_page% --end_page %end_page%
При запуске скрипта указываются два аргумента: %start_page%
- номер страницы сайта, с которой начинается парсинг, %end_page%
- номер страницы, на которой парсинг заканчивается .
Если не указывать аргумент %end_page%
, то парсер пройдёт до последней страницы в этом разделеразделе - 701.
Структура json-файла:
[
{
"title": "Название книги",
"author": "Автор книги",
"img_src": "images/id.jpg",
"book_path": "books/название_книги.txt",
"comments": ["комментарий1", "комментарий2"],
"genres": ["жанр1", "жанр2"]
},
]
Цель проекта
Код написан в образовательных целях на онлайн-курсе для веб-разработчиков dvmn.org.