Парсер для веб-сайтов, получающий следующую информацию:
-
start_time: время начала работы модуля
-
main_link: сайт, который необходимо распарсить
-
company_name: название компании
-
company_links: список, который содержит ссылки на следующие страницы:
- Контакты (contacts)
- О компании (about)
- Вакансии (vacancies)
- Наша команда (staff)
-
about: краткая информация о компании
-
vacancies: список, который содержит информацию о вакансиях в компании:
- Название вакансии (vacancy)
- Информация о вакансии или требования (requirements)
- Опыт работы (experience)
- Ссылка на вакансию (link)
- Дата публикации вакансии (date)
-
team: список, который содержит информацию о персонале компании:
- Полное имя сотрудника (name)
- Информация о сотруднике, должность (info)
- Ссылка на его персональную страницу (link)
- Ссылка на его фото (photo)
-
emails: почтовые адреса с описанием
-
phones: телефоны с описанием
-
social_networks: социальные сети на странице со ссылками
-
messengers: мессенджеры на странице со ссылками
-
requisites: юридические реквизиты организации
-
address: список, содержащий все адреса организации
python cv_parser.py <yourdomain> [-p|--path <example/example1.json>] [-t|--test]
-p: позволяет сохранить файл с результатом парсера в папку, указанную в аргументе
-t: режим разработчика (не рекомендуется использовать!)
Примеры JSON-файлов с выгруженными результатами находятся в папке examples:
python cv_parser.py aeroem.ru -p examples/example1.json
python cv_parser.py 2050.digital -p examples/example2.json
python cv_parser.py digitalaround.ru -p examples/example3.json
- Работа с вложенными структурами (например, страница "Контакты" имеет ссылку на подконтакт "Филиал в Новосибирске")
- Нахождение контактов сотрудников компании