Парсер веб-сайтов для кадрового агентства

ОПИСАНИЕ:

Парсер для веб-сайтов, получающий следующую информацию:

start_time: время начала работы модуля
main_link: сайт, который необходимо распарсить
company_name: название компании
company_links: список, который содержит ссылки на следующие страницы:
1. Контакты (contacts)
2. О компании (about)
3. Вакансии (vacancies)
4. Наша команда (staff)
about: краткая информация о компании
vacancies: список, который содержит информацию о вакансиях в компании:
1. Название вакансии (vacancy)
2. Информация о вакансии или требования (requirements)
3. Опыт работы (experience)
4. Ссылка на вакансию (link)
5. Дата публикации вакансии (date)
team: список, который содержит информацию о персонале компании:
1. Полное имя сотрудника (name)
2. Информация о сотруднике, должность (info)
3. Ссылка на его персональную страницу (link)
4. Ссылка на его фото (photo)
emails: почтовые адреса с описанием
phones: телефоны с описанием
social_networks: социальные сети на странице со ссылками
messengers: мессенджеры на странице со ссылками
requisites: юридические реквизиты организации
address: список, содержащий все адреса организации

ИСПОЛЬЗОВАНИЕ:

python cv_parser.py <yourdomain> [-p|--path <example/example1.json>] [-t|--test]

-p: позволяет сохранить файл с результатом парсера в папку, указанную в аргументе

-t: режим разработчика (не рекомендуется использовать!)

Примеры JSON-файлов с выгруженными результатами находятся в папке examples:

python cv_parser.py aeroem.ru -p examples/example1.json
python cv_parser.py 2050.digital -p examples/example2.json
python cv_parser.py digitalaround.ru -p examples/example3.json

ЧТО НЕОБХОДИМО ДОДЕЛАТЬ:

Работа с вложенными структурами (например, страница "Контакты" имеет ссылку на подконтакт "Филиал в Новосибирске")
Нахождение контактов сотрудников компании

lo1ol/cv_parser

Парсер веб-сайтов для кадрового агентства

ОПИСАНИЕ:

ИСПОЛЬЗОВАНИЕ:

ЧТО НЕОБХОДИМО ДОДЕЛАТЬ: