e-mail: pustovalovm@gmail.com
This repository is a bunch of web scraping projects that was created by me while taking an Udemy "Modern Web Scraping" course.
The projects included:
- Project 1 - first steps, getting some data from small online stores. Parsed some text (product names, prices) and links (either to images or to product pages). Implemented header spoofing for user-agent and auto-clicking "Next Page".
- Project 2 - parsing data on current Rosneft tenders from their procurement website http://zakupki.rosneft.ru/zakupki\ Useful for current job.
- Project 3 - the crawler that parses books information from a scraping training website http://books.toscrape.com
It extracts all the links to the book pages, visits the pages and scrapes basic book info. - Project 4 - the script parses quotes from a JS-based website https://quotes.toscrape.com/js/.
e-mail: pustovalovm@gmail.com
В этом репозитории хранятся проекты по веб-скрейпингу, выполненные мной при прохождении курса на Udemy "Modern Web Scraping".
Включённые проекты:
- Проект 1 - первые шаги, получение данных с небольших интернет-магазинов. Спарсили данные в виде названия товаров, ссылок на карточки\изображения, цен. Реализована подмена заголовка запроса (конкретно - user-agent), и автоматический переход на следующую страницу.
- Проект 2 - сбор данных с сайта закупок Роснефти http://zakupki.rosneft.ru/zakupki\ Полезно в текущей работе.
- Проект 3 - сбор данных с тренировочного сайта с книгами http://books.toscrape.com/\ Работает по принципу краулера, то есть извлекает ссылки на страницы книг с главной, переходит на них и забирает информацию о книге оттуда.
- Проект 4 - парсинг цитат с тренировочного сайта, основанного на JavaScript https://quotes.toscrape.com/js/