/scraping_projects

Web scraping projects

Primary LanguagePython

Scraping Projects

Author - Mikhail Pustovalov

This repository is a bunch of web scraping projects that was created by me while taking an Udemy "Modern Web Scraping" course.
The projects included:

  1. Project 1 - first steps, getting some data from small online stores. Parsed some text (product names, prices) and links (either to images or to product pages). Implemented header spoofing for user-agent and auto-clicking "Next Page".
  2. Project 2 - parsing data on current Rosneft tenders from their procurement website http://zakupki.rosneft.ru/zakupki\ Useful for current job.
  3. Project 3 - the crawler that parses books information from a scraping training website http://books.toscrape.com
    It extracts all the links to the book pages, visits the pages and scrapes basic book info.
  4. Project 4 - the script parses quotes from a JS-based website https://quotes.toscrape.com/js/.

Проекты по веб-скрейпингу

Автор - Михаил Пустовалов

В этом репозитории хранятся проекты по веб-скрейпингу, выполненные мной при прохождении курса на Udemy "Modern Web Scraping".
Включённые проекты:

  1. Проект 1 - первые шаги, получение данных с небольших интернет-магазинов. Спарсили данные в виде названия товаров, ссылок на карточки\изображения, цен. Реализована подмена заголовка запроса (конкретно - user-agent), и автоматический переход на следующую страницу.
  2. Проект 2 - сбор данных с сайта закупок Роснефти http://zakupki.rosneft.ru/zakupki\ Полезно в текущей работе.
  3. Проект 3 - сбор данных с тренировочного сайта с книгами http://books.toscrape.com/\ Работает по принципу краулера, то есть извлекает ссылки на страницы книг с главной, переходит на них и забирает информацию о книге оттуда.
  4. Проект 4 - парсинг цитат с тренировочного сайта, основанного на JavaScript https://quotes.toscrape.com/js/