/WebScrapingProducts

Web scraping project for a building material website that takes a product category and adds the information into a table.

Primary LanguagePythonMIT LicenseMIT

Web scraping do site Marchio

Este repositório contém um conjunto de scripts Python destinados a coletar informações do site Marchio. O objetivo principal é realizar a raspagem de dados de uma categoria específica, coletando detalhes dos produtos, tirando screenshots e estruturando os resultados em tabelas visíveis tanto no HTML como no terminal.


Conteúdo

  1. Estrutura do Projeto
  2. Como Utilizar
  3. Estrutura de Diretórios
  4. Resultados
  5. Autora do projeto

Estrutura do Projeto

O projeto é estruturado da seguinte forma:

WebScrapingProducts/
|-- docs/
|   |-- menu.png
|   |-- table_html.png
|   |-- table_terminal.png
|-- env/
|-- screenshots/
|   |-- 100764_ALICATENIVELAMENTODEREVESTIMENTOPISO_23-01-2024.png
|   |-- 113093_Aparadordegrama1000w220v_23-01-2024.png
|   |-- 118011_APARADORDEGRAMAAG1500BP220V1500W_23-01-2024.png
|   |-- 118572_JOGODEFERRAMENTAS19PECASJFN_23-01-2024.png
|-- table/
|   |-- ferramentas_table.html
|   |-- tintas-e-acessorios_table.html
|-- .gitignore
|-- categories.py
|-- .LICENSE
|-- main.py
|-- menu_utils.py
|-- pagination_utils.py
|-- products.py
|-- README.md
|-- requirements.txt
|-- screenshot_utils.py
|-- table_utils.py
|-- webdriver_setup.py

Arquivos Descrição
categories.py Script para obter as categorias disponíveis no site
main.py Ponto de entrada para a execução do coletor
menu_utils.py Utilitários para a interação com o usuário e escolha da categoria
pagination_utils.py Funções para verificar a paginação e navegar entre as páginas
products.py Funcionalidades relacionadas à coleta de informações dos produtos
screenshot_utils.py Utilitário para tirar screenshots dos produtos
table_utils.py Funções para criar tabelas em formato HTML e exibir resultados formatados
webdriver_setup.py Configurações do webdriver para automação do navegador

Como Utilizar

Antes de começar, você vai precisar ter instalado em sua máquina as seguintes ferramentas:

Git, Python e Pip.

Além disto, é necessário ter um editor de código que aceite trabalhar com a linguagem Python como VSCode

Setup do projeto

  1. Clone o repositório:
git clone https://github.com/sammytrindade/WebScrapingProducts
  1. Crie um ambiente virtual:
python -m venv env 
  1. Ative o ambiente:
.\env\Scripts\activate.ps1
  1. Instale as dependências do projeto pelo arquivo: requirements.txt
pip install -r requirements.txt
  1. Execute o projeto:
python main.py
  1. Selecione a categoria dos produtos:

Menu de categorias


Estrutura de Diretórios

docs Diretório para armazenar os documentos e imagens utilizados no projeto.

screenshots Diretório para armazenar os screenshots dos produtos coletados.

table Diretório para armazenar as tabelas em formato HTML.

Resultados

Os resultados da coleta, incluindo screenshots e tabelas HTML, serão armazenados nos diretórios mencionados acima.

Exemplo de uma tabela:

Tabela de produtos de ferramentas


Exemplo de um screenshot:

Screenshot do produto alicate da categoria ferramentas

Além disso, durante a execução, o usuário será informado sobre o progresso da coleta pelo terminal.


Aproveite o WebScrapingProducts! 🚀



Autora

Foto Samara Trindade
Samara Trindade
🚀


Feito com 💙 por Samara Trindade 👋🏽 Entre em contato!

Linkedin Badge Twitter Badge Outlook