Web scraping do site Marchio
Este repositório contém um conjunto de scripts Python destinados a coletar informações do site Marchio. O objetivo principal é realizar a raspagem de dados de uma categoria específica, coletando detalhes dos produtos, tirando screenshots e estruturando os resultados em tabelas visíveis tanto no HTML como no terminal.
O projeto é estruturado da seguinte forma:
WebScrapingProducts/
|-- docs/
| |-- menu.png
| |-- table_html.png
| |-- table_terminal.png
|-- env/
|-- screenshots/
| |-- 100764_ALICATENIVELAMENTODEREVESTIMENTOPISO_23-01-2024.png
| |-- 113093_Aparadordegrama1000w220v_23-01-2024.png
| |-- 118011_APARADORDEGRAMAAG1500BP220V1500W_23-01-2024.png
| |-- 118572_JOGODEFERRAMENTAS19PECASJFN_23-01-2024.png
|-- table/
| |-- ferramentas_table.html
| |-- tintas-e-acessorios_table.html
|-- .gitignore
|-- categories.py
|-- .LICENSE
|-- main.py
|-- menu_utils.py
|-- pagination_utils.py
|-- products.py
|-- README.md
|-- requirements.txt
|-- screenshot_utils.py
|-- table_utils.py
|-- webdriver_setup.py
Arquivos | Descrição |
---|---|
categories.py | Script para obter as categorias disponíveis no site |
main.py | Ponto de entrada para a execução do coletor |
menu_utils.py | Utilitários para a interação com o usuário e escolha da categoria |
pagination_utils.py | Funções para verificar a paginação e navegar entre as páginas |
products.py | Funcionalidades relacionadas à coleta de informações dos produtos |
screenshot_utils.py | Utilitário para tirar screenshots dos produtos |
table_utils.py | Funções para criar tabelas em formato HTML e exibir resultados formatados |
webdriver_setup.py | Configurações do webdriver para automação do navegador |
Antes de começar, você vai precisar ter instalado em sua máquina as seguintes ferramentas:
Além disto, é necessário ter um editor de código que aceite trabalhar com a linguagem Python como VSCode
- Clone o repositório:
git clone https://github.com/sammytrindade/WebScrapingProducts
- Crie um ambiente virtual:
python -m venv env
- Ative o ambiente:
.\env\Scripts\activate.ps1
- Instale as dependências do projeto pelo arquivo:
requirements.txt
pip install -r requirements.txt
- Execute o projeto:
python main.py
- Selecione a categoria dos produtos:
docs Diretório para armazenar os documentos e imagens utilizados no projeto.
screenshots Diretório para armazenar os screenshots dos produtos coletados.
table Diretório para armazenar as tabelas em formato HTML.
Os resultados da coleta, incluindo screenshots e tabelas HTML, serão armazenados nos diretórios mencionados acima.
Além disso, durante a execução, o usuário será informado sobre o progresso da coleta pelo terminal.
Aproveite o WebScrapingProducts! 🚀
Samara Trindade 🚀
Feito com 💙 por Samara Trindade 👋🏽 Entre em contato!