Web Scraping Python Live

Este repositório é base de uma série de vídeos publicado em meu canal no YouTube. Você pode conferir clicando aqui.

Conceitos

Web scraping
- Consiste em extrair (raspar) dados de uma página web
Web crawler
- O processo de raspagem de dados é automatizado por um bot chamado de web crawler
Arquivo robots.txt
- Serve para determinar quais páginas um crawler de um buscador pode acessar
- Por meio deste arquivo é possível determinar qual(ais) páginás serão exibidas ou não pelo Google
- Mais informações aqui
- Exemplo de arquivo robots.txt
- Algumas aplicações deixam claro que o uso de crawlers são proibidas, como é o caso do LinkedIn
XPath e CSS

scrapy startproject <project_name>

scrapy runspider <file_name>.py