Web Scraping Python Live

Este repositório é base de uma série de vídeos publicado em meu canal no YouTube. Você pode conferir clicando aqui.

Conceitos

  1. Web scraping
    • Consiste em extrair (raspar) dados de uma página web
  2. Web crawler
    • O processo de raspagem de dados é automatizado por um bot chamado de web crawler
  3. Arquivo robots.txt
    • Serve para determinar quais páginas um crawler de um buscador pode acessar
    • Por meio deste arquivo é possível determinar qual(ais) páginás serão exibidas ou não pelo Google
    • Mais informações aqui
    • Exemplo de arquivo robots.txt
    • Algumas aplicações deixam claro que o uso de crawlers são proibidas, como é o caso do LinkedIn
  4. XPath e CSS

Opções existentes

  1. BeautifulSoup
  2. Scrapy

Qual escolher?

Comandos úteis Scrapy

  1. Criar um projeto

scrapy startproject <project_name>

  1. Executar um spider individualmente

scrapy runspider <file_name>.py