/web_scraping

Web scraping models - Modelos de raspagem de dados da internet

Primary LanguageJupyter Notebook

Web scraping - Raspagem de dados na web

What is it - O que é

Data scraping is a computational technique for automated data collection. The web scraping purpose is to extract data that can be viewed in a web browser.

A raspagem de dados é uma técnica computacional de coleta automatizada de dados. No web scraping a finalidade consiste em extrair dados que podem ser visualizados em um navegador web.

Legal Warning - Aviso Legal

Performing web scraping is not illegal, but you need authorization from the website that will provide the information

To find out if the site authorizes you to perform web scraping, I recommend that you perform these actions first:

  • Check the bottom of the page for any information
    • If you do not have the next item         
  • At the end of the URL type: 'robots.txt'
    • This page tells robots (from google for example) what can and cannot be copied and the rules for doing so
    • Obey these rules
    • If there is no rule, consult the site manager         
  • If you don't know if you have an authorization, don't do web scraping

Realizar web scraping não é ilegal, mas precisa de autorização do site que irá ceder as informações

Para saber se o site autoriza que você realize o web scraping recomento que execute estas ações primeiro:

  • Verificar no rodapé da página se há alguma informação

    • Caso não tenha passe ao próximo item
  • No fim da URL digite: 'robots.txt'

    • Esta página informa para os robôs (do google por exemplo) o que pode ou não ser copiado e as regras para fazê-lo
    • Obedeça a estas regras
    • Caso não haja regra consulte o responsável do site
  • Se não souber se tem autorização não faça web scraping