/Web_Scraping

Repositório destinado a centralizar todos os códigos de scraping feitos para construir alguma base de dados. A linguagem principal utilizada foi Python 3.7.

Primary LanguageJupyter Notebook

Web_Scraping

Objetivo do Repositório: colocar scripts relacionados a web scraping. Por exemplo, um deles se refere ao ZAP-Imóveis, colentando informações sobre os imóveis e um outro sobre o despacho térmico da ONS no site deles.

Algumas vezes o web scraping pode encontrar certas dificuldades devido a diversos fatores: bloqueio pelo servidor, conexão instável e etc. Por este motivo, em alguns códigos podem haver erros e pode ser preciso rodar de novo do ponto onde parou. Dessa forma tb é sugerido que seja feita a utilização de pacotes como o tqdm para acompanhar o progresso do scraping.

Página de scraping do despacho térmico em ONS

Página de scraping do ZAP-Imovéis

Página de scrpaing de clima

Página de scraping de americanas

Linguagem

Python 3.7

Pacotes utilizados
  • urllib.request
  • BeautifulSoup (bf4)
  • OS

Futuramente o projeto vai se extender para a coleta e organização dos dados em um dataframe no Pandas.

Alguns links úteis

https://www.anaconda.com/

https://pypi.org/project/beautifulsoup4/

https://docs.python.org/3/library/urllib.html

https://docs.python.org/3/library/os.html

https://pypi.org/project/tqdm/