/WebScraping

Conteúdo educacional de Web Scraping

Primary LanguagePythonMIT LicenseMIT

WebScraping

Conteúdo educacional de Web Scraping

Recomendado instalar uma virtualenv para isolar o ambiente de trabalho

python3 -m venv venv

Identificando Tecnologias utilizadas no Website

iremos instalar a biblioteca builtwith
pip install builtwith
  • Utilizar o interpretador do python
python3
  • inicialmente precisamos importar a biblioteca builtwith
import builtwith
  • utilizando o método parse e informando a url do site que queremos identificar
builtwith.parse('https://www.facebook.com')

Identificando proprietário de um website

utilizar a biblioteca Whois
pip install python-whois
  • Utilizar o interpretador do python
python3
  • importar a biblioteca whois
import whois
  • obtendo informações de um website
print(whois.whois('globo.com'))

Carregando páginas web

utilizando requests através da biblioteca urllib
from urllib.request import urlopen
html = urlopen("http://www.google.com")
print(html.read())

pegar informações das páginas web

instalando a biblioteca BeautifulSoup
  • com a virtualenv ativa, vamos instalar a biblioteca:
pip install beautifulsoup4
  • Utilizar o interpretador do python
python3
utilizando a biblioteca BeautifulSoup
from bs4 import BeautifulSoup

Iniciar um servidor web

recomendado criar um diretório mkdir #nomeDoDiretório
  • executar comando dentro do diretório
python -m http.server