- Webscrap com quebra de captcha
- Webscrap por requisição
- Webscrap por URL
- Webscrap por headless browser
- Extração de pdf
Emprega uma API para quebra de captcha e usa requisições (GET e POST) com cookies para garantir a manutenção da sessão.
🎯 Exemplo: extrair os arquivos com os shapefiles da cidade de Altamira/PA presentes nessa página
📃 Código
Se fundamenta em simular requisições (GET e POST) realizadas pela página durante o processo de envio de entradas e carregamento de resultados.
🎯 Exemplo: extrair as faixas de renda familiar (por pessoa e família) nos municípios do Acre contidos nessa página
📃 Código
Usado em casos em que a página permite o envio de entradas e carregamento de resultados através da URL. Usualmente têm requisições por trás (GET e POST).
🎯 Exemplo: extrair informações básicas dos artigos mais recentes com as chaves "FGV" e "políticas públicas" na Folha de São Paulo
📃 Código
Usada em casos em que não está claro como ocorre o envio de entradas e carregamento de resultados de uma página. Isto é, requisições (GET e POST) ou envio por url não são possíveis.
🎯 Exemplo: extrair os períodos de redução de pressão da água em bairros da capital de SP nessa página
📃 Código
Extração em formato tabular dos dados presentes em um pdf.
🎯 Exemplo: extrair informações dos relatórios de autuações ambientais do IBAMA feitos em pdf e contidos nessa pasta
📃 Código