Demonstrativo de webscrap e extração de pdfs

Conteúdos

Webscrap com quebra de captcha - R + Python

Emprega uma API para quebra de captcha e usa requisições (GET e POST) com cookies para garantir a manutenção da sessão.

🎯 Exemplo: extrair os arquivos com os shapefiles da cidade de Altamira/PA presentes nessa página

Webscrap por requisição - R

Se fundamenta em simular requisições (GET e POST) realizadas pela página durante o processo de envio de entradas e carregamento de resultados.

🎯 Exemplo: extrair as faixas de renda familiar (por pessoa e família) nos municípios do Acre contidos nessa página

📃 Código

🗂 Resultado

Webscrap por URL - R

Usado em casos em que a página permite o envio de entradas e carregamento de resultados através da URL. Usualmente têm requisições por trás (GET e POST).

🎯 Exemplo: extrair informações básicas dos artigos mais recentes com as chaves "FGV" e "políticas públicas" na Folha de São Paulo

📃 Código

🗂 Resultado

Webscrap por headless browser - R

Usada em casos em que não está claro como ocorre o envio de entradas e carregamento de resultados de uma página. Isto é, requisições (GET e POST) ou envio por url não são possíveis.

🎯 Exemplo: extrair os períodos de redução de pressão da água em bairros da capital de SP nessa página