scraping-portal-transparencia

Dojo legal do treinamento de scraping perere e parara e never say goodbye

Alvo: http://www.portaltransparencia.gov.br/download-de-dados/

  1. Criar virtualenv

  2. Criar projeto scrapy para o portal

  3. Desenvolver: item; item_loader; pipeline p/ persistir no dynamodb;

  4. Extrair todas as planilhas dos dados abertos

  5. Após isso, implementar testes unitários para funções mais simples

  6. Avaliar cobertura do código

  7. Gerenciamento de logs

  8. Planilhas no S3