Solucao para o desafio de desenvolvedores scraping - intelivix
O spider na solucao procura por dados de kits de desenvolvimento para sistemas embarcados no site digikey.com e guarda informacoes relevantes em um banco de dados. O framework Scrapy e o pymongo sao assumidos instalados e corretamente configurados. Uma instancia do mongodb e assumida rodando no local host porta padrao, mas pode ser configurado em setup.py.
Para rodar o crawler
- Utilização de
xpath
nas buscas por links (OK) - Persistência das informações (OK)
- Submissão de formulários (OK)
- Tratamento de paginação (OK)
- Manipulação de (OK)
- Autenticação (OK)
- Utilizar logs para sinalizar ocorrências durante o scraping (OK)
Para executar, use o comando scrapy crawl digikey no diretorio root do crawler. O tempo de desenvolvimento total foi de 2 dias (duas manhas e duas tardes).
Teste prático para os desenvolvedores candidatos as vagas do time de "scraping".
O teste segue descrito abaixo:
Eleger um site alvo e construir um crawler utilizando o framework Scrapy.
O código deverá ser disponibilizado no Github assim como as instruções para replicar a execução do mesmo.
Demonstrar boa utilização do framework entre outras habilidades explorando os pontos abaixo:
- Utilização de
xpath
nas buscas por links (obrigatório) - Persistência das informações (Preferencialmente PostgreSQL, MongoDB ou RethinkDB) (obrigatório)
- Submissão de formulários
- Tratamento de paginação
- Manipulação de querystrings
- Autenticação
- Utilizar logs para sinalizar ocorrências durante o scraping
Quaisquer dúvidas podem ser enviadas para arthur@intelivix.com. O candidato deve registrar o tempo despendido para o desenvolvimento. Não existe um escopo de tempo oficial, mas o ideal é que não ultrapasse 1 semana.