/teste_pratico_scraping

Teste prático para os desenvolvedores candidatos as vagas do time de "scraping".

Primary LanguagePython

Chamada para Desenvolvedores - Time de Scraping

Solucao para o desafio de desenvolvedores scraping - intelivix

O spider na solucao procura por dados de kits de desenvolvimento para sistemas embarcados no site digikey.com e guarda informacoes relevantes em um banco de dados. O framework Scrapy e o pymongo sao assumidos instalados e corretamente configurados. Uma instancia do mongodb e assumida rodando no local host porta padrao, mas pode ser configurado em setup.py.

Para rodar o crawler

  • Utilização de xpath nas buscas por links (OK)
  • Persistência das informações (OK)
  • Submissão de formulários (OK)
  • Tratamento de paginação (OK)
  • Manipulação de (OK)
  • Autenticação (OK)
  • Utilizar logs para sinalizar ocorrências durante o scraping (OK)

Para executar, use o comando scrapy crawl digikey no diretorio root do crawler. O tempo de desenvolvimento total foi de 2 dias (duas manhas e duas tardes).

Descricao original

Teste prático para os desenvolvedores candidatos as vagas do time de "scraping".

O teste segue descrito abaixo:

Eleger um site alvo e construir um crawler utilizando o framework Scrapy.

O código deverá ser disponibilizado no Github assim como as instruções para replicar a execução do mesmo.

Demonstrar boa utilização do framework entre outras habilidades explorando os pontos abaixo:

  • Utilização de xpath nas buscas por links (obrigatório)
  • Persistência das informações (Preferencialmente PostgreSQL, MongoDB ou RethinkDB) (obrigatório)
  • Submissão de formulários
  • Tratamento de paginação
  • Manipulação de querystrings
  • Autenticação
  • Utilizar logs para sinalizar ocorrências durante o scraping

Quaisquer dúvidas podem ser enviadas para arthur@intelivix.com. O candidato deve registrar o tempo despendido para o desenvolvimento. Não existe um escopo de tempo oficial, mas o ideal é que não ultrapasse 1 semana.