teresinahc/peba

Detalhes técnicos do Crawler

pyanderson opened this issue · 3 comments

Essa issue tem o intuito de iniciar a discussão sobre os detalhes técnicos da implementação do crawler, como tecnologias e técnicas de extração de dados.

Os dados a respeito da cota parlamentar podem ser encontrados nestes links:

A documentação sobre o formato dos arquivos pode ser encontrada neste link:

A câmara também disponibiliza uma API a parte para consumir os dados referente a deputados, orgãos, proposições, sessões/reuniões e comissões:

Pessoal, hoje estava dando uma olhada neste trecho de código (https://github.com/teresinahc/peba/blob/master/lib/camara/camara_parser.rb#L7-L16) e pensei numa possível refatorção,

O parser está fazendo o processo de serialização dos dados em xml para hash de uma forma muito manual. Pensei na possibilidade de otimizarmos isso usando o método String#constantize.

O único detalhe é que nesse padrão o campo ideCadastro ficaria ide_cadastro e não id_cadastro como gostariámos.

Fala brother, você chegou a olhar as issues #60 e #59?

Antes de tudo, acho importante definirmos uma padronização de nomes e banco. E não acho que deveríamos fugir de um mapeamento manual, pois precisaríamos dele para manter o padrão sugerido nas duas issues.