Detalhes técnicos do Crawler

Question

Detalhes técnicos do Crawler

pyanderson opened this issue 8 years ago · 3 comments

Essa issue tem o intuito de iniciar a discussão sobre os detalhes técnicos da implementação do crawler, como tecnologias e técnicas de extração de dados.

Answer 1 · 2017-02-19T23:10:06.000Z

Os dados a respeito da cota parlamentar podem ser encontrados nestes links:

A documentação sobre o formato dos arquivos pode ser encontrada neste link:

Documentação XML da Cota Parlamentar

A câmara também disponibiliza uma API a parte para consumir os dados referente a deputados, orgãos, proposições, sessões/reuniões e comissões:

API Câmara dos Deputados Federais

Answer 2 · 2017-05-29T17:55:20.000Z

Pessoal, hoje estava dando uma olhada neste trecho de código (https://github.com/teresinahc/peba/blob/master/lib/camara/camara_parser.rb#L7-L16) e pensei numa possível refatorção,

O parser está fazendo o processo de serialização dos dados em xml para hash de uma forma muito manual. Pensei na possibilidade de otimizarmos isso usando o método String#constantize.

O único detalhe é que nesse padrão o campo ideCadastro ficaria ide_cadastro e não id_cadastro como gostariámos.

Answer 3 · 2017-05-29T18:39:30.000Z

Fala brother, você chegou a olhar as issues #60 e #59?

Antes de tudo, acho importante definirmos uma padronização de nomes e banco. E não acho que deveríamos fugir de um mapeamento manual, pois precisaríamos dele para manter o padrão sugerido nas duas issues.