Detalhes técnicos do Crawler
pyanderson opened this issue · 3 comments
Essa issue tem o intuito de iniciar a discussão sobre os detalhes técnicos da implementação do crawler, como tecnologias e técnicas de extração de dados.
Os dados a respeito da cota parlamentar podem ser encontrados nestes links:
A documentação sobre o formato dos arquivos pode ser encontrada neste link:
A câmara também disponibiliza uma API a parte para consumir os dados referente a deputados, orgãos, proposições, sessões/reuniões e comissões:
Pessoal, hoje estava dando uma olhada neste trecho de código (https://github.com/teresinahc/peba/blob/master/lib/camara/camara_parser.rb#L7-L16) e pensei numa possível refatorção,
O parser está fazendo o processo de serialização dos dados em xml para hash de uma forma muito manual. Pensei na possibilidade de otimizarmos isso usando o método String#constantize.
O único detalhe é que nesse padrão o campo ideCadastro
ficaria ide_cadastro
e não id_cadastro
como gostariámos.