parlametria/leggoR

Join errado entre eventos da tramitação e links para o inteiro teor no Senado

tarcisobraz opened this issue · 0 comments

Descrição do bug
O left_join da linha 29 do arquivo tramitacoes.R está errado. Ele casa múltiplas linhas com cada linha da tramitação, multiplicando as linhas do df de tramitação. O problema é que ele usa apenas a coluna data_hora para fazer o merge, quando deveria usar mais dados, e casar no máximo uma linha de inteiro teor com uma linha da tramitação.

Para gera-lo
Passo a passo para reproduzir o bug:

  1. Descomentar a linha e comentar a que eu adicionei abaixo
  2. Rodar o código para o PL cujo prop_id (senado) é 115926
  3. Ele deveria ter 127 linhas (quantidade de linhas da tramitação), mas termina com 573 linhas por causa dos múltiplos matches incorretos.

Comportamento esperado
Um assert(num_linhas_antes_do_join == num_linhas_apos_join) deveria retornar True.