prefeitura-rio/pipelines

[smtr][gps] Mudar o flow de recapturas para criar novas flow runs

Opened this issue · 1 comments

Essa funcionalidade está relacionada a um problema?
O flow de recaptura hoje, é executado usando o .map em cada task utilizada no flow de captura. Isso faz com que o uso de memória escale muito rápido, além de ser demorado, pelo fato de cada task precisar ser executada iterativamente sobre todos os inputs (timestamps)

Descreva a solução ideal para você
Refatorar as recapturas para que seja gerada uma flow run (create_flow_run) para cada timestamp identificada como erro na task query_logs. Para isso, precisamos mudar timestamp (captura_sppo_v2, L147) para ser um parâmetro do flow. Desse modo, usaremos o flow de captura para as recapturas \o/ elegante!

Descreva alternativas que você considerou
Utilizar algum tipo de garbage collection manual, limpar as variáveis da memória entre as tasks ou salvar os resultados de cada iteração localmente para ser lido do disco quando fosse necessário.

Contexto adicional
Qualquer outra informação relevante.

closed by #168