ETL-monitoramento-rodovias

Repositório do trabalho final da disciplina de Computação Escalável de 2023 do curso de Ciência de Dados da FGV - EMAp

O repositório é divido em 2 implementações principais, sendo uma em C++ e a outra utilizando PySpark. Dentro das pastas das respectivas implementações há instruções de como executa-las.

Como executar a versão do PySpark

Para executar a versão spark é necessário ter o Docker instalado e executar o seguinte comando na pasta spark-version:

docker-compose up

Em seguida, abra o notebook no endereço http://localhost:8888/

Abra o terminal do notebook e execute o seguinte comando para iniciar os bancos de dados:

bash init_dbs.sh
  • Obs: caso ocorra algum erro no comando acima, aguarde alguns segundos e tente novamente. Os bancos de dados podem demorar alguns segundos para iniciar.

Para iniciar o simulador, no terminal do notebook, execute o seguinte comando:

python3 mock/simulator.py BR-116

Outras rodovias podem ser instanciadas a partir do mesmo comando, basta abrir um outro terminal e executar BR-XXX onde XXX é um número de uma rodovia contida no arquivo parametros.json dentro da pasta spark_version/norebooks/mock como BR-040, BR-135, BR-050, e BR-060.

Para iniciar o ETL pyspark, no terminal do notebook, execute o seguinte comando:

python3 pipeline_novo.py

Por fim, abra uma nova janela do seu navegador e acesse o endereço http://localhost:3000/ para visualizar o dashboard.