Data Engineering

Este repositório é uma coleção de exemplos, ferramentas e técnicas relacionadas a processamento de fluxos contínuos de dados e batch. A maioria dos exemplos utilizarão Scala e Java, eventualmente Python.

Para simplificar, os artefatos estarão segmentados de acordo com a ferramenta principal(Spark, Flink, Akka, Kafka, etc.)

Notebook

Para execução dos exemplos, na maioria das vezes, vou optar por utilizar o shell da própria ferramenta ou Apache Zeppelin (https://zeppelin.apache.org/) principalmente para Apache Flink e Apache Spark com Scala. Na página do Zeppelin você encontrará informações sobre como instalar e iniciar a utilização (https://zeppelin.apache.org/docs/latest/quickstart/install.html).

O Apache Zeppelin possui diversos interpreters (Spark, JDBC, Python, Scala, Flink, entre outros)

Vale lembrar que o Jupyter Notebook também pode ser utilizado com Spark, seja com Python ou mesmo Scala.

Wiki

No Wiki deixarei algumas informações que acho relevante, como exemplo: A diferença entre Spark e Flink, algumas teorias envolvidas em processamento de fluxos contínuos, engenharia de dados, etc.

isaias/data-engineering

Data Engineering

Notebook

Wiki