Este repositório é uma coleção de exemplos, ferramentas e técnicas relacionadas a processamento de fluxos contínuos de dados e batch. A maioria dos exemplos utilizarão Scala e Java, eventualmente Python.
Para simplificar, os artefatos estarão segmentados de acordo com a ferramenta principal(Spark, Flink, Akka, Kafka, etc.)
Para execução dos exemplos, na maioria das vezes, vou optar por utilizar o shell da própria ferramenta ou Apache Zeppelin (https://zeppelin.apache.org/) principalmente para Apache Flink e Apache Spark com Scala. Na página do Zeppelin você encontrará informações sobre como instalar e iniciar a utilização (https://zeppelin.apache.org/docs/latest/quickstart/install.html).
O Apache Zeppelin possui diversos interpreters (Spark, JDBC, Python, Scala, Flink, entre outros)
Vale lembrar que o Jupyter Notebook também pode ser utilizado com Spark, seja com Python ou mesmo Scala.
No Wiki deixarei algumas informações que acho relevante, como exemplo: A diferença entre Spark e Flink, algumas teorias envolvidas em processamento de fluxos contínuos, engenharia de dados, etc.