Vídeo com a explicação:
Spark Structured Streaming com Delta Lake e MinIO
Complemento - Spark Structured Streaming com Delta Lake e MinIO
Configurar os recursos Apache Spark Structured Streaming, Delta, MinIO
em um ambiente local
- Sistema operacional -
macOS Ventura
- Apache Spark -
v3.3.2
link - Delta Lake -
v2.3.0
link - MinIO -
RELEASE.2023-04-07T05-28-58Z
link
Executar conexão do Apache Spark
com o MinIO
e realizar pelo menos uma etapa de ingestão
- Read Stream com Apache Spark em um bucket
raw
no MinIO - Write Stream com Apache Spark em um bucket
bronze
no MinIO
Contém arquivos no formato Json
, tendo sua leitura de dados através do readStream
do Apache Spark
Contém arquivos no formato Delta
, tendo sua escrita de dados através do writeStream
do Apache Spark
- Step: import Lib functions
- Step: Spark Session
- Step: set log level
- Step: Shuffle Spark
- Step: Paths
- Step: Dataframe Spark Read Strem: Json - Raw
- Step: Dataframe Spark Write Strem: Delta - Bronze
- Step: Optimize - Bronze
- import Libs
- Functions: session_spark
- Functions: Schema Evolution
- Functions: Read Stream format Json
- Functions: Write Stream format Delta
- Functions: Tranformation rawToBronze
- Functions: Optimize Path Delta
Master Data Specialist @ CI&T link
Linkedin: Thomaz A. Rossito Neto
GitHub: github.com/ThomazRossito