/big-data-engineer-sematix

Treinamento promovido pela Semantix Inc. focado em ambientes e ferramentas para engenharia de dados como: Big Data Foundations, MongoDB, Redis, Kafka, Elastic e Spark.

Primary LanguageShell

Logo Semantix Inc.

Big Data Engineer - Sematix

Treinamento promovido pela Semantix Inc. focado em ambientes e ferramentas para engenharia de dados como: Big Data Foundations, MongoDB, Redis, Kafka, Elastic e Spark.


Conhecimentos básicos necessários em:

  • Git;
  • SQL;
  • Python(Preferível), Java ou Scala.

Requisitos necessários da máquina:

  • Sistema Operacional (Windows, Linux ou Mac OS) de 64 bits;
  • Memória RAM de 8GB (Mínimo), 16GB (Essencial) ou mais;
  • Espaço livre em disco de pelo menos 30 GB;
  • Acesso a internet;

Conteúdo do treinamento:

Treinamento de 11 semanas (06/08/2021 à 03/11/2021) composto pelos módulos abaixo:

  • ✅Introdução ao Big Data
  • ✅Hadoop - HDFS | Hive | MapReduce | YARN
  • ✅Armazenamento de dados com HDFS e HBase
  • ✅Hive - Análise de dados
  • ✅Sqoop - Ingestão de dados
  • ✅Spark - Processamento de dados
  • ✅Introdução ao NoSQL com MongoDB e Instalação
  • ✅CRUD | Consultas em Documentos
  • ✅Atualizar Documentos | Remover Documentos
  • ✅Otimização de Consultas | GUI - Interface Gráfica do Usuário - Docker & Oficial MongoDB
  • ✅Agregações | Replicação e Fragmentação dos Dados | MongoDB Cloud
  • ✅Introdução ao Redis e Instalação
  • ✅Estrutura de Dados | Strings | Listas
  • ✅Sets | Sets Ordenados | Hashes
  • ✅Pub/Sub | Configurações
  • ✅Introdução ao Kafka e Instalação
  • ✅Arquitetura Kafka - Conceitos | Kafka por linha de comando
  • ✅Control Center | KSQL
  • ✅KSQL Datagen | Schema Registry
  • ✅Kafka Connect e Clients | Cloud | Configurações e Boas Práticas
  • ✅Introdução ao Elastic e Instalação
  • ✅Requisições para Elasticsearch | Operações em Massa
  • ✅API de Pesquisa | API de Índices
  • ✅Queries e Filtros
  • ✅Analyzer | Aggregations
  • ✅Ingestão de Dados com FileBeats (FileBeats/MeetricBeats/HeartBeats)
  • ✅Ingestão de Dados com Logstash
  • ✅Kibana
  • ✅Ambiente de Desenvolvimento
  • ✅Projeto em Python
  • ✅RDD(Resilient Distributed Dataset)
  • ✅Spark Schema | DataSet
  • ✅Funções para Tratamento de Dados
  • ✅Construção e Padrão de Data Application | Spark Application
  • ✅Spark Streaming
  • ✅Spark Stream e Kafka
  • ✅Struct Streaming | Struct Streaming com Kafka
  • ✅Otimização da Aplicação

Projeto:

Com a conclusão do treinamento, os alunos recebem um desafio prático, a fim de desenvolver ainda mais os conhecimentos adquiridos.