Aprenda como aproveitar o poder do Apache Spark e poderosos clusters em execução na plataforma Azure Databricks para executar cargas de trabalho para ciência de dados na nuvem.
Descubra os recursos do Azure Databricks e do notebook do Apache Spark para processar grandes arquivos.
Compreenda a plataforma Azure Databricks e saber identificar os tipos de tarefas adequados para o Apache Spark.
Compreenda a arquitetura de um cluster do Azure Databricks Spark e jobs do Spark.
Trabalhe com grandes quantidades de dados de várias fontes em diferentes formatos brutos.
Azure Databricks oferece suporte a funções de manipulação de dados do dia a dia, como leituras, gravações e consultas.
Seu processamento de dados no Azure Databricks é realizado definindo DataFrames para ler e processar os Dados.
Aprenda como realizar transformações de dados em DataFrames e executar ações para exibir os dados transformados.
O Azure Databricks dá suporte a uma variedade de funções SQL integradas, no entanto, às vezes você precisa escrever uma função personalizada, conhecida como Função Definida pelo Usuário (UDF). Aprenda como registrar e invocar UDFs.
Aprenda como usar Delta Lake para criar, anexar e fazer o upsert de dados para tabelas Apache Spark, aproveitando a confiabilidade e otimizações integradas.
Entenda o que é aprendizado de máquina e aprenda a usar o pacote de aprendizado de máquina do PySpark para criar componentes-chave dos fluxos de trabalho de aprendizado de máquina que incluem análise exploratória de dados, treinamento de modelo e avaliação de modelo.
Compreenda os três principais blocos de construção da biblioteca de aprendizado de máquina do Spark: transformadores, estimadores e pipelines, e aprenda como construir pipelines para tarefas comuns de caracterização de dados.
Use o MLflow para rastrear experimentos de aprendizado de máquina. Cada execução de experimento pode registrar parâmetros, métricas, artefatos, código-fonte e modelo.
Aprenda a usar módulos da biblioteca de aprendizado de máquina do Spark para ajuste de hiperparâmetros e seleção de modelos.
O Azure Databricks dá suporte à estrutura Horovod do Uber junto com a biblioteca Petastorm para executar job`s de treinamento de aprendizado profundo distribuídos no Spark usando conjuntos de dados de treinamento no formato Apache Parquet.
Aprenda a usar o MLflow e o serviço de aprendizado de máquina do Azure, registrar, empacotar e implantar um modelo treinado para a instância de contêiner do Azure e o serviço Kubernetes do Azure como um serviço Web de pontuação.