Microsoft - Ciência de Dados com Azure Databricks

Aprenda como aproveitar o poder do Apache Spark e poderosos clusters em execução na plataforma Azure Databricks para executar cargas de trabalho para ciência de dados na nuvem.

Descrever Azure Databricks

Descubra os recursos do Azure Databricks e do notebook do Apache Spark para processar grandes arquivos.
Compreenda a plataforma Azure Databricks e saber identificar os tipos de tarefas adequados para o Apache Spark.

Fundamentos da arquitetura do Spark

Compreenda a arquitetura de um cluster do Azure Databricks Spark e jobs do Spark.

Ler e gravar dados no Azure Databricks

Trabalhe com grandes quantidades de dados de várias fontes em diferentes formatos brutos.
Azure Databricks oferece suporte a funções de manipulação de dados do dia a dia, como leituras, gravações e consultas.

Trabalhar com DataFrames no Azure Databricks

Seu processamento de dados no Azure Databricks é realizado definindo DataFrames para ler e processar os Dados.
Aprenda como realizar transformações de dados em DataFrames e executar ações para exibir os dados transformados.

Trabalhe com funções definidas pelo usuário

O Azure Databricks dá suporte a uma variedade de funções SQL integradas, no entanto, às vezes você precisa escrever uma função personalizada, conhecida como Função Definida pelo Usuário (UDF). Aprenda como registrar e invocar UDFs.

Construir e consultar um Delta Lake

Aprenda como usar Delta Lake para criar, anexar e fazer o upsert de dados para tabelas Apache Spark, aproveitando a confiabilidade e otimizações integradas.

Execute o aprendizado de máquina com o Azure Databricks

Entenda o que é aprendizado de máquina e aprenda a usar o pacote de aprendizado de máquina do PySpark para criar componentes-chave dos fluxos de trabalho de aprendizado de máquina que incluem análise exploratória de dados, treinamento de modelo e avaliação de modelo.

Treine um modelo de aprendizado de máquina

Compreenda os três principais blocos de construção da biblioteca de aprendizado de máquina do Spark: transformadores, estimadores e pipelines, e aprenda como construir pipelines para tarefas comuns de caracterização de dados.

Trabalhar com MLflow em Azure Databricks

Use o MLflow para rastrear experimentos de aprendizado de máquina. Cada execução de experimento pode registrar parâmetros, métricas, artefatos, código-fonte e modelo.

Realize a seleção do modelo com ajuste de hiperparâmetros

Aprenda a usar módulos da biblioteca de aprendizado de máquina do Spark para ajuste de hiperparâmetros e seleção de modelos.

Aprendizagem profunda com Horovod para treinamento distribuído

O Azure Databricks dá suporte à estrutura Horovod do Uber junto com a biblioteca Petastorm para executar job`s de treinamento de aprendizado profundo distribuídos no Spark usando conjuntos de dados de treinamento no formato Apache Parquet.

Trabalhe com o Azure Machine Learning para implantar modelos de serviço

Aprenda a usar o MLflow e o serviço de aprendizado de máquina do Azure, registrar, empacotar e implantar um modelo treinado para a instância de contêiner do Azure e o serviço Kubernetes do Azure como um serviço Web de pontuação.

Fonte: Ciência de Dados com Azure Databricks

ThomazRossito/data_science_azure_databricks