/material

Material do Curso

Primary LanguageJupyter Notebook

Slides Material Listas Bibliografia

DCC212: Introdução à Ciência dos Dados

Professores: Flavio Figueiredo

Departamento: Departamento de Ciência da Computação (DCC) - UFMG

Material

Parte Zero: Motivação (1 aula, reduzir não precisa de duas aqui)

Objetivos de Aprendizado

  1. Motivar o curso e a carreira
  2. Falar do grande problema de ciência de dados (causa e efeito)

Material

  1. Apresentação do Curso
  2. Causa e Efeito (Tratamento, Controle)

Parte Um: Análise Exploratória de Dados e Revisões (6 aulas, adicionar limpeza de dados)

Ao terminar esta parte do curso o discente deve saber o mínimo sobre como ler e plotar dados. Além do mais, deve ter feito uma revisão do seu curso de Probabilidade (Probabilidade I) ou Probabilidade e Estatística.

Objetivos de Aprendizado

  1. Aprender sobre tabelas de dados, csvs e tipos de colunas
  2. Bons príncipios de visualização
  3. Análise exploratória e limpeza e dados
  4. Tendências Centrais
    1. Média, Mediana, Desvio Padrão etc.
  5. Revisão de Probabilidade (pré-requisito do curso)
    1. Distribuições Discretas vs Contínuas
    2. A Normal
    3. Estimadores da média e sua variâncias

Material

  1. Tabelas e Tipos de Dados
  2. Visualização de Dados
    • Sugiro também uma leitura do Capítulos 6.4, 6.5 e 6.6 do Data100. São novos e não foi possível adaptar para a aula. Material simples com princípios bem interessantes.
  3. Tendências Centrais
  4. Probabilidade
  5. Risco e Variância de Estimador

Segunda Parte: Testes de Hipótese (6 aulas)

Ao terminar esta parte do curso o discente deve saber o mínimo sobre como o essencial de testes de hipóteses. Este curso não cobre uma diversidade de testes. O foco maior é no entendimento de conceitos como: intervalos de confiança, valores p, testes a/b e noções de assuntos avançados (poder e testes múltiplos). Além do mais, usamos o aracabouço de testes para falar de ciência no geral vs ciência de dados.

Objetivos de Aprendizado

  1. Intervalos de Confiança
  2. Bootstrap
  3. Testes A/B
  4. Valores P e Testes de Pemutação
    1. Seguindo a filosofia do Data8 e Data100 de Berkeley, não nos preocupamos muito em detalhes testes-t, wald etc. O foco é no conceito via métodos computacionais.
  5. Valores P e Testes de Pemutação
    1. Seguindo a filosofia do Data8 e Data100 de Berkeley, não nos preocupamos muito em detalhes testes-t, wald etc. O foco é no conceito via métodos computacionais.
  6. Ciência vs Ciência de Dados

Material

  1. Teorema Central do Limite
  2. Intervalos de Confiança
  3. Comparando Médias - Testes A/B
  4. Testes de Hipóteses
  5. Replicação e Método Científico
  6. Fechamento Testes: Poder e Múltiplos

Terceira Parte: Correlação e Regressão (6 aulas, reorganizar)

Toda esta parte do curso foca apenas em Regressão. Embora pareça ser muitas aulas para o assunto, a ideia é seguir a filosofia do curso de aprendizado de máquina do Andre Ng (Coursera). Regressão é usado não apenas como conceito estatístico, mas sim como uma forma de apresentar o discente ao aprendizado de máquina.

Objetivos de Aprendizado

  1. Correlação de Dados
  2. Regressão Linear
  3. Mínimos Quadrados
  4. Verossimilhança

Material

  1. Correlação
  2. Regressão Linear
  3. Verossimilhançca
  4. Gradiente Descendente
  5. Regressão Múltipla
  6. Treino, Validação e Testes (Sem Material, ver data100)

Quarta Parte: Classificação e um Pouco de ML (6 aulas, reorganizar)

  1. Regularização
  2. Logística Parte 1
  3. Logística Parte 2
  4. KNN e Previsão na Prática
  5. Aprendizado não Supervisionado (SVD e K-Means)
  6. Ética e Ciência de Dados

Bibliografia

  1. Principles and Techniques of Data Science
    Sam Lau, Joey Gonzalez, and Deb Nolan.
    Apenas em inglês. Aberto!

  2. Computational and Inferential Thinking: The Foundations of Data Science
    Ani Adhikari and John DeNero
    Apenas em inglês. Aberto!

  3. Data Science from Scratch
    Joel Grus
    Existe em Português! Pago.

  4. Fundamentos Estatísticos para Ciência da Computação
    Renato Assunção
    Português

  5. An Introduction to Statistical Learning
    Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
    Apenas em inglês. Aberto!