Slides | Material | Listas | Bibliografia |
---|
Professores: Flavio Figueiredo
Departamento: Departamento de Ciência da Computação (DCC) - UFMG
- Motivar o curso e a carreira
- Falar do grande problema de ciência de dados (causa e efeito)
Ao terminar esta parte do curso o discente deve saber o mínimo sobre como ler e plotar dados. Além do mais, deve ter feito uma revisão do seu curso de Probabilidade (Probabilidade I) ou Probabilidade e Estatística.
- Aprender sobre tabelas de dados, csvs e tipos de colunas
- Bons príncipios de visualização
- Análise exploratória e limpeza e dados
- Tendências Centrais
- Média, Mediana, Desvio Padrão etc.
- Revisão de Probabilidade (pré-requisito do curso)
- Distribuições Discretas vs Contínuas
- A Normal
- Estimadores da média e sua variâncias
- Tabelas e Tipos de Dados
- Visualização de Dados
- Sugiro também uma leitura do Capítulos 6.4, 6.5 e 6.6 do Data100. São novos e não foi possível adaptar para a aula. Material simples com princípios bem interessantes.
- Tendências Centrais
- Probabilidade
- Risco e Variância de Estimador
Ao terminar esta parte do curso o discente deve saber o mínimo sobre como o essencial de testes de hipóteses. Este curso não cobre uma diversidade de testes. O foco maior é no entendimento de conceitos como: intervalos de confiança, valores p, testes a/b e noções de assuntos avançados (poder e testes múltiplos). Além do mais, usamos o aracabouço de testes para falar de ciência no geral vs ciência de dados.
- Intervalos de Confiança
- Bootstrap
- Testes A/B
- Valores P e Testes de Pemutação
- Seguindo a filosofia do Data8 e Data100 de Berkeley, não nos preocupamos muito em detalhes testes-t, wald etc. O foco é no conceito via métodos computacionais.
- Valores P e Testes de Pemutação
- Seguindo a filosofia do Data8 e Data100 de Berkeley, não nos preocupamos muito em detalhes testes-t, wald etc. O foco é no conceito via métodos computacionais.
- Ciência vs Ciência de Dados
- Teorema Central do Limite
- Intervalos de Confiança
- Comparando Médias - Testes A/B
- Testes de Hipóteses
- Replicação e Método Científico
- Fechamento Testes: Poder e Múltiplos
Toda esta parte do curso foca apenas em Regressão. Embora pareça ser muitas aulas para o assunto, a ideia é seguir a filosofia do curso de aprendizado de máquina do Andre Ng (Coursera). Regressão é usado não apenas como conceito estatístico, mas sim como uma forma de apresentar o discente ao aprendizado de máquina.
- Correlação de Dados
- Regressão Linear
- Mínimos Quadrados
- Verossimilhança
- Correlação
- Regressão Linear
- Verossimilhançca
- Gradiente Descendente
- Regressão Múltipla
- Treino, Validação e Testes (Sem Material, ver data100)
- Regularização
- Logística Parte 1
- Logística Parte 2
- KNN e Previsão na Prática
- Aprendizado não Supervisionado (SVD e K-Means)
- Ética e Ciência de Dados
-
Principles and Techniques of Data Science
Sam Lau, Joey Gonzalez, and Deb Nolan.
Apenas em inglês. Aberto! -
Computational and Inferential Thinking: The Foundations of Data Science
Ani Adhikari and John DeNero
Apenas em inglês. Aberto! -
Data Science from Scratch
Joel Grus
Existe em Português! Pago. -
Fundamentos Estatísticos para Ciência da Computação
Renato Assunção
Português -
An Introduction to Statistical Learning
Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
Apenas em inglês. Aberto!