Material de Apoio - BTC-2020

Este repositório contém materiais de apoio para a Maratona Behind The Code 2020

Onde começar?

Um bom lugar para começar é se familiarizando com as ferramentas. As principais bibliotecas utilizadas em Data Science são:

Pandas

Utilizada para ler, armazenar e manipular datasets. Os dois conceitos básicos para utilizar essa biblioteca são:

DataFrame: Pode ser pensado como uma tabela onde cada coluna é uma Series e cada linha tem um index.
Series: Pode ser pensado como uma coluna ou um conjunto de valores de uma dimensão apenas. Cada linha também possui seu próprio index.
Links:
- Data Analysis com Python Pandas, por Rafael Novello
- Seus primeiros passos como Data Scientist: Introdução ao Pandas! por Vinícius Figueiredo
- Pandas in 10 minutes | Walkthrough por Wes McKinney(Video em inglês)
- Documentação Oficial
Livros:
- Python for Data Analysis por Wes McKinney
- Learning Pandas por Michael Heydt
- Python for Data Science For Dummies - Luca Massaron e John Paul Mueller

Seaborn

Existem diferentes bibliotecas para Data Visualization, cada uma com suas limitações e facilidades, Seaborn é com certeza uma das mais fáceis para iniciantes. Essa biblioteca é utilizada para gerar gráficos que irão te auxiliar na análise do seu dataset.
Os conceitos fundamentais:

Tipos de plotagem: Essa biblioteca disponibiliza dezenas de gráfico diferentes com parametros e objetivos distintos. Sempre confira a documentação para ter certeza que está utilizando a ferramenta corretamente.
Estilos e Paletas: É possível customizar a sua visualização utilizando diferentes paletas de cores e estilos de gráfico para melhorar a estética e compreenção dos seus dados. Na hora de alterar esses parametros leve sempre em conta a legibilidade dos dados.
Integração com Pandas: Você não precisa fazer conversões para plotar os seus dados. A bibliteca aceita DataFrames e Series do Pandas como input e é capaz até de trabalhar com variáveis categóricas. Podem ser necessários porém outros tipos de pré-processamento a depender do plot desejado, confira a documentação específica.
Links:
Livros:
- Python Data Science Handbook por Jake VanderPlas

GilTads/material-de-apoio-btc-2020

Material de Apoio - BTC-2020

Onde começar?

Pandas

Seaborn