Este repositório contém materiais de apoio para a Maratona Behind The Code 2020
Um bom lugar para começar é se familiarizando com as ferramentas. As principais bibliotecas utilizadas em Data Science são:
Utilizada para ler, armazenar e manipular datasets. Os dois conceitos básicos para utilizar essa biblioteca são:
- DataFrame: Pode ser pensado como uma tabela onde cada coluna é uma Series e cada linha tem um index.
- Series: Pode ser pensado como uma coluna ou um conjunto de valores de uma dimensão apenas. Cada linha também possui seu próprio index.
- Links:
- Livros:
- Python for Data Analysis por Wes McKinney
- Learning Pandas por Michael Heydt
- Python for Data Science For Dummies - Luca Massaron e John Paul Mueller
Existem diferentes bibliotecas para Data Visualization, cada uma com suas limitações e facilidades, Seaborn é com certeza uma das mais fáceis para iniciantes. Essa biblioteca é utilizada para gerar gráficos que irão te auxiliar na análise do seu dataset.
Os conceitos fundamentais:
- Tipos de plotagem: Essa biblioteca disponibiliza dezenas de gráfico diferentes com parametros e objetivos distintos. Sempre confira a documentação para ter certeza que está utilizando a ferramenta corretamente.
- Estilos e Paletas: É possível customizar a sua visualização utilizando diferentes paletas de cores e estilos de gráfico para melhorar a estética e compreenção dos seus dados. Na hora de alterar esses parametros leve sempre em conta a legibilidade dos dados.
- Integração com Pandas: Você não precisa fazer conversões para plotar os seus dados. A bibliteca aceita DataFrames e Series do Pandas como input e é capaz até de trabalhar com variáveis categóricas. Podem ser necessários porém outros tipos de pré-processamento a depender do plot desejado, confira a documentação específica.
- Links:
- Livros:
- Python Data Science Handbook por Jake VanderPlas