Manipulação de dados é uma das tarefas mais fundamentais para um cientista de dados e o pandas - biblioteca mais popular do Python no assunto - ajuda a tornar essa tarefa mais agradável.
O objetivo é extrair algumas informações quantitativas que nos ajudem a compreender a natureza dos dados à disposição e ganhar alguns insights sobre o data set.
Vamos utilizar o data set Black Friday disponibilizado originalmente pela Analytics Vidhya e acessível publicamente através do Kaggle. O data set traz algumas variáveis relativas à transações comerciais realizadas durante a Black Friday em uma determinada loja de varejo. Cada observação é relativa a um determinado item comprado por um usuário e um usuário pode ter comprado mais de um item.
Nesta análise nós vamos utilizar as seguintes ferramentas:
- Python
- Pandas
- Jupyter notebook
Você precisará de Python 3 e pip. É altamente recomendado utilizar ambientes virtuais
com o virtualenv e o arquivo requirements.txt
para instalar os pacotes dependências
do desafio:
$ pip3 install virtualenv
$ virtualenv venv -p python3
$ source venv/bin/activate
$ pip install -r requirements.txt
Quando finalizado, você pode desativar o ambiente virtual do virtualenv com:
$ deactivate