Este repositório contém uma série de notebooks que exploram diferentes conjuntos de dados.
-
Análise do Conjunto de Dados Billionaires
Este conjunto de dados contém estatísticas sobre bilionários, incluindo informações sobre seus negócios, indústrias e detalhes pessoais, fornecendo insights sobre a distribuição de riqueza, setores de negócios e demografia dos bilionários em todo o mundo.
O objetivo da análise exploratória foi responder às seguintes perguntas:- De todos os bilionários, quantos exercem a posição de CEO?
- Quais são as 10 indústrias com mais bilionários?
- Qual é a distribuição de gênero entre os bilionários?
- Em quais países residem os bilionários com os 10 maiores valores de patrimônio liquido?
- Quais países têm a maior concentração de bilionários?
- Qual a distribuição dos bilionários e suas fortunas pelo mundo?
-
Análise do Conjunto de Dados Medical Costs Personal
Este conjunto de dados contém informações de diversos pacientes (gênero, se é fumante, imc, etc) e seus gastos com saúde.
O objetivo da análise exploratória foi responder às seguintes perguntas:- Qual a mediana da coluna BMI? E a média? Qual desses valores é maior e o que isso significa?
- Qual a proporção de fumantes no dataset? E de não fumantes?
- Existe alguma diferença na cobrança para fumantes e não fumantes? Se sim, ao que você imagina que isso se deve?
- Qual a média de BMI para fumantes? Ela é muito diferente da observada para não fumantes? Se sim, por qual motivo você acha - que isso ocorre?
- Existe alguma diferença de cobrança para quem tem filhos?
- Se uma homem é fumante e ainda tem um BMI acima do considerado normal, é possível que isso seja um indicador negativo para a seguradora. Quantos homens estão nessa situação?
- Clone este repositório:
git clone https://github.com/amandashichinoe/exploratory_data_analysis.git
- Instale as bibliotecas utilizadas:
pip install -r requirements.txt
Fique à vontade para explorar os notebooks. Sugestões são sempre bem-vindas, e em caso de dúvidas estou à disposição.