Analise das maiores startaps de capital fechado do mundo que chegaram a unicórnio, ou seja seu faturamento passou de 1 bilhão.
- Ter o jupyter notebook instalado.
- Ter o arquivo Startups in 2021 end.csv na mesma pasta do arquivo Projeto 01 unicórnios.ipynb
- Pandas
pip install pandas
- Matplotlib
pip install matplotlib
- Seaborn
pip install seaborn
- Numpy
pip install numpy
Código que importa a tabela em csv e trás para o python.
df = pd.read_csv('Startups in 2021 end.csv')
Código que vê o tamanho total da tabela , suas linhas e colunas.
df.shape
Mostra as primeiras 5 linhas da tabela.
df.head()
Visualiza em forma de lista o nome da cada coluna na tabela.
df.columns
Renomeia as colunas da tabela.
df.rename(columns={
'Unnamed: 0': 'Id',
'Company':'Empresa',
'Valuation ($B)':'Valor ($)',
'Date Joined':'Data de Adesão',
'Country':'Pais',
'City':'Cidade',
'Industry':'Setor',
'Select Investors':'Investidores'
},inplace=True)
Visualiza o tipo dos dados na tabela e valores nulos.
df.info()
Plota um gráfico de mapa de calor
plt.figure(figsize=(15,6))
plt.title('Analisando Campos Nulos')
sns.heatmap(df.isnull());
Visualiza campos únicos da tabela
df.nunique()
Visualiza campos únicos da tabela na coluna setor.
df['Setor'].unique()
Visualiza os campos unicos da tabela na coluna setor e conta a quantidade de vezes que aparece, com o normalize aparece em formato de porcentagem.
- Com essa pequena análise vemos que as fintecs são a maioria nas startaps.
df['Setor'].value_counts(normalize=True)
Plota um gráfico de barras.
plt.figure(figsize=(15,6))
plt.title('Analise dos Setores')
plt.bar(df['Setor'].value_counts().index,df['Setor'].value_counts());
plt.xticks(rotation=45,ha='right');
Criou-se uma variavel onde filtra a coluna país por porcentagem.
analise =round( df['Pais'].value_counts(normalize=True)*100,1)
Plota um gráfico de pizza.
plt.figure(figsize=(15,6))
plt.title('Análise dos Paises Geradores de unicórnios.')
plt.pie(
analise,
labels = analise.index,
shadow=True,
startangle=90,
autopct='%1.1f%%');
Plota um gráfico de pizza, só que mostrando os 10 primeiros na lista.
plt.figure(figsize=(15,6))
plt.title('Análise dos Paises Geradores de unicórnios.')
plt.pie(
analise.head(10),
labels = analise.index[0:10],
shadow=True,
startangle=90,
autopct='%1.1f%%');
Mostra as primeiras 10 linhas do filtro da variável analise.
analise.head(10)
Converte a coluna para o tipo data.
df['Data de Adesão']= pd.to_datetime(df['Data de Adesão'])
df['Data de Adesão'].head()
Cria-se mais 2 colunas para a extração do mês e o ano.
df['Mes'] = pd.DatetimeIndex(df['Data de Adesão']).month
df['Ano'] = pd.DatetimeIndex(df['Data de Adesão']).year
df.head()
Cria-se uma tabela filtrada por país ,ano , mes e empresa.
tb_grup = df.groupby(by=['Pais','Ano','Mes','Empresa']).count()['Id'].reset_index()
tb_grup
Código para achar valores mais especificos na tabela, como por exemplo uma páis a ser buscado.
- Nesta pequena filtragem percebemos que a nubank foi a primeira a atingir o unicórnio aqui no Brasil em 2018.
tb_grup.loc[
tb_grup['Pais']== 'Brazil'
]
Código para transforma a coluna em um valor flutuante , float.
df['Valor ($)']= pd.to_numeric(df['Valor ($)'].apply(lambda linha: linha.replace('$','')))
df.head()
Cria-se uma nova tabela filtrada , só que desta vez por país e valor.
analise_valor = analise_pais.sort_values('Valor ($)',ascending=False)
analise_valor.head()
Plota a nova tabela filtrada em um gráfico. para uma melhor visualização.
plt.figure(figsize=(15,6))
plt.plot(analise_valor['Pais'],analise_valor['Valor ($)']);
plt.xticks(rotation=45,ha='right');
- transformar toda uma coluna em tipo data.
- tranformar toda uma coluna em valor flutuante.
- Filtrar determinados valores, unicos e especificos.