pandas_commands: A repository from kaihami

#Comandos do Pandas

df_criado_com_hash = pd.DataFrame({'nome_da_col1':[1,2,3,4], 'nome_da_col2':['a','b', 'c', 'd']})

Criar um dataframe é simples. É só utilizar as chaves como nome das colunas e um array de valores como o valor da chave

table_df = pd.read_table('path/da/tabela', delimiter='\t')

Abrindo a tabela usando arquivo

table_df_sem_duas_ultimas_colunas =  table_df.iloc[:, 0:-2]

Retirando as duas ultimas colunas

table.df.apply(lambda x:len([y for y in x if y>1]) ,axis=1)

Passa a linha como entrada de uma funcãoe retorna quantos elementos são maiores do que 1.

table_df = table_df.iloc[np.random.permutation(len(table_df))]

Fazendo um embaralhamento nos valores da tabela

table_df.shape[1]

Retorna o numero de colunas (1 ou linhas 0)

table_df.columns.values

retorna nome das colunas

del table_df['nome_da_coluna_a_deletar']

deleta uma coluna do dataframe

table_df['nova_coluna'] = 'valor default da nova coluna'

cria uma nova coluna no df e adiciona o valor a todos os campos

table_df['nova_coluna'] = [1,2,3,4,5]

Cria uma nova coluna e adiciona valores de um array com a mesma quantidade de linha que o dataframe

table_df['nome_da_coluna'].max(axis=1, numeric_one = True)

Retorna o maior valor de cada linha (igonorando valores não numéricos). Obs esse valor pode ser adicionado a uma nova coluna usando essa saida com o comando de cima

table_df[['coluna1', 'coluna2', 'coluna3']].apply(minha_funcao, axis=1)

Passa como parametro de minha_funcao as n colunas escolhidas . axis= Faz com que table_df seja lido por linhas.

table_df.apply(minha_funcao, axis=0)

Passa como parametro de minha_funcao cada coluna.

np.array_split(table_df[['coluna1', 'coluna2', 'coluna3']], 10)

Divide table_df em 10 dataframes diferentes. Cada array contem apenas os valores das colunas indicadas.

table_df[table_df['coluna_com_flag_desejada'].isin(['YES'])]

retorna apenas as colunas com 'YES' na coluna 'coluna_com_flag_desejada'

table_df['coluna_com_valores_desejados'].groupby(groups['coluna_com_flags_dos_grupos_diferentes'])

retorna n arrays separados. sendo n o numero de possiveis flags dentro da coluna (nesse caso da coluna 'coluna_com_flags_dos_grupos_diferentes')

pd.melt(pd.DataFrame({'a':{1,2,3,4}, 'b':{1,2,3,4}, 'c':{1,2,3,4}}))

faz um melt na hash possibilitando o plot de multiplos graficos no ggplot

pd.DataFrame.to_csv(table_df, 'tabela.txt' , sep='\t')

salvando dataframe inteiro

kaihami/pandas_commands