data-visualization

fraud detection dataset

data processing:

Limpeza - precisa pegar todos os ids de usuários que já cometeram uma fraude, remover todos os usuários que nunca cometeram uma fraude.
Clustering - Mapear perfil dos usuários que cometeram uma fraude (separar em perfil 1, 2 ou 3...).
(x = atributo, y = count distinct id, stack = is_fraude) mapear os atributos para o eixo X e y sendo count distinct dos ids para descobrir os atributos que mais possuem impacto para realização de fraude.
Mapear addr para endereços que o power bi entenda.
manter informação de cartões.
remove unnecessary columns

INPUT DATA = train_transaction.csv