umbum/FDS2019

Fraud Detection & Visualization

CSS

Fraud Detection & Visualization

Installation and Getting Started

Install

python3

$ git clone https://github.com/umbum/FDS2019
$ cd FDS2019
$ pip3 install -r requirements.txt

Clustering

데이터 전처리

autoencoder 폴더에서 작업
1. params.py의 n_inputs를 입력 데이터 차원에 맞추고, 아래 두 실행파일에서 데이터 파일이름 입력.
2. python3 train.py를 통해 오토인코더 학습 모델 생성.
3. python3 data_encodde.py를 통해서 오토인코딩한 데이터 생성.

클러스터링 진행

clustering 폴더에서 작업
1. python3 kmeans.py를 실행시켜 클러스터링 레이블 생성

Run

// 시각화 데이터 생성. POINT_COUNT_BOUND=5000이면 약 10분 소요.
$ python3 generate_embeddings.py
// 실행
$ python3 app.py

Dataset Naming convention

/data/{dataset_name}_origin.csv               # original  dataset (시각화 과정에 사용됨)
/data/{dataset_name}_numerical.csv            # 문자열 필드를 hash하여 실수로 변경한 dataset (없어도 상관 없음)
/data/{dataset_name}_input.csv                # autoencoded dataset (시각화 과정 input으로 들어감)
/data/{dataset_name}_labels.csv               # label data
/data/{dataset_name}_clustering_result.csv    # clustering result label data

N-d dataset -> 3-d dataset으로 변환

먼저 generate_embeddings.py 파일을 열어서 datasets 항목에 데이터셋 추가해야 함
데이터셋은 /data 폴더에 위치해야 함
PCA, t-SNE를 거쳐 column이 (answer, x, y, z, cluster)인 데이터 생성
3-d dataset은 /embeddings 폴더에 생성됨

$ python3 generate_embeddings.py