/Dacon_Jeju

데이콘 제주 빅데이터 경진대회

Primary LanguageJupyter Notebook

Dacon_Jeju

데이콘 제주 빅데이터 경진대회

EDA:

이름 내용
EDA 1 value_count를 통한 지역별 업종 비중 확인 및 업종별 CNT, CSTMR_CNT 확인
EDA 2 자동차 입출구 데이터와 AMT 관계 파악

Data Preprocess:

이름 내용
Data Preprocess 1 데이터프레임 결측치에 대한 고찰
Data Preprocess 2 파생변수 제작: 전 기간의 수치(기준년월에 대한 3개월,6개월,9개월12개월 전의 AMT,CNT,CSTMR_CNT 의 변수를 삽입
Data Preprocess 3 파생변수 제작 가이드라인: Jensen shannon divergence를 활용한 AgglomerativeClustering(계층적(합체) 군집화 적용)
Data Preprocess 4 Data_Preprocess_3

Modeling:

이름 내용
LightGBM Base Line 1: 일반 라벨인코딩 활용, Base Line 2: Categorical 변수 적용, Base Line 3: 업종별 Smote Oversampling 적용,Base Line 4: 전 기간 previous AMT,CNT,CSTMR_CNT 변수 생성 (Jeju_Preprocess_o1th에서 만든 데이터프레임 활용)
Catboost 범주형 변수를 활용한 Catboost 알고리즘 Baseline