- income_type: ๊ธฐ๋ณธ ๋ณ์
- edu_type: ๊ธฐ๋ณธ ๋ณ์
- family_type: ๊ธฐ๋ณธ ๋ณ์
- house_type: ๊ธฐ๋ณธ ๋ณ์
- occyp_type: ๊ธฐ๋ณธ ๋ณ์
- income_total: numericํ ๋ณ์๋ฅผ category๋ก ๋ฐ๊ฟ
- begin_month: ์ค๋ณต ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ณํ ์ ์๋ ํต์ฌ ๋ณ์
- DAYS_BIRTH_month: DAYS_BIRTH์ ๋ฌ
- DAYS_BIRTH_week: DAYS_BIRTH์ ์ฃผ
- Age: DAYS_BIRTH์ ๋ ๋
- DAYS_EMPLOYED_month: DAYS_EMPLOYED์ ๋ฌ
- DAYS_EMPLOYED_week: DAYS_EMPLOYED์ ์ฃผ
- EMPLOYED: DAYS_EMPLOYED์ ๋
- before_EMPLOYED: DAYS_BIRTH์ DAYS_EMPLOYED์ ์ฐจ
- before_EMPLOYED_month: ๊ณ ์ฉ๋๊ธฐ ์ ์ ๋ฌ
- before_EMPLOYED_week: ๊ณ ์ฉ ๋๊ธฐ ์ ์ ์ฃผ
- gender_car_reality: ์ฑ๋ณ, ์ฐจ, ๋ถ๋์ฐ ๋ณ์๋ฅผ ํฉ์นจ
- category feature์ ์ ์ฒ๋ฆฌ๊ฐ ํ์์ ์ผ๋ก ์ค์
- CatBoost๋ฅผ ํ์ฉํ์ฌ category feature๋ค์ ์ง์ ํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ํ
- LightGBM, XGBoost์ ๋น๊ต ํ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์
- Stratified K-Fold: ๋ค์ค ๋ถ๋ฅ๋ฌธ์ ์์ ์์ฃผ ์ฐ์ด๋ ๊ธฐ๋ฒ labeling์ sample์ ์ ๋ง์ถฐ์ ํ์ต์ ์งํํ๋๋ก ํจ
- 10-fold๋ก ์งํํ์ฌ ์ฑ๋ฅ์ ๋ํ
- Bayesian TPE ๋ฐฉ์์ผ๋ก ๋น ๋ฅด๊ฒ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ -> AutoML๋ก ์ ๊ทผ
- ์ต๋จ์๊ฐ์ ์ต๊ณ ํจ์จ์ด ๋์ค๊ฒ๋ ํจ
- CatBoost์ ๊ฒฝ์ฐ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ฏผ๊ฐํ์ง ์์์ผ๋ ์ข ๋ ๋์ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ธฐ ์ํด์ Bayesian TPE๋ฐฉ์ ์ฌ์ฉ
- Lightgbm, XGBoost๋ Bayesian TPE๋ฐฉ์ ์ฌ์ฉ
- RandomForest์ TabNet ๊ฐ์ ๊ฒฝ์ฐ๋ ์ง์ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ํจ
- Stacking Ensemble์ ํตํด์ Neural Network๊ฐ ํ๋ฅ ๊ฐ์ ์ ํ์ตํ๋ ๋ชจ๋ธ ๊ตฌ์ถ
model | OOF(10-fold) | Public LB |
---|---|---|
LightGBM | 0.68714 | 0.68591 |
XGBoost | 0.68901 | 0.68900 |
RandomForest | 0.69137 | 0.69296 |
TabNet | 0.80392 | 0.77971 |
CatBoost | 0.67234 | 0.67288 |
Stacking Ensemble | 0.67069 | 0.67048 |
- CatBoost: unbiased boosting with categorical features
- Efficient Click-Through Rate Prediction for Developing Countries via Tabular Learning
public 3์ private 2์