- Member : 김경록
- Status : Complete
- Tag : Toy Project
- 사용언어 / 핵심 라이브러리 : python / Pandas, matplotlib, seaborn, sklearn, LightGBM
와인의 성분에 따라서 맛이 변하고, 이를 평가하는 사람들에게서 평가가 달라진다
그렇다면 최상급의 와인을 만들기 위해서 필요한 성분은 무엇이며,
사람이 아닌 시물레이션을 통해서 이러한 품질을 분류할 수 있게 한다면
비용이 절감되지 않을까 라는 생각으로 출발하였다.
[Kaggle 데이터] 레드 와인 성분 + 와인 품질
(a). Data Preprocessing
- EDA (독립변수 correlation plot, histogram, boxplot)
- 반응 변수 그룹화 : (와인품질 3~8점) / 5점 이하 -> low rank, 6점 이상 -> high rank
- Data Reduction : EDA 시각화 이후, 각 변수의 상위 5%의 이상치 값 제거
(b). Model & Algorithms
- Logistic Regression, RandomForest, LightGBM
--> 기본 버전 및 paramter 개선을 통해 정확도, auc 개선 사항 확인
(c). Report & Review
- 기본 버전 및 paramter 개선을 통해 정확도, auc 개선 사항 확인
- 전반적인 머신러닝 flow 학습 및 파이썬 기초 코딩 능력 습득
- 피드백 : 모델링 이전에 집중하여, 실제 머신러닝 개선을 복잡하고 다양하게 시도하는 방법은 미 시도 한채로 종료함.