1, 2등 팀의 솔루션 중 핵심인 catboost를 현재 레포에서 cat_features 인자 추가하여 반영
hwanseung2 opened this issue · 0 comments
hwanseung2 commented
목표
솔루션 발표에서 1, 2위를 기록한 팀의 공통점은 catboost를 활용하여 모델링을 진행했다는 점이다. 우리 팀의 경우 catboost를 제대로 확인하지 않고 넘겼는데 판단한 근거는 다음과 같다.
pd.get_dummies
를 활용해 categorical data type feature를 one-hot으로 변경하여야 한다고 알았다. 이 경우 dimension이 categorical data가 가지는 개수만큼 증가하게 되므로 필요 이상의 메모리를 차지하게 된다.- 모델의 인풋으로 categorical data type이 들어갈 때, 이에 대해 모델이 continuous value로 인지하는지 categorical value로 인지하는 지에 대한 이해가 부족했다.
대회가 끝난 후, 노트북 파일을 통해 문제점을 파악했는데, catboost의 학습 인자 중 cat_features
를 활용해 categorical data의 타입을 모델에 명시해줄 수 있는 점을 확인했다.
이를 반영하도록 수정한다.
세부사항
- xgboost와 lightgbm에도 비슷한 인자가 있는지 체크해야한다.
- catboost의 fit 함수를 변경한다.