/ML-competition

AI 경진대회

Primary LanguagePython

Dacon AI 경진대회

천체 유형 분류

진행기간 - 2020.08.27 ~ 2020.10.09

바로가기

Final score (Accuracy)

  • public - 0.93727 (8 / 54)
  • private - 0.935 (24 / 54)

Review(대회 후 느낀점)

이런 대회를 처음 접해보고 그냥 한번 해보자는 생각으로 시작했지만 막상 해보다 보니 흥미도 생기고 오기도 생겨서 미숙하지만 나름 열심히 진행했던 것 같다.

ML 알고리즘들에 대한 지식이 하나도 없이 시작했지만 대회가 끝난 후 지금 알고리즘들에 대한 약간의 지식은 생긴 것 같고 사용할 일이 자주 없었고 어렵다고 느껴졌던 Pandas 라이브러리도 사용하는 것이 조금은 익숙해진 느낌이다.

Random forest, Xgboost, Lightgbm 등 알고리즘들 하나하나부터 SelectKbest, RFE.. 등 feature selection의 여러가지 기법들, 교차검증에 대한 내용들, hyperparameter tuning에 관한 내용들, 데이터 불균형에 관한 내용들(oversampling, undersampling 기법들), 파생변수를 생성하는 요령... 외에도 많이 찾아보고 정말 많이 실행해보면서 대회를 진행했는데 마지막에 교차검증을 한 제대로 된 파일을 제출하지 못해서 해당 파일에 대한 최종결과를 확인하지 못하고 조금 더 높은 순위를 기록하지 못한 것이 너무 아쉬웠다.

물론 모든 것을 이해하고 정확히 알고 진행한 것도 아니고 부족한 점이 훨씬 많은 결코 쉽지 않았던 첫 번째 대회였지만 좋은 경험이었고 앞으로도 기회가 된다면 비슷한 대회를 더 경험해 보고 싶다는 생각이 들었다.

시스템 품질 변화로 인한 사용자 불편 예지

진행기간 - 2021.01.11 ~ 2020.02.03

바로가기

Final score (AUC)

  • public - 0.82299 (122 / 419)
  • private - 0.82068 (131 / 419)

Review(대회 후 느낀점)

이번 대회는 Dacon에서 진행하는 2번째 경진대회 참가였다.

평가지표도 그렇고 data같은 경우에도 평소에 접해왔던 feature들이 주어져있는 방식이 아닌 직접 data를 보고 학습에 필요한 dataset을 구성하는 방식이어서 처음에는 조금 당황했지만 역시 일단 해보자는 생각을 갖고 진행해보았다.

주어진 data들을 보면서 학습에 꼭 필요할 것 같다고 생각되는 feature들을 구성해야 했는데 에러의 발생 주기, 발생 시간대 등 시스템 사용자의 입장에서 불편을 유발할만한 지표는 무엇이 있고 어떻게 만들어야 할까 생각을 정말 많이 했고 그렇게해서 구성한 dataset으로 학습을 진행해서 score가 상승하면 기분이 정말 좋았다.

하지만 처음에 결측값 분석을 제대로 하지않아서 중간에 다시 결측값 처리부터해서 다시 data들을 분석하고 시간을 낭비하기도 했는데 이를 계기로 앞으로 data를 분석할때에는 결측값을 제대로 살펴보지 않고 대충 평균이나 0 등으로 일괄 처리하는 것보다 중요한 정보가 포함되어 있을수도 있는 만큼 좀 더 세세하게 분석해야겠다는 생각이 많이 들었다.

또한 fwver 같은 일부 data에 대해 plot도 해보고 분석하려고 노력했지만 dataset 구성에 제대로 활용하지 못하고 결정적으로 err data와 quality data 사이의 결정적인 관계를 찾지 못한 것이 많은 아쉬움이 남았다. (두 data들의 관계를 찾고 그에 따른 feature를 구성했으면 좀 더 좋은 결과를 냈을 것 같다..)

그래도 hyperparameter tuning에 있어서는 bayesian search를 이용해서 성능을 꽤 올렸는데 전보다 더 잘 활용했던 것 같고 앞으로 어떻게 사용해야할지 감이 좀 잡힌 느낌이다.

방학중에 인턴을 하면서 틈틈히 대회를 진행했는데 대회에 조금 더 집중하지 못한 것에 대해 아쉬움이 있지만 좋은 경험을 쌓은 것 같다.

별개로 대회가 종료되고 나서 PyCaret이라는 라이브러리를 알게되었는데 다음에 대회가 있으면 꼭 써봐야겠다는 생각이 들었다. (모델 구성이나 hyperparameter tuning에 있어 훨씬 편해질 것 같다.)

진행기간 - 2020.10.14 ~ 2020.10.25