- 코드는 01~06번 순입니다
- 경마는 사행성 도박이라는 인식이 강해 대중성이 부족
- 최근 렛츠런파크에서 다양한 활동을 통해서 젊은 층 유입이 많아지고 인식 변화에 성공
- 경마에 대한 흥미로 데이터 분석 연구를 찾아보았으나, 논문 사례가 많지 않음
- 야구, 축구, 농구 등의 스포츠 산업에서는 빅데이터 기반 통계 및 예측이 활발히 이루어지고 있지만 경마 분석은 미비
- selenium과 beautifulsoup을 이용하여 크롤링
- seaborn countplot과 heatmap을 이용한 데이터 시각화
- spss 카이제곱 검정
- 한국 마사회 서울경마_경주 성적 [Link]
- 한국 마사회 말혈통 정보 : [Link]
- 경마 크롤링 코드 실행 결과는 크롤링 결과 파일에서 경마_크롤링_실행결과.ipynb에서 볼 수 있습니다
- seaborn countplot 과 seaborn heatmap 사용
- SPSS_카이제곱 검정법 사용
- Excel 과 Python 사용
- 데이터 탐색과 기존연구조사를 통해 순위와 연관이 있다고 판단되는 변수들로 학습을 진행
- 학습 변수 – 순위,마번,연령,중량,마체중,단승,연승,주로습도,거리,코너,S1F,G3F,등급,성별,날씨,기수명
- 데이터 불균형 문제를 해결하기 위해 클래스 빈도에 반비례하는 가중치를 두고 학습
- Logistic Regression 과 Random Forest 사용
- 1등, 2등, 3등까지 들어오는 말을 예측한 결과, RF모델이 LR모델보다 좋은 성능을 보임
- 결측치를 제외한 26828개의 데이터를 이용하여 1등, 2등, 3등까지 들어오는 말 예측
- 데이터 수집을 조금 더 많이 해서 다시 모델링하면 정확도가 높아질 것 같습니다
- 유의미한 변수(장구현황, 진료사항, 말의 상태)를 찾아 추가하거나 모델 설정을 다르게 하는 등 다양하고 난이도 높은 분석 가능할 것으로 보임
- 향후 다른 유의미한 변수를 통해 정확도 향상이 가능하며, 구체적인 순위를 예측하는 모델 설정이 가능할 것으로 보임
- 독학으로 배웠던 numpy와 pandas의 기본 지식들을 활용하는 프로젝트가 되었으며 크롤링을 통해서 처음으로 python 코드를 짜는데 흥미를 느끼고 시각화 공부를 하게되는 계기가 되었다.