/eda-olympic-medals

EDA de medallas olímpicas: Análisis de distribución y tendencias históricas de medallas de verano e invierno. Proyecto final para explorar insights y patrones en los datos deportivos

Primary LanguageJupyter NotebookCreative Commons Zero v1.0 UniversalCC0-1.0

Análisis Exploratorio de Datos (EDA) - Medallas Olímpicas

Proyecto final para analizar la distribución y tendencias históricas de medallas olímpicas en los Juegos de Verano e Invierno.

Descripción

Este repositorio contiene el código y los datos utilizados para realizar un EDA sobre el rendimiento olímpico a lo largo del tiempo. Explora insights y patrones en la distribución de medallas.

Estructura del Repositorio

  • /data: Contiene el conjunto de datos original.
  • /eda_medallas_olimpicas.ipynb: Cuaderno Jupyter con el código utilizado para el análisis.

Conjunto de Datos

El conjunto de datos utilizado en este proyecto fue proporcionado por Rushikesh Lavate y está disponible en Kaggle. El conjunto de datos se centra en medallas de los Juegos Olímpicos desde 1896 hasta 2018. Puedes acceder al conjunto de datos aquí.

Referencia: Rushikesh Lavate. (2023). Olympic Games Medal Dataset from 1896 to 2018. Kaggle. https://www.kaggle.com/datasets/rushikeshlavate/olympic-games-medal-datasetfrom-1896-to-2018

Cómo Replicar el Análisis

  1. Clona este repositorio: git clone https://github.com/tu-usuario/tu-repositorio.git
  2. Navega a la carpeta del proyecto: cd tu-repositorio
  3. Abre los cuadernos Jupyter en /eda_medallas_olimpicas.ipynb para revisar el código y los análisis realizados.

Conclusiones

Para comenzar, cabe mencionar la fuerte prevalencia de EEUU y Rusia (y ex URSS) en el conteo de medallas, por lo que entendemos que los datos se encuentran desbalanceados.

Respecto al analisis geografico, pudimos notar que hay ciertas regiones que se ven favorecidas dependiendo del clima de cada región. Por ejemplo, los paises nordicos presentaron una ventaja por sobre EEUU y Canada en los deportes de invierno; mientras que en los deportes de verano EEUU, seguido de los continentes de Europa, Asia y Oceania, se vieron más favorecidos. En el caso de los paises latinoamericanos, se encontro que tenian rendimiento similar en ambos casos.

El scoring viene a proponer una alternativa al método de tabla de posiciones por cantidad de medallas totales y oros primeros. En tal sentido, busca establacer un ranking ponderando las cantidades de cada medalla

Se compararon tres métodos de score. No se observaron diferencias significativas en el ranking obtenido, observándose a EEUU como un outlier en el conjunto de países.

El sistema de rankeo por ponderación de puestos podría mejorarse extendiendo la puntuación del 1er al 8vo puesto

También podría ser conveniente establacer:

  • Una clasificación demográfica per cápita: el número de medallas se divide por la población del país.
  • Una clasificación demográfica por PBI: el número de medallas se divide por el producto bruto interno (PBI) del país.

O bien incluir recursos destinados al deporte en las distintas naciones

Próximos Pasos

Creemos conveniente extender el EDA a datos demograficos y socioeconomicos, pero tambien a politicas publicas relacionadas con el deporte y antidoping, asi como tambien relacionar la cantidad de medallas con deportes especificos.

Como posibles pasos siguientes seria analizar cuantas medallas se pierden por juego por dopaje positivo, analizar la correlación entre PBI y los scoring propuestos, analizar la correlación entre el numero total de población de cada pais con el tamaño de su delegación y sus resultados.

Además, se podría incluir un modelo de aprendizaje automatico que, en base a la historia de rendimiento de cada delegación de cada pais, se podria inferir que probabilidad tienen de ganar ciertas medallas segun epoca del año y deporte.

Autores


Nota: Este proyecto fue realizado como parte de la asignatura: 81.75 - Fundamentos del desarrollo de software y análisis de datos en Python. Se alienta a la comunidad a contribuir y mejorar este análisis.