/TETproject3

Spark sobre COVID-19

Primary LanguageJupyter Notebook

Proyecto 3 - Tópicos especiales en telemática

Spark sobre COVID-19

Estudiantes

  • Alejandro Cano Múnera
  • Luis Javier Palacio Mesa

Universidad EAFIT

Fuentes de datos

https://data.humdata.org/dataset/novel-coronavirus-2019-ncov-cases
https://data.humdata.org/dataset/positive-cases-of-covid-19-in-colombia

Notebook

Notebook EMR

Ingesta y Almacenamiento de datos en S3

Datasets

Colombia: s3://tet-covid-datasets/colombia
Mundial: s3://tet-covid-datasets/mundial
Datasets

Ingesta de datos en S3

Se realizo la ingesta de datos en S3: Ingesta

Datos guardados en S3

Posterior a su análisis, los datasets fueron nuevamente guardados en S3: Guardados

Outputs

Outputs: s3://tet-covid-datasets/outputs

Análisis descriptivo exploratorio

Se usó pyspark, además se realizó la limpieza de algunos datos que presentaban incosistencias, se eliminaron y añadieron columnas. A continuación se presentarán algunas de las agrupaciones y filtrados realizados en los datasets
Filtro 1: Personas menores de 18 años en estado Grave o Fallecido filtro1

Grupo 1: Contador de personas agrupadas por país de procedencia del COVID grupo1

Grupo 2: Contador de personas agrupadas por Departamento o Distrito grupo2

Grupo 3: Contador de personas Fallecidas agrupadas por Departamento o Distrito grupo3

Grupo 4: Casos confirmados, muertes y tasa de fatalidad agrupados por código ISO y por región grupo4

Grupo 5: Número de muertes agrupados por código ISO y región grupo5

Grupo 6: Número de recuperados agrupados por código ISO y región grupo6

Gráficas

Se realizaron visualizaciones de datos de Colombia, el mundo y Colombia vs el mundo.
Gráficas realizadas usando plotly

Número de casos por departamento o distrito

En esta gráfica se evidencia claramente que Bogotá D.C. tiene un número de casos muy elevados, lo siguen lugares como el Valle del Cauca, Cartagena y el Meta. Los lugares con menor número de casos son Arauca, Putumayo y Sucre. Image1

Casos positivos en Colombia por edad

En este punto evidenciamos que la mayoria de casos se encuentran entre personas con edades entre 25-40 años con un 34.6% y personas entre 40-65 años con un 34.1% Image2

Países con tasa de letalidad más alta y Colombia

La tasa de letalidad se define como el número de muertes por cien, dividido el número total de casos.
Se puede evidenciar que los paises con mayor tasa de letalidad son Nicaragua, Belgica y Francia, sin embargo, Nicaragua y Belgica son países con pocos casos confirmados, mientras que paises como Francia, Italia y España tienen un número muy alto de casos confirmados y por su alta tasa de letalidad, entonces se tiene mayor número de muertes. Image3

Países latinos con tasa de letalidad más alta y Colombia

En latinoamerica los paises con tasas de letalidad más alta son Mexico, Ecuador y Argentina. Se puede observar que Peru tiene un número de casos confirmados muy alto, sin embargo su tasa de mortalidad ronda el 2.81%. Colombia tienen una tasa de letalidad del 3.86% Image4

Casos confirmados por tiempo en los 10 países con más casos y Colombia

En esta gráfica se muestra la curva de crecimiento de los 10 paises con mayor número de casos confirmados y Colombia. Es claro que Estados unidos tiene una curva muy elevada a comparación de los demás paises. Image5

Casos confirmados por tiempo en los 10 países con más casos sin USA y con Colombia

Eliminando la curva de Estados Unidos, se observa de una manera más clara el comportamiento de los demás paises, podemos evidenciar como algunas curvas siguen en crecimiento y como otras intentan aplanarce con el paso del tiempo. Image6

Casos confirmados por tiempo en algunos países de latinoamerica

En latinoamerica el país con mayor número de casos y que presenta una curva en crecimiento exponencial es Peru. Paises como Mexico y Chile también presentan curvas en crecimiento. En este punto se puede evidenciar que Colombia se encuentra en un estado intermedio respecto a las curvas de crecimiento de paises vecinos Image7

Casos confirmados de coronavirus en el mundo por fecha

En este gráfico podemos evidenciar el crecimiento de la pandemia geográficamente, se pueden evidenciar los paises con mayor número de muertes con la barra de color, Estados Unidos y Europa presentan cifras altas de muertes. Image8 Image8

Casos confirmados de coronavirus en el mundo (División política)

En esta gráfica se hace una diferenciación de la división politica de una manera más clara y se evidencia como al pasar el tiempo paises como China controlan el número de casos confirmados, mientras que paises como Estados Unidos aumentan significativamente el número de casos. También se observa crecimiento de número de casos en regiones como Europa y Sur America. Image9 Image9