Charla: Data Science con SciPy
Tallerista: Rodolfo Ferro
Twitter: @rodo_ferro
Contacto: https://rodolfoferro.xyz
Slides: ¡Click aquí!
En esta charla se ilustrará una técnica de ciencia de datos para estimar distribuciones probabilísticas de datos y con ello poder simular nuevos datos que sean válidos, aleatorios y se distribuyan de igual manera que los datos originales. Todo ello con el poder de SciPy.
La idea es que a partir de una muestra de datos (variables aleatorias) utilicemos scipy.stats
para estimar la distribución de probabilidad, así como los parámetros de dicha distribución y con ello utilizar el Teorema de la Transformada Inversa para generar nuevas variables aleatorias con dicha distribución. De esta manera se generan nuevos datos aleatorios pertenecientes a la misma familia que los datos originales.
Para este taller necesitas conocimientos básicos sobre programación en Python. Parte de los objetivos es que posterior a la charla se cuente con una nueva técnica para generación de datos aleatorios bien distribuidos; con Python, obviamente.
Slides: ¡Click aquí!
La versión más reciente de Anaconda (3.7) con Python >= 3.6 va a ser requerida. Trabajaremos utilizando un entorno de Anaconda para este taller.
Para crear el conda env
e instalar los requerimientos sólo clona el repo:
# Clona el repo de GitHub:
git clone https://github.com/RodolfoFerro/DataSciPy.git
cd DataSciPy
Y corre lo siguiente:
# Crea el entorno de Anaconda:
conda env create -f environment.yml
Para activar/desactivar el entorno:
# Activar entorno:
conda activate DataSciPy
# Desactivar entorno:
conda deactivate
El repositorio y charla están autocontenidos, a través de los slides y el script datascipy.py
.
- Estos documentos fueron originalmente creados por el autor.
- Cualquier uso de estos documentos o sus contenidos están permitidos a través de la licencia provista y sus condiciones.
- Para cualquier aclaración, puedes contactar al autor: https://rodolfoferro.xyz/
Copyright (c) 2018 Rodolfo Ferro