/Data_Science_Introduction_With_Python

En este proyecto de GitHhub podrás encontrar parte del material que utilizo para impartir las clases de Introducción a la Ciencia de Datos (Data Science) con Python.

Primary LanguageJupyter Notebook

Introducción a la Ciencia de Datos con Python

  • Autor: Ricardo Moya García, PhD
  • Release: 3.0.0
  • Fecha última actualización: 18-11-2020
  • python versions

En este proyecto de GitHhub podrás encontrar parte del material que utilizo para impartir las clases de Introducción a la Ciencia de Datos (Data Science) con Python.

El contenido compartido es el siguiente, dividiendose el curso en 3 módulos:

Módulo I: Introducción a la ciencia de datos

Breve introducción al mundo de la ciencia de datos, describiendo conceptos como: Data Driven Decision Makining (DDDM), Big Data, Fases del Big Data, ¿Que es la Ciencia de Datos?, Ciclo de vida de un proyecto Data Science, Roles en un proyecto Data Science, en qué invierte el tiempo un Cientifico de Datos y por último ¿Que es Kaggle?.

Módulo II: Análisis de datos

  • En este módulo se muestran los conceptos más importantes para conseguir conocimiento a partir de los datos: Recolección de datos, Limpieza de Datos, Analisis Exploratorio de Datos y Visualización de la información por medio de gráficas son algunas de las cosas que se muestrán en esta módulo usando librerías como Pandas, Numpy, Matplotlib y Seaborn.

Tema 1: Data Wrangling

Tema 2: Exploratory Data Analysis (EDA)

En Español: "Análisis Exploratorio de Datos"

Tema 3: Visualización

Tema 4: Limpieza de Datos

Módulo III: Desarrollo de modelos

  • En este módulo se muestra una introducción al Machine Learning asi como los algoritmos de aprendizaje más básicos para cada una de las tareas del aprendizaje supervisado y no supervisado, haciendo uso de la librería de Scikit-Learn.

  • Los algoritmos de aprendizaje que se verán son:

    • Aprendizaje Supervisado
      • Regresión: Regresión Lineal
      • Clasificación: Regresión Logística
    • Aprendizaje No Supervisado
      • Clustering: K-Means y Gaussian Mixture Models
      • Reducción de Dimensionalidad: Analisis de Componentes Principales (PCA)

Tema 1: Introducción al Machine Learning

Tema 2: Regresión Lineal (Múltiple)

Tema 3: Evaluación de Modelos de Regresión

Tema 4: Clasificación

Tema 5: Evaluación de Modelos de Clasificación

Tema 6: Normalización, Correlación y Transformación de Datos

Tema 7: Clustering

Tema 8: Reducción de la Dimensionalidad


Instalación del entorno

Para ejecutar los scripts y notebooks de este proyecto es necesario tener creado un entorno virtual con conda (también puede ser con un virtualenv), en el que a parte de tener instaladas las librerías que te instala anaconda por defecto al crear el entorno (numpy, scipy, pandas, matplotlib, scikit, etc) hay que instalar una serie de librerías específicas que se indican en el fichero requirements.txt.

A continuación se muestran los pasos a seguir para crear el entorno virtual con conda por medio de una consola:

Nota: estos mismos pasos pueden realizarse también por medio del Anaconda Navigator, pero mejor hacerlo por consola.

1.- Crear un entorno virtual con un python 3.6 llamado "python36_DS"

>> conda create -n python36_DS python=3.6 anaconda

2.- Activar el entorno virtual

>> conda activate python36_DS

3.- Instalar librerias con pip:

>> pip install -r requirements.txt
  • Si queremos instalar las librerias de forma manual podemos hacerlo de la siguiente manera "una a una":

     >> pip install nombre_libreria==VERSION
    
  • Por ejemplo para instalar la librería de Tweepy lo podríamos hacer:

     >> pip install tweepy==3.8.0
    

Nota: La instalación de librerías también se podria realizar por medio del repositorio de "conda" (en vez de "PIP"), pero estos comandos no los mostramos en este README.

Bonus Track Anaconda

A continuación se muestran algunas acciones extra:

1.- Desinstalar librerías:

>> pip uninstall nombre_libreria

2.- Desactivar el entorno virtual (previamente tiene que estar activado)

>> conda deactivate

3.- Eliminar entorno virtual (llamado "python36_DS")

>> conda remove -n python36_DS -all