En este repositorio podrán encontrar todo el material que utilizaremos en el curso. Se irá actualizando constanemente y podrán descargarlo si así lo desean o clonarlo por medio de GitHub.
El presente curso tiene como objetivo dar una introducción a herramientas básicas de interpretación, análisis y tratamiento de información, así como de elementos técnicos para el uso de herramientas estadísticas.
El curso estará basado en el lenguaje R
y versará en el uso de este lenguaje, aplicaciones estadísticas de éste y la creación de reportes profesionales.
Para este curso vamos a trabajar, desde el principio, con código en R
. Es necesario tener la última versión de este lenguaje, al momento de escribir este repositorio ésta es la versión 3.5.2.
Para instalarlo, es necesario entrar a The Comprehensive R Archive Network y seguir las instrucciones para cada sistema operativo.
- Basta con descargar el archivo
.pkg
de este link, descomprimir el archivo, abrir el archivo y seguir las instrucciones.
- Basta con descargar el archivo
.exe
de este link, abrir el archivo y seguir las instrucciones.
En Terminal, escribir las siguientes dos líneas:
sudo apt-get update
sudo apt-get install r-base
Para instalar RStudio (plataforma que usaremos para el uso de R
), es necesario acudir a esta página y seleccionar nuestro sistema operativo en el menú Installers for Supported Platforms. En el caso de Windows, este es el archivo, y en el caso de MAC OSX el archivo es éste.
Para Ubuntu, hay que correr estas líneas en Terminal:
sudo apt-get install gdebi-core
wget https://download2.rstudio.org/rstudio-server-1.1.463-amd64.deb
sudo gdebi rstudio-server-1.1.463-amd64.deb
Es importante tener LaTeX para crear documentos en PDF. Para instalarlo, hay que entrar a este sitio y seleccionar nuestro sistema operativo. Para MAC OSX este es el archivo a instalar, para Windows es éste y para Ubuntu hay que seguir estos pasos.
Hay, realmente, miles de materiales excelentes para aprender R
. En mi experiencia éstos han sido los más útiles.
-
Wickham y Grolemund - R for Data Science: Este el libro sagrado de los que usamos
R
a través deltidyverse
. Es el mejor y más completo libro para aprender a usar en lenguaje. Les recomiendo mucho terminarlo. -
Cotton - Learning R A Step-by-Step Function Guide to Data Analysis
-
Phillips - YaRrr! The Pirate’s Guide to R: Una guía introductoria (y bastante divertida) de aprender
R
. Altamente recomendable también para aprender métodos bayesianos. Yo aprendíR
con este manual. Phillips también tiene gran material introductorio en su canal de YouTube -
Burns - R's Inferno: La premisa del autor es simple "si estás usando R y piensas que es un infierno, este libro es para ti".
-
Privé - Advanced R Course:Un buen libro avanzado sobre el tema.
-
Stack Overflow: No hay de otra, es crucial preguntar.
-
Prabhakaran - Top 50 ggplot2 Visualizations - The Master List (With Full R Code)
-
Sebastián Garrido - Recursos para R: "Segasi" ha recolectado un montón de recursos introductorios (y no tanto) en su página personal.
En este curso se pretende que podamos presentar resultados en reportes profesionales y muy elegantes que puean ser leídos (y usados) por cualquiera. Así, usaremos Markdown "con sabor" a R
para generar código y resultados.
-
Xie, Allaire & Grolemund - R Markdown: The Definitive Guide: La Guía definitiva para usar Markdown "con sabor" a R.
-
A simple guide to LaTeX - Step by Step: Si bien no usaremos LaTeX directamente, sí es importante tenerlo instalado y conocer su existencia y su sintaxis básica para usarla en RMarkdown.
Este curso está construido con base en siguientes materiales:
-
Navarro - Learning statistics with R: A tutorial for psychology students and other beginners.. El código del libro disponible aquí.
-
Field et a. - Discovering Statistics Using R. Este libro es bastante didactivo, pero un poco infantil para lectorxs más maduros.
-
Sheather - A Modern Approach to Regression with R. El código se encuentra aquí.
-
James, et al. - An Introduction to Statistical Learning with Applications in R. El PDF y el código se encuentran en el link.
-
Bruce & Bruce - Practical Statistics for Data Scientists 50 Essential Concepts: El código de este libro se encuentra en este repositorio.
-
Hastie, et al. - The Elements of Statistical Learning. El PDF y el código se encuentran en el link.
-
Teetor - R Cookbook Proven Recipes for Data Analysis, Statistics, and Graphics
Algunos repositorios recomendados para buscar buenas bases de datos.
- Awesome Public Datasets
- TidyTuesday Datasets
- FiveThirtyEight
- Las bases de datos del programa de competencias Kaggle
- Harvard Dataverse
- Datos abiertos del Gobierno Federal
- Banco de Información del LNPP del CIDE
- Google Dataset Search
- Open ICPSR
- UK Data Service
- Empirical Studies of Conflict
-
Sesión 1:
- Temas:
-
Introducción al uso de
R
y RStudio -
Introducción a
tidyverse
(y sus diferencias conRbase
) -
Introducción a manipulación básica de datos.
-
Comandos básicos para medidas de tendencia central (y su interpretación)
-
¿Cómo hacer tablas profesionales para reportes profesionales?
-
¿Cómo llamar datos en formato .xls, .csv, .txt o .dta.
-
- Material:
- Presentación:
- Pueden encontrar el .Rmd aquí. Como podrán ver en los primeros párrafos del documento. Éste está incompleto, pero al final de la clase tendrá todo lo necesario para servir de referencia. Les recomiendo descargar este archivo o clonar el repo finalizada la sesión.
- Datos:
- Usaremos datos de asesinatos perpretados por policías en Estados Unidos de FiveThirtyEight.
- Lista de servidores públicos sancionados por la Secretaría de la Función Pública.
- Presentación:
- Temas:
-
Sesión 2
- Presentación
- Datos
-
Sesión 3
- Presentación
- Datos
-
Sesión 4
- Presentación
- Datos
Mi nombre es Manuel Toral, actualmente soy investigador especializado en datos en Mexicanos Contra la Corrupción y la Impunidad. Estudié Política Pública en la Escuela Harris de la Universidad de Chicago y Ciencia Política y Relaciones Internacionales en el Centro de Investigación y Docencia Económicas. Como instuctor en R
, soy parte del directorio de instructores de RStudio, aquí puedes ver mi perfil.
Llevo 5 años usando R
de manera profesional en una diversidad de proyectos de corte inmobiliario, análisis de grandes cantidades de datos, seguridad, justicia y, actualmente, en corrupción, transparencia y combate a la impunidad en México. Puedes ver algo de mis últimos trabajos de investigación con datos en el blog Desarmando la Corrupción de MCCI en alianza con la revista Nexos.
Como docente en R
, he sido el experto residente de la Escuela Harris de la Universidad de Chicago, en la que dirgí la "STATA and R Bar", que asesoraba en el uso de estas herramientas a alumnos de maestría y doctorado. En 2017, fui contratado por la Unidad de Investigación Aplicada de MCCI para capacitar a sus integrantes en el uso de R, equipo al que finalmente me integré como investigador.