En este material encontrarás una guía completa para aprender a crear y personalizar diferentes tipos de gráficos para visualizar tus datos de manera efectiva. Desde gráficos básicos como histogramas y diagramas de dispersión, hasta gráficos más avanzados como barras apiladas y diagramas de violín, aquí podrás aprender cómo utilizar las funciones de R base y el tan utilizado paquete {ggplot2} para crear gráficos atractivos y significativos. Además, encontrarás código en R y explicaciones detalladas para ayudarte a entender el proceso detrás de cada gráfico. ¡Comencemos a explorar el mundo de la visualización de datos!
Versión R: 4.2.2
R Studio: 2022.12.0-353
Paquetes base: stats, graphics, grDevices, utils, datasets, methods, base
Paquetes cargados: ggplot2_3.4.1, agridat_1.21
- Gráfico de puntos
- Gráfico de líneas
- Grafico de barras
- Histograma
- Gráfico de cajas
- Gráfico de dispersión
- Gráfico de líneas
- Grafico de barras
- Histograma
- Gráfico de cajas
- Gráfico de violín
- Gráfico de barras apiladas
- Gráfico de barras agrupadas
Para gráficos con R base, se manejan diferentes datasets provienientes del paquete {datasets}
pressure
: data frame de temperatura y presiónBOD
: Biochemical Oxygen Demand cuenta con datos de tiempo y demanda de oxígenomtcars
: pertenecen a Motor Trend Car Road Tests. Se utiliza la variable numérica mpg (Miles/(US) gallon).ToothGrowth
: con datos de longitud de odontoblastos (células responsables del crecimiento de los dientes) medidas en 60 cobayos comparando dos métodos de administración de vitamina C, jugo de naranja (OJ) o ácido ascórbico (VC).
Para gráficos en {ggplot2} se utilizaron datos provenientes del paquete {agridat} que proporciona una amplia colección de conjuntos de datos de experimentos agrícolas provenientes de papers, libros y websites (documentación).
australia.soybean
:- env: ambiente, 8 niveles, primer caracter corresponde a la localidad y últimos dos caracteres corresponden al año
- loc: localidad, 4 niveles
- year: año, numérico (int). En realidad son 2 niveles (1970 y 1971), debemos convertirlo
- gen: genotipos, del G01 - G58
- variables numéricas: rendimiento, altura, lodging, tamaño, proteínas y aceites
aastveit.barley.height
: datos de 9 años (1974-1982) de la altura de cebadaalwan.lamb
: dataset de corderos que contiene la variable categórica raza (breed) y sexo (sex), entre otraspederson.lettuce.repeated
: Adataset de lechuga que posee medidas de peso (weight) de varias plantas (n = 18) en distintos días de observacion para 3 tratamientos (trt)
Vamos a obtener el siguiente gráfico siguiendo las consignas detalladas debajo:
Utilizando el dataset australia.soybean
de {agridat}
-
Cargar los paquetes necesarios
-
Convertir la variable year a factor
-
Copiar el siguiente gráfico base para comenzar a trabajar:
ggplot(data = soybean, aes(x = height, y = protein)) +
geom_point(size = 3, alpha = 0.5)
-
Dividir el gráfico en grupos/paneles en base al ambiente (env) y agregar nrow = 4 para obtener 4 filas
-
Modificar los puntos de
geom_point()
con color determinado por localidad y forma, por año -
Agregar etiquetas a los ejes:
- Título: Soja en Australia
- Eje x: Altura (m)
- Eje y: Proteína (%)
- Color: Localidad (modifica título de leyenda)
- Shape: Año (modifica título de leyenda)
-
Modificar theme a
theme_bw()
-
Guardar gráfico en png