La visualización de datos es útil no sólo para explorar los datos e
identificar la relación entre diferentes variables, sino también para
comunicar el resultado del análisis. El paquete ggplot2
nos permite generar gráficos de alta calidad con unas pocas líneas de
código. Cualquier gráfico de ggplot tendrá al menos 3 componentes: los
datos, un sistema de coordenadas y una
geometría (la representación visual de los datos) y se
construirá por capas.
¡Empecemos a hacer gráficos!
Primera capa: el área del gráfico
La función principal de ggplot2 se llama también
ggplot()
(pero sin el 2!), y nos permite iniciar el gráfico
y definir las características globales. El primer argumento de esta
función serán los datos que queremos visualizar, siempre en un
data.frame. En este caso utilizamos cultivares
.
El segundo argumento se llama mapping
porque es donde
definimos cómo se “mapean” las columnas del data.frame o las variables
de los datos a las propiedades visuales de las geometrías. Este mapeo
está definido por la función aes()
. En este caso indicamos
que en el eje x queremos graficar la variable
Rendimiento_Ajustado
y en el eje y la variable
Aceite_porcentaje
.
Todo esto sólo generará la primera capa: el área del gráfico.
ggplot(data = cultivares, mapping = aes(x = Rendimiento_Ajustado, y = Aceite_porcentaje))
Segunda capa: geometrías
Necesitamos añadir una nueva capa a nuestro gráfico, los elementos
geométricos o “geoms” que representarán los datos. Para ello añadimos
una función geom, por ejemplo si queremos representar los datos con
puntos utilizaremos geom_point()
. Para hacer esto
necesitaremos agregar un +
al final de la primera capa para
sumar una segunda.
ggplot(data = cultivares, mapping = aes(x = Rendimiento_Ajustado, y = Aceite_porcentaje)) +
geom_point()
Ya tenemos nuestro primer gráfico!
Tal vez observaste que los puntos están agrupados de una manera
particular. Quizá alguna otra variable explique este comportamiento.
Para incluir información de otras variables en nuestro gráfico
podemos aprovechar las características estéticas de las geometrías. En
este caso, podemos “pintar” los puntos según el tipo de ensayo.
ggplot(data = cultivares, mapping = aes(x = Rendimiento_Ajustado, y = Aceite_porcentaje)) +
geom_point(aes(color = `Tipo Ensayo`))
De nuevo, utilizamos la función aes()
para asignar una
variable de nuestros datos a un elemento del gráfico. ¡Y tada! ¡Cada
tipo de ensayo tiene características diferentes!
Añadiendo geometrías
Muchas veces no basta con mirar los datos en bruto para identificar
la relación entre las variables; es necesario utilizar alguna
transformación estadística para resaltar esas relaciones, ya sea
ajustando un modelo o calculando alguna estadística.
Para ello, ggplot2 dispone de geoms que calculan transformaciones
estadísticas comunes. Vamos a probar con geom_smoth()
para
ajustar un modelo lineal a cada especie.
ggplot(data = cultivares, mapping = aes(x = Rendimiento_Ajustado, y = Aceite_porcentaje)) +
geom_point(aes(color = `Tipo Ensayo`)) +
geom_smooth(aes(color = `Tipo Ensayo`), method = "lm")
Por defecto geom_smooth()
ajusta los datos utilizando el
método loess (regresión lineal local) cuando hay menos de 1000 datos
disponibles. Pero es muy común que se quiera ajustar una regresión
lineal global. En ese caso, tenemos que agregar el argumento
method = "lm"
.
Hablemos del aspecto del gráfico
Por ahora utilizamos el aspecto por defecto de ggplot. Podríamos
cambiar el aspecto del gráfico para adaptarlo al estilo de la
institución donde trabajamos, de la revista donde lo vamos a publicar o
simplemente para darle un estilo propio.
Empecemos por el color. Para cambiar el aspecto estético de un
elemento del gráfico, añadimos una nueva capa con la función
scale_*
. En este caso utilizaremos
scale_color_manual()
para elegir los colores de los puntos
manualmente. También podríamos utilizar paletas de colores previamente
definidas como las familias Viridis o Color Brewer.
Necesitaremos 4 colores para los cuatro tipos de ensayo, usaremos
"darkorange"
, "purple"
, "cyan4"
y "lightblue"
.
ggplot(data = cultivares, mapping = aes(x = Rendimiento_Ajustado, y = Aceite_porcentaje)) +
geom_point(aes(color = `Tipo Ensayo`)) +
geom_smooth(aes(color = `Tipo Ensayo`), method = "lm") +
scale_color_manual(values = c("darkorange","purple","cyan4", "lightblue"))
¡Va quedando! Ahora, vamos a añadir algunos elementos de texto con
una nueva capa ggplot: labs()
.
ggplot(data = cultivares, mapping = aes(x = Rendimiento_Ajustado, y = Aceite_porcentaje)) +
geom_point(aes(color = `Tipo Ensayo`)) +
geom_smooth(aes(color = `Tipo Ensayo`), method = "lm") +
scale_color_manual(values = c("darkorange","purple","cyan4", "lightblue")) +
labs(title = "Rendimiento y procentaje de aceite por tipo de ensayo",
subtitle = "Cultivares ACA de la Red Nacional de Ensayos de Girasol",
x = "Porcentaje de Aceite (%)",
y = "Rendimiento (kg/ha)",
color = "Tipo de Ensayo",
shape = "Tipo de Ensayo")
Ahora las etiquetas de los ejes son más legibles y tenemos un título
y un subtítulo que explican de qué trata el gráfico.
Podríamos seguir cambiando esto infinitamente pero terminaremos con
el aspecto general del gráfico.
El aspecto general de un gráfico está definido por su tema. ggplot2
tiene muchos temas disponibles y para todos los gustos. Pero también hay
otros paquetes que amplían las posibilidades, por ejemplo ggthemes. Por
defecto ggplot2 utiliza theme_grey()
, probemos con
theme_minimal()
:
ggplot(data = cultivares, mapping = aes(x = Rendimiento_Ajustado, y = Aceite_porcentaje)) +
geom_point(aes(color = `Tipo Ensayo`)) +
geom_smooth(aes(color = `Tipo Ensayo`), method = "lm") +
scale_color_manual(values = c("darkorange","purple","cyan4", "lightblue")) +
labs(title = "Rendimiento y procentaje de aceite por tipo de ensayo",
subtitle = "Cultivares ACA de la Red Nacional de Ensayos de Girasol",
x = "Porcentaje de Aceite (%)",
y = "Rendimiento (kg/ha)",
color = "Tipo de Ensayo",
shape = "Tipo de Ensayo") +
theme_minimal()
Ahora es tu turno. Elige un tema que te guste y pruébalo. Además, si
se te ocurre un título mejor, ¡modifícalo!
