Hasta ahora, y asumiendo que recorriste los episodios anteriores, visualizamos los datos tal cual vienen en la base de datos o con ayuda de {dplyr} para transformarlos. Pero como adelantamos con geom_smooth()
, hay ciertas transformaciones comunes que se pueden hacer usando {ggplot2}.
De paso vamos a usar datos incluidos en el paquete datos
(muchos paquetes traen bases de datos para probar cosas, ¡este en particular son todas bases de datos en español!) que podés descargar como siempre con install.packages("datos")
. Los datos diamantes
contiene información sobre ~ 54000 diamantes, incluido el precio
, el quilate
, el color
, la claridad
y el corte
de cada uno.
library(ggplot2)
library(dplyr)
library(datos)
str(diamantes)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
## $ precio : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
## $ quilate : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
## $ corte : Ord.factor w/ 5 levels "Regular"<"Bueno"<..: 5 4 2 4 2 3 3 3 1 3 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
## $ claridad : Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
## $ profundidad: num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
## $ tabla : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
## $ x : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
## $ y : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
## $ z : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
Gráficos de frecuencias
Este es un gráfico de barras construido usando la función geom_bar()
. En el eje x muestra el corte
de los diamantes y en el eje y la cantidad (count en inglés) de diamantes en cada categoría. Pero diamantes
no tiene una variable que se llame count
y tampoco la generamos nosotros. ¡Es calculada internamente por {ggplot2}!
ggplot(data = diamantes, aes(x = corte)) +
geom_bar()
Cómo el gráfico de barras, también podemos graficar histogramas con geom_histogram()
y polígonos de frecuencia con geom_density()
para visualizar la cantidad de observaciones que caen en cada categoría (si la variable es discreta como el caso del corte de los diamantes) o rango de valores (para variables continuas).
Un ejemplo de variable continua es el precio
de los diamantes, veamos como se ve un histograma y de paso le cambiamos el color a las barras, pero ojo, solo al borde.
ggplot(diamantes, aes(precio)) +
geom_histogram(color = "darkorange")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Primer desafío
¿Notaste el mensaje que devuelve el gráfico?
`stat_bin()
using bins = 30
. Pick better value with binwidth
.`
Esta geometría tiene dos argumentos importantes bins
y binwidth
. Cambiá el valor de alguno de los dos argumentos y volvé a generar el gráfico, ¿que rol juegan los argumentos?
También podés revisar la documentación.
Además de contar la cantidad de elementos, {ggplot2} puede calcular muchas otras transformaciones sobre los datos. Por ejemplo si quisiéramos el porcentaje o la proporción que le corresponde a cada categoría de corte
respecto del total podemos hacerlo mapeando esa transformación prop
al eje y con la función stat()
.
ggplot(data = diamantes, aes(x = corte)) +
geom_bar(aes(y = stat(prop), group = 1))
Fijate que la variable prop
no es una columna de diamantes
sino que es el nombre de una variable computada por geom_bar()
, por eso hay que rodearla de la función stat()
. El nombre de las variables computadas por cada geoms está en su documentación (abajo de todo, antes de los ejemplos).
Ahora podríamos decir que el 40% de los diamantes en la base de datos tienen un corte ideal. Además de la función stat()
agregamos group = 1
y esto no fue sin querer. Probá correr el gráfico sin ese argumento.
Al incluir group = 1
, {ggplot2} junta todas las observaciones en un único grupo (con el valor 1
) y calcula la proporción o el porcentaje que representa cada corte respecto del total de diamantes. Si no incluimos eso, {ggplot2} asumirá que cada categoría de corte es un grupo independiente y el cálculo del porcentaje también lo hará por separado.
Posición
Ya vimos que la estética del color
sólo modifica el borde de las barras, si quisieras modificar el relleno necesitamos cambiar el fill
y al igual que antes podemos mapear una variable a esta estética.
ggplot(data = diamantes) +
geom_bar(aes(x = corte, fill = claridad))
Al mapear una variable distinta, la claridad de los diamantes, podemos visualizar información extra. Este “apilamiento” de las barras es la opción de posición por defecto position = "stack"
, pero podrías usar una de las otras tres opciones: "identity"
, "dodge"
o "fill"
.
position = "identity"
colocará cada barra comenzando en cero quedando todas superpuestas. Para ver esa superposición, debemos hacer que las barras sean ligeramente transparentes configurando el alpha
a un valor pequeño.
ggplot(diamantes) +
geom_bar(aes(x = corte, fill = claridad), alpha = 0.2, position = "identity")
position = "fill"
apila las barras al igual que position = "stack"
, pero transforma los datos para que cada conjunto de barras apiladas tenga la misma altura. Esto hace que sea más fácil comparar proporciones entre grupos.
ggplot(diamantes) +
geom_bar(aes(x = corte, fill = claridad), position = "fill")
position = "dodge"
coloca las barras una al lado de la otra. Esto hace que sea más fácil comparar valores individuales.
ggplot(diamantes) +
geom_bar(aes(x = corte, fill = claridad), position = "dodge")
Gráficos de líneas suavizas
Cómo vimos antes, los gráficos de líneas suavizadas (smoothers) ajustan un modelo a los datos y luego grafican las predicciones del modelo. Sin entrar en muchos detalles, se puede aplicar distintos modelos y la elección del mismo dependerá de los datos.
ggplot(diamantes, aes(quilate, precio)) +
geom_point() +
geom_smooth()
## `geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'
Gráficos de caja
Los diagramas de caja, mejor conocidos como boxplots calculan un resumen robusto de la distribución y luego muestran una caja con formato especial.
La línea central de la caja corresponde a la mediana (el valor que toma el dato central) y los extremos de la caja son los cuartiles 1 y 3, definiendo así el rango intercuartil (IQR). Los extremos están definidos como el valor observado que no esté más lejos de 1.5*IQR de la mediana y los puntos son los las observaciones que se escapan de ese rango, que pueden ser considerados outliers o valores extremos.
ggplot(diamantes, aes(claridad, precio)) +
geom_boxplot()
Los boxplot dan muchísima información sobre los datos pero al mismo tiempo esconden la cantidad de observaciones que se usaron para generarlos y en particular cual es la frecuencia a lo largo del eje y. Por esta razón también existen geom_violin()
y geom_jitter()
.
Segundo desafío
- Volvé a graficar la distribución del precio para cada tipo de claridad pero ahora usando
geom_violin()
y geom_jitter()
.
- ¿Qué ventajas y desventajas encuentran respecto de
geom_boxplot()
?
ggplot(diamantes, aes(claridad, precio)) +
geom_violin()
ggplot(diamantes, aes(claridad, precio)) +
geom_jitter()
Cuando nuestra base de datos es muy grande corremos el riesgo de generar de que los elementos del gráfico estén tan juntos que se solapen y no se vean. Esto se conoce como overplotting. La base de datos diamantes
tiene 53940 observaciones y al graficar un punto por cada una, aún si están separados por la claridad, quedan superpuestos.
Para resolver este problema se suele modificar la estética de los elementos, cambiando el tamaño o size
para que ocupen menos lugar y se vean mejor, cambiando la forma o shape
por alguna que no tenga relleno y permita ver los elementos que hay atrás o modificando la transparencia o alpha
por la misma razón. En bases de datos tan grandes como la de diamantes, muchas veces hay que utilizar varios de estos recursos.
Graficando en múltiples paneles
Vimos que es posible graficar más de dos variables en un gráfico mapeando una variable al color
o por ejemplo el tipo de línea o linetype
ggplot(diamantes, aes(quilate, precio)) +
geom_point(aes(color = color))
En este caso no solo visualizamos la relación entre el precio y el quilate del diamante, también podemos ver que rol juega el color. También podríamos haber intentando resolver el problema generando un gráfico por cada color filtrando las observaciones correspondientes.
diamantes %>%
filter(color == "D") %>%
ggplot(aes(quilate, precio)) +
geom_point(aes(color = color))
Pero sería muchísimo trabajo si tenemos que hacer esto para cada una de las 7 categorías de color. La buena noticia es que {ggplot2} tiene un par de funciones justo para resolver este problema:
ggplot(diamantes, aes(quilate, precio)) +
geom_point(aes(color = color)) +
facet_wrap(~color)
Esta nueva capa con facet_wrap()
divide al gráfico inicial en 7 paneles o facets, uno por cada color. Esta función requiere saber que variable será la responsable de separar los paneles y para eso se usa la notación de funciones de R: ~color
. Esto se lee como generar paneles “en función del color”.
¿Y si quisiéramos generar paneles a partir de 2 variables? Para eso existe facet_grid()
. En este gráfico generamos paneles viendo la “relación entre el corte y el color” y por ejemplo en el primer panel arriba a la izquierda podremos observar los diamantes que son al mismo tiempo de color D y corte Regular. En este caso mapear la variable color al color de los diamantes no parece ser necesario ya que cada columna ya nos permite identificar eso, sin embargo en algunos casos ayuda a leer el gráfico más rápido.
ggplot(diamantes, aes(quilate, precio)) +
geom_point(aes(color = color)) +
facet_grid(corte~color)
Tercer desafío
Generá boxplots para analizar como se comporta el precio
según la claridad
para cada tipo de corte
como se ve acá.
