Cómo se interpreta un Diagrama de Cajas y Bigotes?

Los diagramas de cajas y bigotes, también llamados diagramas de caja o box-plot, son muy útiles porque presentan una gran cantidad de información. Sin embargo, son un poco complejos porque para poder interpretarlos hay que tener bien claro qué información se presenta en el gráfico. En este post te explicamos todo lo que debes saber sobre los diagramas de cajas y bigotes. BONUS: Al final del post puedes descargar toda la información en un documento en PDF, y si eres más de ver un tutorial, te lo explicamos todo desde Youtube.

Vamos al lío!

Un diagrama de cajas representa de forma gráfica la distribución de puntuaciones dentro de una variable. Es una forma de describir las puntuaciones que contiene una variable y su distribución de forma visual. Además, señala los valores atípicos o casos extremos de la variable (para saber más sobre qué son los valores atípicos puedes ver este vídeo. Si ves el vídeo y te sirve de ayuda, dale al me gusta, y suscríbete al canal para no perderte otros vídeos sobre estadística 😊).

El diagrama de cajas tiene esta forma:

Diagrama de caja y bigotes.

¿Qué es esto? ¿Qué representa esta caja?

Con este diagrama se representan varios estadísticos descriptivos de las puntuaciones que contiene la variable. Estos descriptivos son:

  • Mediana: Es la línea negra más gruesa que está dentro de la caja azul. La mediana de una variable es su valor central, después de haber ordenado todos sus valores de menor a mayor (no olvidéis nunca este paso que es el que siempre se os olvida al hacer los exámenes!!!!). Separa la mitad superior de los datos de la mitad inferior. Si una variable tiene las siguientes observaciones: 1, 3, 3, 4, 5, 7, 7, 7, 9; la mediana de esta variable es 5 (fíjate en que los valores de la variable ya están ordenados de menor a mayor!).

En el diagrama de arriba, podemos ver que la mediana de la variable es 5.

  • Cuartiles: El 1º Cuartil (Q1) y el 3º Cuartil (Q3) delimitan los límites inferior (Q1) y superior (Q3) de la caja. Recordemos que los cuartiles dividen la muestra en 4 partes iguales: 1º Cuartil: valor hasta el primer 25% de la muestra, 2º cuartil: valor hasta el 50% de la muestra; 3º Cuartil: valor hasta el 75% de la muestra.

Como en el diagrama se muestran el valor que delimita desde el primer 25% de la muestra (Q1, límite inferior de la caja) hasta el 75% de la muestra (Q3, límite superior de la caja), la caja completa delimita las puntuaciones centrales de la variable. Es decir, la caja representa el 50 % central de las puntuaciones de una variable, sin el 25% más pequeño y el 25% más alto.

En el diagrama de arriba, el valor de Q1 es 3, y el valor de Q3 es 6. Esto quiere decir que el 50% central de la variable oscila entre las puntuaciones 3 y 6.

Vale, recapitulemos un poquito aquí. La caja ya la tenemos clara, la línea horizontal gruesa que está dentro de la caja es la mediana de la variable. Los límites de la caja son el Q1 y el Q3, y por lo tanto mirando la caja podemos saber que los valores que delimitan al 50% de puntuaciones centrales de la variable son el 3 y el 6:

¿Y ahora? ¿Qué son las rayas verticales esas que le salen a la caja? ¿Y para qué sirven?

Las rayas verticales sirven para ver entre qué puntuaciones se mueve la variable. Dicho de otro modo, sirve para identificar el valor máximo y el valor mínimo de la variable, y lo que es más útil, para identificar casos con valores atípicos (o extremos). Antes de poder dibujar/interpretar las dos líneas verticales que le salen a la caja azul (a estas líneas se les llama bigotes), tenemos que tener claros una serie de conceptos:

  • Valores atípicos: Los valores atípicos son aquellos que muestran una gran distancia a la media del resto de puntuaciones en la variable (recuerdo, ver vídeo). Con el diagrama de cajas podemos identificar de una forma muy fácil aquellos participantes cuyas puntuaciones en la variable se alejan demasiado de la media, es decir, o son demasiado bajas o son demasiado altas.

  • Rango Intercuartil: Es la diferencia entre el Cuartil 1 y el Cuartil 3. En el diagrama que tenemos en las imágenes, la diferencia en las puntuaciones entre el Cuartil 1(valor 3) y el Cuartil 3 (valor 6) (Q3-Q1) es 3 (6-3). Por lo tanto, el rango intercuartil es 3.

  • Valores atípicos leves: Una puntuación es un valor atípico leve cuando se sitúa fuera del siguiente intervalo:

Límite Inferior (f1) = Cuartil 1 - 1,5 x Rango Intercuartil

Límite Superior (f3) = Cuartil 3 + 1,5 x Rango Intercuartil

Vamos a calcular este intervalo para los datos de nuestro ejemplo:

Límite Inferior (f1) = 3 - 1,5 x 3 = - 1,5

Límite Superior (f3) = 6 + 1,5 x 3 = 10,5

Vale, ya tenemos definidos todos los conceptos que nos van a ayudar a interpretar las líneas verticales. ¿Qué son estos valores que señalan las líneas verticales? Pues ahí va:

  • La línea vertical que está debajo de la caja representa la puntuación más pequeña de la variable, siempre que esta puntuación no sea más pequeña que el límite inferior que hemos calculado para identificar a los valores atípicos leves.

Siguiendo nuestro ejemplo, es la puntuación más pequeña de la variable, siempre que esta puntuación no sea inferior a - 1,5. Como nuestra variable no tiene valores negativos, entonces el final de la línea vertical que está debajo de la caja es la puntuación más pequeña de la variable. Si volvemos a ver el diagrama identificaremos que el valor más pequeño de la variable es 1.

Vamos ahora con la línea vertical que está por encima de la caja.

  • La línea vertical que está por encima de la caja, es lo mismo que la línea de debajo, pero en este caso con las puntuaciones más altas de la variable. Por lo tanto, esta línea representa la puntuación más alta de la variable, siempre que esta puntuación no sea más alta que el límite superior que hemos calculado para identificar a los valores atípicos leves.

Siguiendo nuestro ejemplo, es la puntuación más alta de la variable, siempre que esta puntuación no sea superior a 10,5. Si volvemos a ver el diagrama identificaremos que la línea vertical de encima de la caja llega hasta el valor 9. Entonces, el valor más alto de la variable, que está dentro del límite superior para valores extremos leves es 9.

Ya tenemos la caja, ya tenemos los bigotes, pero, falta algo, hay una bola en la parte superior del gráfico que tiene un 11. ¿Qué es esta bola? Y ¿Qué es este 11?

  • Casos extremos: En el gráfico de cajas y bigotes se verán todos los casos extremos de la variable como círculos o estrellas (las estrellas son casos más extremos que los representados por los círculos). Las puntuaciones extremas serán todas aquellas que estén por encima o por debajo del intervalo que hemos calculado para trazar las líneas verticales que salen de la caja.

En nuestro diagrama de ejemplo, podemos ver que hay un participante que tenía una puntuación de 15. Esta puntuación es más alta que 10,5 (que era el límite superior que habíamos calculado con la fórmula: Cuartil 3 + 1,5 x Rango Intercuartil). Por lo tanto, el 15 se representa como un círculo arriba de la línea vertical.

Además, este círculo tiene un 11 al lado. ¿Qué es este 11? Pues este 11 es el caso (o participante) que tiene esta puntuación tan alta. Es el número de fila que ocupa ese participante en la tabla de datos. Así es muy fácil con la información que da este gráfico identificar a los valores extremos de la variable.

En la imagen de debajo podemos ver un resumen de toda la información que podemos extraer de un diagrama de cajas y bigotes:

¿Qué otra información podemos sacar de un diagrama de cajas y bigotes?

La otra información que podemos sacar de un diagrama de cajas y bigotes es sobre la dispersión de las puntuaciones dentro de una variable. ¿A qué nos referimos con dispersión? pues a la distribución de las puntuaciones dentro de la variable, a si el rango de puntuaciones es muy grande, o si por el contrario todos los participantes han puntuado más o menos lo mismo. En la imagen de debajo podemos ver la diferencia entre una variable con una gran dispersión de puntuaciones (A) y una variable con una dispersión de puntuaciones muy pequeña (B).

Y esto es todo lo que nos dice un diagrama de cajas y bigotes! Qué te parece? Tienes alguna duda? Déjanosla en los comentarios!

Si quieres descargar esta información en un documento en PDF para tenerlo siempre a mano pulsa AQUÍ! y si prefieres que te lo contemos, ahí va el vídeo!