p ≤ 0,05 ¿Sabes realmente qué significa?

La Asociación Americana de Estadística ha publicado un comunicado en el que denuncian el uso abusivo del valor p ≤ 0,05 como estrategia única para confirmar hipótesis y así poder publicar en revistas científicas. En este comunicado, además, denuncian que hay un amplio desconocimiento de qué significa la p asociada a los tests estadísticos, y las implicaciones que tiene a la hora de confirmar hipótesis. Y tú? Cuando ves el valor p, ¿Sabes realmente qué significa? En este post puedes encontrar su definición del valor p y los 6 principios que todo el mundo debe conocer a la hora de utilizar la p ≤ 0,05 en sus estudios.

Empecemos por el principio:

¿Qué es el valor p?

Ahora voy a escribir una definición técnica de este valor, pero no te detengas en ella, la voy a explicar y simplificar a continuación.

Ahí va:

Técnicamente, el valor p indica la probabilidad de obtener un resultado igual o más extremo al observado, asumiendo que el modelo (o la hipótesis) sobre la que se obtiene ese valor es verdadero.

Vale, ya tenemos la definición técnica, ahora vamos a entenderla para siempre utilizando el siguiente ejemplo:

Vector de Diseño diseñado por Freepik

Imaginemos que queremos comparar la velocidad a la que corren un grupo de perros y a la que corren un grupo de tortugas. Hacemos un experimento, les ponemos a correr, y medimos sus velocidades. Imaginemos que los perros corren a 50 km/h; y las tortugas a una media de 5 km/h. La diferencia de velocidad entre ambos es de 45 km/h. Hacemos una prueba estadística para ver si realmente estas dos velocidades son iguales, y obtenemos una p = 0,023. ¿Qué quiere decir esta p?

Destripemos la definición técnica:

“Probabilidad…

En nuestro estudio de ejemplo hemos obtenido una p = 0,023. Esto, transformado a porcentajes es una probabilidad de 2,3%.

“…de obtener un resultado igual o más extremo al observado…”

De obtener el mismo resultado que hemos obtenido (o más extremo). Es la probabilidad de obtener una diferencia de velocidad entre perros y tortugas de 45 km/h.

“…asumiendo que el modelo (o la hipótesis) sobre la que se obtiene ese valor es verdadero.”

El modelo en casi todos los test estadísticos es QUE NO HAY DIFERENCIA entre grupos (por eso se llama hipótesis nula, por nulidad de efectos).

Por lo tanto:

Sólo hay una probabilidad del 2,3% de obtener una diferencia de velocidad de 45 km/h entre perros y tortugas SI ASUMIMOS que la velocidad a la que corren ambos animales es LA MISMA.

Al ser esta probabilidad muy pequeña, rechazamos la hipótesis de que la velocidad a la que corren perros y tortugas es la misma.

En el siguiente cuadro puedes ver un resumen de este razonamiento:

Qué es el valor p

Bien! Ya tenemos claro qué es el valor p! (Si aún no lo tienes claro, déjame un comentario con tus dudas). La Asociación Americana de Estadística además expone 6 principios básicos que es imprescindible conocer si queremos utilizar los valores p en nuestros trabajos:

[if !supportLists]1. Los valores p pueden indicar cómo de incompatibles son nuestros datos con la hipótesis estadística que se está evaluando.

En el ejemplo anterior:

p =

Asumiendo que los perros y las tortugas corren a la misma velocidad (esta es la hipótesis estadística evaluada, una hipótesis de nulidad de efectos), la probabilidad de obtener una diferencia en las velocidades de ambos animales de 45 km/h (que es la diferencia en velocidades que hemos obtenido en nuestro estudio después de poner a muchos perros y tortugas a correr), es del 2,3%.

Como esta probabilidad de obtener este resultado es muy pequeña (2,3 que es menor a 5%), entonces asumimos que ambos animales corren a distintas velocidades.

Es importante tener esto claro, porque se trata de una probabilidad asociada a un resultado en particular, que hemos obtenido después de realizar un estudio. El valor p nos indica cuál es la probabilidad de obtener este resultado en particular, basándonos en que los grupos no son diferentes.

2. Los valores p NO miden la probabilidad de que NUESTRA HIPÓTESIS SEA VERDADERA, o de que los datos se deban sólo al azar.

En nuestro ejemplo anterior:

p =

Las principales falacias asociadas al valor p, siguiendo el ejemplo de los perros y las tortugas son:

[if !supportLists]- La probabilidad de que los perros y las tortugas corran a DISTINTAS velocidades es del 97,7% (100 – 2,3 = 97,7 %). --> FALSO

[if !supportLists]- Sólo hay una probabilidad del 2,3% de que los perros y las tortugas corran a la MISMA velocidad. --> FALSO

[if !supportLists]- Hay una probabilidad del 2,3 % de que la diferencia de velocidades entre ambos animales se deba simplemente al AZAR. --> FALSO

Todas estas afirmaciones son falacias, no están apoyadas por nuestros datos y por lo tanto debemos evitar utilizarlas. Con nuestro estudio lo único que podemos afirmar es que si asumimos que ambos animales corren a la misma velocidad, sólo hay un 2,3% de probabilidad de encontrar una diferencia de 45 km/h entre las velocidades de ambos animales.

3. Las conclusiones científicas (o decisiones empresariales o políticas) no se deben basar únicamente en si el valor p alcanza un valor determinado (ejem. 0,05).

Esta es una crítica a utilizar el valor de p ≤ a 0,05 como un valor absoluto. Todo lo que está por debajo es la gloria y lo que está por encima un fracaso. Pero ahora que ya sabemos qué significa el valor p, a que no hay tanta diferencia entre obtener una p = 0,03 de una p = 0,06?

p = 0,05

4. Para poder hacer una interpretación correcta de los valores p, es necesario informar de los análisis de forma completa y con transparencia.

Esto quiere decir que es necesario informar de todos los análisis que se han realizado para obtener los resultados, y que no es aceptable el seleccionar sólo aquellos análisis que se han considerado “significativos”, porque tenían una p ≤ 0,05, y obviar todos los demás. El motivo de esta recomendación lo trataremos más a fondo en otro post del blog :)

5. El valor p no es una medida del tamaño del efecto o de la importancia de un resultado.

Recuerda: Cualquier efecto, por pequeño que sea, producirá una p significativa si el tamaño de la muestra es el adecuado. Entonces, es posible que en un estudio obtengamos una p = 0,000001, simplemente porque la muestra es muuuuy grande, no porque el efecto estudiado sea grande.

6. El valor p, por sí solo, no representa una buena evidencia de un modelo o hipótesis.

Es importante contextualizar el valor p y aportar más evidencia de que nuestra hipótesis puede ser cierta. Recordemos que al rechazar la hipótesis nula (de ausencia/nulidad de efectos), realmente no estamos probando que nuestra hipótesis específica (de que sí hay un efecto debido a algo) sea cierta, los resultados pueden deberse a otra hipótesis o teoría completamente distinta.

Recordemos aquí el clásico ejemplo de la correlación positiva entre el consumo de helados y las muertes por ahogamiento. A mayor consumo de helados, mayor número de personas que se ahogan en el mar, con una p < 0,05. Sin embargo, aunque esta relación sea significativa, no es debida a que la gente entre a nadar con helados se distraiga y se ahogue. No existe una relación verdadera entre ambas variables. La relación es debida a que ambas variables están relacionadas con el calor, a más calor, más consumo de helados y también más personas se bañan y se ahogan en el mar.

Bueno, bastante de esto. Tenéis alguna duda? Discrepáis en algo? Dejádmelo en los comentarios! :)

Referencias:

Ronald L. Wasserstein , Nicole A. Lazar. The ASA's statement on p-values: context, process, and purpose. The American Statistician, In Press.

Tags: