¿Cómo analizo recuentos?

Qué pasa cuando tu variable dependiente no es contínua sino que refleja un recuento de algo. Por recuento me refiero a una variable que contiene el número de veces que algo ocurre. Una variable que contiene recuentos es por definición una variable discreta. ¿Cómo puedes analizar estos datos? En este post te voy a explicar las opciones que tienes para analizar estos datos.

Ejemplos de variables con recuentos:

  • NHermanos: Número de hermanos de cada participante

  • NAprobados: Número de aprobados en el semestre

  • NAmigos: Cantidad de amigos íntimos de cada participante​

Ejemplos de estudios publicados en los que la variable dependiente es un recuento:

  • ¿Existe relación entre la cantidad de robos y: el desempleo, la pobreza, la inestabilidad familiar y la inestabilidad residencial? (en Osgood and Chambers, 2000).

  • En un estudio se investigó la relación entre la cantidad de accidentes de camiones con el tráfico medio diario y las características geométricas de las autovías (en Miaou et al., 1992).

  • En este estudio se relacionó la cantidad de readmisiones en programas de desintoxicación con los síntomas depresivos y el estado de salud mental general (en Shanahan et al., 2005).

¿Cómo se pueden analizar estos datos?

Para analizar este tipo de datos, que contienen una variable dependiente que es discreta (un recuento vamos), se pueden utilizar diferentes tests estadísticos. Unos son más adecuados que otros, y el uso de uno u otro dependerá también de los supuestos que se deben cumplir para que el resultado de cada test sea fiable.

Estos son los tests que se pueden utilizar:

Soluciones subóptimas (vamos, cómo lo analizan los que no tienen mucha idea del tema):

1°. Transformar la variable con recuentos en una variable con categorías

2°. Análisis utilizando tablas de contingencia (por ej. chi-cuadrado) o regresión logística binaria (en caso de dos categorías: sí vs. no).

Esta opción consiste en transformar la variable que contiene recuentos en una variable que contiene categorías. Por ejemplo, si estamos hablando de número de cigarrillos fumados al día, esta variable se podría transformar en: 0 No fumador, 1 - 3 Poco, 4 – 7 Moderado, > 8 Mucho. También se podría transformar en No fumador (0 cigarrillos al día) vs. Fumador (> 0 cigarrillos al día) y entonces se podría utilizar regresión logística binaria.

Problemas de utilizar esta opción:

  • Las categorías se construyen de una forma completamente arbitraria. En el ejemplo anterior, qué es lo que diferencia a alguien que fuma 3 cigarrillos de alguien que fuma 4? Sólo se diferencian por 1 cigarrillo, pero nosotros los hemos clasificado en dos grupos completamente diferentes.

  • Al formar categorías se produce una pérdida importante de información, por ejemplo, el que fuma 4 cigarrillos es tratado de la misma forma que el que fuma 7.

  • Y como resultado del punto anterior, se reduce el poder para detectar efectos​.

Analizarlo utilizando regresión.

En esta opción la variable con recuentos, que como ya hemos dicho es una variable discreta (pistas: no es posible que adquiera valores negativos, y solo toma valores enteros, sin decimales), es tratada como si fuese una variable contínua.

Problemas de utilizar esta opción:

  • Heterocedasticidad: Es muy probable que cuando la variable dependiente representa un recuento, se produzca heterocedasticidad, que es una violación grave de los supuestos de la regresión. La heterocedasticidad a menudo conduce a inflar los valores de los t tests, lo que puede conducir a afirmar que existe un efecto cuando éste realmente no está presente (PELIGRO!: los resultados estarán sesgados, y no serán fiables ni replicables).

  • Las estimaciones de la regresión (por ej. las betas), podrían perder su significado. Por ejemplo, el modelo estadístico resultante de aplicar una regresión a una variable dependiente que contiene recuentos conducirá a la predicción de valores negativos. Si una de las variables independientes en el estudio de los cigarrillos fuese el alcohol, es posible que el modelo diese como resultado, para alguien que tomase 0 vasos de alcohol al día, un consumo de cigarrillos de -3 (¿!!). Al final este es un problema en la interpretabilidad de los resultados de la regresión, y aunque parezca menos importante, esto conduce a problemas para poder aplicar los resultados así como para poder utilizarlos, por ejemplo en meta-análisis.

Soluciones Óptimas para el análisis de variables que contienen recuentos

  • Regresión de Poisson

  • Regresión negativa binomial. Este test se utiliza cuando el recuento de datos presenta una dispersión excesiva. Esto ocurre cuando la varianza de la variable discreta es muy diferente a su media (Ej. la media es 2, y su varianza es 10).

  • Zero-inflated Poisson regression. Este se utiliza cuando la variable discreta tiene muchos 0, vamos una cantidad de 0s excesiva. Este test asume que hay dos tipos de 0s, 0s que son verdaderos y 0s que no lo son. Así este test evalúa dos tipos de modelos, uno para los valores que no son 0, y otro para el modelo con el exceso de 0s.

Bueno, ya tenéis aquí algunas pistas para poder analizar estos datos. Como esto ya está muy largo, vamos a dejar la explicación de las regresiones basadas en la distribución de Poisson para futuros posts.

Referencias:

Gardner,W.,Mulvey, E. P.,&Shaw, E. C. (1995). Regression analyses of counts and rates: Poisson, overdispersed Poisson, and negative binomial models. Psychological Bulletin, 118, 392–404.

Miaou, S. P., Hu, P. S., Wright, T., Rathi, A. K., & Davis, S. C. (1992). Relationship between truck accidents and highway geometric design: a Poisson regression approach. Transportation Research Record, (1376).

Osgood, D. W., and Chambers, J. M. (2000). Social disorganization outside the metropolis: An analysis of rural youth violence. Criminology 38: 81–115.

Shanahan, C. W., Lincoln, A., Horton, N. J., Saitz, R., Winter, M., & Samet, J. H. (2005). Relationship of depressive symptoms and mental health functioning to repeat detoxification. Journal of substance abuse treatment, 29(2), 117-123.