Por qué (o por qué NO) centrar predictores?

En este artículo voy a describir qué es eso de centrar predictores, cómo se hace, y para qué se hace. Frecuentemente habréis leído en los artículos que estáis manejando para hacer vuestros proyectos de investigación una frase parecida a “all the continuous predictor variables were mean-centered prior to conducting regression analyses (or SEM analyses)” (algo así como que las puntuaciones de los predictores se centraron alrededor de la media antes de realizar las regresiones).

¿Qué es centrar un predictor?

Centrar un predictor consiste en restar a cada una de las puntuaciones en la variable una constante. Esta constante puede ser cualquier número elegido por algún motivo determinado, pero lo más común es utilizar la media de la variable en cuestión.

De esta forma, centrar consiste simplemente en cambiar la escala de la variable, pero lo que no cambia es la distancia entre las puntuaciones de la variable. Por lo tanto esta transformación no afectará a la pendiente de la recta de regresión (las betas), ni a la probabilidad asociada a la pendiente (las ps), pero afectará a la constante (o intersección).

Recordemos que la constante (o intersección) es el valor que toma Y (variable dependiente), cuando todos los predictores tienen un valor igual a 0. Si cambiamos la escala de los predictores, entonces la constante será el valor que tomaría Y (variable dependiente) cuando todos los predictores toman un valor igual al valor utilizado para centrar los predictores. Si para centrar hemos utilizado la media de cada predictor, entonces la constante será el valor que toma Y cuando los predictores tengan un valor igual a su media.

Puedes leer más sobre qué es la constante (o intersección) en el siguiente post:

Glosario: Constante o Intersección de la recta de regresión

¿Cómo se centra un predictor?

Fácil, se resta a todos los valores del predictor un determinado valor. Este valor puede ser cualquier número que tenga algún tipo de interés por algún motivo, y frecuentemente se utiliza la media del predictor.

Por lo tanto, en vuestra matriz de datos tenéis que crear una variable nueva. Le dais un nombre a esta nueva variable, por ejemplo, podéis poner una C delante del nombre que tenía originalmente la variable. Esta variable nueva será el resultado de restar a cada puntuación de cada casilla la media de la variable.

El resultado es una nueva variable que tendrá una media = 0. Podéis comprobar que lo habéis hecho bien calculando los descriptivos de esta nueva variable y comprobando que la media de esta nueva variable es = 0.

Por cierto, se centran todos los predictores que tienen una escala continua (ej. Edad) no con escala categórica (ej. Sexo). No se centra la variable dependiente.

¿Para qué centrar los predictores en una regresión?

¿Evitar multicolinealidad (o alta correlación entre predictores)?

La razón más “famosa” para centrar, que es la que aparece constantemente en los artículos, es para evitar problemas de multicolinealidad, sobre todo en regresiones que incluyen alguna interacción entre predictores. De hecho, centrar predictores para evitar la multicolinealidad es el consejo de algunos de los más ilustres entendidos en el tema como Aiken y West (1991), Cronbach (1987) y Jaccard et al. (1990).

Sin embargo, más recientemente se ha demostrado que centrar no consigue en absoluto solucionar los problemas de multicolinealidad (Echambadi y Hess, 2007). Por lo tanto, no estaría justificado centrar para evitar la multicolinealidad. No os extrañéis si algún revisor pejiguero os viene con estas.

Las razones por las que estaría justificado centrar serían de un tipo más práctico:

  1. La escala del predictor es demasiado amplia. Por ejemplo, pensemos en número de habitantes en los países. Podríamos sustraer una constante a cada país para en los resultados hablar de millones de habitantes.

  2. Cuando vamos a sumar variables que tienen escalas muy diferentes. Si no cambiamos la escala de estas variables primero, podría ser que una de las variables tuviese un efecto más grande que la otra variable en los resultados.

  3. Para facilitar la interpretación de la constante (o intersección) de la ecuación de regresión. Si en el predictor el 0 no existe, entonces la constante no nos dice nada, porque no existe ningún caso con un 0 en el predictor. Sin embargo, si centramos el predictor alrededor de su media, entonces el valor de la constante nos indica el valor que tomaría la variable dependiente cuando el predictor tiene como valor su media.

Referencias:

Aiken, L. S., S. G. West. 1991. Multiple Regression: Testing and Interpreting Interactions. Sage Publications, Newbury Park, CA.

Cronbach, L. J. 1987. Statistical tests for moderator variables: flaws in analyses recently proposed. Psych. Bull. 102(3) 414–417.

Echambadi, Raj, and James D. Hess. Mean-centering does not alleviate collinearity problems in moderated multiple regression models. Marketing Science 26.3 (2007): 438-445.

Jaccard, J. R., R. Turrisi, C. K. Wan. 1990. Interaction Effects in Multiple Regression. Sage Publications, Newbury Park, CA.