Las correlaciones
entre variables nos muestran que hay un patrón en los datos, que las
variables tienden a moverse conjuntamente. Sin embargo, por sí mismas,
las correlaciones no nos muestran si los datos se mueven juntos porque una variable causa la otra.
Es posible encontrar una correlación fiable y estadísticamente
significativa entre dos variables que en realidad no tienen ninguna
relación causal. ¡De hecho, estas correlaciones son comunes! A menudo
esto se debe a que ambas variables están asociadas a una variable causal
diferente, que tiende a darse junto a los datos que estamos midiendo.
Ejemplo: el ejercicio y el cáncer de piel
Vamos a verlo con un ejemplo. Imagine que está analizando datos sobre
salud y observa una correlación positiva y estadísticamente
significativa entre ejercicio y casos de cáncer de piel, esto es, que
las personas que hacen más ejercicio tienden a sufrir cáncer de piel. La
correlación parece significativa y fiable, y podemos observarla en
múltiples poblaciones de pacientes. Sin hacer más indagaciones, ¡se
podría llegar a la conclusión de que el ejercicio causa cáncer!
Basándose en estos resultados, incluso podría desarrollarse una
hipótesis plausible: quizás el estrés del ejercicio causa que el cuerpo
pierda parte de su capacidad para protegerse del daño del sol.
Pero en realidad, esta correlación podría estar presente en su
conjunto de datos porque las personas que viven en lugares que tienen
mucha luz solar todo el año son significativamente más activas en su
vida diaria que las personas que viven en lugares con menos luz. Esto se
refleja en los datos como un incremento del ejercicio. Al mismo tiempo,
mayor exposición diaria a la luz solar significa que hay más casos de
cáncer de piel. Ambas variables (la tasa de ejercicio y la de cáncer de
piel) han sido afectadas por una tercera variable causal (la exposición a
la luz solar) pero no tenían una relación causal entre sí.
...pero con estudios empíricos bien diseñados, ¡podemos establecer la causalidad!
Es fundamental para el conocimiento de datos poder distinguir entre
aquello que ofrece, o no, una evidencia causal. En el mundo real, la
determinación de causalidad nunca es perfecta. Sin embargo, hay una
variedad de técnicas experimentales, estadísticas y de diseño de
estudios que sirven para encontrar evidencias de relaciones causales: p.
ej., la aleatorización, los experimentos controlados y los modelos
predictivos con múltiples variables. Más allá de las limitaciones
intrínsecas de las pruebas de correlación (p. ej., la correlación no
puede medir relaciones causales potenciales con tres variables), es
importante entender que la evidencia de causalidad usualmente no procede
de pruebas estadísticas individuales, sino de un diseño experimental
cuidadoso.
Ejemplo: enfermedades de corazón, dieta y ejercicio
Por ejemplo, vamos a imaginar de nuevo que somos investigadores de
salud y que estamos examinando un amplio conjunto de datos sobre las
enfermedades cardíacas, dieta y otros hábitos de salud. Supongamos que
encontramos dos correlaciones: un número mayor de enfermedades cardíacas
está correlacionado con dietas más altas en grasa (correlación
positiva) y una mayor cantidad de ejercicio está correlacionada con
menos enfermedades cardíacas (correlación negativa). Ambas correlaciones
son grandes y las encontramos de manera fiable. Seguro que esto nos da
una pista sobre la causalidad, ¿verdad?
En este caso, la correlación puede sugerir una relación causal
subyacente, pero sin un trabajo adicional, no la establece. Imaginemos
que después de encontrar estas correlaciones, nuestro siguiente paso es
diseñar un estudio biológico que examine las maneras en las que el
cuerpo absorbe la grasa y cómo afecta esto al corazón. Quizás
encontremos un mecanismo a través del cual un mayor consumo de grasa se
almacena de tal manera que somete al corazón a mayor presión. También
podemos examinar en más profundidad el ejercicio y diseñar un
experimento aleatorizado y controlado que descubra que el ejercicio
interrumpe el almacenamiento de grasa, lo que reduce la presión sobre el
corazón.
Todas estas evidencias encajan en una explicación: las dietas más
altas en grasa realmente pueden causar enfermedades cardíacas. Y a
medida que nos adentramos en el problema, las correlaciones originales
siguen siendo válidas: ¡las dietas altas en grasa y las enfermedades
cardíacas están relacionadas!
Pero en este ejemplo, observamos que la evidencia causal no fue
facilitada por la prueba de correlación en sí, la cual simplemente
estudia la relación entre datos observacionales (como el índice de
enfermedades cardíacas y dieta y ejercicio reportados). En su lugar,
usamos un estudio empírico para encontrar evidencias de esta asociación.
Por tanto, ¿cómo exploramos la causalidad? ¡Con un tipo de estudio adecuado!
Entender la causalidad es un tema complicado. En el mundo real, nunca
podemos acceder a todos los datos que necesitaríamos para establecer
todas las relaciones posibles entre variables. Pero hay algunas
estrategias clave para ayudarnos a aislar y explorar los mecanismos
entre diferentes variables. Por ejemplo, en un experimento controlado,
podemos intentar crear dos grupos muy similares y aplicar al azar un
tratamiento o intervención a uno solo de ellos.
El principio de la aleatorización es fundamental en el diseño
experimental y entender este contexto puede cambiar lo que somos capaces
de inferir de las pruebas estadísticas.
Vamos a ver de nuevo el primer ejemplo de arriba, que examinaba la
relación entre ejercicio y tasas de cáncer de piel. Imaginemos que de
alguna manera podemos seleccionar una muestra grande de personas
distribuidas en todo el mundo y asignarles al azar que hagan ejercicio a
diferentes niveles cada semana durante diez años. Al finalizar este
periodo, también recopilamos tasas de cáncer de piel de este gran grupo.
Al final, tendríamos un conjunto de datos diseñado experimentalmente
para probar la relación entre ejercicio y cáncer de piel. Como el
ejercicio ha sido manipulado directamente en el experimento mediante
asignación aleatoria, no estará sistemáticamente relacionado con ninguna
otra variable que podría ser diferente entre estos dos grupos
(asumiendo que todos los demás aspectos del estudio son válidos). Esto
significa que en este caso, como nuestros datos se han obtenido a través
de un diseño experimental sólido, una correlación positiva entre
ejercicio y cáncer de piel sí que sería una evidencia significativa de causalidad.