Imagina que estás observando el tiempo y cómo afecta a la venta de helados. Si notamos que en los días calurosos la venta de helados aumenta, podríamos decir que hay una correlación positiva entre la temperatura y las ventas de helados. Esto significa que cuando hace calor, la gente tiende a comprar más helados. Por otro lado, si en los días fríos las ventas de helados disminuyen, estaríamos viendo una correlación negativa.
La correlación nos ayuda a entender si dos cosas están relacionadas y cómo se comportan juntas. Podríamos decir que cualifica -o da sentido- a una relación entre dos cosas.
Por ejemplo, hay correlación positiva entre el aumento de temperatura y las mordeduras de serpiente o la peor calidad del aire con la resistencia a antibióticos. Los científicos llegan a algunas correlaciones tras analizar miles de datos de manera rigurosa, a otras podemos llegar en base a la experiencia, por ejemplo: la correlación positiva entre ser político en España y aumentar significativamente tus ingresos.
Y luego está la mano de Dios. A otras personas (más aburridas) les gusta llamarlo causalidad. Ahora lo explicaré, pero antes necesito mostraros la siguiente gráfica que correlaciona en positivo el número de películas en las que aparece Nicoles Cage y los ahogamientos en piscinas. Sí, la gráfica no miente, a más películas de Nicolas Cage, más muertes en la piscina. Y se ha cumplido durante 10 años.
¿Nicolas se dedica a ahogar gente para reducir el estrés de su trabajo?. Espero que no; la explicación es mucho más sencilla: no existe correlación, aunque lo parezca.
Tampoco está la mano de Dios detrás de esto. Si dos variables son verdaderamente independientes, como es el caso, entonces no están correlacionadas. ¿Por qué parece que sí? porque se ha analizado una muestra arbitraria y, durante un periodo de tiempo específico coincidieron. Nada más. La próxima vez que leáis alguna noticia que indique una relación o correlación, preguntaros antes si el análisis y estudio ha sido riguroso o si se trata de una mera manipulación de los datos.
Ejemplos tenemos muchos. Uno de los que más me gusta es las veces que el equipo de béisbol de Philadelphia, los Phillies, han llegado a la final de las series mundiales, ha habido una crisis mundial: 1929, 1980, 2008 y 2022.
Lógicamente un evento que ha ocurrido 4 veces en 100 años no se puede categorizar como correlación positiva. Casualidad o azar, pero nada más.
Otro ejemplo lo tenemos en el ratio de muertes por COVID-19 en EEUU, que correlaciona positivamente con el nombre del estado. A mayor número de letras del estado, mayor es el ratio de muertes.
Sed críticos con la información que consumís y no deis todo por hecho. Las casualidades existen y no son más que eso, casualidades. Incluso las fuentes más fiables o entidades prestigiosas pueden cometer errores. Pensad por vosotros mismos.
Si tenéis curiosidad por saber más, os recomiendo el proyecto http://datacolada.org/ donde se recopilan estudios que se han basado en datos falsos, adulterados o de baja calidad. Si la muestra analizada no es correcta, ¿podemos asumir que las conclusiones son correctas? En ningún caso.