lunes, 12 de noviembre de 2018

_- Post hoc, ergo propter hoc. Con datos suficientes, los números hablan por sí mismos. [...] La correlación suplanta la causalidad Post hoc, ergo propter hoc.

_- 05-11-2018
Hubert Krivine Viento Sur
Ciencia

Correlaciones ilusorias o coincidencias
Figura 1 – Consumo de queso per cápita (capita cheese consumption) y número de personas muertas por enredarse entre las sábanas de la cama (Number of people who died by becoming tangled in their bedsheets).

Eliminemos en primer lugar el caso de las correlaciones casuales, que no tienen utilidad alguna, a menos que sea con fines de engaño. El mecanismo es simple. Todos los años se producen miles de millones de acontecimientos y hoy en día, gracias en particular a los datos masivos, disponemos de la traza escrita de la evolución 1/ de varios millones de ellos. Tiene que ser sin duda obra del diablo si eligiendo una no encontramos, entre los millones de trazas restantes, otra que se le parezca, sobre todo si podemos manipular las escalas de representación.


La página web http://tylervigen.com/spurious-correlations muestra muchos ejemplos absurdos, pero espectaculares, como:

· Gasto en investigación científica, espacial y tecnológica, y número de suicidios por ahorcamiento;
· Porcentaje de divorcios en Maine y consumo per cápita de margarina;
· Número de víctimas de ahogo en las piscinas y potencia generada por las centrales nucleares norteamericanas.

Las correlaciones causales
En el otro extremo se hallan las correlaciones causales: en todos los casos, si corremos los cien metros, nuestro ritmo cardiaco se acelera. Pueden ser solamente probabilísticas: a menudo, cuando hemos bebido, nos ponemos divertidos. Queda el problema –que puede ser espinoso– del sentido de la causalidad. ¿Por qué hay que dar por sentado que la correlación establecida entre el peso de la deuda y la desaceleración del crecimiento implica que la primera es la causa de la segunda? ¿Por qué no a la inversa? Mejor aún: a los sindicatos que preconizan la reducción de la vida laboral para combatir el paro de la gente joven se oponen estadísticas que parecen demostrar que es en los países en que las personas mayores continúan trabajando donde la tasa de paro es más baja. Cito:

Entonces se pensaba –con no poca inocencia, e incluso se podría decir que con bastante pereza– que, desprendiéndonos de los mayores, haríamos sitio a las generaciones jóvenes. Ahora se sabe que los países que tienen la tasa de paro más baja son también los que permiten trabajar a los mayores. [Vincent Giret, France info, 01/06/2016.]

Dando más trabajo a los mayores se favorece el empleo de los jóvenes, ¿es eso lo que propone, sin decirlo, Giret? ¿Acaso no cabe pensar que los países que más emplean a los mayores también son los que tienen más ofertas de empleo sin cubrir? Por tanto, no es porque se permite trabajar a las personas mayores que se hace sitio para la gente joven.

Una última observación. Es probable que el ejercicio físico mejore la esperanza de vida: todas las estadísticas demuestran que quienes practican el jogging a la edad de 60 años se encuentran mejor que la media a la edad de 70 años. Pero esto a todas luces no es una demostración; podría ser que quienes pueden practicar este deporte a los 60 años ya se encuentran en mejor estado de salud que la media. Por consiguiente, hace falta indagar más sobre las causas para saber si quienes corren viven mejor porque han corrido o que han corrido porque ya gozaban de buena salud. Para pasar de la correlación a la causalidad no podemos prescindir nunca de la teoría o de la explicación. (Cosa que hace el GIEC correlacionando causalmente el calentamiento climático y las emisiones antrópicas).

Correlaciones no causales, pero predictivas
Las correlaciones causales son, casi por definición, predictivas. Son sin duda las que ante todo interesan a los científicos. No obstante, hay correlaciones no causales que pueden ser igualmente predictivas. Y si estas interesan asimismo a los investigadores, particularmente a los que trabajan en sectores como las ciencias de la vida cuando las teorías son (¿todavía?) débiles, interesan también a muchísimos usuarios, como los publicistas, los previsores de toda clase, las compañías de seguros, los sociólogos, los policías.

Es conocido el chiste que, partiendo de la correlación íntima y demostrada entre la talla de los pies de los alumnos y su nivel de matemáticas, deduce que cuando más grandes sean sus pies, mejores son sus conocimientos de matemáticas. La correlación es evidente, ¿pero la causalidad? Está claro que la talla de los pies no es una causa, sino tan solo un indicador de la edad de los escolares.

He aquí un ejemplo igual de caricaturesco, pero este sí sacado de la vida misma. Un estudio aparentemente erudito, reproducido sin comentarios en el muy serio Quotidien du médecin del 9 de enero de 2015, concluye que:

El consumo cotidiano de bebidas energizantes por parte de jóvenes escolares parece incrementar un 66% el riesgo de desarrollar síntomas asociados a un síndrome de déficit de atención con o sin hiperactividad (TDAH), según un estudio publicado hoy en Academic Pediatric 2/.

Esto no es nada evidente y habrá hecho falta una enorme base de datos para llegar a esta conclusión. Los datos son incontestables, pero ¿existe causalidad? Lo más probable es que los chavales que abusan de dichas bebidas provengan estadísticamente de ambientes más bien pobres. El hecho de que el éxito escolar dependa de ello no extrañará entonces a nadie 3/. Prohibir las bebidas energizantes no cambiará nada. Y a la inversa, apostamos a que la colocación de una máquina expendedora de Coca-Cola en un instituto renombrado por su alto rendimiento escolar no hará que descienda el nivel.

¿Actuar sin comprender?
Las correlaciones no causales (no explicativas) pueden tener un valor predictivo superior a las previsiones teóricas; en todo caso, tienen el mérito de estar disponibles cuando la teoría no existe o todavía está en pañales. Dadme el consumo cotidiano de bebidas energizantes de un alumno y yo predeciré –en promedio, claro está– su nivel de atención, como el número que calza me indicará su nivel de matemáticas. De hecho, la cantidad diaria de Coca-Cola y el número del calzado son termómetros. Recordemos que el termómetro, si bien no es la causa de la fiebre, sí es un buen indicador de la temperatura.

No pocas correlaciones no causales están vinculadas entre ellas a través de una causa común, eventualmente ignorada 4/. Así, están correlacionados el número de muertes por ahogamiento y el consumo de helados (cuando hace calor, la gente se baña más). Esto explica su valor predictivo eventual y por tanto el éxito de los datos masivos, que permiten localizarlas.

Prever sin comprender puede llevar a actuar sin comprender, lo que a menudo es necesario, pero que también puede resultar grotesco, contraproducente o incluso peligroso. Suprimir las máquinas expendedoras de bebidas energizantes no mejorará el rendimiento escolar y hacer trabajar durante más tiempo a los mayores no absorberá el paro de los jóvenes. Más delicada es la situación en que se requiere una acción inmediata. Cabe pensar en cosas consideradas realmente serias, como las decisiones bursátiles, que actualmente deben adoptarse casi en cuestión de microsegundos. Pensamos asimismo en la conducción automática de trenes, aviones y, mañana, automóviles. ¿Y para cuándo la dotación de armas de los robots de vigilancia que sustituirán a los vigilantes? Sin hablar ya de la activación del disparo de los drones militares, ni del lanzamiento de misiles intercontinentales dotados de armas atómicas para contrarrestar una amenaza potencial (nuclear deterrent).

La correlación en sustitución del razonamiento
Cito la posición extremista y desgraciadamente popular de un Chris Anderson. El título de su artículo 5/ lo dice todo: El fin de la teoría: el diluvio de datos convierte en obsoleto el método científico. En él leemos:

Con datos suficientes, los números hablan por sí mismos. [...] La correlación suplanta la causalidad, y la ciencia puede avanzar incluso sin un modelo coherente, sin una teoría unificada o incluso sin ninguna explicación mecanicista.

Para él, la idea –ingenua– es que los datos brutos, siempre que existan en cantidad suficiente, no pueden mentir. Hacemos nuestra esta buena respuesta de la filósofa belga Antoinette Rouvroy:

Pero ¿por qué inquietarse si se gana en eficacia?
Vamos hacia un importante cambio epistemológico. Remitirse a este tipo de cálculo traduce una renuncia a las ambiciones de la razón moderna, que asociaba los fenómenos a sus causas. Estas ambiciones de la razón permitían abordar la prevención, actuar sobre las causas para cambiar los efectos. En vez de ello, nos dirigimos hacia un sistema de puras correlaciones.

Ya no se trata de comprender el medioambiente, se intenta predecirlo. Nuestra relación con el saber cambia, al igual que nuestra relación con el mundo: nos centramos más que antes en los riesgos. Ver y comprender se sustituyen por detectar y prevenir. Pasamos de una civilización del signo, que era portador de sentido, a una civilización de la señal, que es un dato que no significa nada en sí mismo.

Notas

1/ Modificando la escala de las ordenadas se puede establecer a voluntad la pendiente media de las curvas.
2/ Referencia: Mayo-junio de 2015, volumen 15, n.º 3, páginas 297-304.
3/ Por cierto, para mejorar la estadística de rendimientos escolares, nada mejor que expulsar a los alumnos pobres de los establecimientos; cosa que ya se hace con el mapa escolar.
4/ O bien porque la no causalidad se deriva de una inversión entre la causa y el efecto.
5/ Se puede consultar en https://www.wired.com/2008/06/pb-theory/

Fuente: https://vientosur.info/spip.php?article14336

No hay comentarios: