A lomo de palabra: Big data mata ciencia

There is a lot of bullshit masquerading as science.

John Oliver

Todas las explicaciones posibles son verdaderas,

si no en nuestro mundo,

en cualquier otro lugar del universo infinito.

Epicuro

-->

Albricias

Big data mata rollo. ¡Muerte a todas las explicaciones y que viva el imperio de los datos duros! Dejad correr los algoritmos, liberen las inferencias y a la basura cualquier modelo. ¿Teoría? No, ¡guácala!

Zapatos blancos

De las muchas paradojas de confirmación que se han propuesto (reales o aparentes), tal vez la más famosa sea la del cuervo. Enseguida abrevo, traduzco y parafraseo de la página 173 de la segunda edición de The Cambridge Dictionary of Philosophy (1999).

Es plausible suponer que la afirmación 'Todos los cuervos son negros' puede confirmarse incrementalmente mediante la observación de uno de sus casos, a saber, un cuervo negro. Ahora, 'Todos los cuervos son negros' es lógicamente equivalente a 'Todos los que no son negros no son cuervos'. Por paridad de razonamiento, cualquier ente no-negro, por ejemplo, un zapato blanco, debería confirmar incrementalmente el juicio aludido. La condición de equivalencia —lo que confirma una hipótesis debe confirmar igualmente cualquier afirmación lógicamente equivalente a ésta— parece eminentemente razonable. Así las cosas, la ornitología de interiores se vuelve de lo más pertinente, ya que la observación de zapatos blancos parece confirmar de manera incremental la hipótesis de que todos los cuervos son negros: en la medida en la que observe más y más zapatos blancos se fortalecerá la teoría que establece que los cuervos son negros. La proposición 'Todos los cuervos son negros' es sólo una teoría, un modelo, que, en efecto, podría fortalecerse mediante la percepción de casos, pero no será una verdad absoluta en tanto no se observen todos los entes no negros, y no únicamente en las zapaterías. Con todo, mientras no aparezca un cuervo albino, la teoría funciona.

Navaja y caja

En 1976, George Edward Pelham Box (1919-2013) publicó en el Journal of the American Statistical Association una ponencia que habría de alcanzar celebridad porque en ella formuló la primera parte de un aforismo que los datistas han elevado ya a categoría de dogma: all models are wrong.

Dado que todos los modelos son incorrectos, el científico no puede obtener uno "correcto" por elaboración excesiva. Por el contrario, siguiendo a Guillermo de Ockham, debe buscar una descripción económica de los fenómenos naturales.

Por supuesto, la llamada al filósofo franciscano (1280-1349) se refiere a la lex parsimoniae o Navaja de Ockham, misma que cada vez resulta más frecuente escuchar, aunque navajeada a la mala: la explicación más sencilla suele ser la mejor, dicen, y dicen mal porque en realidad el principio establece: en igualdad de condiciones, la explicación más sencilla suele ser la más probable. Ojo: en igualdad de condiciones… Recontra ojo: la más probable, no la verdadera.

Dos años después, Box publicaría otra ponencia —Robustness in the strategy of scientific model building— en la que afinó su aforismo: Essentially, all models are wrong, but some are useful.

… sería muy notable si cualquier sistema existente en el mundo real pudiera ser representado exactamente por cualquier modelo simple. Sin embargo, los modelos parsimoniosos astutamente elegidos a menudo proporcionan aproximaciones muy útiles.

Claro, por ejemplo: 'Todos los cuervos son negros'.

Cuervos de colores

Arthur Oncken Lovejoy (1873-1962), pionero de la historia de las ideas, siguió la pista del principio filosófico que establece que el universo necesariamente contiene todas las formas posibles de existencia, el principio de plentitud —al que él denominó principle of the “fullness of being” (The Great Chain of Being. Harvard University Press, 1936)—. En la tradición occidental la idea se remonta al mismísimo Platón (c. 427-347 a. C.), fue retomada por Epicuro (341–270 a. C.), y llega hasta Spinoza (1632-1677), Gottfried Leibniz (1646-1716) y Kant (1724-1804), pasando por San Agustín (354-430) y Giordano Bruno (1548-1600). Leibniz, por ejemplo, afirma en su Théodicée (1701) que en el mejor de los mundos posibles se actualizaría cada posibilidad genuina, y el mejor de los mundos posibles contendrá todas las posibilidades; o en pocas palabras, que todo lo que pueda ocurrir, ocurrirá…., claro, incluido un cuervo albino… e incluso algunos de colores. Por eso, todo modelo será insuficiente.

Modelo descontinuado

De acuerdo a Burnham y Anderson —Model Selection and Multimodel Inference, 2002—, de lo establecido por Box se desprende que un modelo no puede ser verdadero, pero podría ser desde muy útil hasta totalmente inútil. Ciertamente, `Todos los cuervos son negros’ ha resultado muy útil…, mientras no tengamos la información de todos los cuervos. Pero según los datistas ya podemos ir diciéndole adiós esta lastimosa etapa de la Humanidad, conforme nos aproximemos a la algunos llaman la Era Petabyte. Leo en Techopedia: Petabyte Age se refiere a una era en el futuro próximo en la que la medición del almacenamiento de información deberá hacerse en petabytes (PB), cada uno de las cuales es igual a 1,024 terabytes. Muchos expertos —¿¡quiénes si no?!— consideran que durante la Petabyte Age, los científicos se abstendrán de elaborar hipótesis o modelos. Chris Anderson, editor en jefe de la revista Wired, lo escribía así hace poco: “Podemos dejar de buscar modelos. Podemos analizar los datos sin partir de hipótesis sobre lo que podrían mostrar. Podemos colocar los números en los grupos de computación más grandes que el mundo haya visto, y dejar que los algoritmos estadísticos encuentren patrones donde la ciencia no puede” (The End of Theory: The Data Deluge Makes the Scientific Method Obsolete)… ¿Será? Epicuro no descartaría la posibilidad…

A lomo de palabra

sábado, 27 de octubre de 2018

Big data mata ciencia

No hay comentarios:

Publicar un comentario