sábado, 27 de octubre de 2018

Big data mata ciencia


There is a lot of bullshit masquerading as science.

John Oliver



Todas las explicaciones posibles son verdaderas,

si no en nuestro mundo,

en cualquier otro lugar del universo infinito.

Epicuro
-->




Albricias


Big data
mata rollo. ¡Muerte a todas las explicaciones y que viva el imperio de los datos duros! Dejad correr los algoritmos, liberen las inferencias y a la basura cualquier modelo. ¿Teoría? No, ¡guácala!




Zapatos blancos


De las muchas paradojas de confirmación que se han propuesto (reales o aparentes), tal vez la más famosa sea la del cuervo. Enseguida abrevo, traduzco y parafraseo de la página 173 de la segunda edición de The Cambridge Dictionary of Philosophy (1999).


Es plausible suponer que la afirmación 'Todos los cuervos son negros' puede confirmarse incrementalmente mediante la observación de uno de sus casos, a saber, un cuervo negro. Ahora, 'Todos los cuervos son negros' es lógicamente equivalente a 'Todos los que no son negros no son cuervos'. Por paridad de razonamiento, cualquier ente no-negro, por ejemplo, un zapato blanco, debería confirmar incrementalmente el juicio aludido. La condición de equivalencia —lo que confirma una hipótesis debe confirmar igualmente cualquier afirmación lógicamente equivalente a ésta— parece eminentemente razonable. Así las cosas, la ornitología de interiores se vuelve de lo más pertinente, ya que la observación de zapatos blancos parece confirmar de manera incremental la hipótesis de que todos los cuervos son negros: en la medida en la que observe más y más zapatos blancos se fortalecerá la teoría que establece que los cuervos son negros. La proposición 'Todos los cuervos son negros' es sólo una teoría, un modelo, que, en efecto, podría fortalecerse mediante la percepción de casos, pero no será una verdad absoluta en tanto no se observen todos los entes no negros, y no únicamente en las zapaterías. Con todo, mientras no aparezca un cuervo albino, la teoría funciona.




Navaja y caja


En 1976, George Edward Pelham Box (1919-2013) publicó en el Journal of the American Statistical Association una ponencia que habría de alcanzar celebridad porque en ella formuló la primera parte de un aforismo que los datistas han elevado ya a categoría de dogma: all models are wrong.


Dado que todos los modelos son incorrectos, el científico no puede obtener uno "correcto" por elaboración excesiva. Por el contrario, siguiendo a Guillermo de Ockham, debe buscar una descripción económica de los fenómenos naturales.


Por supuesto, la llamada al filósofo franciscano (1280-1349) se refiere a la lex parsimoniae o Navaja de Ockham, misma que cada vez resulta más frecuente escuchar, aunque navajeada a la mala: la explicación más sencilla suele ser la mejor, dicen, y dicen mal porque en realidad el principio establece: en igualdad de condiciones, la explicación más sencilla suele ser la más probable. Ojo: en igualdad de condiciones… Recontra ojo: la más probable, no la verdadera.


Dos años después, Box publicaría otra ponencia
Robustness in the strategy of scientific model buildingen la que afinó su aforismo: Essentially, all models are wrong, but some are useful.


… sería muy notable si cualquier sistema existente en el mundo real pudiera ser representado exactamente por cualquier modelo simple. Sin embargo, los modelos parsimoniosos astutamente elegidos a menudo proporcionan aproximaciones muy útiles.


Claro, por ejemplo: 'Todos los cuervos son negros'.





Cuervos de colores


Arthur Oncken Lovejoy (1873-1962), pionero de la historia de las ideas, siguió la pista del principio filosófico que establece que el universo necesariamente contiene todas las formas posibles de existencia, el principio de plentitud —al que él denominó principle of the “fullness of being” (The Great Chain of Being. Harvard University Press, 1936)—. En la tradición occidental la idea se remonta al mismísimo Platón (c. 427-347 a. C.), fue retomada por Epicuro (341–270 a. C.), y llega hasta Spinoza (1632-1677), Gottfried Leibniz (1646-1716) y Kant (1724-1804), pasando por San Agustín (354-430) y Giordano Bruno (1548-1600). Leibniz, por ejemplo, afirma en su Théodicée (1701) que en el mejor de los mundos posibles se actualizaría cada posibilidad genuina, y el mejor de los mundos posibles contendrá todas las posibilidades; o en pocas palabras, que todo lo que pueda ocurrir, ocurrirá…., claro, incluido un cuervo albino… e incluso algunos de colores.  Por eso, todo modelo será insuficiente.




Modelo descontinuado



De acuerdo a Burnham y Anderson —Model Selection and Multimodel Inference, 2002—, de lo establecido por Box se desprende que un modelo no puede ser verdadero, pero podría ser desde muy útil hasta totalmente inútil. Ciertamente, `Todos los cuervos son negros’ ha resultado muy útil…, mientras no tengamos la información de todos los cuervos. Pero según los datistas ya podemos ir diciéndole adiós esta lastimosa etapa de la Humanidad, conforme nos aproximemos a la algunos llaman la Era Petabyte. Leo en Techopedia: Petabyte Age se refiere a una era en el futuro próximo en la que la medición del almacenamiento de información deberá hacerse en petabytes (PB), cada uno de las cuales es igual a 1,024 terabytes. Muchos expertos —¿¡quiénes si no?!— consideran que durante la Petabyte Age, los científicos se abstendrán de elaborar hipótesis o modelos. Chris Anderson, editor en jefe de la revista Wired, lo escribía así hace poco: “Podemos dejar de buscar modelos. Podemos analizar los datos sin partir de hipótesis sobre lo que podrían mostrar. Podemos colocar los números en los grupos de computación más grandes que el mundo haya visto, y dejar que los algoritmos estadísticos encuentren patrones donde la ciencia no puede” (The End of Theory: The Data Deluge Makes the Scientific Method Obsolete)… ¿Será? Epicuro no descartaría la posibilidad…


lunes, 15 de octubre de 2018

Big data is destroying science


There is a lot of bullshit masquerading as science.
John Oliver

All possible explanations are true,
if not in our world, in any other place in the infinite universe.
Epicurus




Good news

Big data destroys verbiage. Death to all explanations and long live the empire of hard data! Let the algorithms run, release the inferences and throw away any model. Theory? No, yuck!


White shoes

The raven paradox —also known as Hempel's paradox— is perhaps one of the most famous paradoxes of confirmation (real or apparent). In the next paragraph, I paraphrase from page 173 of The Cambridge Dictionary of Philosophy (1999).

It is plausible to assume that the statement 'All ravens are black' can be incrementally confirmed by the observation of one of its instances, namely, a black crow. Now, ‘All ravens are black’ is logically equivalent to ‘All non-black things are non-ravens.’ By parity of reasoning, an instance of this statement, namely, any nonblack non-raven (e.g., a white shoe), should incrementally confirm it. Moreover, the equivalence condition —whatever confirms a hypothesis must equally confirm any statement logically equivalent to it— seems eminently reasonable. Then, this analysis appears to facilitate indoor ornithology, since the observation of a white shoe would seem to confirm incrementally the hypothesis that all ravens are black. The proposition 'All ravens are black' is just a theory, a model, which, in fact, could be strengthened by the case observation, but it will not be an absolute truth as long as not all non-black entities are observed… and not just at the shoe stores. All in all, as long as an albino crow does not appear, the theory works.


The knife and the box

In 1976, George Edward Pelham Box (1919-2013) published a paper in the Journal of the American Statistical Association that received great accolade because in it he formulated the first part of an aphorism that the datism have already elevated to the category of dogma: all models are wrong.

Since all models are wrong the scientist cannot obtain a "correct" one by excessive elaboration. On the contrary following William of Occam he should seek an economical description of natural phenomena. Just as the ability to devise simple but evocative models is the signature of the great scientist so overelaboration and overparameterization is often the mark of mediocrity.

Of course, the reference to the Franciscan philosopher (1280-1349) alludes to the lex parsimoniae or Occam's razor, which is becoming more frequent to listen to, although badly cut: the simplest explanation is usually the best, they state. They state it wrong because, rather, the principle formulates: all things being equal, the simplest explanation is usually the most probable. Emphasize: under equal conditions ... Double emphasis: the most likely, but not necessarily true.

Two years later, Box published another paper —Robustness in the strategy of scientific model building— in which he refined his aphorism: Essentially, all models are wrong, but some are useful.

Now it would be very remarkable if any system existing in the real world could be exactly represented by any simple model. However, cunningly chosen parsimonious models often do provide remarkably useful approximations.

Of course, for example: 'All the ravens are black'.


Colorful ravens

Arthur Oncken Lovejoy (1873-1962), the pioneer of the discipline known as the history of ideas, followed the philosophical principle that the universe necessarily contains all possible forms of existence, the principle of plentitude —which he called “principle of the fullness of being” (The Great Chain of Being. Harvard University Press, 1936)—. In the Western tradition, the idea goes back to Plato (c. 427-347 BC), retaken by Epicurus (341-270 BC), and reached by Spinoza (1632-1677), Gottfried Leibniz (1646) -1716) and Kant (1724-1804), passing through San Agustín (354-430) and Giordano Bruno (1548-1600). Leibniz, for example, states in his Théodicée (1701) that in the best of possible worlds(ours), every genuine possibility would be actualized, and the best of all possible worlds will contain all possibilities; or in a few words, everything that can happen will happen… of course, including an albino raven… and even some colorful ones. Therefore, every model will be insufficient.


Discontinued model

According to Burnham and Anderson —Model Selection and Multimodel Inference, 2002—, it can be inferred from Box that even when models cannot be true, they can range from being totally useless to tremendously useful. Certainly, 'All the ravens are black' has been very useful…, as long as we do not have the information of all the ravens. But according to datism we can already say goodbye to this pitiful stage of Humanity, as we approach to the some call the Petabyte Era. I read from Techopedia: Petabyte Age refers to a futuristic age where the measurement of digital storage is available in petabytes (PB), each equal to 1,024 terabytes. During the age of the PB, scientific researchers will refrain from creating hypotheses or models and theory testing. Rather, advanced data mining will be used with PBs of data, available for reference.

Chris Anderson, editor-in-chief of Wired magazine, wrote about it recently: “We can stop looking for models. We can analyze the data without hypotheses about what it might show. We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot” (The End of Theory: The Data Deluge Makes the Scientific Method Obsolete) ... Will this happen? Epicurus would not rule out the possibility…

sábado, 13 de octubre de 2018

Big data: la luz


Un científico no es la persona que
da las respuestas correctas,
es quien hace las preguntas correctas.
Claude Levi-Strauss


Drunk and Lost Keychain 1

Facecia rancia, chiste viejo… Más que altas horas de la noche, ya es madrugada. Transcurren los instantes en los que la soledad se anima a salir a dar un  paseo por la ciudad. Ahorita ya ni los perros ladran. En una calle, a unos cuantos pasos de la esquina, un borrachín está buscando algo en la banqueta, muy cerca de un poste del alumbrado público. El hombre va y viene, encorvado, con la mirada clavada en el piso. Minutos más tarde pasa por ahí un policía… ¿Qué anda haciendo, amigo?, le pregunta. Pues estoy buscando mis llaves. El gendarme, acomedido, se acerca y comienza a ayudarle. Es un llavero con mis iniciales, informa el borrachín. La búsqueda continúa…


Big data

La bióloga Anne Corcoran encabeza un equipo de investigadores de primerísimo nivel en el Instituto Babraham de ciencias médicas, en Cambridge, Reino Unido. Su trabajo se dirige al análisis de los intrincados procesos por medio de los cuales nuestros genomas —el ADN enrollado en casi todas las células de nuestro cuerpo— se relacionan con el sistema inmunológico, y en especial con los anticuerpos que producimos para defendernos de las infecciones. Ella, quien fue formada en la vieja escuela, la del laboratorio, las cajas de Petri, las probetas y demás tubos de ensayo, afirma: “Para ser biólogo hoy en día necesitas ser un estadístico, o incluso un programador. Necesitas saber trabajar con algoritmos”. El cambio, más que mayúsculo, es sustancial, y responde a hechos recientes; por ejemplo, uno de la mayor relevancia: Tomó varios años poder secuenciar un genoma completo —el conjunto de genes contenidos en los cromosomas—, es decir, lograr determinar el orden de los tres mil millones de pares de letras de ADN en la hélice —
3,200 millones de pares de bases forman genes, repartidos entre los 23 pares de cromosomas—. “El Proyecto del Genoma Humano, la primera secuencia completa de un genoma humano completo, implicó alrededor de 13 años, desde su concepción hasta su finalización en 2003, y costó más de dos mil millones de libras esterlinas. Hoy en día, con la next-generation sequencing se puede conseguir lo mismo en 24 horas, invirtiendo no más de unos miles de libras”.

En efecto, actualmente la investigación genómica se realiza principalmente por biólogos armados de legiones de computadoras. Moritz Gerstung, líder del equipo de investigadores en el Instituto Europeo de Bioinformática, y Gil McVean, profesor de genética estadística en el Big Data Institute de la Universidad de Oxford, subrayan que el cambio de paradigma se percibe incluso en el diseño arquitectónico de los centros de desarrollo científico: “En un laboratorio de investigación de al menos 15 años de antigüedad, el 90% del espacio es para los laboratorios. Pero si hoy entras en uno, casi todas las personas están sentadas frente a las computadoras. Así que si hoy construyes un centro de investigación biomédica, lo harás con un 10% de laboratorio y un 90% de áreas de computación”. Por supuesto, se ha revolucionado no sólo los procedimientos de hacer ciencia, sino la manera de pensar de los científicos. El mismo doctor McVean explica a Tom Chivers, para Mosaic (How big data is changing science; 2/X/2018): “Uno de los grandes cambios en la ciencia ha sido alejarse de un método muy enfocado, orientado, basado en hipótesis del tipo ‘Tengo esta idea, diseño el experimento, ejecuto el experimento para demostrar si estaba o no en lo correcto’. Ahora, simplemente recopilas una inmensa cantidad de datos y dejas que sean los datos los que establezcan cuál deberá ser la hipótesis de trabajo. Si observas diez mil genomas de pacientes con una enfermedad determinada y diez mil de otras personas que no padecen esa enfermedad, puedes echar a andar algunos algoritmos para que los comparen, encontrar así las diferencias y luego determinar qué genes están vinculados a la enfermedad, sin tener que suponer con antelación cuáles podrían ser”. Nicole Wheeler, científica de datos del Instituto Sanger especializada en el análisis estadístico de los genomas de las bacterias patógenas, es aún más explícita: el tránsito hacia el modelo en el cual el científico es impulsado por los datos (being data-driven) se puede ver como un movimiento de la ciencia de prueba de hipótesis a la de la ciencia que auto-genera hipótesis. La cuestión puede expresarse también en los siguientes términos: la búsqueda ya no es conducida hacia una determinado punto por quien indaga con base en problemas y conjeturas, sino que se expande a donde haya datos para hacerlo.


Drunk and Lost Keychain 2

Han pasado algunos minutos… El borrachín y el policía siguen buscando el llavero perdido… Luego de un rato sin que aparezca, el policía cuestiona: Oiga, ¿y está seguro de que se le cayó su llavero por aquí? No, responde el hombre sin dejar de escudriñar el pavimento, se me cayó más atrás, pero allá no hay luz…

sábado, 6 de octubre de 2018

El estríper, el filósofo y el licenciado


El estríper


Pedro Camacho dice que la suya es “una gran esposa… Es artista, una artista extranjera”, afirma y sale de escena… “No se habían apagado las pisadas de Pedro Camacho —debía de estar llegando a la puerta de calle— y Pascual, el Gran Pablito y el doctor Rebagliati estallaron en carcajadas, a la vez que se guiñaban el ojo, ponían expresiones pícaras y señalaban el lugar por donde había partido”. La apostilla la suelta entonces Rebagliati, primero una sutileza y luego una puntualización léxica: “No es tan cojudo como parece, se hace el cojudo para disimular la cornamenta. Cada vez que habla de su mujer siento unas ganas terribles de decirle déjate de llamar artista a lo que en buen peruano se llama estriptisera de tres por medio”. Todos ellos son —como los lectores habrán ya identificado— personajes de La tía Julia y el escribidor (1977), novela de Vargas Llosa.

           
En buen mexicano no se le dice estriptisera o estriptisero, sino estríper, al sujeto, dama o varón, que se dedica profesionalmente al estriptis o estriptís, esto es, el “espectáculo erótico en el que una persona se va desnudando poco a poco al compás de la música” —Diccionario panhispánico de dudas de la RAE—. Pues de estríper chambeó Sergio Mayer Breton, diputado Federal morenista por el distrito 6 de la Ciudad de México, en quien recayó la presidencia de la Comisión de Cultura de la Cámara de Diputados, luego de que la presión social lograra que se le fuera arrebatado el encargo al tabasqueño Ricardo de la Peña Marshall, nomás por su estigma partidista —es del PES—. Como bien se sabe, ardió Troya. Subrayo la etapa laboral de exótico —ver tercera acepción del vocablo— del señor Mayer porque justo fue ahí adonde se concentró la mayoría de los porrazos que recibió a causa de su nombramiento… Incluso el dirigente del PES, muy probablemente dolido por el agravio, mordaz, dijo que si bien en su partido había actores y actrices, se reservaban el derecho de admisión para estríperes… Horas después, durante una entrevista televisiva, el ex Garibaldi argumentó: “para ser presidente de la Comisión de Cultura, pues tampoco necesitas ser Sócrates”. Claro, eso fue tratar de apagar el fuego a cubetazos de gasolina…





El filósofo


Trayendo a cuento al filósofo ateniense, supongo que el diputado intentó aducir que no es necesario ser culto para encabezar la mencionada Comisión de Cultura. Si en efecto eso trató de hacer, erró el tiro: Sócrates (c. 470 – 399 a. C.) fue un hombre extraordinariamente sabio, ni duda cabe, pero no culto, si entendemos que es culto alguien “dotado de las calidades que provienen de la cultura o instrucción” —RAE dixit—. Ocurre que para ser quien fue, Sócrates no requirió ser culto, según se desprende de sus propios argumentos. Al cierre del quinto libro de la República, Platón (c. 427-347 a. C.) da voz a su maestro, quien establece que “… ha de llamarse 'filósofos' a los que dan la bienvenida a cada una de las cosas que son en sí, y no [a los] 'amantes de la opinión'”. En el siguiente libro, en diálogo con Adimanto y Glaucón, el mismo Sócrates se dedica a describir el perfil ideal de quien tenga pensado dedicarse a la filosofía:




  • “… los filósofos… siempre aman aquel estudio que les hace patente la realidad…”
  •  Puesto que no hay nada “más emparentado a la sabiduría que la verdad…, es necesario que el que ama verdaderamente aprender aspire desde muy temprano a la verdad íntegra”.
  • “… abandona los placeres corporales si es que ha de ser filósofo verdaderamente”.
  • “… será moderado y de ningún modo amante de las riquezas…”
  •  “… nada que tenga parte en lo servil; porque la mezquindad es… lo más opuesto a un alma que haya de suspirar siempre por la totalidad íntegra de lo divino y lo humano”.
  • “… una naturaleza cobarde y servil no le corresponde tomar parte, según parece, en una verdadera filosofía”.
  • “… el alma del filósofo… desde temprano es  alma justa y mansa”
  • “… no debemos admitir el alma olvidadiza entre las debidamente filosóficas, sino que hemos de buscar una dotada de buena memoria”.
  • “… naturalmente dotado de mesura y gracia y que, por su propia naturaleza se deje guiar fácilmente hacia el aspecto de lo que es cada cosa”.

           
En suma, para poder desempeñarse adecuadamente en el oficio que profesó Sócrates, el interesado debe “por naturaleza [estar] dotado de memoria, [tener] facilidad para aprender, grandeza de espíritu y de gracia…” y ser “… amigo y congénere de la verdad, de la justicia, de la valentía y de la moderación”. ¿Nada más? No, más todavía: esos hombres deben además luego ser “perfeccionados por la educación y por la edad”.

           
Así que no sólo no se requiere ser Sócrates; serlo
sería un impedimento.







El licenciado


Además del fallido argumento de que no es necesario ser Sócrates para presidir
la Comisión de Cultura de la Cámara de Diputados, Mayer ha insistido en que tiene años de experiencia como actor y productor de televisión y cine, cantante, locutor, estríper y otros roles en el llamado mundo del espectáculo. Para mí más que bueno eso es malo, porque hace pensar que el señor tiene una idea achaparrada de la cultura, enfocada en la farándula. No he escuchado que mencione un dato que yo habría pensado relevante: el ex estríper tiene un título universitario —es licenciado en Administración de Empresas por la Universidad Iberoamericana—. Eso muestra que ser licenciado hoy ya no hace pasar a nadie por sabio, vamos, ni siquiera culto.

-->