sábado, 13 de octubre de 2018

Big data: la luz


Un científico no es la persona que
da las respuestas correctas,
es quien hace las preguntas correctas.
Claude Levi-Strauss


Drunk and Lost Keychain 1

Facecia rancia, chiste viejo… Más que altas horas de la noche, ya es madrugada. Transcurren los instantes en los que la soledad se anima a salir a dar un  paseo por la ciudad. Ahorita ya ni los perros ladran. En una calle, a unos cuantos pasos de la esquina, un borrachín está buscando algo en la banqueta, muy cerca de un poste del alumbrado público. El hombre va y viene, encorvado, con la mirada clavada en el piso. Minutos más tarde pasa por ahí un policía… ¿Qué anda haciendo, amigo?, le pregunta. Pues estoy buscando mis llaves. El gendarme, acomedido, se acerca y comienza a ayudarle. Es un llavero con mis iniciales, informa el borrachín. La búsqueda continúa…


Big data

La bióloga Anne Corcoran encabeza un equipo de investigadores de primerísimo nivel en el Instituto Babraham de ciencias médicas, en Cambridge, Reino Unido. Su trabajo se dirige al análisis de los intrincados procesos por medio de los cuales nuestros genomas —el ADN enrollado en casi todas las células de nuestro cuerpo— se relacionan con el sistema inmunológico, y en especial con los anticuerpos que producimos para defendernos de las infecciones. Ella, quien fue formada en la vieja escuela, la del laboratorio, las cajas de Petri, las probetas y demás tubos de ensayo, afirma: “Para ser biólogo hoy en día necesitas ser un estadístico, o incluso un programador. Necesitas saber trabajar con algoritmos”. El cambio, más que mayúsculo, es sustancial, y responde a hechos recientes; por ejemplo, uno de la mayor relevancia: Tomó varios años poder secuenciar un genoma completo —el conjunto de genes contenidos en los cromosomas—, es decir, lograr determinar el orden de los tres mil millones de pares de letras de ADN en la hélice —
3,200 millones de pares de bases forman genes, repartidos entre los 23 pares de cromosomas—. “El Proyecto del Genoma Humano, la primera secuencia completa de un genoma humano completo, implicó alrededor de 13 años, desde su concepción hasta su finalización en 2003, y costó más de dos mil millones de libras esterlinas. Hoy en día, con la next-generation sequencing se puede conseguir lo mismo en 24 horas, invirtiendo no más de unos miles de libras”.

En efecto, actualmente la investigación genómica se realiza principalmente por biólogos armados de legiones de computadoras. Moritz Gerstung, líder del equipo de investigadores en el Instituto Europeo de Bioinformática, y Gil McVean, profesor de genética estadística en el Big Data Institute de la Universidad de Oxford, subrayan que el cambio de paradigma se percibe incluso en el diseño arquitectónico de los centros de desarrollo científico: “En un laboratorio de investigación de al menos 15 años de antigüedad, el 90% del espacio es para los laboratorios. Pero si hoy entras en uno, casi todas las personas están sentadas frente a las computadoras. Así que si hoy construyes un centro de investigación biomédica, lo harás con un 10% de laboratorio y un 90% de áreas de computación”. Por supuesto, se ha revolucionado no sólo los procedimientos de hacer ciencia, sino la manera de pensar de los científicos. El mismo doctor McVean explica a Tom Chivers, para Mosaic (How big data is changing science; 2/X/2018): “Uno de los grandes cambios en la ciencia ha sido alejarse de un método muy enfocado, orientado, basado en hipótesis del tipo ‘Tengo esta idea, diseño el experimento, ejecuto el experimento para demostrar si estaba o no en lo correcto’. Ahora, simplemente recopilas una inmensa cantidad de datos y dejas que sean los datos los que establezcan cuál deberá ser la hipótesis de trabajo. Si observas diez mil genomas de pacientes con una enfermedad determinada y diez mil de otras personas que no padecen esa enfermedad, puedes echar a andar algunos algoritmos para que los comparen, encontrar así las diferencias y luego determinar qué genes están vinculados a la enfermedad, sin tener que suponer con antelación cuáles podrían ser”. Nicole Wheeler, científica de datos del Instituto Sanger especializada en el análisis estadístico de los genomas de las bacterias patógenas, es aún más explícita: el tránsito hacia el modelo en el cual el científico es impulsado por los datos (being data-driven) se puede ver como un movimiento de la ciencia de prueba de hipótesis a la de la ciencia que auto-genera hipótesis. La cuestión puede expresarse también en los siguientes términos: la búsqueda ya no es conducida hacia una determinado punto por quien indaga con base en problemas y conjeturas, sino que se expande a donde haya datos para hacerlo.


Drunk and Lost Keychain 2

Han pasado algunos minutos… El borrachín y el policía siguen buscando el llavero perdido… Luego de un rato sin que aparezca, el policía cuestiona: Oiga, ¿y está seguro de que se le cayó su llavero por aquí? No, responde el hombre sin dejar de escudriñar el pavimento, se me cayó más atrás, pero allá no hay luz…

No hay comentarios:

Publicar un comentario