Seguimos aprendiendo

Carolina Gutiérrez Montero.

Por Carolina Gutiérrez Montero (investigadora biomédica)
El pasado jueves 14 de junio tuvo lugar la Conferencia mensual de la Asociación Española de la Singularidad (AES) impartida por el Doctor Alfonso Zamora Saiz que nos hizo un certero acercamiento al campo del Big Data desde su aproximación matemática.
El acto tuvo lugar en el salón de actos del Colegio Oficial de Químicos de Madrid, y contamos con la presencia de su decano, el catedrático Ricardo Díaz Martín que fue el encargado de introducir a nuestro ponente.
Con una excelente charla titulada “Las matemáticas del Big Data”, el profesor Zamora nos introdujo en el apasionante mundo y prometedor futuro de los nuevos análisis estadísticos y todas las posibilidades que de ellos se derivan.
Aprendimos entre otras cosas, que el Big Data tuvo su origen a raíz de la famosa máquina tabuladora de Hollerith: una de las primeras máquinas de aplicación en informática.
En 1890, Herman Hollerith había desarrollado un sistema de tarjetas perforadas eléctricas y basado en la lógica de Boole (considerado como uno de los fundadores del campo de las Ciencias de la Computación) aplicándolo a una máquina tabuladora de su invención. La máquina de Hollerith se usó para tabular el censo de aquel año en los Estados Unidos. La máquina tenía un lector de tarjetas, un contador, un clasificador y un tabulador creado por el mismo. Así, en 1896, Hollerith crea la Tabulating Machine Company, con la que pretendía comercializar su máquina. La fusión de esta empresa con otras tres (International Time Recording Company, la Computing Scale Corporation, y la Bundy Manufacturing Company), dio lugar, en 1924, a la International Business Machines Corporation, más conocida como IBM, cuyo primer presidente fue Thomas John Watson, que curiosamente no estaba muy convencido del futuro que podían tener estas máquinas.
Fue ya en el año 1997 cuando se acuñó por primera vez el término Big Data por los investigadores de la NASA Michael Cox y David Ellsworth al referirse al problema de los sistemas informáticos del momento ante el incesante crecimiento de datos.
Como muy bien nos explicó nuestro ponente en el Big Data tenemos que tener en cuenta tres dimensiones: volumen, velocidad y variabilidad.
Porque nos referimos a conjuntos de datos o combinaciones de conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales, tales como bases de datos relacionales y estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que sean útiles.
Tenemos que dejar a un lado lo que sería una estadística clásica o Bayesina y meternos de lleno en un aprendizaje estadístico, tanto supervisado como no supervisado (como lo definen los expertos) y aplicar un sistema de statistical learning que sería la forma de extraer toda la información de una gran base de datos para localizar aquello que nos hemos preguntado.
Una de las cosas que hace que la aplicación del Big Data sea tan útil para muchas empresas es el hecho de que proporciona respuestas a muchas preguntas que las empresas ni siquiera sabían que tenían. Con una cantidad tan grande de información, los datos pueden ser moldeados o probados de cualquier manera que la empresa considere adecuada. Al hacerlo, las organizaciones son capaces de identificar los problemas de una forma más comprensible.
Importantes aplicaciones podemos encontrar también en el campo de la salud y más específicamente en el diagnóstico de determinadas enfermedades. Por ejemplo, en el campo del análisis genético centrado en la búsqueda de determinados genes o secuencias génicas relacionados directamente con el desarrollo de determinadas enfermedades encontramos una gran aplicabilidad.
Podemos encontrarnos ante millones de secuencias génicas que somos incapaces de analizar sin el empleo de herramientas informáticas, con softwares específicos que nos permitan establecer relaciones causales entre una determinada patología y la presencia de uno o varios genes alterados respecto a un individuo sano: para todo esto, necesitamos del Big Data.
Y para conseguirlo como no podría ser de otra manera, y bien nos recordó el profesor Zamora al finalizar su charla, se necesita de políticas públicas que apoyen la ciencia, la innovación y todos estos sistemas en desarrollo. Políticas que favorezcan las colaboraciones público-privada y políticas que pongan estos grandes avances tecnológicos al servicio de todos los ciudadanos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.