El poder de los datos

Por Alfonso Zamora Saiz.
Desde hace unos 15 años, las grandes empresas multinacionales han entendido que el futuro de la tecnología, la economía y el negocio pasa por el dato, por los datos a gran escala, lo que se suele llamar Big Data. Nadie que quiera emprender a una cierta escala puede obviar un profundo estudio del mercado al que se dirige, y este estudio será de una dimensión muy considerable, no abarcable con técnicas ni siquiera de finales del siglo XX: necesitamos técnicas estadístico-matemáticas vanguardistas.
La información siempre ha sido poder. Tener acceso a datos de personas resulta crucial en cualquier negocio, en cualquier contienda. Y cuanto más fiables sean estos datos, más elaborados, más campos contengan y menos errores incluyan tanto mejor. Las bases de datos han dejado de ser carpetas y tomos que se apilan en estanterías para ocupar dispositivos de almacenamiento y nubes, cuyo espacio y capacidad también se paga, como el que compra o alquila un almacén o un trastero.
Hoy, el reto es múltiple. Por una parte necesitamos la recogida de esta información, la minería de datos o data mining, que puede ser muy costosa en tiempo y dinero. No hablamos de una encuesta de 5 puntos a unas mil personas, vamos mucho más allá. Hablamos de miles (o millones) de variables cruzadas a una población de miles (o millones) de personas, donde muy posiblemente haya miles de huecos en blanco, sea por falta de respuesta, por error del encuestador o por no tener sentido la respuesta en este contexto. Tras esta labor tendremos que restaurar toda esta cantidad ingente de datos y estructurarla, lo que se llama data handling, para que nos permita manejar grandes matrices de datos cruzados y estudiar sus relaciones.
Las respuestas a esta recogida de información y, por tanto, los datos, serán numéricos cuantitativos, o atributos cualitativos, y tendremos que aprender a combinarlos y entenderlos de forma global. Este es el reto del aprendizaje estadístico o statistical learning, y es donde entra la matemática con toda su profundidad. Necesitamos comprender las relaciones de causa-efecto que se dan en nuestra base de datos, qué cosas dependen de qué otras, sus correlaciones, sus desviaciones, y con ello construiremos modelos estadísticos que pretenden describir la realidad subyacente a este estudio. En definitiva, queremos obtener un modelo, un conjunto de reglas lo más sencillo posible, que organicen los millones de números y palabras que hemos recolectado. Nuestro deseo último es que estos modelos nos indiquen las tendencias, los nichos de negocio, los individuos que desean comprar y cuánto y qué, y los que no, los crecimientos demográficos, laborales, las inercias de los mercados y las previsiones futuras. Porque, en definitiva, todo negocio se vale de eso, de una inversión inicial y de una previsión de rendimiento futuro.
Tan importante o más que el modelo que construyamos es el concepto de margen de error. El error de un modelo será una medida de lo que dista la realidad de la aproximación que realizamos al sustituir esta realidad por el modelo. El error de predicción (un concepto parecido pero ligeramente diferente) será el error que se espera cometer al realizar una predicción con nuestro modelo para unos nuevos datos. Es fundamental minimizar este error, pero es todavía más fundamental entender que el error, el riesgo, existirá y es inherente a cualquier empresa, pero que podemos aspirar a controlarlo, a acotarlo, a comprender su naturaleza hasta sus últimas consecuencias.
No nos queremos quedar aquí. A partir de este punto un nuevo universo nos espera, donde la automatización de las técnicas y la retroalimentación de la creación de modelos juega un papel esencial. No sólo queremos crear una estructura estática y a partir de ella operar, queremos que sea dinámica con el tiempo, en otras palabras, queremos que la llegada de nuevos datos actualice el aprendizaje estadístico de forma continua y genere nuevos modelos en tiempo real. Nos empezamos a mover en el campo del aprendizaje automático o machine learning y, por tanto, de la inteligencia artificial. Queremos máquinas que sean capaces de aprender como hacemos los humanos, que sepan usar la llegada de nueva información de la manera más racional y lógica posible, y nos otorguen la información que necesitamos de forma actualizada y precisa.
Numerosos investigadores de todo el planeta están de lleno o iniciándose en estos campos, que muchos consideran en futuro de una rama importante de la ciencia. Las grandes empresas están atrayendo estos talentos a sus equipos y realizando grandes inversiones en todo el entramado del Big Data. Las pequeñas empresas van detrás en financiación y destinación de recursos, como es natural, pero ya vislumbran el nuevo camino. Se trata de un nuevo paradigma social y económico, el poder de los datos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.