Una nueva perspectiva: Los datos masivos

El vertiginoso desarrollo de la informática en los últimos lustros ha dado lugar a una coyuntura que se puede calificar de revolucionaria, en todo lo que tiene que ver con el manejo y aprovechamiento, con diferentes fines, de enormes masas de datos.

En un artículo publicado en los años noventa, el especialista estadounidense en sistemas de computación John Mashey introdujo el término “Big Data” para identificar los grandes conjuntos de datos que son, en medida creciente, objeto de captación y procesamiento con diversos propósitos. El también consultor empresarial vaticinó la enorme presión que esa afluencia de datos habría de ejercer sobre los recursos computacionales y humanos encargados de trabajar con ellos.

Con ese término se identifica, en la actualidad, a aquellos conjuntos de datos que superan la capacidad del software habitual para captarlos, procesarlos y gestionarlos en un tiempo razonable y a menudo se utiliza directamente la expresión en inglés. Estos conjuntos se identifican en español también como macrodatos, datos a gran escala, grandes cantidades de datos o, como expresión más frecuente, datos masivos. En virtud del incesante avance de los medios de computación, el tamaño de los conjuntos que deben considerarse en esta categoría se halla constantemente en aumento.

Un reconocido experto, el profesor Viktor Mayer-Schönberger del Instituto de Internet de la Universidad de Harvard, ha definido en un sentido más general el big data como “la capacidad de la sociedad para asimilar la información mediante vías novedosas con el objetivo de producir conocimientos, bienes y servicios de valor significativo”. A este distinguido estudioso pertenece la autoría de un libro que constituye para muchos un referente ya clásico en este campo y cuyo título original en inglés expresaba todo un vaticinio: Big Data: Una revolución que habrá de transformar el modo en que vivimos, cómo trabajamos y cómo pensamos.

Es un hecho palpable que la marea de datos ha penetrado en las distintas funciones de la industria y los negocios en general. Según estimados, los sectores principales de la economía estadounidense tenían en 2009 un promedio de 200 terabytes (un millón de millones de unidades de información) de datos almacenados por cada compañía con más de mil empleados y, lo que es mucho más importante, se han demostrado diversas formas en que el procesamiento de esos datos puede generar valor para las compañías.

Los procesos de investigación científica a escala mundial no escapan de esta tendencia arrolladora, sino que, por el contrario, encuentran en el contexto actual una poderosa plataforma para impulsar, relanzar o emprender iniciativas que hasta hace pocos años debían considerarse muy difíciles o simplemente irrealizables. Un ejemplo clásico de lo afirmado lo constituye la elucidación del mapa del genoma humano. Esta trascendental tarea, que se dio por concluida exitosamente en el 2003, requirió de más de diez años al momento de su realización, en tanto tomaría hoy día apenas unos días para ejecutarse y, por cierto, a un costo mucho menor.

Las más representativas organizaciones científicas internacionales, como el Consejo Mundial de la Ciencia, la Asociación Mundial Interacademias, la denominada Academia Mundial de Ciencias y el Consejo Internacional para las Ciencias Sociales, vienen uniendo esfuerzos para estudiar, analizar y definir líneas de acción comunes a la luz de las nuevas condiciones creadas. Con ese propósito las mencionadas entidades convocaron de manera conjunta el pasado año a varios encuentros destinados a poner a punto un acuerdo global sobre acceso a grandes volúmenes de datos, los cuales culminaron en una conferencia científica convocada bajo el lema de “Ciencia Internacional”.

En la propuesta de acuerdo emanada de la conferencia en cuestión se exponen de manera diáfana oportunidades y conceptos que compartimos con el lector. Al examinar de manera detallada los retos y oportunidades que se abren en las condiciones actuales, identificaron no pocos campos de investigación en los que las nuevas capacidades tecnológicas han creado posibilidades que hasta el presente eran absolutamente inalcanzables.

Lo afirmado se pone de manifiesto en la posibilidad actual de identificar patrones en un conjunto determinado de datos, que hasta ahora no era posible detectar en virtud del enorme tamaño de la carga de datos que es necesario procesar. Lo mismo sucede con la capacidad disponible en la actualidad para correlacionar diferentes aspectos de un sistema cualquiera, con el fin de mejor interpretar el papel de los distintos factores que determinan su comportamiento.

Quizá y la más relevante aplicación de estas nuevas herramientas sea la de ejecutar repetidamente numerosas operaciones de correlación entre, por un lado, los parámetros que describen el estado de un sistema complejo (como la atmósfera terrestre) y, por el otro, diversas simulaciones que tienen por objeto pronosticar su comportamiento dinámico.

La enorme importancia de este tipo de capacidades para la investigación contemporánea, se pone de manifiesto en los pronósticos meteorológicos y climáticos, la comprensión del funcionamiento del cerebro, los fenómenos demográficos, las enfermedades transmisibles o la evaluación de la productividad agrícola, entre otros ejemplos. Todos ellos son objetos de estudio en los cuales es imprescindible disponer de la percepción combinada y del procesamiento de datos e informaciones por parte de múltiples disciplinas científicas y todos están, sin la menor duda, entre los más importantes retos globales contemporáneos.

Reconocida la trascendencia de las nuevas oportunidades abiertas, se hace indispensable afrontar el desafío de cómo encaminar y regular la organización y la realización de la investigación científica. Con sobrada razón, los especialistas subrayan que son precisamente los datos que se obtengan y procesen los que deben servir de hilos conductores de las nuevas perspectivas.

Como parte de las condiciones indispensables para lograr esos objetivos, los expertos identifican las llamadas “cuatro V”. La primera de ellas es el Volumen que el sistema computacional debe ser capaz de incorporar, procesar y diseminar. La segunda es la Variedad y complejidad del juego de datos examinados, la cual tiene su origen tanto en la naturaleza de los individuos como en las instituciones que intervienen a lo largo de la cadena de valor de los mismos. La tercera corresponde a la Velocidad con la que los datos entran y salen del sistema en tiempo real.

Por último y quizá con la mayor importancia está la cuestión de la Veracidad, la cual está referida a la incertidumbre que puede generarse debido a la posibilidad de sesgo, la presencia de ruido o anormalidad en los datos. Si bien la veracidad no es una característica intrínseca de las grandes corrientes de datos, constituye una cualidad obviamente muy deseable cuando se trata de objetivos científicos.

Para los propósitos investigativos en particular, la cuestión de la veracidad de los resultados obtenidos a partir de “Grandes Datos” y su revisión por otros especialistas de semejante calificación (práctica conocida en el ámbito científico como “peer review”) genera problemas muy serios para su escrutinio efectivo. En particular, se subraya la necesidad de establecer una cierta “norma de reproducibilidad” que pueda aplicarse a este tipo de estudios.

El problema principal estriba, con toda seguridad, en el hecho mismo de que las formas actuales de procesamiento de datos desbordan las formas clásicas usadas por los científicos para interpretar y comprobar los hechos. En efecto, una buena parte de las relaciones más complejas que se tratan de identificar y describir en la actualidad - mediante la utilización de grandes datos y de otros vinculados- desbordan la capacidad analítica de los métodos clásicos.

Esta situación determina que los científicos deban apelar a otros métodos de análisis para asegurarse de la validez de las inferencias que se extraigan del manejo de los datos. Es arrollador el uso intensivo de máquinas para el análisis de datos y se vuelve cada vez más generalizado el llamado “aprendizaje por máquina”, lo que abre la puerta a una nueva y superior capacidad de toma de decisiones basadas en evidencias.

El potencial creativo derivado de procesar tales grandes datos, de la posibilidad de conectar entre sí fuentes diversas y en particular el aprendizaje mediante máquinas tiene implicaciones trascendentales, no sólo para hacer posibles nuevos descubrimientos científicos sino también para muchos otros ámbitos de la vida y, muy en particular, para configurar lo que debe entenderse por ser un científico en este siglo XXI.

De ahí la especial importancia de los cuestionamientos con respecto a cómo comprender los fenómenos analizados por medio de máquinas y en general a su accesibilidad para la capacidad de razonamiento humana. Valga al respecto la reflexión aportada por el ya citado profesor Meyer-Schönberger a una periodista española: “El Big Data cambia la forma en que las máquinas piensan- desde tratar de enseñarles reglas hasta tener estadísticas para resolver cuestiones sin necesidad de entender el porqué. Eso cambia la forma en que dejamos a los ordenadores hacer cosas -desde traducir lenguajes hasta hacer recomendaciones de libros- pero no cambia la manera en que nosotros pensamos”. (El énfasis es mío, ICA).

Las tecnologías y procesos propios de la revolución digital, del tipo de los antes descritos, aportan un poderosísimo instrumento para lograr una multiplicación de la productividad y de la creatividad, mediante un rápido intercambio y desarrollo de ideas con la interacción en red de muchas mentes. Para la gran mayoría de los científicos, está fuera de discusión que el conocimiento y la comprensión han sido y continuarán siendo aspectos esenciales para los juicios humanos, para la innovación y para el bienestar social y personal. En consecuencia, es decisivo propiciar un conocimiento abierto, accesible a todos, poder generar ideas y datos, compartirlos ampliamente por parte de quienes los originaron e impulsar con ello el avance del conocimiento universal.

Una brillante manera de exponer esta idea, a menudo citada, es la expresión atribuida al famoso premio Nobel de literatura irlandés George Bernard Shaw: “Si tú tienes una manzana y yo tengo otra y las intercambiamos, entonces tú y yo seguimos teniendo una manzana cada uno. Pero si yo tengo una idea y tú otra y las intercambiamos, entonces cada uno de nosotros dispondremos ahora de dos ideas”.

El acceso abierto a los datos obtenidos de la investigación se convierte en consecuencia, cada vez más, en una divisa fundamental de los científicos en sus diferentes foros. Para hacerlo posible habrá que hacer frente a los poderosos y recurrentes manejos encaminados a convertir el conocimiento en objeto de apropiación individual y fuente de lucro. Sólo si se logra enfrentar y detener tales intentos se hará realidad que las nuevas herramientas sirvan de modo efectivo para asegurar el bienestar futuro de la Humanidad.