¿Son los datos el nuevo petróleo?

Por estos días en que el precio del combustible fósil se eleva más allá de la atmósfera me ha dado por debatir con dos amigos, el uno cibernético y el otro bioinformático, sobre ese nuevo carburante que tiene forma de bit: el dato.

No muy convencido de que este y no otro fuera el tema escogido para mi columna, el martes pasado mis pasos se dirigieron a la reunión anual que celebra la Fundación para la Investigación sobre el Derecho y la Empresa (FIDE), a cuyo Consejo Académico pertenezco. Como es costumbre, dos fueron los temas que se escogieron para el debate y en ambos la relevancia del dato fue el auténtico protagonista. Demasiadas señales como para no prestarle atención.

Google, Facebook y Twitter son palmarios ejemplos de éxito basado en el dato. Kacper Pempel Reuters

La frase “los datos son el nuevo petróleo” se le atribuye al matemático británico Clive Humby, un genio del uso de la información con fines empresariales. Es fácil echar un vistazo a las compañías del momento y percatarse que la mayoría hacen suya la máxima de Humby.

Google, Facebook, Amazon, Apple, Microsoft y Twitter son palmarios ejemplos de éxito basado en el dato. Todas ellas tienen algo más en común: el producto somos los propios usuarios. Para el mercado del siglo XXI el ser humano devino un goloso conjunto de datos.

Si lo convertimos en números todo es aprovechable: nuestros gustos, desde los más evidentes hasta los más íntimos, nuestras tallas, la ideología que nos define, la frecuencia con que nos late el corazón, los niveles de colesterol y un larguísimo etcétera conforman un conjunto de bits que sirven para predecir nuestros comportamientos, las decisiones frente a la compra de un inmueble o el alquiler de un servicio.

Sin embargo, el dato por sí solo no es útil, para que sea de provecho es necesario la comprobación de su calidad y en última instancia modelarlo. En otras palabras, tiene que generar información o conocimiento. De hecho, me atrevería a afirmar sin ser muy original que los datos son el nuevo petróleo y la información es el nuevo dinero. Dependiendo de lo que haga una empresa con la información desprendida de los datos que maneja podrá retener eficazmente a sus clientes, aumentar las ventas, promover nuevos modelos de ingresos y realizar una campaña publicitaria exitosa.

Sin embargo, no todo lo oscuro es petróleo ni todos los datos son de calidad. El ingente movimiento de datos que existe en internet puede llevar a una gran confusión por la escasa calidad de un grupo importante de ellos. En el lenguaje de Carlos Castañeda y Alejandro Pascual, los amigos que citaba al principio, algunos datos están sucios y eso quiere decir que contienen errores u omisiones. Otros son totalmente erróneos y, además, abundan los totalmente ficticios.

En un estudio que lideró el Instituto Tecnológico de Massachusetts (MIT), algunos conjuntos de datos, fundamentalmente aquellos de dominio público, contienen prejuicios; esto se traduce en grandes riesgos para las empresas que los utilicen en algún modelo con el fin de encontrar tendencias, gustos y preferencias de sus clientes. Poco a poco se va estableciendo que para obtener información valiosa es esencial tener seguridad en la procedencia de los datos. En un giro literario diríamos que, al estar inundados de petróleo, es fácil provocar un incendio.

¿Y en la ciencia? En realidad, la ciencia y los científicos estamos pegados a la sociedad, todo lo que ocurre nos afecta y todo lo que generamos tiene impacto en la población. El avance de la tecnología nos está llenando los laboratorios, o más bien los ordenadores, de inmanejables tablas de datos. Desde la Astrofísica hasta la Biomedicina las mediciones, cada vez más precisas y masivas, generan montañas de números que hay que interpretar con herramientas avanzadas de computación. Es un sueño, en varios centros clínicos cercanos a la realidad, la obtención de todos los datos de cada paciente que entra por la puerta de un hospital. Te hablo desde su estatura hasta la más precisa medición de laboratorio.

Con ello somos capaces de generar modelos predictivos que hacen más eficientes los tratamientos, reducen los errores humanos y acortan la estancia hospitalaria de muchos pacientes. Mas, para esto se debe implementar la obtención limpia de los datos y, por supuesto, el consentimiento para su uso. Es entonces que topamos con las diferencias culturales de los humanos.

Por ahora, existen tres posturas muy claras ante el uso de los datos. La Unión Europea defiende que el dato es de la persona, una propiedad individual. Si nos movemos a los Estados Unidos, el dato es de la empresa que, de alguna manera, lo obtuvo, pero hay un extremo. En China, el dato pertenece al gobierno. ¿Cuál es el modelo a seguir? ¿Cuál se impondrá?

Como siempre ocurre, existen dos caras en la misma moneda. Por una parte, están las enormes ventajas que nos da poder usar todos los datos que se dispongan, algo que proporcionará información útil en la generación de fármacos, planificación ciudadana y un abultado listado de bondades.

Pero por otra planea la inevitable cara B de un uso indebido de los datos, algo que puede inducir a la discriminación, la desigualdad social y promoción de políticas a través de trucos psicológicos. Nos queda un trecho importante para establecer los límites y, sobre todo, derribar las incomprensiones.

De cualquier manera, el dato transformado en información ya es una realidad con la que convivimos y son muchas las voces que se alzan en su contra por el temor a ser dominados por una inteligencia artificial que, en base a los datos, decida por nosotros.

En este sentido sólo puedo decir: que haya tranquilidad. La creatividad que genera nuestra inteligencia está lejos de ser sustituida. No somos capaces de analizar millones de bits para buscar correlaciones entre el colesterol y una patología determinada; sin embargo, somos únicos en asociar la belleza de un ballet con un proceso tumoral y de ahí crear una teoría.