Todo el planeta quiere y habla del big data, aunque no siempre sepan para qué exactamente. Según un estudio de la compañía de analítica avanzada SAS, solo un tercio de las empresas que invierten en captar y administrar datos asegura obtener valor de ellos. ¿Qué falla? La mayor parte de las veces no es suficiente con tener datos, hace falta saber qué hacer con ellos. Ahí es donde entra en juego la figura del llamado científico de datos (data scientist en inglés), una persona que sepa descifrar, ordenar y trabajar con grandes cantidades de información. La tecnología avanza y este perfil ha pasado de ser una rareza a transformarse en "la profesión con mayor atracción del siglo XXI", como apunta un artículo publicado en la gaceta Harvard Business Review.
Uno de los primeros es Álvaro Barbero (Madrid, 1984), doctor en Ciencias de la Computación por la Universidad Autónoma de Madrid (España) y que terminó su tesis de machine learning o aprendizaje de máquinas en 2011, justo cuando el término se comenzaba a popularizar. Entonces, explica, "nadie comprendía exactamente en qué trabajaba". Seis años después, Barbero es el directivo del equipo de Ingeniería Algorítmica del Instituto de Ingeniería del Conocimiento de Madrid. "Ten en cuenta que hace quince años no podíamos ni imaginar que todos llevaríamos un PC en el bolsillo". Para este especialista, que ha cooperado con el Instituto Max Planck para Sistemas Inteligentes (Alemania) y la Universidad de Tokyo (Japón), "cinco años en big data son muchísimos".
The Economist ha publicado un artículo en el que repite de nuevo el mantra de que "los datos, y no el petróleo, son el recurso más valioso a nivel mundial". ¿No resulta un tanto exagerado?
Lo cierto es que sí. A pesar de que se ha oído mucho, creo que es más adecuado decir que los datos son un recurso más. Años atrás, las compañías tenían datos de sus clientes del servicio y los examinaban, pero más a pequeña escala: el propósito solo era ofrecer un servicio. Ahora ha habido un cambio de mentalidad y se busca explotar la información para algo más, como dar un servicio más adaptado. Ese interés es el que ha traído consigo la proliferación de herramientas tecnológicas que hacen posible el estudio de datos de forma masiva. La clave y la novedad radica en el volumen de los datos que se manejan.
Entonces, ¿qué es el big data?
Es una herramienta que pretende responder a una pregunta específica, como pronosticar la demanda en un súper el mes próximo o bien de qué forma puedo ir a un destino de la forma más veloz, y que usa los datos como un recurso para llegar a ese fin.
Para esto, hay un camino que recorrer. Primero, hay que lograr guardar esa gran cantidad de información que, como no se puede hacer con medios estándar, se precisa tecnología concreta o incluso crearla si no la hay. Después, se desarrollan técnicas que faciliten el procesamiento de esos datos. Entonces, en la tercera capa de análisis, se pone un algo de inteligencia.
¿Eso es lo que hace el científico de datos, poner inteligencia en el big data?
El data scientist es el que diseña todo el proceso. De ahí que debe tener una capacitación diversa, entre matemático, informático, estadístico y especialista en marketing. Algo que, hasta el momento, era bastante difícil de adquirir en un solo centro de enseñanza. Todavía hoy, su perfil va modificándose. Yo, en verdad, todos los años debo amoldar los contenidos en los másteres en los que soy docente.
¿Qué ejemplos das a tus alumnos para que comprendan el impacto de esta tecnología?
Les pongo el ejemplo de los móviles, que producen información para que Google Maps pueda llevarte por el camino más corto dependiendo del tráfico. También les hablo de las empresas tecnológicas que han surgido de la nada como Amazon. Lo que la distingue de otras tiendas online es el estudio profundo de toda la información que tiene de sus compradores. De ahí que ofrecen tiempos de entrega más cortos.
¿Y las compañías? ¿Lo entienden?
He visto muchas grandes empresas que deseaban entrar en el big data y que invirtieron mucho dinero en infraestructuras, en montar grandes depósitos de datos y tecnologías para tratarlos. Y en el momento en que llegaron hasta ahí, se preguntaron: ¿Y ahora para qué exactamente empleamos esto? Se han comprado un transatlántico y no saben qué hacer con él.
Y esto no ha hecho más que empezar…
Desde luego, el big data continuará creciendo hasta transformarse en un aspecto integrado en nuestras vidas. Si cuando charlamos de big data, reemplazáramos mentalmente el término por el de "informática, ¿a qué absolutamente nadie afirmaría que tiene una startup de informática? La informática ya es parte de todas y cada una de las compañías y de todos y cada uno de los aspectos de nuestra vida. Lo mismo va a pasar con el big data.
Hay estimaciones que presagian que en diez años se generará un 40% más de información que en la actualidad. ¿Vamos a poder administrarla?
Es una pregunta realmente difícil de contestar. Lo que es seguro es que el volumen de datos generados va a continuar aumentando. Sin ir más allá, los que proceden de la cantidad de sensores que tiene nuestro móvil inteligente, que da información muy precisa de nuestro comportamiento; o la información que aportamos en redes sociales. Además de esto, el llamado internet de las cosas se volverá más rutinario y aportará cantidades ingentes de datos sobre las propias máquinas. La capacidad de análisis va en alza, claro. Veremos si aumenta al mismo ritmo, o no.
¿De qué modo podría entonces alterar nuestra realidad el big data?
Existen muchos algoritmos predictivos que se emplean en machine learning que son solo aproximaciones porque es muy complicado localizar modelos que reflejen la realidad de forma veraz. ¿Qué sucedería si de pronto fuera algo sencillísimo de hacer? Esto es lo que plantea uno de los Problemas del Milenio [los 7 enunciados matemáticos más relevantes y que en el 2000 aún no habían sido demostrados]. El P vs NP, que de forma simplificada viene a decir que en informática teórica hay dos grandes conjuntos de problemas que se pueden resolver: los P, que son los fáciles y que pueden resolverse con un ordenador cualquiera; y los NP, que son los realmente complejos y que requieren de mucho tiempo. Si se demostrara el teorema, si se demostrara que P es exactamente lo mismo que NP, querría decir que se podría coger un inconveniente realmente difícil y convertirlo en uno muy simple, lo que invalidaría, por servirnos de un ejemplo, todo el sistema de criptografía actual. Supondría un punto de cambio tan esencial en todos y cada uno de los campos que empresas como Google y también IBM ya estudian soluciones prácticas para esto, aunque sin resultados aplicables de momento.
¿Y si se prueba que P es diferente de NP?
No habría un cambio demasiado brusco.
***Fuente: Opinno, editora de MIT Technology Review en español