Mucho se habla de big data y de blockchain. Ya son expresiones populares que se usan frecuentemente, demasiado, muchas veces sin saber exactamente a que se refieren. No se preocupe no voy a intentar explicarlos, asumo que el saber común es probablemente mejor o más extenso que el mío. Solo voy a comentarlos en el contexto de una innovación que se hace necesaria para que progrese la ciencia, en cada uno de sus campos, más deprisa y con más solidez.

Hoy la investigación sigue haciéndose como se consolidó en el siglo XVII, solo que con medios mucho mejores. Pero la mente del investigador sigue siendo la misma, aventurera, narcisista y con el coraje de independencia.

Hoy los jóvenes investigadores se integran en un equipo maduro y en un año están firmando artículos como coautores

La formación de los investigadores no es mucho mejor, en realidad es peor, porque en los siglos anteriores al XX llegar a ser investigador requería un proceso muy elaborado, piénsese en Newton y Ramón y Cajal, mientras que hoy los jóvenes se integran en un equipo maduro y en un año están firmando artículos como coautores y protagonizando seminarios, sin haber consolidado una formación amplia y profunda.

Es cierto que la base científica disponible es muchísimo mayor y que los medios de información son hoy masivos, comparados con los de siglos pasados, gracias a la proliferación de revistas científicas, a la digitalización y a las redes. Eso ha condicionado la superpoblación de investigadores y la consecuente masificación de mini descubrimientos y publicaciones con  datos casi infinitos.

El uso de los motores de búsqueda clásicos como Google scholar,  o Pubmed para la ciencia médica, han facilitado la localización y clasificación de artículos almacenados en bibliotecas digitales por palabras clave y procedencia, pero el investigador sigue obligado a leer los artículos que puede o selecciona entre un número abrumador.

Por ejemplo una búsqueda sobre ‘SIDA’ arroja más de tres millones de artículos y sobre ‘cáncer de mama’ otro tanto. Estos ejemplos no son exagerados por la transcendencia o generalidad de los temas, búsquedas muy selectas como ‘Quásares’, de ciencia poco común, arrojan más de 100.000 artículos.

La búsqueda por intersecciones de palabras clave permite una aproximación mejor a encontrar información importante para cada estudio. Por ejemplo, cruzar ‘cáncer de mama’ con ‘RNA’ y ‘mitocondrias’ reduce el número de publicaciones a 134.000, número que sigue siendo excesivo para que lo estudie un científico o un equipo de científicos.

Los datos científicos son ya voluminosos, se generan a gran velocidad, son enormemente variados, se les supone veraces, o al menos se generan con intención veraz, tienen utilidad para generar ciencia o tecnología (viabilidad), tienen una visibilidad útil para encontrar patrones de asociación y son valiosos porque soportan el conocimiento. En resumen merecen la calificación de big data

Motores de búsqueda con algoritmos de inteligencia artificial podrían mejorar la búsqueda y selección de datos científicos con rutas intencionales. Ejemplo de ello es el sistema de procesado de los datos personales registrados en Facebook, usado por Cambridge Analitica, para dirigir mensajes de sugestión política ajustados a la personalidad aparente de los usuarios, reflejada por las rutinas de sus cuentas de Facebook.

Otro ejemplo de hoy es el sistema que Netflix utiliza para el análisis de las reservas y evaluaciones que hacen sus clientes, para ajustar su producción de filmes, oferta y sugerencia de títulos, basada en un ciberdiagnostico de la formación, gustos y carácter individual de millones de sus usuarios.

Pero lo más necesitado de innovación es la estructura del propio artículo, que aún arrastra la tradición del estilo introducido en los tiempos de Isaac Newton en el siglo XVII, cuando Henry Oldenburg fundó en Inglaterra el primer boletín científico, financiado de su propio bolsillo, el Philosophical Transactions of the Royal Society. La decisión de Oldenburg fue un hito para la ciencia porque rompió el secretismo que los científicos solían mantener para hacer valer sus saberes.   

Artículos publicados en revistas con prestigio han pasado a ser valor, vanidad y medallas para sus autores

Desde entonces las revistas científicas han proliferado y han ganado dinero y poder (en 2012 la editorial Elsevier publicó 250.000 artículos y ganó 2.600 millones de dólares limpios). Los artículos, publicados en algunas de las revistas con más prestigio, han pasado a ser valor, vanidad y medallas para sus autores. El lema publicar o morir está tan presente en el investigador que publica micro, incluso nano resultados, lo que sea, con la mayor frecuencia posible, maquillados de interés, saturando la literatura de artículos, muchos de ellos irrelevantes, pero que puntúan al autor, distraen al lector y complican el progreso de la ciencia.

Los réferi se vuelven locos con tanto manuscrito y tanta verborrea, incapaces de saber si los datos están equivocados o no, y si las conclusiones son inteligentes o delirios del autor. Es más, muchos réferi rechazan novedades importantes porque se salen de la moda, por miedo a que el hallazgo rompedor sea una locura del autor. Esto conduce a un enlentecimiento de la innovación científica porque las genialidades se interpretan como antiortodoxia; solo la repetición en años o la recomendación de una autoridad conocida las convierte en novedades brillantes.

En 2001 nació arXiv.org un archivo de artículos con un formato simplificado, accesible libremente por todos los científicos inscritos, lo que se llama de acceso abierto. En estos artículos se publican todos los datos tanto crudos como elaborados, incluso los códigos de  software especifico. Los artículos publicados en arXiv pueden además publicarse en revistas tradicionales cuando sus editores los aceptan, de modo que son los propios investigadores los que tienen la posibilidad de juzgar por ellos mismos si los resultados avalan las conclusiones o no, con independencia de los editores y sus réferi.

La idea de arXiv es un nuevo estilo de archivo de datos científicos, más acorde con la globalización de la Ciencia el siglo XXI y el uso de las redes y de Internet, pero no suficiente. El paso que se espera es un software de análisis de millones de datos, aparentemente dispersos pero ligados por lazos ocultos de semejanza, proximidad conceptual  o metodológica, para generar paquetes condensados, que permitan a los estudiosos comprender relaciones, asociaciones y leyes, dificilísimas de descubrir leyendo selecciones de una enorme cantidad de artículos dispersos en el mundo, en el tiempo y en los idiomas.  

Parece que el futuro de la ciencia ya no está en manos de las editoriales, sino en las de los filósofos, los matemáticos y ahora más que nunca de los ingenieros informáticos.