AlphaFold permite predecir interacciones entre anticuerpos y receptores de las células humanas.

AlphaFold permite predecir interacciones entre anticuerpos y receptores de las células humanas. iStock

Ciencia

Los científicos se rebelan contra la IA de Google: quieren piratearla por el bien de la humanidad

La última versión de AlphaFold, su sistema de predicción de interacciones entre proteínas, está 'capada' y no permite comprobar sus hallazgos.

1 junio, 2024 01:14

Si todavía cree que la inteligencia artificial es una moda pasajera o que solo sirve para dejar ilustradores en paro, desengáñese: la IA ha venido para quedarse y ya ha conseguido saltos cualitativos en muchos campos del conocimiento. Por ejemplo, en el de las ciencias de la vida.

El problema es que algunos de estos saltos se han hecho a base de 'traicionar' los principios de la ciencia, en los que la validación externa independiente es fundamental para confirmar —y poder anunciar— los resultados.

Es lo que claman más de un millar de científicos que han escrito una carta a la revista Nature, la de mayor prestigio entre los investigadores de todo el mundo, mientras que otros prefieren tomarse la justicia por su mano y montar alternativas transparentes.

Su misiva no solo está dirigida a la todopoderosa revista sino también a la todopoderosísima Google, matriz de DeepMind, la empresa que ha revolucionado la medicina en el último lustro.

El pasado 8 de mayo, DeepMind anunció la tercera versión de AlphaFold, un modelo de inteligencia artificial que predice la estructura 3D de las proteínas.

Normalmente se habla de las proteínas como los ladrillos del cuerpo humano, pero son muchas más cosas. Mientras que el resto de moléculas tiene una función más o menos definida, las proteínas sirven para todo: desde formar la estructura de cualquier célula hasta facilitar todas las reacciones químicas del cuerpo, pasando por ser las armas para atacar a virus y bacterias.

Nuestro código genético, el libro de instrucciones de la vida, es básicamente un molde para fabricar proteínas. A principios de siglo, al secuenciar el genoma humano, pudimos acceder a la composición de cualquiera de ellas, pero faltaba algo fundamental: seguíamos sin saber cómo sus componentes —lo aminoácidos— encajaban para que la proteína fuera funcional. Es el plegamiento de los materiales lo que confiere su función.

Es decir, sabíamos de qué estaba hecha la arcilla pero no teníamos ni idea de cómo fabricar un ladrillo.

Durante dos décadas los investigadores no tenían más remedio que utilizar el ensayo y error para alcanzar este conocimiento, vital para, entre otras cosas, desarrollar fármacos contra multitud de enfermedades distintas.

Todo esto cambió en 2020. Aunque ya había otros programas informáticos para la predicción de las estructuras proteicas, la versión 2 de AlphaFold era tan precisa que se anunciaba que, por primera vez, una herramienta había podido desvelar las estructuras tridimensionales de todas las proteínas habidas y por haber.

Unos meses después, ya en 2021, se publicaron los resultados de AlphaFold2 en un artículo de la revista Nature, junto al código empleado en esta inteligencia artificial.

Un principio fundamental de la ciencia es que nada se publica sin que haya sido revisado antes por expertos independientes. Era necesario conocer el código de AlphaFold, porque es lo que permitía a los revisores verificar que lo que clamaba DeepMind era cierto.

Este año, sin embargo, Google decidió anunciar AlphaFold3 al mismo tiempo que se publicaba el artículo, nuevamente en Nature, explicando sus hallazgos a la comunidad científica. Pero esta vez el código no aparecía por ningún lado.

Ni siquiera los revisores habían tenido acceso a él. Entre los primeros firmantes de la carta dirigida a Nature está Roland Dunbrack, bioinformático del Fox Chase Center de Philadelphia y (supuestamente) uno de los que revisó el artículo antes de su publicación, que denunciaba no haber tenido acceso al código de AlphaFold3.

"A pesar de demandarlo repetidamente, no se le dio acceso al código durante la revisión", clama la misiva. En su lugar, a los revisores se les proporcionó un pseudocódigo con el que testar los resultados de la herramienta maravillosa.

Saltarse las reglas de la ciencia

Porque, si AlphaFold2 supuso un salto cualitativo respecto a lo anterior, la tercera versión ha vuelto a revolucionar el campo de la investigación biológica. AlphaFold3 no solo predice la estructura de las proteínas (y, por tanto, las relaciones entre ellas) sino también las interacciones con muchos otros tipos de moléculas, como lípidos, ATP (las unidades de energía de los seres vivos), ADN o ARN.

Como explican en el portal Genotipia, si AlphaFold2 permitía generar hipótesis para probar en el laboratorio, AlphaFold3 permite probar directamente esas hipótesis.

Es lo que se llama ensayo 'in silico', por contraposición a 'in vivo', es decir, en animales. "Ya hay normativa de la FDA aprobando fármacos que solo se han testado computacionalmente para ensayar en humanos, es una auténtica revolución", explica Alfonso Valencia, bioinformático del Barcelona Supercomputing Center.

Esto es algo valiosísimo para la investigación de medicamentos. "Tenemos la posibilidad de predecir interacciones entre proteínas y miles de fármacos", señala, con un inconveniente: "Nadie ha podido verificar que esto realmente es cierto".

Valencia se pregunta cómo es posible que la revista científica más prestigiosa haya publicado un paper sin comprobar sus resultados. Sin duda, DeepMind (y Google) "están en su derecho de hacer contratos con compañías y utilizar comercialmente su trabajo, pero ¿por qué Nature publica un paper que en realidad es un anuncio?"

El 11 de mayo, tres días después del anuncio de DeepMind, Roland Dunbrack y otros 10 científicos escribieron a Nature para quejarse de las "desviaciones de los estándares de nuestra comunidad" científica. A 29 de mayo, la carta acumula 1.082 adhesiones.

Google reaccionó rápido y el 13 de mayo anunció que el código estaría disponible para la investigación académica en seis meses, pero no ha indicado si estará al completo.

Mientras tanto, ha facilitado un servidor en que los académicos pueden hacer pruebas con la herramienta (hasta 20 diarias) dejando muy claro, eso sí, la prohibición de probar potenciales fármacos y reclamando la propiedad sobre cualquier tipo de descubrimiento que la herramienta genere.

Por su parte, la revista Nature, consciente de que su prestigio está en juego, publicó un editorial el 22 de mayo animando a sus lectores a participar en propuestas para mejorar la transparencia en el mundo científico sin detrimento del derecho de las empresas a obtener réditos de sus resultados.

Alfonso Valencia ha probado ya el servidor. "Es interesante, todos estamos viendo cuál es la mejor forma de trabajar con él pero, tal y como están puestas las cláusulas, solo se puede usar de forma limitada".

El bioinformático asocia el secretismo de la nueva herramienta con las nuevas políticas de Google. "Antes, DeepMind y otras ramas dedicadas a la investigación estaban en la periferia y eran más independientes, pero ahora han absorbido a todas estas compañías que estaban dispersas". DeepMind fue fundada en 2010 en Londres. Alphabet, la matriz de Google, la adquirió en 2014.

Para Valencia, este movimiento constituye una pérdida de crédito para DeepMind. "Los veíamos como candidatos al Premio Nobel y ahora todo el mundo está muy enfadado con ellos".

Porque, entre otras cosas, todas las versiones de AlphaFold han sido entrenadas con bases de datos de acceso público. Los investigadores han ido depositando secuencias de proteínas a lo largo de años en repositorios montados por consorcios financiados por Estados Unidos, la Unión Europea, Japón y otras potencias.

"Moralmente es un poco injusto que construyas sobre [el trabajo de] cientos o miles de personas", lamenta el investigador, para resignarse: "Ya sabíamos que estas bases eran públicas y al alcance de cualquiera".

"Nos llevamos un chasco"

Por su parte, Rafael Fernández-Leiro, biólogo estructural que trabaja en el Centro Nacional de Investigaciones Oncológicas (CNIO), apunta que "Nature no tiene por qué publicar el código. Pero, cuando uno envía un trabajo para publicar, aceptas una serie de condiciones, entre ellas, que los datos estén disponibles".

Por ejemplo, "cuando nosotros publicamos datos con la estructura de una proteína, tenemos que publicarlos en un repositorio científico. En trabajos de software, el código tiene que estar disponible para que otros científicos puedan evaluarlo".

Es decir, que Nature no es responsable de publicar el código pero debería haber exigido a DeepMind que este estuviera disponible. "Y en este caso ha hecho una excepción".

El grupo de investigación de Fernández-Leiro utiliza AlphaFold2 "prácticamente todos los días, de forma rutinaria. Nos sirve para, antes de tener una comprobación experimental, entender mejor la información que tenemos y generar hipótesis".

Por eso, al ver que la nueva versión no tenía el código disponible "nos llevamos un chasco, fue una decepción".

El verdadero peligro para este investigador es que se está dejando el núcleo de la investigación pública en manos privadas, con sus propios intereses. "Está muy bien que Google dedique su capacidad y sus recursos metiéndose en estos temas 'de frontera'. Pero, ¿qué pasa si decide que no va a haber AlphaFold4?"

Por eso, muchos grupos alrededor del mundo están intentando replicar el éxito de AlphaFold de varias maneras. Algunos hablan directamente de hackearlo, como Phil Wang, ingeniero de software de San Francisco que ha montado un crowdfunding para replicar el modelo DeepMind, cuenta también Nature (su equipo de noticias es independiente de su actividad editorial).

También ha comenzado a hacerlo Mohammed AlQuraishi, bioinformático de la Universidad de Columbia, en Nueva York, con una versión de acceso abierto de AlphaFold llamada OpenFold.

Las esperanzas de los investigadores académicos están, no obstante, en David Baker, de la Universidad de Washington, en Seattle. "Al poco tiempo de aparecer AlphaFold2 ya había conseguido su propia versión, RoseTTAFold", comenta Alfonso Valencia.

Sin embargo, como también señalaba en Nature Phil Wang, hackear el código es solo una parte, lo importante es entrenarlo con millones de datos para que sus predicciones sean ajustadas. "El código es, de lejos, lo más fácil. Es el 5% del esfuerzo".

Con todo, Fernández-Leiro recuerda que AlphaFold no lo es todo. "Esto no reemplaza la investigación experimental. Estas herramientas generan hipótesis fenomenales pero son solo un punto de partida".

"Nosotros hemos hecho pruebas con estructuras que ya conocíamos y el resultado que nos dio no era el esperado", recuerda. "No te puedes fiar al 100% de una proyección. Es como preguntarle a ChatGPT: es mejor que no te lo creas a pies juntillas".