¿Qué es el genoma humano y por qué es fundamental descifrarlo? Las 10 claves para entender el hallazgo

Marcos Domínguez

Un grupo de más de un centenar de científicos ha arrojado luz sobre las partes del genoma humano que todavía estaban oscurecidas. Veinte años después del Proyecto Genoma Humano aún quedaba un 8% de nuestra información genética escondida.

Este nuevo paso, explicado en seis nuevos artículos que se han publicado este jueves en la revista Science, abre las puertas al siguiente nivel de la medicina personalizada, pero también al conocimiento profundo de qué es lo que hace que seamos como somos.

¿Qué es el genoma humano y qué lo compone?

El genoma es la suma de todo el ADN de una persona. Este se encuentra en el núcleo de las células y está formado por 46 cromosomas (excepto en las células sexuales, que solo tienen 23). También contienen información genética algunos orgánulos celulares como las mitocondrias.

El ADN está compuesto de cuatro moléculas, llamadas bases: adenina (A), timina (T), citosina (C) y guanina (G). En total, el genoma humano suma unos 3.000 millones de pares de bases: cada una de ellas tiene una complementaria, formando la famosa estructura de doble hélice del ADN.

¿Por qué es tan importante su secuenciación?

El ADN es como el libro de instrucciones de la vida. Contiene la información para fabricar proteínas, el andamiaje de un ser vivo, pero también la forma en que estas se tiene que organizar.

Los genes son zonas del ADN que codifican proteínas. Conocer qué genes sirven para fabricar unas proteínas específicas nos permite determinar la causa de numerosas enfermedades causadas por el déficit de dichas proteínas, y el genoma secuenciado nos proporciona un molde para comparar y saber si dichos genes están mutados o son funcionales.

No solo eso. La secuenciación completa del genoma también nos sirve para analizar alteraciones en los genes que favorecen la aparición de cánceres, o comprobar como algunas secuencias en los extremos de los cromosomas, denominadas telómeros, funcionan para preservar la propia información genética y juego un papel clave en el envejecimiento celular.

¿No se había secuenciado ya el genoma humano?

Hace 21 años, en febrero de 2001, el Proyecto Genoma Humano anunció que había secuenciado por primera vez todo el genoma de una persona. Esto se hizo dividiéndolo en partes lo suficientemente pequeñas para que las máquinas de secuenciación del momento pudieran leerlas con un mínimo de precisión.

Posteriormente, estas partes se ensamblaron, reconstruyendo el genoma. Pero había zonas complicadas de leer y colocar: grupos de letras que parecían repetirse un incontable número de veces (más de lo que las máquinas del momento eran capaces de leer de una vez) y resultaba imposible situar porque no se sabía dónde empezaba y dónde terminaban.

¿Qué faltaba por conocer del genoma?

Un cromosoma tiene típicamente la forma de una 'X' con los brazos inferiores más largos que los superiores. Los centrómeros son los puntos de unión de esos cuatro brazos, y a su alrededor se acumulan la mayoría de esas zonas que habían estado sin secuenciar: un 6,2% de todo el genoma.

Había otro 2% restante que no se conocía, cerca de los telómeros y en el ADN de los orgánulos celulares. En un primer momento, los científicos solo habían prestado atención a los genes, las partes del genoma que codifican proteínas, pensando que el resto no codificante (más del 90% del genoma) era redundante o, directamente, basura, por lo que no les importó no tener ese 8% oscurecido.

Poco a poco, la ciencia ha ido comprobando el valor de ese ADN no codificante, pues resulta esencial para guiar la fabricación de proteínas, reparar los daños en las cadenas de bases y replicar la información genética, entre otras cosas.

¿Por qué se ha tardado tanto en secuenciar entero el genoma?

En los 21 años que han pasado desde la publicación del primer genoma humano se ha avanzado enormemente en el conocimiento del ADN y sus funciones. Es más, los científicos consideran que el Proyecto Genoma Humano no culminó hasta 2003, tras varias correcciones y adiciones. El genoma de referencia actual para realizar estudios científicos data de 2013.

Había otra dificultad añadida. Al disponer de dos pares de cada cromosoma (uno de cada progenitor), los investigadores reconstruían el genoma sin poder diferenciar si la información venía del mismo par: a veces era idéntica, a veces variaba. Los genomas de referencia son como monstruos de Frankenstein, reconstruidos en base a piezas de diferentes procedencias.

Por otro lado, la capacidad de secuenciación ha aumentado y dos máquinas han jugado un papel esencial: la primera, de Oxford Nanopore Technologies, puede secuenciar grandes piezas de ADN, de hasta un millón de bases. La segunda, de Pacific Biosciences, secuencia 20.000 letras de una vez pero lo hace con una altísima precisión. La unión de estas dos capacidades ha permitido avanzar en la secuenciación de las regiones 'ocultas' del genoma.

¿Quiénes han logrado este nuevo hito?

En 2017, el National Human Genome Research Institute (NHGRI), perteneciente a los Institutos Nacionales de Salud (algo así como el equivalente estadounidense del Instituto de Salud Carlos III, una entidad pública de investigación en salud) y la Universidad de Santa Cruz-California, fundaron el consorcio Telómero-a-telómero (T2T). El propio nombre indica su intención: leer todo el genoma de un extremo a otro. A ambas instituciones se añadió el Howard Hughes Medical Institute de la Universidad de Washington.

Los investigadores principales han sido Adam Phillippy, del NHGRI; Karen Miga, de la Universidad de Santa Cruz, y Evan Eichler, del Howard Hughes, pero han participado un centenar de científicos de universidades como la Johns Hopkins, Berkeley o Cambridge. El National Human Genome Research Institute ha financiado el proyecto.

¿De quién es el genoma que se ha secuenciado ahora?

Los investigadores han partido de unas líneas celulares que estaban siendo estudiadas por el genetista Urvashi Surti, de la Universidad de Pittsburgh. Su particularidad es que, aunque contienen 23 pares de cromosomas, todos proceden de una única persona.

Estas células provienen de lo que se conoce como mola hidatiforme. Es un tipo de tumor que se origina en el útero, de un óvulo que pierde su genoma y solo contiene el ADN del espermatozoide. En estos casos, el embrión no es viable y se transforma en una especie de tumor no canceroso.

De esta forma, los investigadores han podido ensamblar una línea de ADN que saben con toda seguridad que pertenece a la misma persona. Solo hay un pequeño problema: por esta misma razón solo contiene uno de los dos cromosomas sexuales, el X.

El cromosoma Y que falta lo han obtenido de otra fuente y ha sido secuenciado con posterioridad. Curiosamente, los científicos del proyecto afirman que les ha llevado el mismo tiempo secuenciar este único cromosoma que los 23 anteriores.

¿Cuántos genes nuevos se han descubierto?

Ha sido la gran sorpresa. Escondidos en esas regiones áridas llenas de repeticiones, han hallado unos 2.000 genes potenciales. La mayoría de ellos no son funcionales, pero hay 115 que pueden mantener capacidades codificantes.

El consorcio T2T ha secuenciado unos 200 millones de pares de bases nuevos, contabilizando un total de 19.969 genes que codifican proteínas. Además, han hallado unos dos millones de variantes en el genoma humano, de las que 622 tienen lugar en genes con relevancia médica, es decir, que se sabe su implicación en la salud y el desarrollo de enfermedades.

¿Qué implica toda esta nueva información?

El genoma humano debemos entenderlo no como los eslabones de una cadena sino como el puzle de un mapa. Había zonas en las que faltaban piezas y ahora disponemos de ellas. Solo con el paso de los años se conocerá el alcance práctico de esta nueva información, pero con lo que hemos avanzado hasta el momento podemos aventurar que servirá para profundizar en la medicina de precisión, esa que va dirigida a las particularidades genéticas de cada persona.

Esto ha permitido atacar algunas células cancerígenas que sobre-expresan ciertas proteínas, así como detectar mutaciones concretas en millares de enfermedades de causa genética. Disponer de un mapa más completo del genoma humano permitirá averiguar nuevas claves en enfermedades de las que hasta ahora se desconocía la causa.

¿Qué nos queda por saber ahora?

Los investigadores del consorcio T2T también publican esta semana la secuencia completa del cromosoma Y que falta en el genoma, pero su análisis aparecerá en una publicación posterior. Lo esencial que nos queda por saber es cuánto de este genoma es compartido por todos los humanos y qué partes varían: cada uno de nosotros acumulamos variaciones en algunos genes que nos hacen tener un color u otro en ojos, piel o pelo, nos hacen ser más altos o más bajos, etc. Estas y otras cuestiones pueden implicar variaciones en los genes.

Si comparamos partes del genoma de unas personas con este nuevo genoma de referencia podemos pensar que algunas variaciones se deben a mutaciones no deseadas. Es un error que se cometió con la primera secuenciación: pensar que toda variación no era normal. Distintas poblaciones del mundo tienen sus distintas características genómicas.

Por eso, el siguiente paso dado por el consorcio será trabajar con el Human PanGenome Reference Consortium, que busca profundizar en esas diferencias para lograr un genoma verdaderamente representativo de la diversidad de poblaciones humanas. Para ello, hará falta secuenciar numerosos genomas de personas de todo el mundo.