La lectura del genoma humano es probablemente uno de los hitos más espectaculares de la historia de la humanidad. Por primera vez tenemos acceso completo al “manual de instrucciones” para nuestra fabricación como seres vivos. Los 3.055 millones de “letras” que lo componen dictan cómo será nuestro físico (en combinación con el ambiente que nos toque vivir), así como un buen número de enfermedades que, con distintos grados de probabilidad, podríamos sufrir a lo largo de nuestra vida.
¿Y por qué es tan importante el conocimiento del genoma? Porque realmente, aunque tengamos su secuencia completa de “letras” aún hay una proporción enorme de lo que está “escrito” en él cuyo significado desconocemos. En otras palabras, no conocemos la importancia de la mayoría de cambios que observamos en los genomas de los pacientes que secuenciamos. Antes de disponerse del genoma humano se conocían unos pocos cientos de asociaciones entre genes y enfermedades. A partir del primer boceto en 2000, y gracias a la constante mejora de las técnicas de secuenciación, a día de hoy se conocen más de un millón de estas asociaciones. El conocimiento de la secuencia del genoma humano ha acelerado nuestra capacidad de descubrimiento y, por lo tanto, nuestra capacidad de diagnosticar y pronosticar enfermedades, así como recomendar tratamientos: lo que conocemos como medicina personalizada y de precisión.
El conocimiento de la secuencia del genoma humano ha acelerado nuestra capacidad de diagnosticar y pronosticar enfermedades
¿Y si es tan importante, por qué hemos tardado tanto en “leer” el genoma? Echemos un vistazo histórico: después de casi 10 años de esfuerzo, un gran consorcio internacional publicaba en el año 2000 el primer boceto del genoma humano, que fue mejorado en 2013 a la versión que hemos usado prácticamente hasta ahora, a la que solo quedaba un 8% aún desconocido.
Recientemente, en 2019, se publicó una versión más detallada en la que se daba cuenta de distintas versiones ligeramente diferentes del genoma. Hoy, por fin, usando metodologías de secuenciación de última generación, se ha conseguido leer completamente la totalidad del genoma humano. ¿Cómo es que hemos tardado casi una década en poder resolver ese 8% que faltaba? La explicación está en la forma en la que funcionan las técnicas de secuenciación. Las más desarrolladas se conocen como técnicas de secuenciación corta, porque leen muy eficientemente fragmentos muy cortos del genoma, pero lo hacen muchas veces. Si no tuviésemos el genoma la tarea de leerlo seria complejísima, ya que equivaldría a coger todas las palabras de la enciclopedia británicas sueltas y ponerlas en orden.
Como tenemos la referencia del genoma, lo que hacemos es buscar dónde está la palabra y la colocamos (una tarea de dificultad muy inferior a la anterior). Secuenciando individuos enfermos podemos, al superponer su secuencia a la de referencia, ver qué “palabras” en el “manual de instrucciones” que es el genoma están mal escritas. Y eso nos permite descubrir con relativa facilidad nuevas asociaciones entre variaciones del genoma y enfermedades.
¿Y que tiene ese 8% que se ha resistido una década a ser leído? Pues básicamente está compuesto por largas regiones con secuencias de “letras” muy repetitivas, por ejemplo “ATATATATATATATATATATA…” y así repetido varios millones de veces.
Como la tecnología de secuenciación solo permite leer fragmentos de 200-300 letras nunca podremos saber si estamos ante una región de 301 letras que la hemos leído varios millones de veces o ante una región de varios millones de letras de largo que la hemos leído una vez. Afortunadamente las tecnologías de secuenciación más recientes nos permiten leer fragmentos de hasta varios millones de “letras” de longitud. Esto ha permitido completar los huecos que se tenían y ordenar algunas regiones que no estaba claro en qué orden estaban colocadas dado que estaban interrumpidas por largos fragmentos altamente repetitivos.
Esta nueva versión del genoma humano completa mejora aún más nuestra capacidad de descubrimiento y redundará en una mejora de los diagnósticos y los tratamientos en los próximos años.
Joaquín Dopazo es director del Área de Bioinformática de la Fundación Progreso y Salud