• No results found

SECTION C: VIEWS ON IMPORTANCE OF ML AFTER COLLEGE

THE WAKE OF NUFFIELD

SECTION C: VIEWS ON IMPORTANCE OF ML AFTER COLLEGE

Hasta ahora hemos visto los distintos métodos de detección de variantes estructurales que se basan en la comparación de los productos de secuenciación respecto a un genoma de Referencia, pero un paso más allá, se encuentra la comparación de genomas completos, es decir, la comparación entre genomas ensamblados independientemente. Se pueden detectar todo tipo de variantes con una precisión de nucleótido por alineamiento de ambos ensamblajes [Feuk et al. 2006]. El problema reside en el coste de generar genomas completos y realizar un ensamblaje de calidad sin usar el genoma de Referencia. Además la repetitividad del genoma humano hace que el ensamblaje de novo sea más complicado, en comparación con otras especies donde ya se utiliza más ampliamente, como por ejemplo en bacterias. La generación de librerías genómicas, clonaje de BACs y secuenciación de extremos es muy cara para aplicarla ampliamente, y es por eso que el camino hacia el ensamblaje de novo pasa por las técnicas de secuenciación de última generación y las mejoras de los algoritmos de ensamblaje [Alkan et al. 2011]. El ensamblaje de novo requiere reads grandes para que sea factible y las técnicas de secuenciación de última generación intentan avanzar en esa dirección.

Muchos son los individuos secuenciados pero no ensamblados, como por ejemplo los 1092 individuos secuenciados en el proyecto de los 1000 Genomas [1000 Genomes Project Consortium, 2012]. Varios genomas se han secuenciado mediante NGS y ensamblado con la ayuda del genoma de Referencia para ordenar los contigs o alinear las secuencias directamente [Bentley et al. 2008] [Wheeler et al. 2008] [Wang et al. 2008] [Ahn et al. 2009] [Fujimoto et al. 2010] [Gupta et al. 2012] [Lilleoja et al. 2012] [Azim et

al. 2013] [Shen et al. 2013]. Sin embargo, ha habido pocos intentos de ensamblar genomas de novo y algunos no han tenido la calidad necesaria para que se usen en la detección de variantes [Li et al. 2010]. Sólo se dispone de un genoma ensamblado de novo de alta calidad, es el caso del genoma de J. Craig Venter (HuRef) publicado en el año 2007 y secuenciado por secuenciación tradicional Sanger con la estrategia de perdigonazo o shotgun al igual que el genoma de Referencia de Celera genomics [Levy et al. 2007]. Esta estrategia se basa en la fragmentación del ADN y la secuenciación de los fragmentos, mediante la repetición de este proceso se generan fragmentos secuenciados con distintas terminaciones, y se utiliza un ordenador para ensamblarlos. La secuenciación por Sanger genera secuencias mucho más grandes que las obtenidas por NGS y esto permite el ensamblaje de novo.

La detección de variantes estructurales por comparación de genomas ensamblados de novo permite detectar variación estructural con la máxima precisión, es decir, con precisión de nucleótido. Además la comparación genómica es un método no sesgado, es decir que detecta con la misma probabilidad un alelo u otro, debido a que es un método directo. Ambos factores hacen que la detección de variantes por comparación genómica sea mucho más eficaz, es decir, que se detecten una mayor proporción de las variantes existentes entre ambos genomas. Existen algunas aproximaciones menos costosas para descubrir variantes estructurales como las combinaciones entre ensamblaje de novo y alineamiento de contigs con el genoma de Referencia [Alkan et al. 2011]. También se han hecho ensamblajes locales a partir de fósmidos discordantes secuenciados para descubrir variantes estructurales en 17 genomas humanos [Kidd et al. 2008] [Kidd et al. 2010]. Finalmente, se han aprovechado los ensamblajes existentes para descubrir variación estructural en el genoma humano. Por ejemplo, se comparó el borrador del genoma de chimpancé con el genoma de Referencia humano [Feuk et al. 2005] en busca de inversiones cromosómicas fijadas y se descubrieron 3 inversiones polimórficas en humanos. También se aprovechó el ensamblaje del genoma humano realizado por la empresa Celera Genomics en la carrera por la publicación del genoma humano y se comparó con el genoma de Referencia detectándose numerosas variantes estructurales [Khaja et al. 2006]. Evidentemente también se descubrió variación estructural entre el genoma ensamblado de novo de J. Craig Venter y el genoma de Referencia [Levy et al. 2007], variación que se muestra con mayor detalle en los siguientes apartados.

1.2.3 Origen y mecanismos de formación

En el apartado anterior hemos visto cómo detectar la variación estructural pero, ¿cómo se genera? Tenemos una idea estable del genoma pero éste no es inmune a recibir perturbaciones ya sean externas, como las mutaciones provocadas por la radiación ionizante, o bien internas, en forma de errores en la replicación. Para evitar que se acumulen mutaciones, las células tienen una maquinaria que mantiene la integridad del

ADN mediante vías de reparación. Pero los mecanismos de reparación no son perfectos y se dan errores, que forman variantes estructurales en el genoma [Onishi-Seebacher and Korbel. 2011]. También se generan errores durante la recombinación cromosómica que se da en la meiosis y mitosis celular. Además, también pueden generarse variantes estructurales por inserción de secuencia mediada a través de la transposición de elementos móviles.

Los mecanismos de formación de las variantes estructurales pueden clasificarse en los que utilizan secuencias homólogas, que luego encontramos en los puntos de rotura de las variantes, o bien en mecanismos no homólogos o mediados por micro-homología, que no usan secuencias homólogas o utilizan secuencias homólogas muy pequeñas, de alrededor de 10 nucleótidos. Entre los mecanismos por recombinación homóloga encontramos el apareamiento de cadena sencilla, SSA (del inglés Single Strand Annealing), y la recombinación homóloga no alélica, NAHR (del inglés Non-Allelic Homologous Recombination); y entre los mecanismos no homólogos encontramos distintos mecanismos de reparación que usan secuencias micro-homólogas o no, como la unión de extremos no homólogos, NHEJ (del inglés Non Homologous End Joining), la unión de extremos alternativa, alt-EJ (del inglés Alternative End Joining), o la unión de extremos mediada por micro-homología, MMEJ (del inglés Microhomology-Mediated End Joining), además de mecanismos que dan lugar a reorganizaciones o variantes complejas como son la reparación inducida por rotura mediada por micro-homología, MMBIR (del inglés Microhomology-Mediated Break-Induced Repair), el colapso de la horquilla de replicación y cambio de cadena molde, FoSTeS (del inglés Fork Stalling and Template Switching), y la cromotrípsis [Onishi-Seebacher and Korbel, 2011]. Los mecanismos homólogos agrupan mecanismos de reparación de las roturas de doble cadena, DSB (del inglés Double Strand Break), y de recombinación homóloga, mientras que los mecanismos no homólogos agrupan mecanismos de reparación de DSB y replicación del ADN [Lam et al. 2010]. Cada vía de reparación utiliza diferentes proteínas y tiene una eficacia de reparación diferente, de manera que su capacidad para formar mutaciones también es diferente [Conrad et al. 2010]. En los siguientes apartados se muestra el funcionamiento de los mecanismos de formación con mayor detalle.

Una vez que ya conocemos qué mecanismos producen la variación estructural nos podemos preguntar ¿cuándo ocurre? es decir, ¿en qué especie o población se generó una variante estructural determinada? Sólo se conoce el origen de algunas de las variantes estructurales que se han descubierto en el genoma humano, aunque como idea general, podemos entender que hubo un aumento de la complejidad en la estructura del genoma principalmente a raíz de un aumento de las regiones duplicadas del ancestro común de los grandes primates Africanos y se puede relacionar la localización de la variación en el número de copias en los genomas de chimpancé, gorila, macaco y humano con la localización de estas duplicaciones segmentales [Gazave et al. 2011]. Por lo tanto existen variantes estructurales que se encuentran en varias especies y variantes estructurales

específicas de una especie. Feuk y colaboradores identificaron 1576 regiones putativamente invertidas entre los genomas de humano y chimpancé, gracias a la comparación de los ensamblajes de ambos genomas [Feuk et al. 2005]. Validaron por FISH 5 inversiones en los genomas de humano, chimpancé y gorila, y encontraron que 4 de las 5 eran inversiones entre humano y chimpancé; además de 22 inversiones por PCR en humanos y chimpancés resultando en 19 inversiones entre ambos. Además, en tres casos, la orientación del genoma de gorila coincidió con la de chimpancé, de manera que la inversión es específica del genoma humano [Feuk et al. 2005]. Se han realizado otros análisis del estado ancestral de variantes estructurales a gran escala. Por ejemplo se asignó el estado ancestral de 1281 variantes estructurales descubiertas en el genoma humano mediante análisis bioinformático [Lam et al. 2010]. Este análisis se basó en la comparación de las secuencias adyacentes a los puntos de rotura en humanos con las correspondientes en los genomas de chimpancé, orangután y macaco. Para 1141 se asignó la orientación ancestral al estado en el genoma de chimpancé y para las 139 restantes fue asignado su estado ancestral en base a los genomas de macaco y orangután debido a regiones de baja calidad del ensamblaje del genoma de chimpancé [Lam et al. 2010], por lo que representan variantes específicas del genoma humano.

En el mismo estudio se determinaron los posibles mecanismos de formación, a partir del análisis bioinformático de las secuencias flanqueantes de casi 2000 variantes estructurales en el genoma humano. Se clasificó el 45% como resultantes de mecanismos no homólogos, el 21% de mecanismos homólogos, el 21% de inserciones de elementos móviles, el 5% como variación en el número de repeticiones en tándem producidas por el deslizamiento de la horquilla de replicación durante la replicación del ADN, mientras que para el resto de variantes no pudo ser determinado su mecanismo de formación [Lam et al. 2010]. En otro estudio se analizaron 1054 variantes estructurales y el 52.1% se clasificaron como mecanismos no homólogos o micro-homólogos, el 29% como mecanismos homólogos, el 18.9% como transposición de elementos móviles [Kidd et al 2010]. Por lo tanto los mecanismos no homólogos son más comunes, pero no quiere decir que hayan tenido un impacto más grande en la estructura del genoma, ya que la distribución de los mecanismos de formación no es uniforme [Lam et al. 2011].

Una de las observaciones de los estudios que han intentado analizar la importancia de los mecanismos de formación a partir de el porcentaje de variantes que han originado es que los mecanismos homólogos tienden a ser responsables de las variantes de mayor tamaño mientras que los mecanismos no homólogos lo son de las de menor tamaño. Este sesgo se produce porque los mecanismos homólogos están inducidos por la recombinación y los no homólogos por la reparación de errores y ambos procesos tienen tasas diferentes de error [Lam et al. 2010]. Los resultados obtenidos por Conrad y colaboradores [Conrad et al. 2010] en el análisis de CNVs dan soporte a esa idea. Concluyeron que la contribución de los mecanismos NAHR y VNTR es dependiente del tamaño del CNV, NAHR es más frecuente que VNTR entre las variantes más grandes, mientras que VNTR es más frecuente

entre las variantes pequeñas [Conrad et al. 2010]. Además en este estudio también se descubrió que las duplicaciones son dependientes de la secuencia flanqueante para su formación mientras que las deleciones no son tan dependientes y por tanto suelen estar formadas por mecanismos no homólogos. Resultados similares se obtuvieron por Mills y colaboradores [Mills et al. 2011], que establecieron los mecanismos no homólogos como dominantes entre las deleciones y la inserción por transposición de elementos móviles como el mecanismo dominante para las inserciones, aunque también detectaron secuencias micro-homólogas correspondientes a mecanismos no homólogos [Mills et al. 2011]. Además concluyeron que el mecanismo VNTR solo es responsable de las duplicaciones más pequeñas.

Es importante resaltar que estos resultados no parten de conjuntos de variantes estructurales donde cada clase está igualmente representada y existen sesgos en las técnicas de detección que afectan a los porcentajes finales. Por ese motivo, recientemente se ha usado un conjunto de variantes estructurales que tienen menos sesgos debidos a la detección, porque provienen de la comparación de los ensamblajes del genoma de Referencia y del genoma de J. Craig Venter, HuRef [Levy et al. 2013]. Se asignó el mecanismo de formación para 407365 ganancias, 382510 pérdidas y 117 regiones invertidas. Entre las variantes pequeñas de menos de 1 Kb, el 72.6% estaban producidas por mecanismos no homólogos y el 24.9% por eventos de microsatélites. Las variantes de menos de 10 Kb estaban producidas en un 25.8% por minisatélites y en un 24 % por retrotransposones, mientras que NAHR es el mecanismo más frecuente entre las de más de 10 Kb, con un 46.2% [Pang et al. 2013]. En la clasificación por tipos de variantes, los CNVs estaban mayoritariamente producidos por mecanismos no homólogos mientras que las inversiones estaban producidas en un 54.7% por mecanismos homólogos. En global, según los resultados de este estudio, los mecanismos no homólogos son responsables de la mayoría de variantes, aunque las variantes de mayor tamaño suelen estar formadas por mecanismos homólogos. Por lo tanto, el sesgo en la distribución de los mecanismos es claro, y el impacto de unos mecanismos u otros sobre la estructura del genoma se entiende mejor dividiendo las variantes por tamaño.