THE WAKE OF NUFFIELD
SECTION A: PAST ML EXPERIENCES ML experiences at school
Un nuevo hito en la historia de las técnicas de detección de variantes estructurales se produjo gracias a las tecnologías de secuenciación de alto rendimiento. Desde la secuenciación del genoma humano la ciencia y la tecnología han avanzado hacia la genómica personal, es decir, hacia lograr una secuenciación de alto rendimiento y bajo coste para que todo el mundo pueda tener la secuencia de su genoma. Si bien este objetivo aún no se ha conseguido, se han mejorado mucho las técnicas de secuenciación, que se encuentran ya en su tercera generación. Se han desarrollado nuevas técnicas que
usan la computación para el mapeo de los reads provenientes de la secuenciación de genomas a partir de las tecnologías de secuenciación de nueva generación, NGS (del inglés Next Generation Sequencing). Así en el año 2005, Tuzun y colaboradores publicaron el primer estudio relevante de variantes estructurales detectadas mediante la técnica de mapeo de extremos apareados (PEM) [Tuzun et al. 2005]. La diferencia de esta técnica respecto a las técnicas de análisis de una molécula de ADN es que no hay un alineamiento visual de fragmentos, sino que se usa la computación para alinear las secuencias de los reads que provienen de la secuenciación a un genoma de referencia, por lo que se trabaja sólo con secuencia y no se usa la fluorescencia. Las tecnologías de secuenciación pueden generar dos reads que se encuentran a una distancia conocida ya que provienen de los dos extremos de un fragmento de ADN o inserto. En resumen, el mapeo de extremos apareados consiste en generar una librería de fragmentos de ADN o insertos, de los que se secuencian los extremos y se alinean al genoma de Referencia. Como el tamaño de los insertos es conocido, cualquier cambio en la distancia de estas secuencias nos indicará un CNV y los cambios en la orientación nos detectarán inversiones. Los insertos que presentan estos cambios se denominan discordantes y los que tienen la distancia y orientación esperadas se denominan concordantes respecto al genoma de Referencia (Figura 1.10). Una gran ventaja de esta técnica es que permite detectar una variante con precisión de nucleótido, si se secuencian por completo los insertos.
Figura 1.10: Detección de variantes estructurales mediante PEM. Están representados el genoma de Referencia arriba y el genoma prueba abajo, los reads en negro, las deleciones en rojo, inserciones en azul e inversiones en amarillo. En las deleciones se puede ver como los reads
mapean a una distancia menor en el genoma prueba. En las inversiones uno de los reads mapea en orientación inversa a la esperada. En las inserciones los reads mapean a una distancia mayor en el genoma prueba, si proviene de otro lugar del genoma una pareja de reads pueden mapear en la secuencia original y en la secuencia adyacente de la inserción. Si dos parejas de reads detectan los puntos de rotura de una de estas inserciones se denominan apareadas. Imagen tomada de Korbel et al. 2007.
Las deleciones se detectan cuando los extremos apareados están más separados en el genoma de Referencia, mientras que las inserciones al contrario, se detectan porque están los extremos más juntos que en el genoma de Referencia. Finalmente las inversiones se detectan cuando una de las secuencias alinea en orientación inversa respecto al genoma de Referencia, porque está dentro de la región invertida, mientras que la otra secuencia alinea en la orientación esperada ya que está fuera de la región invertida [Korbel et al. 2007]. Esta técnica puede detectar variantes estructurales de diferentes tamaños en función del tamaño del inserto que se use. Por otra parte, las limitaciones de PEM son que el mapeo único y fiable de los extremos apareados de los insertos se ve dificultado por la repetitividad del genoma humano y que es difícil obtener unos puntos de rotura definidos con buena precisión, ya que requiere la construcción de librerías genómicas de distintos tamaños y que tengan una distribución de tamaños muy controlada, lo cual es muy costoso [Alkan et al. 2011]. Por lo tanto no funcionan de manera fiable para algunas variantes estructurales como las inversiones que tienen sus puntos de rotura en secuencias repetidas. Se han realizado estudios de simulación que analizan este problema y que concluyen que hasta un 80% de este tipo de inversiones pueden no haberse detectado [Lledó and Cáceres. 2013].
El potencial de esta técnica es muy grande pero tiene sus limitaciones, por ejemplo que es muy difícil alinear las secuencias apareadas en zonas duplicadas y en general en zonas donde la repetitividad del genoma no permite un alineamiento único, por lo que se pierde una gran parte de la variación estructural del genoma, además de generarse una parte importante de falsos positivos [Sharp et al. 2006] [Lledó and Cáceres. 2013]. Aún así, este método de detección ha revolucionado la detección de variantes estructurales y es muy importante para la detección de variantes balanceadas como las inversiones cromosómicas. Un ejemplo de ello es que en sólo tres estudios que afectan a una decena de individuos se han detectado más de 300 inversiones diferentes en el genoma humano [Tuzun et al. 2005] [Korbel et al. 2007] [Kidd et al. 2008]; y al igual que pasó con los CNVs y los microarrays, esta cantidad de variación ha hecho que las inversiones se tengan muy en cuenta como responsables de la variación del genoma humano.
Otro método de detección de variantes estructurales a partir de reads de secuenciación es el del read dividido o split-read. Consiste en definir el punto de rotura de una variante estructural a partir del alineamiento de la secuencia de un read en el genoma de Referencia y se denomina read dividido porque en el caso de detectar el punto de rotura de una variante estructural la secuencia del read alinea en dos sitios distintos y en el caso específico de las inversiones, en dos orientaciones distintas. [Mills et al. 2006]. Este método es capaz de definir los puntos de rotura con precisión de nucleótido y se aplicó por primera vez usando reads provenientes de secuenciación Sanger [Alkan et al. 2011]. Los reads provenientes de NGS son más cortos y requieren mayor potencia computacional para ser alineados correctamente y aún más sus partes. Se suelen buscar las partes de la secuencia una cerca de otra, reduciendo el coste computacional y en
algunos casos, se usan extremos apareados para limitar el espacio de búsqueda de las partes [Alkan et al. 2011]. El funcionamiento de la técnica es muy parecido al PEM, solo que en este caso en vez de tener dos secuencias con un tamaño de separación conocido, tenemos dos partes de una secuencia que alinean en sitios distintos. Si las dos partes están separadas en el genoma de Referencia y no en el de prueba, detectamos una deleción y lo contrario para las inserciones. En el caso de las inversiones, al igual que en el PEM, el read ha de alinear en el punto de rotura de manera que una parte alinee fuera de la región invertida y la otra dentro, al menos en uno de los dos genomas a comparar, para poder detectar la inversión. Evidentemente existe una gran limitación para detectar las inversiones flanqueadas por duplicaciones segmentales. Finalmente, la detección de duplicaciones en tándem requiere al igual que las inversiones, que los reads alineen en un punto de rotura de la parte duplicada para que una parte de la secuencia detecte una copia y la otra parte, la copia siguiente; en el caso de las duplicaciones intersticiales se requieren varios reads para detectarlas.
Otro método que utiliza las secuencias de NGS para detectar variantes estructurales es la cobertura de reads. Es un método indirecto en que se analiza el número de reads del genoma prueba en una región y se compara con la del un genoma control secuenciado de la misma forma y las diferencias entre ambos indican duplicaciones y deleciones en el genoma prueba. Las regiones duplicadas tienen una cobertura de secuencias significativamente mayor y las deleciones significativamente menor [Alkan et al. 2011]. En este caso, las variantes balanceadas no pueden ser detectadas. Este método se aplicó por primera vez para detectar reorganizaciones en cáncer [Campbell et al. 2008].
Existen otros métodos de detección que tampoco utilizan directamente las secuencias de NGS sino la información derivada. Es el caso del análisis de genotipos de SNPs. Se usan los genotipos de un gran número de individuos derivados de proyectos a gran escala como el proyecto HapMap [Gibbs et al. 2003] para detectar por ejemplo deleciones [Conrad et al. 2006] [McCarrol et al. 2006]. En este caso, se analizó la transmisión de los genotipos de SNPs entre padres e hijos en tríos familiares. Se buscaron los genotipos no concordantes con una herencia mendeliana, y su genotipo erróneo se relacionó con regiones delecionadas. Además, McCarrol y colaboradores [McCarrol et al. 2006] analizaron las desviaciones del equilibrio de Hardy-Weingberg para determinar las regiones delecionadas y las agrupaciones de genotipos nulos para determinar las regiones delecionadas homocigotas. El equilibrio de Hardy-Weingberg fue definido en 1908 por los autores que le dan nombre. Establece que la composición genética de una población permanece en equilibrio mientras no actúe la selección natural ni ningún otro factor como la mutación. En este estudio se dedujo que, cuando los genotipos de los individuos de una población para un SNP no cumplen esta ley, se debe a una deleción ya que se disponía de información de genotipos nulos para estos SNPs en algunos individuos. Sus limitaciones son que pueden detectar sólo deleciones y que su resolución depende de la densidad de SNPs [Sharp et al. 2006].
Otros métodos de detección de variantes estructurales a partir de los genotipos de SNPs se basan en el desequilibrio de ligamiento que se da cuando dos locus segregan juntos, es decir, están ligados. Está relacionado con la falta de recombinación entre ambos bien sea por azar o bien por otros elementos que la bloquean, como pueden ser las inversiones cromosómicas. Usando estas premisas, se desarrolló un método estadístico para detectar inversiones respecto al genoma de Referencia, de un tamaño superior a 200 Kb, presentes en la mayoría de individuos de una población, usando los genotipos de SNPs provenientes del proyecto HapMap [Bansal et al. 2007]. Este tipo de métodos tienen como limitación que cualquier región con alto desequilibrio de ligamiento simplemente se detectará como inversión cuando no lo es, simplemente porque no ha recombinado y esto genera una alta tasa de falsos positivos. Un método similar se usó para predecir la frecuencia de inversiones y detectar cuales corresponden al alelo menos frecuente en una población [Sindi and Raphael. 2010], a partir de los haplotipos generados con los genotipos de SNPs de individuos Europeos, Africanos y Asiáticos [Sharp et al. 2006]. Actualmente se han desarrollado algunos métodos similares que utilizan datos de GWAs [Cáceres et al. 2012].