Verification of Theorem 3 - The bias and variance in a streaming model

4.4 The bias and variance in a streaming model

4.5.7 Verification of Theorem 3

Con la llegada de las nuevas tecnologías de secuenciación al diagnóstico clínico, ya no es suficiente con conocer la patología de interés, hace falta tener en cuenta la parte tecnológica. Actualmente existen en el mercado multitud de alternativas para llevar a cabo una secuenciación masiva con éxito. Sin embargo, no todas pueden ofrecer los mismos resultados y cada estrategia tiene sus puntos fuertes y sus debilidades (74) (75).

En la primera parte de la tesis se ha comparado dos estrategias de enriquecimiento, basadas en amplicones (Haloplex) y en captura (Sureselect). A su vez, se compararon también dos tipos de preparación de librerías para captura: una basada en fragmentación mecánica (XT) y otra en una transposasa (QXT). Por último, se han utilizado diferentes secuenciadores para obtener los datos: Hiscan, Hiseq, Miseq y Nextseq y así poder comparar los resultados obtenidos por cada plataforma.

El primer aspecto que se evalúo fue la cobertura y profundidad de las muestras, sobre la que existe gran disparidad de criterios. En este sentido Bentley y colaboradores estimaron que a una profundidad entre 15X y 33X era suficiente para detectar variantes en homocigosis y heterocigosis respectivamente, sobre un genoma humano completo (76).

En el trabajo publicado por Ajay y colaboradores en 2011 recomiendan 50X de profundidad (77). Al mismo tiempo, Clack y colaboradores recomiendan una profundidad de 80X (78), mientras que otros recomiendan profundidades entre 30X y 70X (79).

Por lo tanto, revisando la bibliografía vemos que no se ha llegado a un consenso claro en este punto. En este estudio, se han clasificado las variantes detectadas por debajo de 10X como variantes asociadas a una baja calidad y variantes de buena calidad cuando la profundidad asociada fue superior a 50X. Cabe destacar que la evolución de los secuenciadores de Illuminna, permitió la obtención de cada vez un mayor número de lecturas, empezando con el y continuando con otros modelos como el Hiscan, Hiseq, Miseq o Nextseq.

Al ir aumentando el número de lecturas de cada muestra, las regiones cubiertas han ido aumentando, por lo que se ha establecido una correlación positiva entre ambos parámetros.

145 Es las pruebas realizadas con el modelo Hiseq, la práctica totalidad de las regiones exónicas estaban cubiertas, llegando a coberturas totales en alguna de las muestras.

Los resultados mostraron la dificultad de tener una cobertura completa a lo largo de todo el panel personalizado, independientemente del método de captura utilizado, o el secuenciador utilizado. Así, se observó cómo con la preparación mediante Haloplex se obtuvieron unas medias de profundidad más elevadas que las obtenidas con la tecnología de enriquecimiento Sureselect. No obstante, sistemáticamente presentaba regiones sin cobertura, llegando éstas a ser de hasta un 3% del diseño. Por otro lado, la tecnología de preparación de librerías Sureselect presentó un porcentaje menor de regiones sin cubrir. Estos datos, coinciden con los descritos en el trabajo de Samorodnitsky (80), donde realizaron una comparación entre los métodos de enriquecimiento basados en captura y los basados en amplicones, encontrando que la profundidad es más uniforme en los primeros.

Por otra parte, hablando de la preparación de librerías mediante métodos enzimáticos basados en transposasa, se encontró una mejora sistemática en comparación a la seguida por los métodos tradicionales, ya que se combinan en una única reacción: la fragmentación, la reparación de los extremos y la ligación de adaptadores (81). Esta metodología permite que se reduzca el tiempo de procesado en la preparación de librerías. Otra de las ventajas de este protocolo, es que no requiere de un equipamiento especial durante la preparación de la muestra como puede ser un sonicador, lo que lleva a una reducción de costes durante todo el proceso. Por el contrario, este método es muy sensible a la cantidad y calidad del ADN de partida. Se ha reportado que los métodos enzimáticos pueden presentar sesgo a la hora de utilizar este tipo de fragmentación (82) (83). Probablemente ésta pueda ser la causa del sesgo encontrado en el caso del gen TRDN, donde sistemáticamente aparecía un exón sin cubrir a lo largo de las 13 muestras procesadas (figura 53). Este mismo resultado fue obtenido en los exomas facilitados por el fabricante. Este tipo de errores había generado un sesgo en la detección de variantes en comparación con el protocolo convencional no enzimático (SureselectXT), en el que aparecía una tasa más elevada de lo normal en sustituciones G>A.

La revisión manual de esa región en el IGV detectó la presencia de dos polimorfismos: rs12198167 y rs12198164; que estaban presentes en las muestras procesadas por la metodología XT haciendo bajar el sesgo G>A y colocándolo en valores normales (figura 52), aumentando así la concordancia entre ambas metodologías en lo referente a la de detección de variantes.

146 Con los avances que se están llevando a cabo en los métodos de preparación de librerías mediante transposasas, cada vez más empleadas (84),

es posible que pronto este sesgo sea corregido, tal y como se indica en el artículo publicado por Kia y colaboradores donde han utilizado una mejora de la transposasa TN5 para secuenciar el genoma completo (85).

En cuanto a la secuenciación de exomas, existen multitud de opciones en el mercado actual, pero casi dos décadas después de la secuenciación del genoma todavía no existe un consenso en los genes que se deberían incluir en este tipo de paneles. En este sentido, en un trabajo realizado con diferentes exomas pertenecientes a diferentes proveedores, la longitud en megabases de cada uno es diferente, desde 45 Mb hasta 64 Mb (86).

En otro estudio, también evaluaron los exomas en función del contenido de diferentes bases de datos como CCDS, Refseq o Ensembl (87), y otros incluso realizaron experimentos cambiando entre versiones de exomas (78).

Un punto importante a tener en cuenta es la existencia de exones no cubiertos del exoma, como se puede observar en la figura 55. Se han descrito ciertas mutaciones patogénicas en exones que no están cubiertos por los exomas (88). Junto a estas regiones perdidas habría que añadir las mutaciones patogénicas encontradas en regiones intrónicas profundas que no pueden ser estudiadas por los exomas. Por ejemplo, en un trabajo detectaron este tipo de mutaciones en una familia con síndrome de Marfan, el resultado de la mutación genera un nuevo donador de splicing que produce una inserción de 90 pb entre los exones 56 y 57 a nivel de cDNA, produciendo un codón de stop. Esta variante no podría ser detectada por los exomas (89).

Los resultados presentados en este estudio, reflejan que la utilidad de nuestro panel personalizado es superior a la del exoma, desde el punto de vista de la homogeneidad de cobertura y profundidad; tal y como podemos ver en la figura 54.

A lo largo del gráfico, donde se muestran las profundidades, vemos que los 16 exomas presentan alteraciones en la profundidad por toda la región, mientras que en nuestro panel personalizado estas variaciones son mínimas. Estos datos son apoyados por los datos obtenidos en un estudio en 2017, en el cual concluyen que los exomas presentan baja uniformidad local y global (90). Del mismo modo, en esta publicación hacen referencia al problema de cobertura en el exón 1 del gen KCNQ1, que tal y como se

147 muestra en la figura 55, no se encuentra totalmente cubierto en la preparación utilizando el diseño del exoma pero si por el panel customizado.

En 2015, otro trabajo (91) realizó una combinación del exoma de Agilent y Haloplex para conseguir cubrir las regiones no incluidas en el exoma.

La ausencia de cobertura en determinadas regiones puede influir en la aparición de falsos negativos. Así, los paneles personalizados utilizados en este trabajo mediante la tecnología Sureselect presentaron un coeficiente de variación inferior a lo largo de los más de 3700 exones de los que están formados. Y las profundidades fueron más altas en comparación con los datos obtenidos al procesar las muestras con un diseño tipo exoma.

En el trabajo publicado por Manase et al. (92) donde estudiaron la profundidad y cobertura de 50 genes relevantes en cardiología, encontraron que solamente existía una cobertura y profundidad adecuada (>30x) en el 64% de los 50 genes que estudiaron.

Estos datos nos sugieren que el exoma debe de utilizarse solamente después de realizar un panel con resultado negativo para evitar falsos negativos.

En cuanto a la detección de variantes, los datos difieren según el método de captura que ha sido empleado, como ocurre en un estudio de 2015 donde se comparó Haloplex y Sureselect junto con otras metodologías, obteniendo valores de discrepancia que van desde el 29% utilizando el variant caller Samtools, hasta el 14% utilizando el GATK en un total de 4 muestras pareadas (93). Aparecieron también discrepancias según la metodología empleada cercanas al 12% en el caso de Haloplex contra Sureselect. También muestra que utilizando Sureselect se detectan más variantes que utilizando Haloplex.

En 2015, el trabajo de Philippe y colaboradores (94) también comparó Sureselect contra Haloplex y se detectó hasta un 20% menos de variantes que la combinación de otros métodos de enriquecimiento entre los que se encuentra Sureselect.

Ambos resultados son similares a los que se han encontrado en este trabajo donde hemos encontrado un 12% de discrepancias a nivel de variantes detectadas utilizando Haloplex y Sureselect (figura 40), aunque debido a que ninguna de estas variantes ha sido clasificada como patogénica por el algoritmo de filtrado de variantes, no se han realizado comprobaciones por secuenciación Sanger para ninguna de las variantes incluidas entre las discrepancias. Lo que sugiere que no todas las estrategias de paneles customizados presentan la misma sensibilidad

148 La comparación de los resultados obtenidos según el método de preparación de librerías; XT o QXT; y mismo sistema de enriquecimiento Sureselect establecieron una concordancia superior al 98%. Estos resultados son similares a los mostrados por Shigemizu en una comparación entre muestras de dos exomas preparadas en paralelo mediante XT y QXT (86), donde las diferencias fueron descritas en regiones de baja profundidad y por la proximidad a regiones de baja complejidad como se muestra en figuras 50 y 51 .Lo que sugiere que los métodos basados en captura presenta una mayor reproducibilidad.

En relación a la reproducibilidad de datos obtenidos por técnicas de secuenciación masiva, se procedió mediante una única preparación de 16 muestras a su secuenciación en paralelo dentro del mismo secuenciador y entre distintos secuenciadores. Para ello se utilizaron los secuenciadores Hiscan y Hiseq. Se encontró que el error de secuenciación dependía del valor de qual asociado, a mayor qual menor error de secuenciación (figura 56).

En el caso del Hiscan se observaron que los errores siguen una correlación directa entre ambos duplicados, existen unas posiciones ubicadas entre las bases 20 a 40 y 60 a 80, en las que la acumulación de errores fue más elevada.

El Hiseq, no presentó una correlación directa entre ambas líneas del mismo cartucho de secuenciación. La acumulación de los errores de secuenciación mostró un patrón aleatorio pero dependiente del qual asociado.

La forma en la que fue calculada la tasa de error fue diferente a la que utiliza el software del fabricante de los secuenciadores Illumina, basado en el alineamiento de las lecturas del fago phiX174 contra su referencia. Extrapolando el error de una carrera en un pequeño número de lecturas, normalmente inferior al 1% del total de lecturas. Este método reconoce las lecturas que alinean contra una referencia de 5386 pb, en donde el homopolimero más largo es de solo 7 T, mientras que en esta tesis se han utilizado las lecturas alineándolas contra el genoma humano, contabilizando de esta manera el número de bases diferentes a la referencia y asumiendo que, al utilizar las mismas muestras, tanto los errores producidos mediante las PCRs, como las variantes propias de las muestras son las mismas.

La tasa de error fue inferior en el Hiscan que en el Hiseq. Sin embargo, la cantidad limitada de lecturas que suministro el Hiscan no garantizó una correcta cobertura para el panel.

Estos datos correspondientes a los errores no coinciden con los reportados en la literatura, donde el Hiseq siempre presenta una tasa de error menor (95), (96). Sin embargo, una posible explicación puede ser la

149 influencia en la diferente tasa de error del Hiseq de la cantidad de lecturas generadas, el número de ellas que alinean fuera de la región de interés es mayor. Dichas lecturas, suelen estar distribuidas por todo el genoma, por lo que lecturas que alinean en regiones que no son de estudio, pueden tener efectos negativos en estas estadísticas debido a que el genoma está lleno de regiones repetitivas y de baja complejidad, donde una lectura alineada puede generar un alineamiento con una puntuación más baja. Este hecho es debido a un incremento en el número de mismatch superior al que presentan las regiones de alta complejidad. Al generar menos lecturas, estas estarán centradas principalmente en regiones de alta complejidad, reduciendo así los porcentajes de errores del Hiscan. Son necesarios estudios adicionales para poder confirmar este hecho.

Otra posibilidad es que esta ronda de secuenciación en particular, no fuese satisfactoria en términos de calidad, (alta generación de clusteres). Este grupo de muestras fueron enviadas a empresas de secuenciación externas, y no fue posible obtener los datos crudos del secuenciador.

El estudio de las variantes de estas muestras por duplicado mostró una discrepancia cercana al 5,73 % para un total de más de 33000 variantes, la discrepancia fue atribuida a la existencia de un 24,5 % de lecturas diferentes entre los duplicados de la secuenciación del Hiseq. Al unirlos en un único fichero y volver a analizarlos, esas variantes desaparecieron al aumentar la profundidad. Por otra parte, se generaron otras nuevas que no habían sido detectadas con anterioridad, todas ellas en regiones intrónicas de baja complejidad.

En las comparaciones realizadas entre los sistemas de illumina de 4 canales (Miseq y Hiseq) y el de 2 canales (Nextseq), éste siempre tiene una tasa mayor de detección de variantes, incluso una vez aplicado un filtro de profundidad restrictivo para zonas con profundidad menor a 10X. Centrándonos en las 21 muestras que se secuenciaron en paralelo entre estos dos secuenciadores, el porcentaje Ts/Tv es del 0,53 % sugiriendo que las variantes son errores. Se ha descrito que la tasa de error del Nextseq es del 1%, mientras que la del Hiseq y Miseq son del 0.1% (97). Apoyando el uso de sistemas más robustos como el Hiseq.

Para paliar estas diferencias entre los métodos de secuenciación y poder diferenciar una variante real de un error hace falta un conocimiento tecnológico de las técnicas utilizadas. Así pues, se han descrito multitud de errores en los secuenciadores de Illumina, siendo uno de los más importantes las secuencias que producen errores sistemáticos, como son las repeticiones invertidas y las secuencias GGC, como se

150 puede ver en la figuras 46 y 47. En la publicación de Nakamura et al. (98) especulan que este error es favorecido el phasing, inhibiendo la elongación de la bases durante el proceso de secuenciación. Este tipo de errores sistemáticos sólo ocurre en una de las cadenas del ADN que se está secuenciando, en la cadena complementaria. La secuencia es CCG, pero además como está siendo leído en otra orientación, el resultado sería GCC y no está descrito como un error sistemático, lo que supone que los errores sistemáticos son fácilmente identificables porque solamente se presenta en una orientación de la cadena de ADN

Estos errores de sesgo de cadena son más difíciles de paliar cuando el enriquecimiento de las regiones está basado en amplicones (80). Aunque este tipo de error GGC*G es el error sistemático más descrito en la literatura (99) y (95) en donde describen que la tasa de error después de una secuencia GG, es más alta que en cualquiera otra combinación de nucleótidos. También se han descrito otros errores sistemáticos como el GGT (100) y otros que aparecen publicados en el trabajo de Allhoff et al. en 2013, donde se describe una lista de errores no limitados a 3 pares de bases.

Es característico en la secuenciación Illumina, la acumulación de errores al final de las lecturas atribuidas al phasing y pre-phasing durante la carrera de secuenciación. Tal como se describe en el trabajo de ChenF et al., las propiedades químicas y estructurales asociadas a los ddNTPs contribuyen a estos efectos. Después de la hendidura del grupo enlazador que lleva el fluoróforo, moléculas suplementarias actúan sobre las purinas y pirimidinas que permanecen y no son eliminadas eficientemente. Este vestigio de moléculas puede afectar a la acción de la ADN polimerasa y limitar la longitud de la lectura, perturbando el sustrato para el reconocimiento y extensión de la molécula de ADN (101). Futuros desarrollos como los Lightning terminators, en donde el terminador reversible no necesita de enzimas para ser desprendido prometen hacer las secuencias más largas con menor tasa de error (102).

En relación a los dos tipos de errores (sistemáticos y aleatorios), se observa que tienen un efecto más acusado en las regiones de baja profundidad. De este modo, mientras que los errores aleatorios pueden ser solucionados aumentado la profundidad, los errores sistemáticos necesitan de una corrección más elaborada como puede ser la adición de un bajo porcentaje de secuencias sintéticas a la secuenciación para poder realizar un recalibrado de los errores de secuenciación (103), así como complicados análisis informáticos basados en machine learning (104), o finalmente, estrategias de filtrado de datos crudos (105).

151 Otros métodos de reducción de errores de secuenciación se asocian con la preparación de la muestra, como son los UIM (identificadores de molécula única), especialmente diseñados para la detección de mutaciones en baja frecuencia alélica (106), o los basados en Rolling cyrcle PCR con los que han llegado a bajar el error de secuenciación de un Miseq hasta 7.6 × 10−6₍₁₀₇_{), teniendo este sistema menores costes}

que los UIM.

También como método para la corrección de errores, se puede emplear el Duplex sequencing, que consiste en añadir un índice a un adaptador que se une a las dos cadenas del ADN, y las variantes solamente son llamadas si aparecen en las dos cadenas del ADN de la misma molécula. (108) (109). Se encontró que la mayoría de los errores sistemáticos fueron encontrados después de realizar una revisión manual en el IGV. Este efecto ocurre en las primeras bases de cada región de interés, donde solamente se presentaban coberturas por un único tipo de lecturas alineadas contra la cadena positiva o la negativa. Para solventar este error se añadieron 100 pb a cada lado de nuestras regiones de interés, haciendo de esta manera el diseño más grande y aumentando el número de lecturas alineadas en ambas cadenas cuando la secuencia se acerca al nivel del exón.

La generación de una muestra in silico permitió la puesta a punto del análisis bioinformático, la simulación mediante pIRS tiene en cuenta el sesgo producido en plataformas Illumina por la influencia del porcentaje de GC y el error del secuenciador producido en cada lectura (110). La opción de generar una muestra sintética con un comportamiento similar a una muestra real, posibilitó la construcción de un flujo de trabajo para la correcta detección de las variantes generadas, además de proporcionar información sobre el comportamiento de las herramientas bioinformáticas utilizadas para la construcción del pipeline con el aumento de la profundidad generada.

Los resultados muestran que cada herramienta tiene una sensibilidad diferente según la profundidad a la que se predice una variante. Así pues, a una profundidad media de 50X la mayor sensibilidad la

In document Scalable Methods and Algorithms for Very Large Graphs Based on Sampling (Page 102-107)