Discussions and conclusions - Scalable Methods and Algorithms for Very Large Graphs Based on Sa

Con el fin de determinar la secuencia genética que se encuentra en las proximidades de una región de secuencia conocida, se realiza una modificación de la técnica de PCR basada en la extensión de un único primer.

Esta metodología consiste en el uso de modificaciones sobre la reacción de PCR que incluye el uso de una mezcla de oligonucleótidos degenerados y fosforilados en el extremo 5' que se añade a la mezcla de la reacción.

La reacción se lleva a cabo utilizando un único oligonucleótido específico contra la región adyacente al punto de inserción o deleción. Este oligonucleótido puede estar diseñado para que hibride en la zona del cromosoma intacto que se localiza en la proximidad de la mutación. Esto se usa en el caso de deleciones, por ejemplo, donde el oligonucleótido hibridaría en la región del cromosoma que rodea a la deleción, para que se extienda cubriendo el punto de corte y empalme.

La reacción de PCR incluye un paso de annealing a baja temperatura durante un tiempo muy corto para permitir la incorporación de los oligonucleótidos degenerados a las cadenas de nueva síntesis. Por ello, y para evitar que el oligonucleótido se una a regiones inespecíficas del genoma, el diseño de este oligonucleótido debe incluir en su extremo 5' una secuencia complementaria a la de su extremo 3'. De este modo, se favorece la formación de estructuras en horquilla a temperaturas de annealing reducidas para reducir la posibilidad de homología inespecífica con el ADN de estudio.

Como resultado del uso de un único oligonucleótido, se obtiene una amplificación lineal. La incorporación de oligonucleótidos fosforilados a la reacción permite primar las cadenas lineales y generar regiones locales de doble hebra sobre las que la polimerasa regenera un ácido nucleico de doble cadena, que se utilizara como material de partida para la preparación de muestras para secuenciación NGS siguiendo protocolos establecidos.

Caracterización de la deleción de los exones 59-66 del gen FBN1.

1.- Primer extension utilizando un oligonucleótido que hibrida con la región intacta (no delecionada) más próxima a la zona delecionada.

Se utiliza el oligonucleótido:

FBN1-Ex58-FW: GCTTTCCCCTCTTGCTTCTTCT 1.1.- Composición de la reacción:

10X Long PCR buffer with 15 mM MgCl2**………..5 µl

79 Primer FBN1-Ex58-FW………1 μM

Template DNA………..50 ng N7*………..0,2 μM Enzima Long PCR**………..2,5 u H2O libre de nucleasas………..hasta 50 µl

*.- N7 = mezcla de oligonucleótidos degenerados fosforilados en 5’ (5’-pNNNNNNN-3’) **Long PCR Enzyme Mix (Thermo Scientific, K0181).

1.2.- Condiciones de la reacción de PCR: 3 min, 94ºC;

10 ciclos [94ºC, 20s; 60ºC 30 s; 30ºC, 1 s; 68ºC, 20 min];

25 ciclos [94ºC, 20s; 60ºC; 30 s 30ºC, 1 s; 68ºC, 20 min, con una extensión de 15 s por ciclo] Extensión final de 10 min a 68ºC.

Caracterización de la duplicación exones 46 y 47 del gen DMD

En el caso de ganancia de material genético, se diseña un primer que extienda la secuencia desde la región insertada y que cubra el punto de inserción sobre el cromosoma salvaje

1.- Primer extensión utilizando un oligonucleótido que hibrida dentro de la zona duplicada. En este caso, se diseña un oligonucleótido que incluye en su región 5’ una secuencia complementaria a la del extremo 3’ para minimizar la posibilidad de hibridación inespecífica a bajas temperaturas de annealing.

Se utiliza el oligonucleótido:

80 (posiciones 8-36 del oligonucleótido) son complementaria a las coordenadas chrX:31951631-31951659, contenidas dentro de la zona duplicada. Las posiciones 1-9 del oligonucleótido son complementarias a las posiciones 28-36. Se predice según diferentes modelos que este oligonucleótido presenta estructura secundaria a 30ºC (temperatura del segundo annealing en la reacción de primer extensión):

Figura 27. Modelos que predicen la ausencia de estructura secundaria a 60ºC (temperatura del Segundo anneling en la reacción de primer extensión).

Secuenciación

El primer paso es la desnaturalización del pool de librerías que se ha generado. Los cálculos se realizan siguiendo la siguiente figura 29

El pool se diluye a 2 nM, se realizó una desnaturalización con NAOH, se incuba durante 5 minutos a temperatura ambiente y se neutraliza la reacción con el Buffer HT1 para acabar obteniendo una concentración final de 12pM. El PhiX se utiliza como control.

82 cada uno de los pooles generados (multiplexados, añadidos los TAGs y en formato paired-end) fueron desnaturalizados, sometidos a la generación de cluster en el cBOT y secuenciados en el Hiseq1500 utilizando los reactivos de las figuras 30 y 31.

Figura 29. Se muestran lo necesario para hacer la amplificación clonal de las librerías generadas. 1 cBOT , sistema similar a un termociclador en el que la amplificación ocurre por puente. 2 Manifold , es la encargada de añadir los reactivos necesarios a las muestras para su amplificación.3 Son los reactivos necesarios para que la amplificación tenga lugar.4 célula de flujo que es el soporte al que quedan ancladas las moléculas de ADN para su amplificación clonal.

Figura 30. Se muestra la gran cantidad de reactivos que hacen falta para llevar a cabo una secuenciación en un Hiseq 1,2 y 3. Muestra la orientación correcta de la célula de flujo dentro del secuenciador

83 Una vez finalizada la secuenciación se procede al estudio de los parámetros de calidad utilizando, para ello, el programa Illumina Sequencing analysis viewer (SAV).

Figura 31. Resumen de los datos mostrados por el programa SAV

En la pestaña principal de Analysis, Se deben observar entre otros datos, las que se consideran los 4 parámetros de calidad más importantes.

• Data By Cycle: presenta múltiples opciones de visualización, una de las más importantes es la intensidad de la excitación registrada, cuanto más baja sea, mayor será la probabilidad de un error en la llamada de variantes. Otro parámetro muy importante es la tasa de error en la que se puede detectar la tasa de error en cada base.

• Data by Lane: Se puede observar entre otras opciones la densidad de los clusters por línea, la caja en azul representa el número total de clusters y la caja en verde los que han pasado los filtros y serán las lecturas que se van a analizar.

• Qscore Distribution: Se puede observar el porcentaje de datos asociados a una calidad, en azul representan datos por debajo de un Q30 y en verde los superiores Q30.

84 Figure 2 Resultados de la pestaña Summary del SAV

En la pestaña Summary podemos encontrar el resumen de los datos generados en la carrera. • Densidad = el número de Clusters generados.

• Cluster PF = Número de Clusters que han pasado los filtros. • El porcentaje de Phasing/Prephasing.

• El número de lecturas generadas las que pasan los filtros.

• El porcentaje de bases identificadas con una calidad superior a Q30 • El total de gigabases generados que pasan los filtros

• Diferentes parámetros de la tasa de error.

En la pestaña Indexing podemos encontrar el valor numérico total de las lecturas generadas: el porcentaje de lecturas que pasan los filtros, el porcentaje de lecturas identificadas que pasan los filtros y el porcentaje de lecturas que lleva cada una de las muestras de esa línea.

85 Figura 32. Resultado de la pestaña indexing del programa SAV

Bioinformática

In document Scalable Methods and Algorithms for Very Large Graphs Based on Sampling (Page 47-51)