Queue computation and re-evaluation - User-Centric Residential Network Management

PART I – Residential Traffic Management

Chapter 5 User-Centric Residential Network Management

5.2 Design

5.2.5 Queue computation and re-evaluation

En el ensamblado, las lecturas metageno micas cortas se unen en base al solapamiento de secuencia para formar otras ma s largas denominadas contigs. Este proceso puede llevarse a cabo de novo (sin ningu n tipo de conocimiento previo sobre el/los microorganismos secuenciados) o bien con genomas de referencia (donde se utiliza un genoma filogene ticamente cercano ya secuenciado y ensamblado como guí a para este nuevo ensamblado). Por lo general, al obtener un metagenoma de una muestra ambiental no se posee informacio n adecuada de los microorganismos presentes, por lo que en estos casos se lleva a cabo un ensamblado de novo. Existen tres estrategias principales de ensamblado de novo: greedy, Overlap-Layout-Consensus (OLC), y grafos de Bruijn (DBG). Los primeros ensambladores usaban el algoritmo greedy, donde se unen las lecturas con mejores solapamientos (siempre que no contradigan la secuencia construida hasta el momento) de forma iterativa. Esto es, se realiza siempre la eleccio n con el mayor beneficio inmediato y no se considera la relacio n global entre todas las lecturas. El me todo OLC se basa en la construccio n de un gra fico que incluye todas las lecturas metageno micas e informacio n de su solapamiento entre ellas en forma de nodos y conectores, respectivamente. Los contigs se construyen mediante la definicio n de caminos no ramificados en este gra fico, a partir de los cuales se toma la secuencia consenso de todas las lecturas que lo constituyen. En la tercera estrategia, el proceso comienza por la divisio n de las lecturas en segmentos cortos solapantes de longitud fija (k-mers) que se organizan en un gra fico de Bruijn en funcio n de su coocurrencia en las secuencias (Nagarajan & Pop, 2013). Los ensambladores se basan en una o ma s de estas estrategias. Por lo general, los me todos OLC son ma s adecuados para el ensamblado de secuencias largas, pero su uso en el ensamblado de secuencias cortas es muy costoso computacionalmente. Aquellos basados en gra ficos de Bruijn permiten el ensamblado eficiente de secuencias cortas (Nagarajan & Pop, 2013; Vollmers et al., 2017). El ensamblado de secuencias metageno micas mejora la prediccio n y anotacio n de genes y permite, en u ltima instancia, la obtencio n de genomas (draft genomes) ambientales, incluyendo los de miembros no cultivados, a partir de las lecturas metageno micas (van der Walt et al., 2017).

La eleccio n de uno u otro ensamblador depende del tipo de muestra, la tecnologí a de secuenciacio n utilizada y los recursos de computacio n disponibles (Vollmers et al., 2017). En este estudio se utilizaron varios programas: Velvet 1.2.10 y MetaVelvet 1.2.02 (METAgenomic-Velvet assembler) (Afiahayati et al., 2014), Ray Meta v2.3.1 (Boisvert et al., 2012), SPAdes v3.7.1 (St. Petersburg genome assembler) (Bankevich et al., 2012), IDBA-UD v.1.1.1 (Iterative De Bruijn graph Assembler for Short Sequencing data with Highly uneven Sequencing Depth) (Peng et al., 2010), MEGAHIT v1.05 (Li et al., 2015), que utilizan grafos de Bruijn, y Newbler 2.9, un ensamblador de tipo OLC creado por la compan í a que comercializaba la tecnologí a de pirosecuenciacio n (Margulies et al., 2006).

El ensamblaje de lecturas de secuenciacio n se ve dificultado por factores inherentes a la secuencia original como la frecuencia y longitud de las secuencias repetitivas, o al me todo de secuenciacio n elegido, como los errores de identificacio n de bases caracterí sticos de cada tecnologí a de secuenciacio n o la generacio n de una cobertura no uniforme por razones arbitrarias (Miller et al., 2010). En el caso del ensamblado de secuencias metageno micas, a estas dificultades se suman otras derivadas de la complejidad de la comunidad microbiana, en forma de riqueza de taxones y equitatividad de su abundancia, y del volumen de datos obtenido en cada proyecto de secuenciacio n ambiental, componentes que en muchos casos desafí a los algoritmos creados para el ensamblaje de genomas individuales y la capacidad de computacio n disponible por los grupos de investigacio n (Quince et al., 2008; Nagarajan & Pop, 2013; Olson et al., 2017; Hitch & Creevey, 2018). Dado que la cobertura de las secuencias geno micas de los taxones dominantes es mayor que la de las especies menos abundantes, el ensamblado de secuencias metageno micas da lugar, por lo general, a la reconstruccio n de secuencias geno micas de las primeras (Rusch et al., 2007; Miller et al., 2010; Hitch & Creevey, 2018). Simulaciones indican que el ensamblado a partir de muestras complejas es susceptible de formacio n de quimeras (secuencia consenso resultado de unir dos lecturas procedentes de microorganismos diferentes) (Mavromatis et al., 2007). Adema s, el ajuste de los para metros de solapamiento (similitud y longitud de la regio n solapada, porcentaje de secuencia que solapa, modo de actuacio n frente a elementos repetitivos, eleccio n del valor de k-mer, condiciona la obtencio n de faltos positivos (secuencias quime ricas), si los para metros son muy laxos, o la pe rdida de informacio n, en caso contrario. Por todo ello es necesario evaluar el resultado de este proceso de ensamblaje (Olson et al., 2017). Sin embargo, la determinacio n del grado de correccio n de un ensamblaje es complicado ya que el resultado correcto suele ser desconocido (Nagarajan & Pop, 2013). Comu nmente se considera un buen resultado aquel que maximiza la precisio n (que, en este caso, en el que no se conoce el resultado, se traduce en aquel que contiene el menor nu mero de errores de ensamblaje e indeterminaciones) y el taman o final del ensamblado (usando el mayor nu mero posible de lecturas para dar lugar a contigs lo ma s largos posible) (Miller et al., 2010; van der Walt et al., 2017). Los para metros ma s comu nmente utilizados para evaluar estas propiedades en un resultado de ensamblaje es el N50 (definido como la longitud del contig ma s pequen o contenido en el grupo de contigs ma s largos que contienen el 50 % del total de bases del ensamblaje), el porcentaje de lecturas o bases incluidas en los contigs obtenidos, cantidad de errores de ensamblaje y nu mero o densidad de ORFs en los contigs obtenidos como resultado (Miller et al., 2010; Nagarajan & Pop, 2013; Olson et al.,

ca lculo de todos esos para metros a partir del resultado de cada uno de los ensambladores utilizados. La cobertura tambie n puede ser utilizada para identificar errores de ensamblado (Nagarajan & Pop, 2013), por lo que en este estudio, se utilizo el programa IGViewer para identificar contigs con cobertura irregular (Thorvaldsdo ttir et al., 2013).

In document User-Centric Traffic Engineering in Software Defined Networks (Page 121-128)