Desde su aparición, las tecnologías NGS (Next Generation Sequencing) han dado lugar a una explosión en resultados que ayudan a comprender mejor el funcionamiento de las plantas.
Esto ha propiciado a su vez un gran desarrollo de otras tecnologías moleculares de alto rendimiento, como la proteómica, la transcriptómica y la metabolómica, que están contribuyendo a dilucidar, entre otros aspectos, la compleja respuesta al estrés
producido por los compuestos contaminantes (Thapa et al., 2012, Claire-Lise y
Nathalie, 2012, Bell et al., 2014, Ilyas et al., 2015). Además, han permitido abrir nuevos horizontes para el entendimiento detallado y global de procesos de expresión génica (Mochida y Shinozaki, 2011; Schneeberger y Weigel, 2011; Ward et al., 2012).
Introducción
38
1.7.1.
Proteómica
La proteómica, término acuñado por Marc Wilkins (1994) permite estudios detallados de las proteínas celulares en respuesta a estímulos definidos. El inicio de la proteómica (finales de los 70) fue posible gracias el desarrollo de la electroforesis bidimensional IEF x SDS-PAGE (del inglés Sodium Dodecyl Sulfate Polyacrilamide Gel Electrophoresis). Esta técnica permite la visualización de proteínas individuales a partir de extractos, mediante su separación en dos dimensiones perpendiculares entre sí. La primera dimensión consiste en una separación basada en el punto isoeléctrico (pH al cual la carga neta de la proteína es cero), y una segunda separación basada en la masa molecular (Thelen, 2007).
En los años 90 se aplicó a la proteómica una técnica analítica sensible y precisa conocida como espectrometría de masas (MS, Mass Spectrometry), con gran potencial para identificar proteínas a partir de los fraccionamientos bidimensionales antes mencionados. Este hecho, unido al gran desarrollo experimentado por las bases de datos genómicos, ha dado un impulso sin precedentes al estudio del proteoma (Santucci et al., 2015). Las técnicas de análisis de extractos complejos de proteínas suelen combinar fraccionamientos bidimensionales IEF x SDS-PAGE y análisis mediante MS. Para ello han sido necesarios varios avances tecnológicos, entre los que destaca el desarrollo de las técnicas de ionización de proteínas para MS.
La espectrometría de masas MALDI-TOF es uno de los métodos más empleados para la identificación de proteínas a partir de fraccionamientos IEF x SDS-PAGE. Con este fin, las proteínas individualizadas en los mapas (spots) se recortan manualmente y se digieren con una proteasa, típicamente tripsina. Dependiendo de la estructura primaria de la proteína analizada se generan diversos péptidos, cuyas masas constituyen una huella denominada “huella peptídica” que permite identificar la proteína original. La idea subyacente es que cada proteína celular genera una huella diferente, lo que permite una identificación teóricamente inequívoca (Velez et al., 2015).
Para la determinación precisa de masas moleculares, los péptidos se adsorben a una matriz especial que permite su ionización con pulsos láser. Una vez que ésta ha ocurrido, las especies resultantes se separan físicamente de la matriz bajo la influencia de un campo electromagnético (MALDI proviene de Matrix-Assisted Laser
39
Desorption/Ionization). Los péptidos ionizados son acelerados a lo largo de un tubo, lo que permite determinar sus masas moleculares en función del “tiempo de vuelo” (TOF viene de Time Of Flight). Este tiempo está directamente relacionado con la relación m/z (masa/carga). Determinados péptidos (iones), con una relación m/z concreta, pueden ser sometidos a la acción de un segundo pulso láser, que provoca ahora la rotura de sus enlaces peptídicos. El tiempo de vuelo de los fragmentos resultantes (espectro de fragmentación) proporciona información valiosa sobre la secuencia de aminoácidos del péptido en cuestión. Así, la espectrometría MALDI-TOF permite la obtención de huellas peptídicas (masas de los distintos péptidos generados por la digestión enzimática) y también la secuenciación de pequeños péptidos cuando se aplica una segunda vez (MALDI-TOF/TOF). Esta información permite generalmente la identificación de la proteína comparando con bases de datos apropiadas (Aebersold y Mann, 2003).
1.7.2.
Transcriptómica
1.7.2.1. RNA-seq
El RNA-seq está fundamento en la secuenciación de cDNA mediante tecnología NGS (Ward et al., 2012). Primeramente, se captura el RNA total o mRNA, el cual se convierte en una librería de cDNA. Uno de los pasos fundamentales es la obtención de un RNA de buena calidad que incluya idealmente todos los transcritos que se producen en la condición y tejido en estudio. Para el aislamiento del mRNA se emplea con frecuencia kits de extracción que basan la captura en la presencia de colas poly(A) (Ward et al., 2012). Tras la secuenciación de cDNA, las zonas comunes permiten reconstruir secuencias mayores mediante el procedimiento llamado ensamblaje (Miller et al., 2010). Este consiste en la búsqueda de regiones solapantes mediante criterios heurísticos apropiados, para ir formando una cadena de nucleótidos cada vez mayor hasta conseguir formar la cadena completa. La tecnología de Illumina, adquirida por Solexa, se basa en la secuenciación por síntesis (Sequencing by Synthesis, SBS), y está implementada en la plataforma Hi Seq 2000 utilizada en esta tesis (Minoche et al., 2011).
Introducción
40
1.7.1.1. Procesamiento de lecturas
El estudio y análisis de una vasta cantidad de datos genéticos es posible gracias a la bioinformática. Esta disciplina utiliza la tecnología informática para organizar, analizar y presentar datos genéticos y moleculares, con la finalidad de responder a preguntas complejas. Surgió por la necesidad de dar sentido a la gran cantidad de datos biológicos generados en los últimos años, yendo en paralelo al incremento de información generada por las nuevas técnicas de análisis molecular (genes, proteínas, metabolitos, etc) (Guerrero-Fernández et al., 2015). No sería concebible un análisis de RNA-seq como el realizado en esta tesis sin el procesamiento de las lecturas obtenidas con ayuda de herramientas bioinformáticas.
Dicho procesamiento se puede dividir en las siguientes etapas: pre-procesamiento, ensamblaje y anotación o mapeo, además de los análisis estadísticos y funcionales. A continuación se describen con más detalle las etapas del procesamiento de lecturas: