SUMMARY - Estimation of High Dimensional Factor Models Under General Conditions

ran, gem/rad, rab, rab7, rac/rho, ran, arf, sar y G-alfa. La relación de la subfamilia ras con rab, rab7 y ran es fuerte, mientras que con rho es más débil. Estos resultados coinciden con lo que

sabemos acerca de esta familia (Ranea & Valencia, 1998). También se observa bastante concordancia con la clasificación de PROTOMAP: al nivel 1e-00, en esta base de datos se observan dos grupos, uno con ras y las subfamilias cercanas y otro con arf, sar y las G-alfa. A medida que el nivel se hace más restrictivo en PROTOMAP, se observa que el grupo de las proteínas Ras y parientes cercanos se divide: primero se separan las rho/rac (aunque no todas); posteriormente, se separan las rab (aunque tampoco todas). Algunos resultados del algoritmo de agrupamiento basado en el corte normalizado son destacables, como el hecho de que no sólo separa correctamente todas las subfamilias sino que es capaz de identificar satisfactoriamente la diferencia existente entre las proteínas rab7 y las otras rab, clasificándolas en dos grupos diferentes.

2.2.- Los genes de Mycoplasma genitalium en el espacio de secuencias conformado por los 21 genomas completos de la base de datos COGs

En la base de datos de COGs (Tatusov et al., 1997), al igual que en nuestro caso, se trata de identificar grupos de ortólogos o subfamilias. El método que emplean es semi-automático, es decir, los resultados son supervisados por expertos. Estos dos aspectos de COGs son los que nos impulsaron a utilizar esta clasificación como marco de comparación y evaluación del método de agrupamiento. A diferencia de COGs, donde se clasifican todos los genes de varios genomas, nosotros aplicamos el método al espacio de secuencias próximo a cada uno de los genes de

Mycoplasma genitalium. Por tanto, para la comparación, sólo se tuvieron en cuenta aquellos

grupos de COGs que contenían algún gen de este organismo.

Para obtener los mapas del espacio de secuencias colindante con cada uno de los 468 genes de

Mycoplasma genitalium (MG) utilizamos los resultados de BLAST que están disponibles en la

propia base de datos de COGs. A partir de estos BLAST se simuló, para cada gen, una BSI de tres rondas, con un umbral de e-value de 1e-05. Posteriormente aplicamos el algoritmo de agrupamiento a cada uno de estos 468 mapas, en un caso con el umbral X2 y en otro con el X4. Es decir, requiriendo que, para que continuase el agrupamiento, la capacidad media dentro de los subgrafos fuese doble (X2) o cuádruple (X4) con respecto a la capacidad media entre éstos. Para comprender mejor los resultados del agrupamiento, que produjo grupos de pequeño tamaño, intentamos reconstruir los grupos de ortólogos mediante diversas estrategias que generaron las series de resultados: X2 join6, X4 join6, X2 S_one, X4 S_one, y X2 S_var y X4 S_var.

Para evaluar la efectividad del método, analizamos diversas características de los resultados, como por ejemplo cuáles eran los tamaños de los grupos que contenían los genes de MG tras el agrupamiento. Esta distribución de tamaños se comparó en las distintas series de resultados y con respecto a COGs. Asimismo, determinamos si el contenido de los grupos era coherente y

coincidente comparado con el de los grupos de COGs.

2.2.1.- Distribución de los tamaños de los grupos de los genes de MG

La observación de los tamaños de los 468 grupos que contienen cada uno de los genes de MG ofrece los primeros indicios de la eficiencia del método. Por ejemplo, si esperamos que en cada grupo de ortólogos haya un representante de cada genoma, entonces, el tamaño de 21 debería ser el que observemos más frecuentemente.

a) Series X2 y X4 simple: en las gráficas a y b de la figura 11 se puede apreciar que el algoritmo de agrupamiento aplicado a este conjunto generó grupos de pequeño tamaño. Observamos dos tamaños especialmente frecuentes: aquéllos con dos o tres genes y aquéllos con 16 ó 17. El análisis de los grupos con dos o tres genes reveló que la mayoría se correspondían con grupos en los que quedaban aislados los genes de MG y MP (Mycoplasma pneumoniae). Los grupos vecinos de éstos solían contener los ortólogos de las otras bacterias, pero el algoritmo los separaba. Por ejemplo, el grupo MG092 contenía dos proteínas ribosomales S18 provenientes de MG y MP. Había dos grupos vecinos a éste: uno de ellos contenía el ortólogo de R. prowazekii, mientras que el otro contenía los ortólogos de las otras trece bacterias, más un in-paralog (o duplicación reciente) de M. tuberculosis. El ortólogo de S. cerevisiae no aparecía en los resultados porque ha divergido notablemente (e-value de 0.0004, el cual estaba por encima de nuestro umbral). Este caso ilustra el hecho de que gran parte de los grupos de este tamaño aparecieron porque MG y MP son muy parecidas entre sí, y, al no haber una amplia representación filogenética, el algoritmo interpreta que constituyen un grupo diferenciado del

Figura 11. Distribución de los tamaños de los grupos obtenidos para cada uno de los genes de

Mycoplasma genitalium. El eje Y indica el número de ocurrencias; el X los tamaños de los grupos. Se muestran las distribuciones de tamaños para las series X2/X4 simple (a y b), X2/X4 join6 (c y d), X2/X4 S_var (e y f) y la distribución de COGs (g; en este caso sólo se representan los grupos que contienen más de tres linajes).

resto. Por otra parte, algunos de los grupos con dos o tres genes eran reflejo de la existencia de genes específicos del género mycoplasma. Por ejemplo, el gen MG241 quedaba agrupado con el ortólogo de MP y sólo había un grupo vecino a éste, también específico de mycoplasma.

El caso de los tamaños 16-17 es análogo. La mayoría de estos grupos contenían los ortólogos de las 16 bacterias presentes en el estudio, bien porque se tratara de genes específicos de ellas o bien porque los ortólogos de arqueas y de eucariotas quedaban separados en grupos vecinos. Por ejemplo, el grupo MG073, en la serie X4 simple, contenía 18 genes correspondientes a la subunidad B de las excinucleasas ABC, no existiendo ortólogos ni en arqueas ni en eucariotas, a excepción de un gen de M. thermoautotrophicum, el cual, posiblemente haya sido adquirido por transferencia horizontal de genes.

En la serie X2 simple se obtuvieron 40 grupos con 16-17 genes; de éstos, 29 (72.5%) no contenían ninguna duplicación, es decir, en el grupo había un representante por cada genoma; si contabilizamos los grupos que contenían un máximo de tres duplicaciones, entonces observamos 37 grupos (92.5%). La situación en la serie X4 simple era similar: 56 grupos con 16-17 genes, de los cuales 44 (78.6%) no contenían ni una duplicación, mientras que 51 (91.1%) contenían tres o menos. Esto indica que estos grupos se componían básicamente de una secuencia por cada uno de los genomas bacterianos, y por tanto, el tamaño de los grupos puede indicar, a grosso modo, si se ha reconstruido un grupo de ortólogos o no.

En los resultados observamos un número pequeño de grupos con más de 21 genes. La mayoría de éstos se correspondían con mezclas incorrectas de grupos de ortólogos. Por ejemplo, el grupo MG345 contenía 43 secuencias de sintetasas de isoleucil- y valil-ARNt, que son dos grupos de ortólogos muy cercanos evolutivamente y por tanto difíciles de separar. También se observaron 11 grandes grupos de 458 genes: se trataba de los transportadores de tipo ABC, que constituyen un caso especialmente difícil. (Nota aclarativa: se observaron 11 ocurrencias, una por cada gen de MG, pero en realidad era el mismo conjunto de genes)

Para explorar las posibles implicaciones que, sobre los tamaños de los grupos, podía tener un 'sesgo filogenético', realizamos diversas reconstrucciones a partir de la información de las distancias existentes entre los grupos tras aplicar el algoritmo de corte normalizado.

b) Series X2 y X4 join6: en las gráficas c y d de la figura 11 se muestra el resultado que sobre la distribución de tamaños tuvo la unión del grupo más cercano, siempre y cuando la capacidad media fuese superior a 6, a cada grupo MG. Pudimos observar que, así como se producía un lógico aumento en los tamaños, la calidad de éstos también cambiaba. En el caso del grupo MG431, con isomerasas de triosas-fosfato, la aplicación de join6 resultó en la unión del grupo original (que contenía 15 genes de bacterias y un gen de S. cerevisiae) con un grupo con los cuatro ortólogos de arqueas. La capacidad media entre ambos grupos era de 6.3, justo por encima del umbral. En el caso del grupo MG429, éste contenía 11 kinasas de fosfoenolpiruvato y fue unido a un grupo que contenía 13 sintetasas de fosfoenolpiruvato. La capacidad media de las conexiones entre estos dos grupos era muy alta (23.2), pero en este caso ambos grupos constituían conjuntos de ortólogos independientes, es decir, eran grupos parálogos y su unión no resultaba pertinente. Estos dos casos ilustran el hecho de que no existe un umbral fijo que pueda definir los límites de las distintas familias, sino que cada una tiene unas características particulares.

c) Series S_var y S_one (X2 y X4): el procedimiento S_var implica una agregación incremental de grupos vecinos según el algoritmo descrito en la sección de Métodos, atendiendo a la representación filogenética resultante para detener el proceso. El ejemplo de MG283 puede aclarar su funcionamiento (figura 12). Inicialmente el gen MG283 formaba un grupo con la otra sintetasa de prolín-ARNt de MP. El grupo más cercano, curiosamente, contenía estos seis genes: los cuatro ortólogos de arqueas, el del eucariota S. cerevisiae y el de la bacteria B. burgdorferi. La unión de ambos grupos fue aceptada porque conllevaba una disminución de la entropía relativa. El siguiente grupo más cercano contenía los 13 ortólogos bacterianos restantes más otra versión del gen de S. cerevisiae; este grupo también fue unido. El proceso se detuvo, satisfactoriamente, cuando se intentó unir el siguiente grupo vecino, que contenía 19 sintetasas de treonín-ARNt. El

método de agrupamiento puso de manifiesto algunas características intrigantes de esta familia: 1) hay dos versiones del gen eucariota, la primera más cercana a arqueas, la segunda más cercana a bacterias; y 2) tanto los ortólogos del género bacteriano de micoplasma como el ortólogo de B.

burgdorferi están más cercanos evolutivamente a los ortólogos de las arqueas que a los de las

otras bacterias.

Otro ejemplo interesante es el de la reconstrucción alrededor de la proteína ribosomal S2 (MG070). Inicialmente, el gen de MG quedó aislado junto al de MP. Durante la reconstrucción primero fue unido a un grupo vecino que contenía los otros 14 ortólogos bacterianos. Seguidamente se unió un grupo que contenía el ortólogo de levadura. Posteriormente se agregó el grupo con los 4 representantes de arqueas. Y, finalmente, se añadió otro grupo que contenía dos copias extra (in-paralogs) del ortólogo de S. cerevisiae (según el modelo de S_one, esta última unión habría sido rechazada). Estas dos copias han divergido bastante del ortólogo original, por lo que a lo mejor desempeñan funciones distintas. El COG correspondiente a este gen de MG contenía las mismas 23 secuencias.

La distribución de tamaños mejoró sensiblemente en estas series de resultados (gráficas g y h de la figura 11), ya que la frecuencia de los tamaños 16-17 y 20-21 (y 22-23) aumentó de forma notable. Estos tamaños se corresponden con conjuntos de ortólogos provenientes del filo de las bacterias o de todas las especies, respectivamente. El estudio de la representación filogenética en los grupos permitió que los dos casos descritos para la serie join6 fuesen resueltos con éxito: en el caso de MG431 se completó satisfactoriamente el conjunto de ortólogos mientras que en el caso de MG429 se evitó la inclusión de secuencias parálogas.

De los 53 grupos con 16 ó 17 secuencias obtenidos en X2 S_var, 33 grupos (62.3%) no contenían ninguna duplicación, y 49 (92.5%) contenían tres o menos. En el rango de tamaños de 20 a 23, había 72 grupos, 57 de los cuales (79.2%) contenían tres o menos duplicaciones. Por tanto, los grupos estaban formados principalmente por un ortólogo por cada una de las especies,

Figura 12. Representación libre de los resultados del algoritmo de agrupamiento para el gen MG283 y la reconstrucción basada en el procedimiento S_var. La representación de grupos y sus conexiones es similar a la descrita en la figura 9. La elipse negra punteada indica el conjunto de grupos que se unieron, mientras que la elipse de color gris indica cuál fue la última agregación rechazada. En la parte inferior se indica cómo se produjo la reconstrucción y cómo afectó ésta al número de genes y genomas, así como a la entropía relativa.

incluyendo pocas duplicaciones, lo cual indica que estas duplicaciones se correspondían con in-

paralogs en lugar de out-paralogs (parálogos que pertenecen a distintas familias de proteínas).

Observamos que, curiosamente, los tamaños 22-23 eran más frecuentes que los tamaños 20-21, por lo que decidimos estudiar su origen. De los 42 grupos de tamaño 22-23 que contenían pocas duplicaciones (había 53 grupos con este tamaño), la mayoría de ellos contenían duplicaciones o

in-paralogs de levadura (36 de 42; 86%), siendo mucho menor este porcentaje para el inmediato

perseguidor, B. subtilis, con el 19%. Es interesante comprobar que el número de duplicaciones no tiene una relación clara con el número de genes del organismo, ya que ambos organismos, levadura y B. subtilis, tienen proteomas de tamaño no muy distinto: 5.932 y 4.122 secuencias, respectivamente. Parece que esta característica está más relacionada con la historia evolutiva de los organismos ya que existen evidencias acerca de una duplicación ancestral del genoma de levadura (Wolfe & Shields, 1997).

El nivel de redundancia (cantidad de in-paralogs) que mostraban estos grupos de ortólogos

Figura 13. Comparación de los dos modelos de distribución esperada de ortólogos (modelos S_var y S_one). El modelo S_var asume que la contribución de ortólogos (e in-

paralogs) por cada genoma será proporcional al tamaño del genoma. El modelo S_one

asume que cada genoma contribuirá igualmente, independientemente de su tamaño. La representación es equivalente a la de la figura 11. En gris claro se muestran los resultados de S_one; en oscuro los de S_var.

parecía más próximo al esperado en el modelo S_one que al de S_var, ya que el primero supone que en un grupo de ortólogos habrá un representante por cada genoma, mientras que el segundo espera que la cantidad de representantes sea proporcional al tamaño del genoma. Sin embargo, como muestra la comparación de tamaños de la figura 13, los mejores resultados se obtienen con el modelo S_var. La razón es que S_one incorpora in-paralogs de forma menos eficiente, quedando atrapado más fácilmente en mínimos locales de entropía relativa. Es por esto que, comparado con S_var, con S_one fueron más frecuentes los tamaños 16-17 que los del rango 20- 23.

2.2.2.- Comparación con COGs

El estudio de la distribución de tamaños de los grupos tan sólo constituye una perspectiva parcial acerca del éxito del método, por lo que decidimos complementar esta visión realizando una comparación con la base de datos COGs. Primero comparamos las distribuciones de tamaños en COGs y en nuestros resultados. Seguidamente analizamos si los grupos que obtuvimos contenían los mismos genes que los de COGs.

a) comparación de los tamaños de los grupos: Para este análisis sólo se tuvieron en cuenta los COGs que contenían algún gen de MG. Como se puede apreciar en la gráfica g de la figura 11 COGs presentó dos poblaciones de tamaños de grupos que eran claramente más frecuentes, y se trataba de las correspondientes con los tamaños 16-17 y 22-23. En el primero de estos rangos encontramos 62 grupos, 40 de los cuales no contenían ninguna duplicación (65%), mientras que 50 (81%) contenían tres o menos. Observamos 87 grupos con un número de secuencias entre 20 y 23, de los cuales 10 no tenían ninguna duplicación (11%) y 67 (77%) tenían tres o menos. Tanto la distribución de tamaños como la redundancia interna observada en los grupos resultaban muy similares a las obtenidas con el procedimiento S_var (ver figura 14).

b) comparación del contenido de los grupos: Quizás la perspectiva más relevante para conocer la eficiencia del método es la de comparar el contenido de los grupos. Para esta comparación se tuvieron en cuenta las series simple y S_var con respecto a los grupos de COGs. Los grupos que generó el algoritmo Ncut a partir del espacio de secuencias, es decir, los grupos de la serie

simple, fueron más pequeños que los COGs correspondientes, debido a la ya mencionada

sensibilidad del algoritmo frente a las irregularidades del espacio de secuencias, provocadas

Figura 14. Comparación de la distribución de tamaños para X4 S_var y COGs. La representación es similar a la de la figura 11. En gris claro: S_var; en oscuro: COGs.

éstas por una desigual representación filogenética. A pesar de esta tendencia, también existieron coincidencias con respecto a COGs. Esta información queda reflejada en la figura 15 como una acumulación de puntos en la diagonal, o bajo ella. En la gráfica también se puede apreciar que los grupos con 16 ó 17 genes, que eran los más frecuentes en X4 simple, se correspondían principalmente con grupos de 23 genes en COGs; esto era así porque el algoritmo Ncut tendía a separar el conjunto de ortólogos de bacterias del resto. Por otra parte, los resultados de X4 S_var eran muy similares a los de COGs, como se puede apreciar por la concentración de puntos en la diagonal de la gráfica, siendo especialmente notable la coincidencia en los tamaños 16 y 17 y 22- 23.

En cuanto al contenido de los grupos en X4 S_var y en COGs, había 350 grupos comparables (aquéllos que contenían genes procedentes de al menos tres linajes distintos), de los cuales 298 (85%) eran coherentes (definido en la sección de Métodos) y 159 (53%) coincidentes.

La acumulación de puntos bajo las diagonales indica que los grupos de COGs suelen ser mayores que los de X4 simple y X4 S_var. Ya se ha discutido el origen de estos hechos para el caso de X4 simple. En el de X4 S_var las explicaciones posibles son que el proceso de reconstrucción quede atrapado en un mínimo local de entropía relativa, o que la distribución esperada no coincida con la real.

En algunos casos los grupos que obtuvimos contenían más secuencias que los COGs correspondientes. En el caso de X4 simple esto sucedió en 8 ocasiones, mientras que en X4 S_var en 48. En la mayor parte de estos grupos, la diferencia de tamaño era de más de 15 secuencias, como se puede apreciar en la gráfica b de la figura 15. La mayoría de estas diferencias estaban relacionadas con transportadores de tipo ABC y con casos en que dos o más grupos de ortólogos habían quedado unidos, especialmente en el caso de X4 S_var.

La comparación de los resultados de X2 simple y COGs reveló que, de 150 grupos comparables, había 11 casos (7.3%) en los que la composición de los grupos era diferente, es decir, no era coherente (o solapante). Este porcentaje de desacuerdo con COGs crecía hasta el 7.5% para X2 join6 (25 de 332 casos) y hasta el 12.5% (43 de 344 casos) para X2 S_var. En cuanto a las discrepancias (por incoherencia) entre X2 simple y COGs, 9 de ellas se correspondían con transportadores ABC y las otras dos con los casos de MG258 y MG457 que se discuten a continuación. El grupo de MG258 se originó a partir de la proteína “factor A de liberación de la cadena” de M. genitalium, y contenía 32 secuencias, tanto de factores A como de factores B, es decir contenía dos subfamilias de proteínas que no habían sido separadas. Por su parte, COGs distinguía entre estas subfamilias agrupándolas en el COG0216 (20 factores A, de los cuales 18 están presentes en el grupo de Ncut) y en el COG118 (14 factores B). La incoherencia surgía porque Ncut separó dos factores A del resto de factores A, antes que separar los factores B de los A. Curiosamente, los dos factores A que estaban ausentes en el grupo MG258 corresponden a segundas copias de los ortólogos de levadura y de E. coli (los genes YLR281c y yaeJ). Estas secuencias no fueron incorporadas en el grupo porque eran bastante divergentes, como se puede

In document Estimation of High Dimensional Factor Models Under General Conditions (Page 72-79)