TBM HARD FM TBM EASY TBM HARD FM TBM EASY TBM HARD FM
MODEL I BEST SCORES DOMAINS
0 5 10 15 20 25 30 35 40 45 15 2 19 7 5 9 29 10 39 8 7 22 4 4 15 43 13 14
COMPARATIVA CASP 10 / 11
CASP 11 CASP 10Predicciones destacadas
A continuación detallo las que para mí son las predicciones que por diferentes motivos merecen ser mencionadas. Acompaño la explicación del dominio con su GDT plot para facilitar la visualización. La línea azul se corresponde con nuestra predicción, mientras que el resto de líneas (anaranjadas) pertenecen a las predicciones del resto de grupos.
Dominio con mayor puntuación:
Pertenece al dominio 2 del target T0826 y la puntuación GDT_TS que obtuvimos fue de 99.02 por lo que nos aproximamos de manera casi perfecta al original.
En realidad este tipo de targets no tienen mucho interés estructuralmente hablando pues cuando la mayoría de los grupos obtienen un GDT-TS superior a 90, indica que el template era muy evidente. Dominio con menor puntuación:
Pertenece al dominio 1 del target T0799 en el que obtuvimos una puntuación de 10.64.
En este caso no había template alguno por lo que nos enfrentábamos a un claro ejemplo de FM, lo que queda reflejado en el resultado global donde los modelos obtenidos por los diferentes grupos se alejan bastante de la proteína real, encontrándose la mayoría de los residuos a una distancia mayor de 10 angstroms.
Como comenté al inicio del trabajo, una puntuación GDT-TS menor de 15 puede obtenerse por mero azar, así que las puntuaciones inferiores a esa marca, como es este caso, son realmente malas. Dominio destacado
Pertenece al dominio 1 del Target T0763 y aunque hemos conseguido quedar primeros en algún otro target como puede ser el T0797 y T0798 (caso especial pues evaluaba la interacción entre ambas proteínas), es en este caso donde hemos conseguido una clara diferenciación con respecto al resto de grupos. Esto es debido a que existía un template remoto que únicamente nosotros conseguimos encontrar, lo que nos dio una clara ventaja a la hora de generar nuestros modelos.
Es en este tipo de casos donde conseguimos una mayor puntuación con respecto al resto.
En el primer caso que mostré (T0826-D2), obtuvimos una buenísima puntuación, pero también lo hicieron el resto de grupos, por lo que apenas conseguimos diferenciarnos en lo que a puntos se refiere pues todos obtuvimos una puntuación semejante. Sin embargo en este caso T0763-D1, hemos obtenido un GDT-TS de 39.04, muy por debajo de los 99.04 del otro caso, pero el siguiente en esta lista está a mucha distancia de nosotros, con un GDT-TS de 24.61 y es esta diferencia la que se refleja en la puntuación.
De esto se deduce que es mucho más importante encontrar un template con el que otros no hayan dado, que generar un muy buen modelo con un template del que todos disponen.
5. Discusión
A raíz de los resultados obtenidos podemos afirmar que nuestros métodos de búsqueda y sobre todo aquellos basados en la predicción de contactos tanto por coevolución como por consenso, resultan efectivos.
Cada vez más se van incorporando métodos de predicción de contactos a la hora de construir y evaluar los diferentes modelos de estructuras proteicas.
Por ejemplo el grupo Jones usó el predictor de contactos CONSIP 2 que se basa en un método de redes neuronales las cuales incorporan modelos de tres predictores diferentes basados en la coevolución, y ha dado muy buenos resultados este año.
Y ya que CASP tiene como principal objetivo evaluar los diferentes métodos de predicción de estructuras, me gustaría hablar del perfecto trabajo que realizan buscadores como HHBlits o HHMER, muy por encima de BLAST o PsiBLAST, los cuales tienen un método de búsqueda más pobre y en experimentos como estos resultan poco útiles.
A la hora de alinear me sigo quedando con HHBlits y HHMER.
Si buscamos el mejor programa para buscar templates, ese es Hhpred, pues a parte de tener un buen método de búsqueda, realiza sus comparaciones frente a unas buenas bases de datos.
Si tengo que escoger un programa que elabore modelos estructurales, me quedo sin duda con Modeller, el cual está muy por encima de sus contrincantes, aunque es cierto que a la hora de realizar grandes cambios estructurales, se trabajaba más fácilmente con FoldIt, pues Modeller dependía mucho del alineamiento introducido.
Para visualizar estructuras no hay ningún programa mejor que Pymol, por su versatilidad, su facilidad a la hora de manejarlo, sus innumerables funciones y su detalle a la hora de mostrar la imagen.
Y por último quiero destacar la complicada labor de selección del mejor modelo basándonos en rankings construidos a partir de los contactos predichos y el resto de estructuras de servidores. Cierto es que en este aspecto se podría mejorar, pues no siempre se elije el mejor modelo posible. Sinceramente creo que este tipo de experimentos son realmente beneficiosos a la hora de evaluar los distintos métodos posibles y de mejorarlos para un futuro.
6. Conclusión
Nuestro trabajo como participantes en CASP 11 puede resultar en apariencia repetitivo pues seguíamos el mismo procedimiento para cada target, pero en cada uno de ellos encontrábamos algo diferente que hacía que actuásemos de forma distinta para obtener los mejores modelos.
Empezamos siempre buscando secuencias homólogas a la nuestra con BLAST, PsiBLAST, HHMER, HHblits e incluso Pfam.
Obtenemos los alineamientos con HHMER y HHblits. Estudiamos las zonas conservadas y reunimos información de las familias y la historia evolutiva con diferentes programas y papers. También buscamos los posibles templates en Hhpred.
Según el número de secuencias que encontremos y de la variabilidad de las mismas podemos aplicar los métodos de predicción de contactos por coevolución. Y para los contactos por consenso, nos basamos en los modelos de los servidores.
Una vez que tenemos alineamientos, templates e información de los contactos, los empleamos con Modeller para generar nuestros modelos, los cuales evaluamos con los rankings construidos basados en los contactos.
Visualizamos con Pymol donde realizaremos pequeños cambios o repetiremos el proceso.
Esto sería un resumen si el target es un TBM easy. Pero si es TBM hard, debemos ampliar nuestra búsqueda con la secuencia a la que pertenece nuestro target, si es que la hay, investigar sobre la familia o superfamilia a la que pertenece, buscar templates con alineamientos o perfiles en lugar de con nuestro target, en definitiva realizar una búsqueda más exhaustiva.
Y por último si trabajamos con un FM, tan sólo podemos basarnos en los modelos de los servidores, en la información adquirida y en nuestra intuición para modelar ciertas regiones.
Este era nuestro día a día a la hora de generar modelos para nuestros targets.
Por otra parte, en la “lucha” mantenida entre grupos humanos y servidores, salen victoriosos los grupos humanos, pero no con una diferencia clara. Hay muchos servidores con muy buenos resultados como Zhang-Server en los TBM y ROSETTA-SERVER para los FM.
Los grupos humanos tienen un ventaja clara a la hora de interpretar los datos y deducir cuales son los mejores para cada caso.
En nuestro caso, Michael realizaba a mano los alineamientos entre targets y templates de una manera más efectiva que el trabajo realizado por los servidores. Pero esto no quita que en un futuro no muy lejano, los servidores mejoren de tal manera que acabarán siendo muy superiores a los grupos humanos. Pues aunque ya lo son en multitud de aspectos como a la hora de alinear gran cantidad de secuencias, buscar en bases de datos o manejar simplemente grandes cantidades de información, les falta ese “toque” humano de interpretación de los datos.
Para concluir me gustaría decir que hay muchos métodos y programas que han mejorado con respecto a años pasados y lo seguirán haciendo, pues la predicción de estructuras proteicas me parece una interesante labor científica con multitud de posibilidades, diferentes utilidades y con un importante futuro.
7. BIBLIOGRAFÍA
[1] Adam Zemla. “LGA: a method for finding 3D similarities in protein structures.”
Nucleic Acids Research, Jul 1, 2003; 31(13): 3370–3374.
[2] Yang Zhang . “Protein structure prediction: when is it useful? ” Current Opinion in Structural Biology, 2009
[3] Chothia C, Lesk AM. “The relation between the divergence of sequence and structure in proteins.”
Embo J. 1986; 5(4):823–826. [4] Mathews, Van Holde, Ahern. Bioquímica 2002; 200
[5] von Heijne G. “Signal sequences: The limits of variation”. J Mol Biol, Jul de 1985; 184 (1): 99–105
[6] Liu, J; Zheng Q; Deng Y; Cheng CS; Kallenbach NR; Lu M. “A seven-helix coiled coil” PNAS 2006; 103 (42): 15457–15462
[7] Kobe B, Deisenhofer J . “The leucine-rich repeat: a versatile binding motif”. Trends Biochem. Sci. (October 1994); 19 (10): pp. 415–21
[8] Enkhbayar P, Kamiya M, Osaki M, Matsumoto T, Matsushima N . “Structural principles of leucine-rich repeat (LRR) proteins”.
Proteins (February 2004); 54 (3): pp. 394–403.
[9] Wolanin PW, Thomason PA, Stock JB. “Histidine protein kinases: key signal transducers outside the animal kingdom”.
Genome Biology (200); 3 (10): reviews3013.1–3013.8.
[10] Lima Mde, F; Eloy, NB; Pegoraro, C; Sagit, R; Rojas, C; Bretz, T; Vargas, L; Elofsson, A; de Oliveira, AC; Hemerly, AS; Ferreira, PC. “Genomic evolution and complexity of the Anaphase- promoting Complex (APC) in land plants.”.
BMC plant biology (Nov 18, 2010); 10: 254
[11] Lengauer T. “Computational methods for biomolecular docking”. Current Opinion in Structural Biology. 1996 6;6(3):402-406.
[12] Sonnhammer EL, Eddy SR, Durbin R.“Pfam: a comprehensive database of protein domain families based on seed alignments”.
Proteins. 1997 Jul;28(3):405-20.
[13] M. A. Marti-Renom, Stuart AC, Fiser A, Sánchez R, Melo F, Sali A. “Comparative protein structure modeling of genes and genomes”.
Annu. Rev. Biophys. Biomol. Struct. (2000); 29: 291-325
[14] Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. “Gapped BLAST and PSI-BLAST: a new generation of protein database search programs”.
[15] D. J. Ayers, P. R. Gooley, A. Widmer-Cooper, and A. E. Torda. “Enhanced protein fold recognition using secondary structure information from NMR”.
Protein Sci. May 1999; 8(5): 1127–1133.
[16] Baker D, Sali A. “Protein structure prediction and structural genomics”. Science. 2001 Oct 5; 294(5540):93-6.
[17] Michael Remmert, Andreas Biegert, Andreas Hauser, Johannes Söding. “HHblits: lightning- fast iterative protein sequence searching by HMM-HMM alignment”
Nature Methods 9, 173–175
[18] Kabsch W, Sander C.“Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features”.
Biopolymers. 1983 Dec; 22(12):2577-637.
[19] Michele Clamp, James Cuff, Stephen M. Searle and Geoffrey J. Barton. “The Jalview Java
alignment editor”
Bioinformatics 2003; Pp 426-427
[20] Michael L. Tress and Alfonso Valencia. “Predicted residue–residue contacts can help the scoring of 3D models”
Proteins , 2010
[21] Venkatarajan Mathura; Pandjassarame Kangueane. “Bioinformatics: A Concept-Based Introduction”.
Springer (11 October 2008); pp. 66–67.
[22] - Kurowski MA1, Bujnicki JM. “GeneSilico protein structure prediction meta-server”. Nucleic Acids Res. 2003 Jul 1;31(13):3305-7.
[23] - Schwede T, Kopp J, Guex N, Peitsch MC. “SWISS-MODEL: an automated protein homology-modeling server”.
Nucleic Acids Research 2003; 31 (13): 3381–3385
[24] - Arnold K, Bordoli L, Kopp J, and Schwede T. “The SWISS-MODEL Workspace: A web- based environment for protein structure homology modelling”.