The Sequential Algorithm - An efficient parallel algorithm for haplotype inference based on rul

Al aplicarse un análisis comparativo con respecto a la similitud de las estructuras plegadas con respecto a su estado nativo haciendo uso de la raíz de la desviación media cuadrática (RMSD), ver Figura 3.5, arroja resultados alentadores si tenemos en cuenta que utilizamos un rango mayor que 90 aminoácidos (Sali, 2001), la función objetivo esta sometida al estudio de los expertos.

0 1 2 3 4 5 6 7 8 0 20000 40000 60000 80000 100000 120000 Exp 1 Exp 2 Exp 3 Exp 4 Exp 5 Exp 6 Exp 7 TEval

Capítulo 3

Figura 3.5Valor de la RMSD para cada variante de generación de la malla inicial.

Podemos concluir que la generación aleatoria de estructuras secundarias con un 10% de representatividad obtuvo una mayor similitud con respecto a su estado nativo lo cual es un resultado prometedor si tenemos en cuenta la importancia del problema y la dimensión de la proteína estudiada. La Figura 3.6 muestra una visualización de la proteína obtenidas a partir del proceso de plegado más semejante a su estado nativo teniendo en cuenta la RMSD.

Figura 3.6 Visualización de la mejor proteína obtenida a partir del proceso de plegado

0 5 10 15 20 25 30

Exp 1 Exp 2 Exp 3 Exp 4 Exp 5 Exp 6 Exp 7

Otro estudio que tuvimos en cuenta fue el comportamiento de la RMSD con respecto a las estructuras obtenidas en el proceso intermedio del modelo lo cual destacó la tendencia a minimizar de dicha función a medida que se busca el óptimo. La Figura 3.7 muestra cómo a partir de las ultimas actualizaciones la función de distancia comienza a decrecer este estudio se realizó para las dos mejores soluciones obtenidas en cuanto a similitud con respecto al estado más estable.

Figura 3.7Representa el comportamiento de la función de distancia (RMSD) con relación al valor de la función objetivo de cada actualización.

3.4 Conclusiones parciales.

Al aplicarse un análisis comparativo se puede concluir que la meta-heurística poblacional basada en Mallas Variables es capaz de predecir la estructura tridimensional de una proteína obteniendo resultados alentadores en proteínas con más de 90 aminoácidos.

Además los métodos con mayor diversidad en los individuos generó un mayor espacio de nodos factibles lo que trajo como consecuencia un menor estancamiento del modelo de optimización. 10 12 14 16 18 20 22 24 26 28 30 -35 -30 -25 -20 Exp 5 Exp 2 RMSD FO

Conclusiones

Conclusiones

Como resultado de esta investigación se demostró que la meta-heurística poblacional basada en Mallas Variables es posible modelarla para un problema de plegamiento de proteínas; cumpliéndose de esta forma el objetivo general propuesto, ya que:

 Con base en los resultados experimentales, se concluye que el método heurístico propuesto es capaz de encontrar estructuras aproximadas (RMSD ~12Ǻ) para una secuencia de mediano tamaño a pesar de no poseer una función óptima para guiar la evolución del sistema.

 Del estudio de las estrategias aplicadas para la generación de la malla inicial se concluyó que la generación de los nodos de forma que cada tercio de la malla inicial esté formado por un por ciento de estructuras en hélices-α, hojas-β y totalmente aleatorias respectivamente, es relativamente mejor puesto que produce un mayor número de estructuras factibles dentro del espacio de búsqueda sin alterar apreciablemente el tiempo de generación de la malla. La misma forma de generación de la malla inicial mostró propiciar un menor estancamiento durante la evolución del sistema en comparación con las otras estrategias.

 El análisis del comportamiento del RMSD a lo largo de la optimización demuestra la efectividad del método y la función empleada para lograr el acercamiento progresivo a la estructura real. Igualmente este estudio demostró la habilidad del método de optimización para salir de mínimos locales intermedios de la función objetivo.

 Finalmente se demostró que la meta-heurística poblacional basada en Mallas Variables es posible modelarla para un problema de plegamiento de proteínas; cumpliéndose de esta forma el objetivo general propuesto.

Recomendaciones

1. Extender el estudio a otras proteínas y a un mayor número de réplicas para lograr una mayor fiabilidad en los resultados alcanzados.

2. Con relación al modelo de optimización utilizado, se sugiere un rediseño de los métodos de expansión de la malla para la obtención de nodos factibles en cada esparcimiento de la población.

3. Comparar los resultados con otros métodos de optimización.

4. A pesar de que la función objetivo esta sometida a un proceso de estudio se recomienda un mejor diseño para que realice un mejor proceso de búsqueda. 5. Paralelizar el algoritmo para reducir su tiempo de ejecución y permitir el cálculo

Referencias Bibliográficas

Referencias Bibliográficas

2001. Computational Biochemistry and Biophysics, New York, Oren M. Becker, Alexander D. Mackerell,Jr., Bonoit Roux, Masakatsu Watanabe

AMILKAR PURIS , R. B. Year. Búsqueda heurística usando optimización basada en mallas dinámicas, en CD de Memorias del XIV Congreso Latino Ibero Americacno de Investigación de Operaciones CLAIO. In, 2008 Cartegena de Indias, Colombia.

AMILKAR PURIS , R. B. 2009. Optimización basada en Mallas Dinámicas. Su aplicación en la solución de problemas de optimización continuos.

ANFINSEN, C. B. 1973. Principles that govern the folding of protein chains. Science,

181, 223-230.

BAKER, D. 2000. A surprising simplicity to protein folding. Nature, 405, 39-42.

BELLO, R. 2008. Feature selection through Dynamic Mesh Optimization. 13th Iberoamerican Congress on Pattern Recognition, CLARP. Habana, Cuba.

BERMAN, H. M. 2008. The Protein Data Bank: a historical perspective. Acta Crystallographica Section A: Foundations of Crystallography, A64, 88-95.

BRENDAN J. MCCONKEY, V. S., AND MARVIN EDELMAN 2003. Discrimination of native protein structures using atom–atom contact scoring. PNAS, 100, 3215–3220. BRYNGELSON J. D., J. D., N SOCCI, WOLYNES P. G., 1995. Funnels, pathways, and the energy landscape of protein folding: A synthesis. Proteins 21, 167-195.

CA ORENGO, D. J., JM THORNTON 1994. Nature, 372, 631-634.

CÁCERES, M. A. Y. P. 2009. Desarrollo de meta-heurísticas poblacionales para la solución de problemas complejos. Tesis en opción al título de Doctor en Ciencias Técnicas Especialidad, Informática, UCLV.

CARL BRANDEN, J. T. Introduction to Protein Structure, Garland Publisher.

CHENG CHE CHEN, J. P. S. A. R. B. A. 1999. Using imperfect secondary structure predictions to improve molecular computations. Bioinformatics, 15, 53-65.

CHOTHIA, C. 1992. Nature, 360, 543-544.

CHRISTOPHER M. DOBSON, A. S., M KARPLUS 1998. Protein Folding: A perspective from theory and experiment. Angew Chem Int Ed Engl, 37, 868-893.

COUTSIAS EA, C. S., KA ENELDO 2004. Using quaternions to calculate RMSD. J Comput Chem, 25, 1849-1857.

DJ. WALES, H. A. S. 1999. Global Optimization of Clusters, Crystals, and Biomolecules. Science, 285, 1368-1372.

E AARTS, J. K. 1990. Simulated Annealing and Boltzmann Machines., New York, Wiley.

ESCUELA, G. 2006. Algoritmos evolutivo con representación basada en sistemas-L para el problema del replegado de las proteínas. Magíster en Ciencias de la Computación, UNIVERSIDAD SIMÓN BOLÍVAR.

GOLDBERG, D. E. 1989. Genetic Algoritms in Search, Optimization and Machine Learning, Boston, USA, Addison-Wesley Longman Publishing Co.

H. BERMAN, J. W., Z. FENG, G. GILLILAND, T. BHAT, H. WEISSIG, I. SHINDYALOV AND P. BOURNE. 2000. The protein data bank. . Nucleic Acids Research, 28, 235-242.

HOCKNEY., R. 1970. Methods Comput Phys.

JAROSŁAW PILLARDY, C. C., ADAM LIWO, JOOYOUNG LEE, DANIEL R. RIPOLL, RAJMUND KAZ´MIERKIEWICZ,, STANISŁAW OŁDZIEJ, W. J. W., KENNETH D. GIBSON, YELENA A. ARNAUTOVA, JEFF SAUNDERS, YUAN -JIE YE, & SCHERAGA, A. H. A. 2001. Recent improvements in prediction of protein structure by global optimization of a potential energy function. PNAS, 98, 2329–2333. JEROD PARSONS, J. B. H., J. MAURICE ROJAS, JERRY TSAI & STRAUSS, C. E. M. 2005. Practical Conversion from Torsion Space to Cartesian Space for In Silico Protein Synthesis. JOURNAL OF COMPUTATIONAL CHEMISTRY, 36.

JERRY TSAI, R. B., ALEXANDRE V. MOROZOV, BRIAN KUHLMAN, CAROL A. ROHL, AND DAVID BAKER 2003. An Improved Protein Decoy Set for Testing Energy Functions for Protein Structure Prediction. PROTEINS: Structure, Function, and Bioinformatics, 53, 76-87.

JONES, D. 1997. Progress in protein structure prediction. Curr. Opin. Struct. Biol., 7,

377-387.

K.A. DILL, H. C. 1997. From Levinthal to pathways to funels. Nature Stuct Biol, 4, 10- 19.

KARPLUS, M. 1997. The Levinthal paradox: yesterday and today. Folding & Design, 2,

S69–S75.

KYTE J., D. R. F. 1982. A Simple Method for Displaying the Hydropathic Character of a Protein. . J. Mol. Biol., 157, 105-132.

L HOLM, C. S. 1996. Science, 273, 595-602. LEHNINGER 2005a. Biochemistry. 4th Edition ed. LEHNINGER 2005b. Biochemistry. 4th Edition ed.

LEVINTHAL, C., MOSSBAUER SPECTROSCOPY IN BIOLOGICALSYSTEMS, IN PROCEEDINGS OF A MEETING HELD AT ALLERTON HOUSE, J.T. IN: P DEBRUNNER, E MUNCK, EDS, EDITOR. 1969, UNIV ILLINOIS PRESS: URBANA. P. 22.

LIN JIANG, B. K., TANJA KORTEMME, AND DAVID BAKER 2005. A “Solvated Rotamer” Approach to Modeling Water-Mediated Hydrogen Bonds at Protein–Protein Interfaces. PROTEINS: Structure, Function, and Bioinformatics, 58, 893–904.

M LEVITT, M. G., E HUANG, S SUBBIAH, JTSAI 1999. Protein Folding: The endgame. Annu Rev Biochem., 66, 1368-1372.

M SIPPL 1999. Who solve the protein folding problem? . Structure, 7, R81-R83.

M VIETH, J. H., BN DOMINY, H DAIGLER, CL BROOKS III. 1998. Assessing search strategies for flexible docking. J Comput Chem, 19, 1623-1631.

Referencias Bibliográficas

50 MEYER, E. 1997. The first years of the Protein Data Bank. Protein Science (Cambridge University Press), 6, 1591-1597.

MIKAEL OLIVEBERG, Y.-J. T., AND AIAN R. FERSHT 1995. Negative activation

enthalpies in the kinetics of protein folding. Proc. Natl Acad. Sci., 92,8926-8929.

MJE STERNBERG, P. B., LA KELLEY, RM MACCALLUM 1990. Progress in protein structure prediction: Assessment of CASP3. Curr. Opin. Struct. Biol., 9, 368-372.

ML RILEY, B. W., SL FLITSCH, PJ BOOTH 1997. Biochemestry,, 36, 192-196.

N SOCCI, J. N. O., WOLYNES P. G., 1998. Protein Folding mechanisms and the multidimensional folding funnel. Protein Eng., 32, 136-158.

NICHOLAS HAMILTON, K. B., MARK A. RAGAN, AND THOMAS HUBER1 2004. Protein Contact Prediction Using Patterns of Correlation. PROTEINS: Structure, Function, and Bioinformatics, 56, 679–684.

O'BOYLE N.M, H. G. R. 2008. Chemistry Central, 2.

ONUCHIC, J. E. N. 1997. THEORY OF PROTEIN FOLDING:The Energy Landscape Perspective. Ann. Rev. Phys. Chem., 48, 545-600.

P KOEHL, M. L. 1999. A brighter future for protein structure prediction. Nature structural biology, 6, 108-111.

POTTER., D. 1972. Computational Physics. New York: Wiley. PRUSINER, S. 1998. Prion protein biology. Cell, 93, 337-348.

RA FRIESNER, J. G. 1996. Computational studies of protein folding. Annu Rev Biophys Biomol Struct, 25, 315-342.

RICHARD BONNEAU, J. T., INGO RUCZINSKI, DYLAN CHIVIAN, CAROL ROHL, CHARLIE E. M. STRAUSS, AND & BAKER, D. 2001. Rosetta in CASP4: Progress in Ab Initio Protein Structure Prediction. PROTEINS: Structure, Function, and Genetics 5, 119–126.

S. BELL, T. J. D., B.Z. CHOWDRY, R. WITHNALL. 2007. J. Chem. Educ, 84, 1364. SALI, D. B. A. A. 2001. Protein Structure Prediction and Structural Genomics. Science,

294.

SC HYDE, P. E., MJ HARTSHORN, MM MINMACK, U GILEADI, SR PEARCE, MP GALAGHER, DR AND R.H GILL CF HIGGINS 1990. Nature, 346, 362-365.

SHAKHNOVICH, E. I. 1998. Folding nucleus: Specific or multiple? Insights from lattice models and expermiments. Folding & Design, 3, R108-R111.

SIMONS, J. 2003. An introduction to theoretical chemistry.

STEINBECK, C. Y. H., Y C. KUHN, S. Y FLORIS, M. Y GUHA, R. Y WILLIGHAGEN 2006. Recent Developments of the Chemistry Development Kit (CDK) - An Open-Source Java Library for Chemo- and Bioinformatics. Current Pharmaceutical Design, 12(17), 2111-2120.

STEINBECK, C. Y. H., Y. Y KUHN, S. Y HORLACHER, O. Y LUTTMANN, E. Y WILLIGHAGEN, E. 2003. The Chemistry Development Kit (CDK): An Open-Source Java Library for Chemo- and Bioinformatics. Journal of Chemical Information and Computer Sciences, 42(2), 493-500.

SUHAIL A. ISLAM, M. K. A. D. L. W. 2002. Application of the Diffusion–Collision Model to the

Folding of Three-helix Bundle Proteins. J. Mol. Biol., 318, 199–215.

SUSAN COSTANTINI, G. C., ANGELO M. FACCHIANO 2007. PreSSAPro: A software for the prediction of secondary

structure by amino acid properties. Computational Biology and Chemistry, 31, 389–392.

TANFORD, C. 1962. Contribution of Hydrophobic Interactions to the Stability of the Globular Conformation of Proteins. J. AM. CHEM. SOC., 84.

TEUTA PILIZˇOTA, B. L. I., AND NENAD TRINAJSTIC 2004. Use of Variable Selection in Modeling the Secondary Structural Content of Proteins

from Their Composition of Amino Acid Residues. J. Chem. Inf. Comput. Sci., 44, 113- 121.

In document An efficient parallel algorithm for haplotype inference based on rule based approach and consensus methods. (Page 42-51)